Luhtaru, Agnes, juhendajaFišel, Mark, juhendajaVainikko, MartinTartu Ülikool. Loodus- ja täppisteaduste valdkondTartu Ülikool. Arvutiteaduse instituut2024-10-042024-10-042024https://hdl.handle.net/10062/105170Eesti keele grammatiliste vigade parandamise jaoks ei ole piisavalt andmeid, et tõhusalt treenida autokorrektorit. Hiljutised edusammud suurte keelemudelite vallas on aga avanud uusi võimalusi sünteetiliste andmete genereerimiseks. Genereerime OpenAI GPT mudelitega (GPT-3.5-Turbo, GPT-4-Turbo ja GPT-4) lausetesse grammatilisi vigu. Hindame genereeritud andmehulki manuaalselt hulki märgendades ning treenides hulkade peal transformeripõhiseid autokorrektoreid. Me järeldasime, et laused, mis pärinevad grammatiliste vigade korpusest ning kuhu GPT on vigu genereerinud, saavutavad automaathindmisel võrdväärseid tulemusi inimandmetega. Märgendamise tulemusena märkasime, et GPT genereerib probleemseid muutusi lausetesse. Töö avab palju uusi suundi edasisteks uurimusteks.enAttribution-NonCommercial-NoDerivs 3.0 Estoniagrammatical error correctionGEClow-resourcesynthetic dataGPT-4GPT-3.5NLLBlarge language modelLLMgrammatiliste vigade parandaminevähesed ressursidsünteetilised andmedmagistritöödinformaatikainfotehnoloogiainformaticsinfotechnologyEstonian Synthetic Error Generation by Prompting for Grammatical Error CorrectionThesis