Suurte keelemudelite võrdlev analüüs Eesti bioloogiaolümpiaadide küsimuste põhjal
Laen...
Kuupäev
Autorid
Ajakirja pealkiri
Ajakirja ISSN
Köite pealkiri
Kirjastaja
Tartu Ülikool
Abstrakt
Several types of tests are used to evaluate large language models – translation, text comprehension, image recognition, answering questions etc. Typically, evaluation datasets are translated from English, and there is a lack of test sets that consider specific local context and are originally composed in Estonian. As part of this BA thesis, a multiple-choice dataset consisting of 1,031 questions was compiled using tasks from Estonian biology olympiads between 2005 and 2024. In the second phase, five OpenAI models, 13 Estonian-trained models from the Hugging Face platform and nine of the most recent closed commercial models accessed via websites were evaluated. The best model's accuracy (85.35%) is comparable to the average result (87.16%) of pupils who placed in the top three in Estonian olympiads.
Suurte keelemudelite võrdlemiseks kasutatakse erinevaid teste – tõlkimine, tekstist arusaamine, küsimustele vastamine jpm. Reeglina on testandmestikud tõlgitud inglise keelest ja algusest peale eesti keeles koostatud ning Eesti eripära arvestavaid küsimustikke napib. Bakalaureusetöö käigus valmis 1031 küsimusest koosnev valikvastustega andmestik, mille koostamisel kasutati Eesti bioloogiaolümpiaadide ülesandeid ajavahemikust 2005–2024. Lõputöö teises faasis pandi proovile viis OpenAI mudelit, 13 eesti keelel treenitud mudelit platvormilt Hugging Face ning otse veebilehtedelt üheksa uusimat suletud kommertsmudelit. Mudelite parim täpsus (85,35%) on võrreldav Eesti olümpiaadidel esikolmikusse jõudnud õpilaste keskmise tulemusega teooriavoorus (87,16%).
Suurte keelemudelite võrdlemiseks kasutatakse erinevaid teste – tõlkimine, tekstist arusaamine, küsimustele vastamine jpm. Reeglina on testandmestikud tõlgitud inglise keelest ja algusest peale eesti keeles koostatud ning Eesti eripära arvestavaid küsimustikke napib. Bakalaureusetöö käigus valmis 1031 küsimusest koosnev valikvastustega andmestik, mille koostamisel kasutati Eesti bioloogiaolümpiaadide ülesandeid ajavahemikust 2005–2024. Lõputöö teises faasis pandi proovile viis OpenAI mudelit, 13 eesti keelel treenitud mudelit platvormilt Hugging Face ning otse veebilehtedelt üheksa uusimat suletud kommertsmudelit. Mudelite parim täpsus (85,35%) on võrreldav Eesti olümpiaadidel esikolmikusse jõudnud õpilaste keskmise tulemusega teooriavoorus (87,16%).
Kirjeldus
Märksõnad
suured keelemudelid, valikvastustega küsimused, olümpiaad, eesti keel