Suurte keelemudelite võrdlev analüüs Eesti bioloogiaolümpiaadide küsimuste põhjal

Laen...
Pisipilt

Kuupäev

Ajakirja pealkiri

Ajakirja ISSN

Köite pealkiri

Kirjastaja

Tartu Ülikool

Abstrakt

Several types of tests are used to evaluate large language models – translation, text comprehension, image recognition, answering questions etc. Typically, evaluation datasets are translated from English, and there is a lack of test sets that consider specific local context and are originally composed in Estonian. As part of this BA thesis, a multiple-choice dataset consisting of 1,031 questions was compiled using tasks from Estonian biology olympiads between 2005 and 2024. In the second phase, five OpenAI models, 13 Estonian-trained models from the Hugging Face platform and nine of the most recent closed commercial models accessed via websites were evaluated. The best model's accuracy (85.35%) is comparable to the average result (87.16%) of pupils who placed in the top three in Estonian olympiads.
Suurte keelemudelite võrdlemiseks kasutatakse erinevaid teste – tõlkimine, tekstist arusaamine, küsimustele vastamine jpm. Reeglina on testandmestikud tõlgitud inglise keelest ja algusest peale eesti keeles koostatud ning Eesti eripära arvestavaid küsimustikke napib. Bakalaureusetöö käigus valmis 1031 küsimusest koosnev valikvastustega andmestik, mille koostamisel kasutati Eesti bioloogiaolümpiaadide ülesandeid ajavahemikust 2005–2024. Lõputöö teises faasis pandi proovile viis OpenAI mudelit, 13 eesti keelel treenitud mudelit platvormilt Hugging Face ning otse veebilehtedelt üheksa uusimat suletud kommertsmudelit. Mudelite parim täpsus (85,35%) on võrreldav Eesti olümpiaadidel esikolmikusse jõudnud õpilaste keskmise tulemusega teooriavoorus (87,16%).

Kirjeldus

Märksõnad

suured keelemudelid, valikvastustega küsimused, olümpiaad, eesti keel

Viide