WinoGrande andmestiku tõlkimine suurte keelemudelite argimõistusliku järeldamisoskuse hindamiseks eesti keeles
Laen...
Kuupäev
Autorid
Ajakirja pealkiri
Ajakirja ISSN
Köite pealkiri
Kirjastaja
Tartu Ülikool
Abstrakt
Käesoleva magistritöö eesmärk on ingliskeelne WinoGrande testandmestik eesti keelde tõlkida, lokaliseerida ja eesti keelele kohandada. Magistritöös tõlgitakse 1767 tekstülesannet, mille kogumaht on 37 802 sõna. Tegemist on omapärase tõlkega, kuna tõlke lugeja ei ole inimene, vaid masin. Magistritöös tuvastatakse ja dokumenteeritakse andmestiku eesti keelde tõlkimises esinevad väljakutsed ja kirjeldatakse meetodeid, mis toetaksid taoliste andmestike eesti keelde tõlkimist ka tulevikus. Magistritöö raames valminud andmestikku kasutatakse Tartu Ülikooli arvutiteaduse instituudis eestikeelsete keelemudelite järeldamisoskuse hindamiseks ning saadud tulemusi kajastatakse ka selles magistritöös. Kuna taolisi andmestikke on teistesse keeltesse samal eesmärgil ka masintõlgitud, siis analüüsitakse magistritöös lisaks seda, kas eestikeelset masintõlget oleks võimalik keelemudelite hindamiseks kasutada. Keelemudelid, mille järeldamisoskust eesti keeles hinnatakse, on OpenAI GPT-4o, EuroLLM 9B (Martins jt 2024), Llammas (Kuulmets jt 2024), LLama 3.3 70B (Grattafiori jt 2024), LLama 3.1 8B (Grattafiori jt 2024) ja LLama 3.1 405B Instruct (Grattafiori jt 2024). Tõlgitud andmestikku saab kasutada eesti keeletehnoloogia arendamises ka edaspidi.
Kirjeldus
Märksõnad
keelemudelid, eesti keel, masintõlge, järeldamine (loogika), tõlkimine, ülesanded