Sirvi Autor "Kuulmets, Hele-Andra" järgi
Nüüd näidatakse 1 - 5 5
- Tulemused lehekülje kohta
- Sorteerimisvalikud
listelement.badge.dso-type Kirje , listelement.badge.access-status Avatud juurdepääs , Cross-lingual transfer learning and evaluation in low-resource settings(Tartu Ülikooli Kirjastus, 2026-03-04) Kuulmets, Hele-Andra; Fišel, Mark, juhendaja; Tartu Ülikool. Loodus- ja täppisteaduste valdkondMeie igapäevaellu üha enam sekkuva tehisaru üks põhikomponente on keelemudel, tänu millele tehisaru üldse suudab inimkeele peeneid nüansse mõista. Selleks, et keelemudel inimkeelt väga hästi mõistaks, tuleb seda treenida tohutult suurte tekstikogumite peal. Koguni nii suurte, et enamik maailmas kõneldavaid keeli pole teksti kujul sellises mahus kättesaadavad. Seetõttu on tehisaru võimalused paljudes keeltes piiratud, süvendades tehnoloogilist ebavõrdsust ressursirikaste ja ressursivaeste keelte vahel. Õnneks on ka väiksemate tekstikogumitega keeltele lahendus olemas. Nimelt on täheldatud, et keelemudelite treenimisel korraga paljude keelte peal paraneb keelemudelite oskus treeningandmestikus vähem esindatud keeltest aru saada. Seda nähtust nimetatakse keeltevaheliseks teadmussiirdeks ja see tähendab, et mudel õpib teadmisi, mis ta on omandanud näiteks ingliskeelsetest tekstidest, kasutama eesti keeles vastamisel. Kui minna veel tehnilisemaks, siis juhtub mitmekeelsel treenimisel see, et eri keelte matemaatilised esitused mudeli sees muutuvad üksteisega sarnasemaks, mis põhjustabki keeltevahelist teadmiste siiret. Doktoritöös uuritakse, kuidas tugevdada keelemudelites keeltevahelist teadmussiiret, et parandada keelemudelite oskust mõista eesti keelt. Töö jaguneb kaheks osaks, millest esimeses osas uuritakse meetodeid väikeste keelemudelite kasutamiseks konkreetse ülesande lahendamisel ja teises seda, kuidas õpetada peamiselt ingliskeelsetel tekstidel treenitud suurele keelemudelile selgeks eesti keelt. Töö peamine järeldus on, et mitmekeelne treenimine, isegi kui kasutada ainult sünteetilisi andmeid, võib märgatavalt parandada keelemudeli oskust eesti keeles mitmesuguseid ülesandeid lahendada. See tulemus osutab keeltevahelise teadmussiirde oskusliku ärakasutamise tõhususele väiksematele keeltele tehisaru maailmas parema esindatuse tagamisel.listelement.badge.dso-type Kirje , listelement.badge.access-status Avatud juurdepääs , How Well do LLMs know Finno-Ugric Languages? A Systematic Assessment(University of Tartu Library, 2025-03) Kuulmets, Hele-Andra; Purason, Taido; Fishel, Mark; Johansson, Richard; Stymne, SaraWe present a systematic evaluation of multilingual capabilities of open large language models (LLMs), specifically focusing on five Finno-Ugric (FiU) languages. Our investigation covers multiple prompting strategies across several benchmarks and reveals that Llama-2 7B and Llama-2 13B perform weakly on most FiU languages. In contrast, Llama 3.1 models show impressive improvements, even for extremely low-resource languages such as Võro and Komi, indicating successful cross-lingual knowledge transfer inside the models. Finally, we show that stronger base models outperform weaker, language-adapted models, thus emphasizing the importance of base model in successful language adaptation.listelement.badge.dso-type Kirje , listelement.badge.access-status Avatud juurdepääs , Translated Benchmarks Can Be Misleading: the Case of Estonian Question Answering(University of Tartu Library, 2023-05) Kuulmets, Hele-Andra; Fišhel, Marklistelement.badge.dso-type Kirje , listelement.badge.access-status Avatud juurdepääs , Tüübiklassidega funktsionaalprogrammeerimine Scalas(2017) Kuulmets, Hele-Andra; Vesal VojdaniScala on Java virtuaalmasinat kasutav mitme-paradigma programmeerimiskeel,mis võimaldab omavahel kombineerida objektorienteeritud ja funktsionaalseid tehnikaid. Scala kui funktsionaalse keele miinuseks on, et selle standardteegist puuduvad funktsionaalprogrammeerijale harjumuspärased abstraktsioonid– tüübiklassid, millega saab kirjeldada erinevate tüüpide ühiseid omadusi,ilma et need peaksid pärinema samast ülemklassist. Selle puudujäägi kõrvaldamiseks on Scala jaoks loodud neid abstraktsioone sisaldav teek nimega Cats. Antud bakalaureusetöös uuriti, kuidas on viis Haskellist tuntud tüübiklassi Catsis realiseeritud ning milliste probleemide lahendamist need lihtsustavad. Selle tulemusena valminud töö kirjalik osa kujutab endast sissejuhatavat materjali tüübiklassidega funktsionaalprogrammeerimisest Scalas. Seda täiendavad harjutusülesanded ja näidisprogramm.listelement.badge.dso-type Kirje , listelement.badge.access-status Avatud juurdepääs , Word Mover's Distance algoritmil põhinevad fraasisarnasusmõõdud(2019) Kuulmets, Hele-Andra; Sven LaurLoomuliku keele tekstide vahelise semantilise sarnasuse mõõtmisel on oluline osa tekstide klassifitseerimisülesannete lahendamisel. Samas probleemid, mida saaks potentsiaalselt lahendada kasutades semantilise sarnasuse mõõtmist, ei põhine alati pikkadel, mitmetest lausetest koosnevatel tekstidel. Mõnikord tuleb märgendamisotsus teha ainult ühe lause või fraasi põhjal.Käesolevas töös kasutatakse tekstide sarnasuse mõõtmise meetodit Word Mover's Distance (WMD) kolme erineva probleemi lahendamisel, kus otsus tuleb teha lühikeste fraaside põhjal. Esimene probleem, milleks on puuduva sõna konteksti põhjal ennustamine, on välja mõeldud probleem, mille eesmärk on hinnata meetodi headust ja sobivust lühikestele fraasidele. Saadud tulemused on head ja näitavad, et WMD võiks sobida fraaside eraldamiseks semantilise sarnasuse põhjal. Ülejäänud kaks probleemi ilmestavad meetodi praktilisi kasutusvõimalusi. Esimesel juhul kasutatakse seda patsientide epikriisidest ravimi kõrvalmõjude tuvastamiseks. Teisel juhul rakendatakse meetodit süntaksiparseri vigade analüüsiks. Viimasel juhul on eesmärgiks ennustada fraase, mida parser ei oska õigesti märgendada. Erinevatel põhjustel, mida samuti on käesolevas töös analüüsitud, ei olnud saadud tulemused kummalgi juhul head.