Cross-lingual transfer learning and evaluation in low-resource settings

Kuulmets, Hele-Andra

Cross-lingual transfer learning and evaluation in low-resource settings

dc.contributor.advisor	Fišel, Mark, juhendaja
dc.contributor.author	Kuulmets, Hele-Andra
dc.contributor.other	Tartu Ülikool. Loodus- ja täppisteaduste valdkond
dc.date.accessioned	2026-03-04T09:02:45Z
dc.date.available	2026-03-04T09:02:45Z
dc.date.issued	2026-03-04
dc.description	Doktoritöö elektrooniline versioon ei sisalda publikatsioone
dc.description.abstract	Meie igapäevaellu üha enam sekkuva tehisaru üks põhikomponente on keelemudel, tänu millele tehisaru üldse suudab inimkeele peeneid nüansse mõista. Selleks, et keelemudel inimkeelt väga hästi mõistaks, tuleb seda treenida tohutult suurte tekstikogumite peal. Koguni nii suurte, et enamik maailmas kõneldavaid keeli pole teksti kujul sellises mahus kättesaadavad. Seetõttu on tehisaru võimalused paljudes keeltes piiratud, süvendades tehnoloogilist ebavõrdsust ressursirikaste ja ressursivaeste keelte vahel. Õnneks on ka väiksemate tekstikogumitega keeltele lahendus olemas. Nimelt on täheldatud, et keelemudelite treenimisel korraga paljude keelte peal paraneb keelemudelite oskus treeningandmestikus vähem esindatud keeltest aru saada. Seda nähtust nimetatakse keeltevaheliseks teadmussiirdeks ja see tähendab, et mudel õpib teadmisi, mis ta on omandanud näiteks ingliskeelsetest tekstidest, kasutama eesti keeles vastamisel. Kui minna veel tehnilisemaks, siis juhtub mitmekeelsel treenimisel see, et eri keelte matemaatilised esitused mudeli sees muutuvad üksteisega sarnasemaks, mis põhjustabki keeltevahelist teadmiste siiret. Doktoritöös uuritakse, kuidas tugevdada keelemudelites keeltevahelist teadmussiiret, et parandada keelemudelite oskust mõista eesti keelt. Töö jaguneb kaheks osaks, millest esimeses osas uuritakse meetodeid väikeste keelemudelite kasutamiseks konkreetse ülesande lahendamisel ja teises seda, kuidas õpetada peamiselt ingliskeelsetel tekstidel treenitud suurele keelemudelile selgeks eesti keelt. Töö peamine järeldus on, et mitmekeelne treenimine, isegi kui kasutada ainult sünteetilisi andmeid, võib märgatavalt parandada keelemudeli oskust eesti keeles mitmesuguseid ülesandeid lahendada. See tulemus osutab keeltevahelise teadmussiirde oskusliku ärakasutamise tõhususele väiksematele keeltele tehisaru maailmas parema esindatuse tagamisel.
dc.description.abstract	One of the core components of artificial intelligence, which is increasingly intervening in our everyday lives, is the language model. It is thanks to language models that AI is able to understand the subtle nuances of human language in the first place. In order for a language model to understand human language very well, it must be trained on extremely large collections of text. In fact, so large that for most of the world’s spoken languages, such volumes of text are not available in written form. As a result, AI capabilities are limited in many languages, reinforcing technological inequality between high-resource and low-resource languages. Fortunately, there is a solution for languages with smaller text corpora. It has been observed that when language models are trained simultaneously on many languages, their ability to understand languages that are less represented in the training data improves. This phenomenon is known as cross-lingual knowledge transfer. It means that a model can apply knowledge acquired, for example, from English texts when responding in Estonian. On a more technical level, during multilingual training, the mathematical representations of different languages within the model become more similar to one another, which enables this transfer of knowledge across languages. This doctoral dissertation investigates how to strengthen cross-lingual knowledge transfer in language models in order to improve their ability to understand Estonian. The work is divided into two parts. The first part explores methods for using small language models to solve specific tasks, and the second examines how to teach Estonian to a large language model that has been trained primarily on English texts. The main conclusion of the thesis is that multilingual training—even when using only synthetic data—can significantly improve a language model’s ability to solve a variety of tasks in Estonian. This result highlights the effectiveness of deliberately leveraging cross-lingual knowledge transfer to ensure better representation for smaller languages in the world of artificial intelligence.
dc.description.uri	https://www.ester.ee/record=b6038022
dc.identifier.isbn	978-9908-57-151-5
dc.identifier.isbn	978-9908-57-152-2 (pdf)
dc.identifier.issn	2613-5906
dc.identifier.issn	2806-2345 (pdf)
dc.identifier.uri	https://hdl.handle.net/10062/119339
dc.language.iso	en
dc.publisher	Tartu Ülikooli Kirjastus
dc.relation.ispartofseries	Dissertationes informaticae Universitatis Tartuensis; 78
dc.rights	Attribution-NonCommercial-NoDerivs 3.0 Estonia	en
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/ee/
dc.subject	doktoritööd	et
dc.subject.other	keelemudelid
dc.subject.other	loomuliku keele töötlus
dc.subject.other	tehisintellekt
dc.subject.other	keeletehnoloogia
dc.subject.other	masintõlge
dc.subject.other	tehisõpe
dc.subject.other	infotehnoloogia
dc.subject.other	language models
dc.subject.other	natural language processing
dc.subject.other	artificial intelligence
dc.subject.other	language technology
dc.subject.other	machine translation
dc.subject.other	automatic learning
dc.subject.other	information technology
dc.title	Cross-lingual transfer learning and evaluation in low-resource settings
dc.title.alternative	Keeltevaheline siirdeõpe ja selle hindamine väheste ressurssidega oludes
dc.type	Thesis	en

Failid

Originaal pakett

Nüüd näidatakse 1 - 1 1

Nimi:: kuulmets_hele_andra.pdf
Suurus:: 1.72 MB
Formaat:: Adobe Portable Document Format

Lae alla

Kollektsioonid

1. TÜ väitekirjad alates 2004. Kaitstud doktoritööd, teadusmagistritööd. Doctoral theses, PhD, MSc, MPhil.