Cross-lingual transfer learning and evaluation in low-resource settings
| dc.contributor.advisor | Fišel, Mark, juhendaja | |
| dc.contributor.author | Kuulmets, Hele-Andra | |
| dc.contributor.other | Tartu Ülikool. Loodus- ja täppisteaduste valdkond | |
| dc.date.accessioned | 2026-03-04T09:02:45Z | |
| dc.date.available | 2026-03-04T09:02:45Z | |
| dc.date.issued | 2026-03-04 | |
| dc.description | Doktoritöö elektrooniline versioon ei sisalda publikatsioone | |
| dc.description.abstract | Meie igapäevaellu üha enam sekkuva tehisaru üks põhikomponente on keelemudel, tänu millele tehisaru üldse suudab inimkeele peeneid nüansse mõista. Selleks, et keelemudel inimkeelt väga hästi mõistaks, tuleb seda treenida tohutult suurte tekstikogumite peal. Koguni nii suurte, et enamik maailmas kõneldavaid keeli pole teksti kujul sellises mahus kättesaadavad. Seetõttu on tehisaru võimalused paljudes keeltes piiratud, süvendades tehnoloogilist ebavõrdsust ressursirikaste ja ressursivaeste keelte vahel. Õnneks on ka väiksemate tekstikogumitega keeltele lahendus olemas. Nimelt on täheldatud, et keelemudelite treenimisel korraga paljude keelte peal paraneb keelemudelite oskus treeningandmestikus vähem esindatud keeltest aru saada. Seda nähtust nimetatakse keeltevaheliseks teadmussiirdeks ja see tähendab, et mudel õpib teadmisi, mis ta on omandanud näiteks ingliskeelsetest tekstidest, kasutama eesti keeles vastamisel. Kui minna veel tehnilisemaks, siis juhtub mitmekeelsel treenimisel see, et eri keelte matemaatilised esitused mudeli sees muutuvad üksteisega sarnasemaks, mis põhjustabki keeltevahelist teadmiste siiret. Doktoritöös uuritakse, kuidas tugevdada keelemudelites keeltevahelist teadmussiiret, et parandada keelemudelite oskust mõista eesti keelt. Töö jaguneb kaheks osaks, millest esimeses osas uuritakse meetodeid väikeste keelemudelite kasutamiseks konkreetse ülesande lahendamisel ja teises seda, kuidas õpetada peamiselt ingliskeelsetel tekstidel treenitud suurele keelemudelile selgeks eesti keelt. Töö peamine järeldus on, et mitmekeelne treenimine, isegi kui kasutada ainult sünteetilisi andmeid, võib märgatavalt parandada keelemudeli oskust eesti keeles mitmesuguseid ülesandeid lahendada. See tulemus osutab keeltevahelise teadmussiirde oskusliku ärakasutamise tõhususele väiksematele keeltele tehisaru maailmas parema esindatuse tagamisel. | |
| dc.description.abstract | One of the core components of artificial intelligence, which is increasingly intervening in our everyday lives, is the language model. It is thanks to language models that AI is able to understand the subtle nuances of human language in the first place. In order for a language model to understand human language very well, it must be trained on extremely large collections of text. In fact, so large that for most of the world’s spoken languages, such volumes of text are not available in written form. As a result, AI capabilities are limited in many languages, reinforcing technological inequality between high-resource and low-resource languages. Fortunately, there is a solution for languages with smaller text corpora. It has been observed that when language models are trained simultaneously on many languages, their ability to understand languages that are less represented in the training data improves. This phenomenon is known as cross-lingual knowledge transfer. It means that a model can apply knowledge acquired, for example, from English texts when responding in Estonian. On a more technical level, during multilingual training, the mathematical representations of different languages within the model become more similar to one another, which enables this transfer of knowledge across languages. This doctoral dissertation investigates how to strengthen cross-lingual knowledge transfer in language models in order to improve their ability to understand Estonian. The work is divided into two parts. The first part explores methods for using small language models to solve specific tasks, and the second examines how to teach Estonian to a large language model that has been trained primarily on English texts. The main conclusion of the thesis is that multilingual training—even when using only synthetic data—can significantly improve a language model’s ability to solve a variety of tasks in Estonian. This result highlights the effectiveness of deliberately leveraging cross-lingual knowledge transfer to ensure better representation for smaller languages in the world of artificial intelligence. | |
| dc.description.uri | https://www.ester.ee/record=b6038022 | |
| dc.identifier.isbn | 978-9908-57-151-5 | |
| dc.identifier.isbn | 978-9908-57-152-2 (pdf) | |
| dc.identifier.issn | 2613-5906 | |
| dc.identifier.issn | 2806-2345 (pdf) | |
| dc.identifier.uri | https://hdl.handle.net/10062/119339 | |
| dc.language.iso | en | |
| dc.publisher | Tartu Ülikooli Kirjastus | |
| dc.relation.ispartofseries | Dissertationes informaticae Universitatis Tartuensis; 78 | |
| dc.rights | Attribution-NonCommercial-NoDerivs 3.0 Estonia | en |
| dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/3.0/ee/ | |
| dc.subject | doktoritööd | et |
| dc.title | Cross-lingual transfer learning and evaluation in low-resource settings | |
| dc.title.alternative | Keeltevaheline siirdeõpe ja selle hindamine väheste ressurssidega oludes | |
| dc.type | Thesis | en |
Failid
Originaal pakett
1 - 1 1