Multilingual and multi-domain representational patterns across transformer-based models

Del, Maksym

Multilingual and multi-domain representational patterns across transformer-based models

dc.contributor.advisor	Fišel, Mark, juhendaja
dc.contributor.author	Del, Maksym
dc.contributor.other	Tartu Ülikool. Loodus- ja täppisteaduste valdkond
dc.date.accessioned	2024-10-22T10:47:43Z
dc.date.available	2024-10-22T10:47:43Z
dc.date.issued	2024-10-22
dc.description	Väitekirja elektrooniline versioon ei sisalda publikatsioone
dc.description.abstract	Tehisintellekti (TI) mudelid toimivad sageli nagu salapärased mustad kastid: nad võtavad andmeid ja genereerivad ennustusi, kuid nende sisemine töö on varjatud. Nende TI võrkude tõlgendamine on sarnane keerulise bioloogilise või tulnukate aju toimimise uurimisega. See läbipaistvuse puudumine muudab nende mudelite usaldamise keeruliseks, kuna me ei saa olla kindlad, et need on ohutud, õiglased või usaldusväärsed. Näiteks võib mudel, mis töötab hästi ühes keeles, ebaõnnestuda teises keeles. Meie uurimistöö keskendub TI mudelite arusaadavuse suurendamisele, keskendudes mitmekeelse ja mitmevaldkonnalise mudelitele. Avastame kaks olulist nähtust Transformer-põhistes mudelites: mitmekeelne abstraktsioon, kus mudelid õpivad teisendama sisendlauseid "mentaalseks ühiskeeleks" sõltumata sellest, kas sisend on eesti või inglise keeles, ja mitmevaldkonnaline spetsialiseerumine, kus mudelid õpivad pühendama eraldi tööriistu iga valdkonna jaoks seesmiselt. Need mustrid olid järjepidevad erinevate mudelite ja andmekogumite puhul. Kuigi meie peamine eesmärk on pakkuda teadmisi mitmekeelse ja mitmevaldkonnalise mudelite sisemisest toimimisest, tutvustame me ka uut metoodikat mitmekeelse mudeli tõlgendamiseks ja esitleme praktilist rakendust mitmevaldkonnalise masintõlke parandamiseks. Loodame, et need teadmised aitavad parandada TI tehnoloogia ohutust, õiglust või kättesaadavust, eriti alaesindatud keelte ja valdkondade puhul.
dc.description.abstract	Artificial Intelligence (AI) models often work like mysterious black boxes: they take data and generate predictions, but their internal workings are hidden. Interpreting these AI networks is akin to exploring the workings of a complex biological or alien brain. This lack of transparency makes it hard to trust these models, as we cannot be sure they are safe, fair, or reliable. For example, a model that works well in one language might fail in another. Our research focuses on making AI models more understandable, focusing on multilingual and multi-domain models. We discovered two key phenomena in Transformer-based models: multilingual abstraction, where models learn to convert sentences to a "shared mental language" independently of whether the input is in Estonian or English, and multi-domain specialization, where models learn to dedicate separate tools for each domain inside. These patterns were consistent across various models and datasets. While our main aim is to provide insights into the inner workings of multilingual and multi-domain models, we also introduce a new methodology for interpreting multilingual models and present a practical application to improve multi-domain machine translation. We hope that these insights can assist in enhancing the safety, fairness, or accessibility of AI technology, especially for underrepresented languages and domains.
dc.description.uri	https://www.ester.ee/record=b5707171
dc.identifier.isbn	978-9916-27-698-3
dc.identifier.isbn	978-9916-27-699-0 (pdf)
dc.identifier.issn	2613-5906
dc.identifier.issn	2806-2345 (pdf)
dc.identifier.uri	https://hdl.handle.net/10062/105563
dc.language.iso	en
dc.relation.ispartofseries	Dissertationes informaticae Universitatis Tartuensis; 59
dc.rights	Attribution-NonCommercial-NoDerivs 3.0 Estonia	en
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/ee/
dc.subject.other	keelemudelid
dc.subject.other	tehisintellekt
dc.subject.other	masintõlge
dc.subject.other	loomuliku keele töötlus
dc.subject.other	language models
dc.subject.other	artificial intelligence
dc.subject.other	machine translation
dc.subject.other	natural language processing
dc.title	Multilingual and multi-domain representational patterns across transformer-based models
dc.title.alternative	Mitmekeelsed ja mitut tekstivaldkonda hõlmavad esituste mustrid transformeripõhistes mudelites
dc.type	Thesis	en

Failid

Originaal pakett

Nüüd näidatakse 1 - 1 1

Nimi:: del_maksym.pdf
Suurus:: 2.35 MB
Formaat:: Adobe Portable Document Format

Lae alla

Kollektsioonid

1. TÜ väitekirjad alates 2004. Kaitstud doktoritööd, teadusmagistritööd. Doctoral theses, PhD, MSc, MPhil.