Multilingual and multi-domain representational patterns across transformer-based models

dc.contributor.advisorFišel, Mark, juhendaja
dc.contributor.authorDel, Maksym
dc.contributor.otherTartu Ülikool. Loodus- ja täppisteaduste valdkond
dc.date.accessioned2024-10-22T10:47:43Z
dc.date.available2024-10-22T10:47:43Z
dc.date.issued2024-10-22
dc.descriptionVäitekirja elektrooniline versioon ei sisalda publikatsioone
dc.description.abstractTehisintellekti (TI) mudelid toimivad sageli nagu salapärased mustad kastid: nad võtavad andmeid ja genereerivad ennustusi, kuid nende sisemine töö on varjatud. Nende TI võrkude tõlgendamine on sarnane keerulise bioloogilise või tulnukate aju toimimise uurimisega. See läbipaistvuse puudumine muudab nende mudelite usaldamise keeruliseks, kuna me ei saa olla kindlad, et need on ohutud, õiglased või usaldusväärsed. Näiteks võib mudel, mis töötab hästi ühes keeles, ebaõnnestuda teises keeles. Meie uurimistöö keskendub TI mudelite arusaadavuse suurendamisele, keskendudes mitmekeelse ja mitmevaldkonnalise mudelitele. Avastame kaks olulist nähtust Transformer-põhistes mudelites: mitmekeelne abstraktsioon, kus mudelid õpivad teisendama sisendlauseid "mentaalseks ühiskeeleks" sõltumata sellest, kas sisend on eesti või inglise keeles, ja mitmevaldkonnaline spetsialiseerumine, kus mudelid õpivad pühendama eraldi tööriistu iga valdkonna jaoks seesmiselt. Need mustrid olid järjepidevad erinevate mudelite ja andmekogumite puhul. Kuigi meie peamine eesmärk on pakkuda teadmisi mitmekeelse ja mitmevaldkonnalise mudelite sisemisest toimimisest, tutvustame me ka uut metoodikat mitmekeelse mudeli tõlgendamiseks ja esitleme praktilist rakendust mitmevaldkonnalise masintõlke parandamiseks. Loodame, et need teadmised aitavad parandada TI tehnoloogia ohutust, õiglust või kättesaadavust, eriti alaesindatud keelte ja valdkondade puhul.
dc.description.abstractArtificial Intelligence (AI) models often work like mysterious black boxes: they take data and generate predictions, but their internal workings are hidden. Interpreting these AI networks is akin to exploring the workings of a complex biological or alien brain. This lack of transparency makes it hard to trust these models, as we cannot be sure they are safe, fair, or reliable. For example, a model that works well in one language might fail in another. Our research focuses on making AI models more understandable, focusing on multilingual and multi-domain models. We discovered two key phenomena in Transformer-based models: multilingual abstraction, where models learn to convert sentences to a "shared mental language" independently of whether the input is in Estonian or English, and multi-domain specialization, where models learn to dedicate separate tools for each domain inside. These patterns were consistent across various models and datasets. While our main aim is to provide insights into the inner workings of multilingual and multi-domain models, we also introduce a new methodology for interpreting multilingual models and present a practical application to improve multi-domain machine translation. We hope that these insights can assist in enhancing the safety, fairness, or accessibility of AI technology, especially for underrepresented languages and domains.
dc.description.urihttps://www.ester.ee/record=b5707171
dc.identifier.isbn978-9916-27-698-3
dc.identifier.isbn978-9916-27-699-0 (pdf)
dc.identifier.issn2613-5906
dc.identifier.issn2806-2345 (pdf)
dc.identifier.urihttps://hdl.handle.net/10062/105563
dc.language.isoen
dc.relation.ispartofseriesDissertationes informaticae Universitatis Tartuensis; 59
dc.rightsAttribution-NonCommercial-NoDerivs 3.0 Estoniaen
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/ee/
dc.subject.otherkeelemudelid
dc.subject.othertehisintellekt
dc.subject.othermasintõlge
dc.subject.otherloomuliku keele töötlus
dc.subject.otherlanguage models
dc.subject.otherartificial intelligence
dc.subject.othermachine translation
dc.subject.othernatural language processing
dc.titleMultilingual and multi-domain representational patterns across transformer-based models
dc.title.alternativeMitmekeelsed ja mitut tekstivaldkonda hõlmavad esituste mustrid transformeripõhistes mudelites
dc.typeThesisen

Files

Original bundle

Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
del_maksym.pdf
Size:
2.35 MB
Format:
Adobe Portable Document Format