Fishel, Mark, juhendajaYankovskaya, Elizaveta, juhendajaPashchenko, DmytroTartu Ülikool. Loodus- ja täppisteaduste valdkondTartu Ülikool. Arvutiteaduse instituut2024-10-072024-10-072024https://hdl.handle.net/10062/105216Massiliselt mitmekeelsete masintõlkemudelite teke võimaldas tõhusalt tõlkida paljusid keeli samaaegselt, sealhulgas neid, millel on piiratud hulk ressursse. Hiljutine rekordiomanik MADLAD-400, mis katab üle 400 keele, on suuresti uurimata. Käesolevas töös püüame uurida MADLADi võimekust, häälestades seda nelja väikese ressursiga soomeugri keele (karjala, liivi, lüüdi ja vepsa, mis ei sisaldu MADLADis) tõlkimisele vene keelde ja tagasi. Lisaks uurime lõigutasandil tõlke mõju mudeli kvaliteedile, kasutades MADLADi dokumenditasemel tõlkimise võimekust. Leiame, et 1) MADLADi-põhine süsteem saavutab tipptasemel mudelitega võrreldavad tulemused ja avastame, et 2) süsteemi lõigutasandil versioon ületab lausetasemel versiooni kuni kolme BLEU punkti võrra, parandades oluliselt lausetevahelist kooskõla.enAttribution-NonCommercial-NoDerivs 3.0 Estonianeural machine translationparagraph-level translationdiscourse-level phenomenamassively multilingual modelsMADLAD-400magistritöödinformaatikainfotehnoloogiainformaticsinfotechnologyParagraph-Level Translation of Low-Resource Finno-Ugric LanguagesThesis