Paragraph-Level Translation of Low-Resource Finno-Ugric Languages

Kuupäev

2024

Ajakirja pealkiri

Ajakirja ISSN

Köite pealkiri

Kirjastaja

Tartu Ülikool

Abstrakt

Massiliselt mitmekeelsete masintõlkemudelite teke võimaldas tõhusalt tõlkida paljusid keeli samaaegselt, sealhulgas neid, millel on piiratud hulk ressursse. Hiljutine rekordiomanik MADLAD-400, mis katab üle 400 keele, on suuresti uurimata. Käesolevas töös püüame uurida MADLADi võimekust, häälestades seda nelja väikese ressursiga soomeugri keele (karjala, liivi, lüüdi ja vepsa, mis ei sisaldu MADLADis) tõlkimisele vene keelde ja tagasi. Lisaks uurime lõigutasandil tõlke mõju mudeli kvaliteedile, kasutades MADLADi dokumenditasemel tõlkimise võimekust. Leiame, et 1) MADLADi-põhine süsteem saavutab tipptasemel mudelitega võrreldavad tulemused ja avastame, et 2) süsteemi lõigutasandil versioon ületab lausetasemel versiooni kuni kolme BLEU punkti võrra, parandades oluliselt lausetevahelist kooskõla.

Kirjeldus

Märksõnad

neural machine translation, paragraph-level translation, discourse-level phenomena, massively multilingual models, MADLAD-400

Viide