Paragraph-Level Translation of Low-Resource Finno-Ugric Languages

dc.contributor.advisorFishel, Mark, juhendaja
dc.contributor.advisorYankovskaya, Elizaveta, juhendaja
dc.contributor.authorPashchenko, Dmytro
dc.contributor.otherTartu Ülikool. Loodus- ja täppisteaduste valdkondet
dc.contributor.otherTartu Ülikool. Arvutiteaduse instituutet
dc.date.accessioned2024-10-07T10:37:45Z
dc.date.available2024-10-07T10:37:45Z
dc.date.issued2024
dc.description.abstractMassiliselt mitmekeelsete masintõlkemudelite teke võimaldas tõhusalt tõlkida paljusid keeli samaaegselt, sealhulgas neid, millel on piiratud hulk ressursse. Hiljutine rekordiomanik MADLAD-400, mis katab üle 400 keele, on suuresti uurimata. Käesolevas töös püüame uurida MADLADi võimekust, häälestades seda nelja väikese ressursiga soomeugri keele (karjala, liivi, lüüdi ja vepsa, mis ei sisaldu MADLADis) tõlkimisele vene keelde ja tagasi. Lisaks uurime lõigutasandil tõlke mõju mudeli kvaliteedile, kasutades MADLADi dokumenditasemel tõlkimise võimekust. Leiame, et 1) MADLADi-põhine süsteem saavutab tipptasemel mudelitega võrreldavad tulemused ja avastame, et 2) süsteemi lõigutasandil versioon ületab lausetasemel versiooni kuni kolme BLEU punkti võrra, parandades oluliselt lausetevahelist kooskõla.
dc.identifier.urihttps://hdl.handle.net/10062/105216
dc.language.isoen
dc.publisherTartu Ülikoolet
dc.rightsAttribution-NonCommercial-NoDerivs 3.0 Estoniaen
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/ee/
dc.subjectneural machine translation
dc.subjectparagraph-level translation
dc.subjectdiscourse-level phenomena
dc.subjectmassively multilingual models
dc.subjectMADLAD-400
dc.subject.othermagistritöödet
dc.subject.otherinformaatikaet
dc.subject.otherinfotehnoloogiaet
dc.subject.otherinformaticsen
dc.subject.otherinfotechnologyen
dc.titleParagraph-Level Translation of Low-Resource Finno-Ugric Languages
dc.typeThesisen

Files

Original bundle

Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
Pashchenko_computer_science_2024.pdf
Size:
627.89 KB
Format:
Adobe Portable Document Format