Paragraph-Level Translation of Low-Resource Finno-Ugric Languages
dc.contributor.advisor | Fishel, Mark, juhendaja | |
dc.contributor.advisor | Yankovskaya, Elizaveta, juhendaja | |
dc.contributor.author | Pashchenko, Dmytro | |
dc.contributor.other | Tartu Ülikool. Loodus- ja täppisteaduste valdkond | et |
dc.contributor.other | Tartu Ülikool. Arvutiteaduse instituut | et |
dc.date.accessioned | 2024-10-07T10:37:45Z | |
dc.date.available | 2024-10-07T10:37:45Z | |
dc.date.issued | 2024 | |
dc.description.abstract | Massiliselt mitmekeelsete masintõlkemudelite teke võimaldas tõhusalt tõlkida paljusid keeli samaaegselt, sealhulgas neid, millel on piiratud hulk ressursse. Hiljutine rekordiomanik MADLAD-400, mis katab üle 400 keele, on suuresti uurimata. Käesolevas töös püüame uurida MADLADi võimekust, häälestades seda nelja väikese ressursiga soomeugri keele (karjala, liivi, lüüdi ja vepsa, mis ei sisaldu MADLADis) tõlkimisele vene keelde ja tagasi. Lisaks uurime lõigutasandil tõlke mõju mudeli kvaliteedile, kasutades MADLADi dokumenditasemel tõlkimise võimekust. Leiame, et 1) MADLADi-põhine süsteem saavutab tipptasemel mudelitega võrreldavad tulemused ja avastame, et 2) süsteemi lõigutasandil versioon ületab lausetasemel versiooni kuni kolme BLEU punkti võrra, parandades oluliselt lausetevahelist kooskõla. | |
dc.identifier.uri | https://hdl.handle.net/10062/105216 | |
dc.language.iso | en | |
dc.publisher | Tartu Ülikool | et |
dc.rights | Attribution-NonCommercial-NoDerivs 3.0 Estonia | en |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/3.0/ee/ | |
dc.subject | neural machine translation | |
dc.subject | paragraph-level translation | |
dc.subject | discourse-level phenomena | |
dc.subject | massively multilingual models | |
dc.subject | MADLAD-400 | |
dc.subject.other | magistritööd | et |
dc.subject.other | informaatika | et |
dc.subject.other | infotehnoloogia | et |
dc.subject.other | informatics | en |
dc.subject.other | infotechnology | en |
dc.title | Paragraph-Level Translation of Low-Resource Finno-Ugric Languages | |
dc.type | Thesis | en |
Files
Original bundle
1 - 1 of 1
Loading...
- Name:
- Pashchenko_computer_science_2024.pdf
- Size:
- 627.89 KB
- Format:
- Adobe Portable Document Format