Mitme-domeenne tehisnärvivõrkudel põhinev masintõlge

Date

2018

Journal Title

Journal ISSN

Volume Title

Publisher

Abstract

Käesolev magistritöö kätkeb endas neurotõlke lähenemist, mis toetabmitme-domeenseid tekste ja võimaldab tõlkimisel arvestada domeenide eripära. Antud lähenemine lähtub põhimõttest, et me käsitleme domeene kui eraldiseisvaid keeli, ning kasutame nende tõlkimiseks mitmekeelse neurotõlke meetodeid. Samuti näitame et mainitud lähenemise tulemusena tõlkekvaliteedi hinnang paraneb märgatavalt. Käesolevas töös pakume välja ka lähenemise domeenide automaatseks määramiseks ja uurime, kas eelnev domeenijaotuse info on üldse vajalik. Tuleb välja, et on, kuid kui sellist infot ei ole, on automaatset määramist kasutades võimalik samuti kõrge tõlkekvaliteedini jõuda, kohati isegi kõrgemani, kui eelnevat domeenijaotuse infot kasutades. Lisaks uurime selles töös, kas keelesisene stiilile kohandamine tühipauk (zero-shot) tõlke kaudu on võimalik. Näitame, et see lähenemine on võimeline stiilile kohanduma, kuid koos siiani lahenduseta kvaliteedilangusega.
In this thesis we present an approach to neural machine translation (NMT) thatsupports multiple domains in a single model and allows switching between the domains when translating. The core idea is to treat text domains as distinct languages and use multilingual NMT methods to create multi-domain translation systems; we show that this approach results in significant translation quality gains over fine-tuning. We also propose approach of unsupervised domain assignment and explore whether the knowledge of pre-specified text domains is necessary; turns out that it is after all, but also that when it is not known quite high translation quality can be reached, and even higher than with known domains in some cases. Additionally, we explore the possibility of intra-language style adaptation through zero shot translation. We show that this approach is able to styleadapt, however, with unresolved text deterioration issues.

Description

Keywords

Citation