Morfeemiteadlik sõnaosade segmenteerimine neuromasintõlke jaoks

dc.contributor.advisorMark Fišel
dc.contributor.authorPapli, Kaspar
dc.date.accessioned2019-10-15T08:21:14Z
dc.date.available2019-10-15T08:21:14Z
dc.date.issued2017
dc.description.abstractHiljuti kasutusele võetud neuromasintõlge koos sõnaosade segmenteerimisega on saavutanud masintõlke süsteemidest parima tõlkekvaliteedi. Tihti kasutatav bait-paar kodeeringul (BPK) põhinev segmenteerimisalgoritm ei arvesta sõnade morfoloogilist struktuuri, mis haruldaste sõnade puhul põhjustab aeg-ajalt eksitavat segmenteerimist ja ebakorrektset tõlget. Käesolevas töös esitatakse uus algoritm sõnaosade segmenteerimiseks, mis eemaldab BPK morfoloogilise struktuuri eiramise tõttu tekkinud segmenteerimisvead. Analüüs näitab, et esitatud algoritm vähendab BLEU poolt mõõdetud tõlkekvaliteeti 0.9 punkti võrra, kuid parandab eelnevalt ebatäpseid segmenteerimisi sisaldanud lausete segmenteerimist ja tõlget.
dc.description.abstractNeural machine translation together with subword segmentation has recently produced state-of-the-art translation performance. The commonly used segmentation algorithm based on byte-pair encoding (BPE) does not consider the morphological structure of words. This occasionally causes misleading segmentation and incorrect translation of rare words. In this thesis we explore the use of morphological structure in subword segmentation and develop a novel segmentation algorithm that succeeds in preventing misleading BPE segmentations that occur due to its disregard for morphology. Analysis shows that the proposed algorithm decreases translation performance as measured by BLEU by 0.9 points while producing subjectively more intuitive segmentations and mildly better translations for sentences previously involving inaccurate baseline segmentation.
dc.identifier.urihttp://hdl.handle.net/10062/65691
dc.language.isoen
dc.titleMorfeemiteadlik sõnaosade segmenteerimine neuromasintõlke jaoks
dc.title.alternativeMorpheme-Aware Subword Segmentation for Neural Machine Translation
dc.typeThesis

Files

Original bundle
Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
thesis.pdf
Size:
352.44 KB
Format:
Adobe Portable Document Format