DSpace
    • English
    • Deutsch
    • Eesti
  • English 
    • English
    • Deutsch
    • Eesti
  • Login
View Item 
  •   DSpace @University of Tartu
  • Loodus- ja täppisteaduste valdkond
  • Arvutiteaduse instituut
  • MTAT bakalaureusetööd – Bachelor's theses
  • View Item
  •   DSpace @University of Tartu
  • Loodus- ja täppisteaduste valdkond
  • Arvutiteaduse instituut
  • MTAT bakalaureusetööd – Bachelor's theses
  • View Item
JavaScript is disabled for your browser. Some features of this site may not work without it.

Morfeemiteadlik sõnaosade segmenteerimine neuromasintõlke jaoks

Thumbnail
View/Open
thesis.pdf (352.4Kb)
Date
2017
Author
Papli, Kaspar
Metadata
Show full item record
Abstract
Hiljuti kasutusele võetud neuromasintõlge koos sõnaosade segmenteerimisega on saavutanud masintõlke süsteemidest parima tõlkekvaliteedi. Tihti kasutatav bait-paar kodeeringul (BPK) põhinev segmenteerimisalgoritm ei arvesta sõnade morfoloogilist struktuuri, mis haruldaste sõnade puhul põhjustab aeg-ajalt eksitavat segmenteerimist ja ebakorrektset tõlget. Käesolevas töös esitatakse uus algoritm sõnaosade segmenteerimiseks, mis eemaldab BPK morfoloogilise struktuuri eiramise tõttu tekkinud segmenteerimisvead. Analüüs näitab, et esitatud algoritm vähendab BLEU poolt mõõdetud tõlkekvaliteeti 0.9 punkti võrra, kuid parandab eelnevalt ebatäpseid segmenteerimisi sisaldanud lausete segmenteerimist ja tõlget.
 
Neural machine translation together with subword segmentation has recently produced state-of-the-art translation performance. The commonly used segmentation algorithm based on byte-pair encoding (BPE) does not consider the morphological structure of words. This occasionally causes misleading segmentation and incorrect translation of rare words. In this thesis we explore the use of morphological structure in subword segmentation and develop a novel segmentation algorithm that succeeds in preventing misleading BPE segmentations that occur due to its disregard for morphology. Analysis shows that the proposed algorithm decreases translation performance as measured by BLEU by 0.9 points while producing subjectively more intuitive segmentations and mildly better translations for sentences previously involving inaccurate baseline segmentation.
 
URI
http://hdl.handle.net/10062/65691
Collections
  • MTAT bakalaureusetööd – Bachelor's theses [993]

DSpace software copyright © 2002-2016  DuraSpace
Contact Us | Send Feedback
Theme by 
Atmire NV
 

 

Browse

All of DSpaceCommunities & CollectionsBy Issue DateAuthorsTitlesSubjectsThis CollectionBy Issue DateAuthorsTitlesSubjects

My Account

Login

DSpace software copyright © 2002-2016  DuraSpace
Contact Us | Send Feedback
Theme by 
Atmire NV