Optimizing Statistical Machine Translation via Input Modification

Fišel, Mark

Optimizing Statistical Machine Translation via Input Modification

dc.contributor.author	Fišel, Mark
dc.date.accessioned	2011-02-02T12:29:20Z
dc.date.available	2011-02-02T12:29:20Z
dc.date.issued	2011-02-02
dc.description.abstract	Väitekiri kuulub statistilise masintõlke valdkonda ja käsitleb selle ühte komponenti - tõlkemudelite masinõpet. Esmalt uuritakse osaliselt kattuvaid joondatud paralleelkorpusi. Esitatakse meetod, mis võimaldab analüüsida korpuste kattuvaid osi, leida valesid lausete joondusi ning produtseerida olemasolevatest korpustest suuremaid ja kvaliteetsemaid. Seejärel analüüsitakse, kuidas flekteerivates keeltes (s.h. eesti keeles) segmenteerida sõnu enne tõlkemudeli treenimist väiksemateks osadeks, selleks et pehmendada andmete hõreduse mõju. Esitatakse meetod, mis rakendab juhendamata segmenteerimisel lingvistikapõhise segmenteerimise printsiipe, eesmärgiga saavutada tõlkekvaliteedi samasugust paranemist nagu keelest sõltuvate lingvistiliste vahendite kasutamisega. Lõpuks analüüsitakse sõnade joondamise meetodeid, eesmärgiga asendada neid lihtsamatega, ilma tõlkekvaliteedi kahanemiseta. Kõik pakutud meetodid on saanud eksperimentaalse hinnangu, kasutades erinevaid keelekorpusi ja erinevaid keeltepaare, k.a. eesti-inglise.	et
dc.description.abstract	The work focuses on statistical machine translation, whereas all our suggested improvements affect the input to the learning and applying stages of the translation models - this makes them independent of the exact type of translation models used. All introduced methods are evaluated using two state-of-the-art phrase-based and parsing-based translation models, using different corpora and language pairs, including Estonian-English. The first part of the dissertation introduces a method and algorithm for handling overlapping datasets for statistical machine translation; applying the method results in higher translation quality, depending on the heterogeneity of the datasets. The second part suggests a method of handling translation between morphologically rich languages, which combines the principles of linguistic and unsupervised segmentation of word forms into morphemes. The third and last part suggests simpler and faster alternatives for the word alignment stage of both phrase- and parsing-based translation, and shows that in many cases these can be used without losing translation quality.	en
dc.identifier.isbn	978-9949-19-577-0 (trükis)
dc.identifier.isbn	978-9949-19-578-7 (PDF)
dc.identifier.issn	1024-4212
dc.identifier.uri	http://hdl.handle.net/10062/16487
dc.language.iso	en	et
dc.relation.ispartofseries	Dissertationes mathematicae Universitatis Tartuensis;66
dc.subject	dissertatsioonid	et
dc.subject	matemaatika	et
dc.subject	masintõlge	et
dc.subject
dc.subject.other	dissertatsioonid	et
dc.subject.other	ETD	en
dc.subject.other	dissertation	en
dc.subject.other	väitekiri	et
dc.title	Optimizing Statistical Machine Translation via Input Modification	en
dc.title.alternative	Statistilise masintõlke optimeerimine sisendi modifitseerimise teel	et
dc.type	Thesis	en

Files

Original bundle

Now showing 1 - 1 of 1

Name:: fisel_mark.pdf
Size:: 688.02 KB
Format:: Adobe Portable Document Format
Description:

Download

License bundle

Now showing 1 - 1 of 1

Name:: license.txt
Size:: 506 B
Format:: Item-specific license agreed upon to submission
Description:

Download

Collections

1. TÜ väitekirjad alates 2004 - Theses, PhD, MSc, ETD