Optimizing Statistical Machine Translation via Input Modification

dc.contributor.authorFišel, Mark
dc.date.accessioned2011-02-02T12:29:20Z
dc.date.available2011-02-02T12:29:20Z
dc.date.issued2011-02-02
dc.description.abstractVäitekiri kuulub statistilise masintõlke valdkonda ja käsitleb selle ühte komponenti - tõlkemudelite masinõpet. Esmalt uuritakse osaliselt kattuvaid joondatud paralleelkorpusi. Esitatakse meetod, mis võimaldab analüüsida korpuste kattuvaid osi, leida valesid lausete joondusi ning produtseerida olemasolevatest korpustest suuremaid ja kvaliteetsemaid. Seejärel analüüsitakse, kuidas flekteerivates keeltes (s.h. eesti keeles) segmenteerida sõnu enne tõlkemudeli treenimist väiksemateks osadeks, selleks et pehmendada andmete hõreduse mõju. Esitatakse meetod, mis rakendab juhendamata segmenteerimisel lingvistikapõhise segmenteerimise printsiipe, eesmärgiga saavutada tõlkekvaliteedi samasugust paranemist nagu keelest sõltuvate lingvistiliste vahendite kasutamisega. Lõpuks analüüsitakse sõnade joondamise meetodeid, eesmärgiga asendada neid lihtsamatega, ilma tõlkekvaliteedi kahanemiseta. Kõik pakutud meetodid on saanud eksperimentaalse hinnangu, kasutades erinevaid keelekorpusi ja erinevaid keeltepaare, k.a. eesti-inglise.et
dc.description.abstractThe work focuses on statistical machine translation, whereas all our suggested improvements affect the input to the learning and applying stages of the translation models - this makes them independent of the exact type of translation models used. All introduced methods are evaluated using two state-of-the-art phrase-based and parsing-based translation models, using different corpora and language pairs, including Estonian-English. The first part of the dissertation introduces a method and algorithm for handling overlapping datasets for statistical machine translation; applying the method results in higher translation quality, depending on the heterogeneity of the datasets. The second part suggests a method of handling translation between morphologically rich languages, which combines the principles of linguistic and unsupervised segmentation of word forms into morphemes. The third and last part suggests simpler and faster alternatives for the word alignment stage of both phrase- and parsing-based translation, and shows that in many cases these can be used without losing translation quality.en
dc.identifier.isbn978-9949-19-577-0 (trükis)
dc.identifier.isbn978-9949-19-578-7 (PDF)
dc.identifier.issn1024-4212
dc.identifier.urihttp://hdl.handle.net/10062/16487
dc.language.isoenet
dc.relation.ispartofseriesDissertationes mathematicae Universitatis Tartuensis;66
dc.subjectdissertatsioonidet
dc.subjectmatemaatikaet
dc.subjectmasintõlgeet
dc.subject
dc.subject.otherdissertatsioonidet
dc.subject.otherETDen
dc.subject.otherdissertationen
dc.subject.otherväitekiriet
dc.titleOptimizing Statistical Machine Translation via Input Modificationen
dc.title.alternativeStatistilise masintõlke optimeerimine sisendi modifitseerimise teelet
dc.typeThesisen

Files

Original bundle
Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
fisel_mark.pdf
Size:
688.02 KB
Format:
Adobe Portable Document Format
Description:
License bundle
Now showing 1 - 1 of 1
No Thumbnail Available
Name:
license.txt
Size:
506 B
Format:
Item-specific license agreed upon to submission
Description: