Calculating the error percentage of an automated part-of-speech tagger when analyzing Estonian learner English: an empirical analysis

Undo, Aare

Calculating the error percentage of an automated part-of-speech tagger when analyzing Estonian learner English: an empirical analysis

Failid

MA-Thesis_Undo_Aare.pdf (823 KB)

Kuupäev

2018

Autorid

Undo, Aare

Kirjastaja

Tartu Ülikool

Abstrakt

Teksti sõnaliikideks jaotamine sündis koos lingvistikaga, kuid selle protsessi automatiseerimine on muutunud võimalikuks alles viimastel kümnenditel ning seda tänu arvutite võimsuse kasvule. Tekstitöötluse algoritmid on alates sellest ajast iga aastaga üha paranenud. Selle magistritöö raames pannakse üks selle valdkonna lipulaevadest proovile korpuse peal, mis hõlmab eesti keelt emakeelena kõnelevate inglise keele õppijate tekste (TCELE korpus). Korpuse suurus on antud hetkel ca. 25 000 sõna (127 kirjalikku esseed) ning 11 transkribeeritud intervjuud (~100 minutit). Eesmärk on hinnata TCELE ja muude sarnaste korpuste veaprotsenti. Töö esimeses osas tutvustatakse lugejale korpuse kokkupanemist, annoteerimist ja väljavõtet (ingl. retrieval ) ning antakse ülevaade sõnaliikide määramisest ja veaprotsendist. Pärast seda antakse ülevaade varasematest uuringutest ning vastatakse muuhulgas, järgnevatele küsimustele: mida on eelnevalt tehtud? Mis olid uuringute leiud? Millised automaatsed märgendajad (ingl. taggers) ja sõnaliikide loendeid (ingl. tagset ) kasutati?

Märksõnad

inglise keel, sõnaliigid, korpused (keelet.), korpuslingvistika

URI

http://hdl.handle.net/10062/60466

Kollektsioonid

Anglistika magistritööd – Master's theses

Kirje täielik lehekülg

Calculating the error percentage of an automated part-of-speech tagger when analyzing Estonian learner English: an empirical analysis

Failid

Kuupäev

Autorid

Ajakirja pealkiri

Ajakirja ISSN

Köite pealkiri

Kirjastaja

Abstrakt

Kirjeldus

Märksõnad

Viide

URI

Kollektsioonid