Calculating the error percentage of an automated part-of-speech tagger when analyzing Estonian learner English: an empirical analysis

Klavan, Jane, juhendajaUndo, AareTartu Ülikool. Inglise filoloogia osakondTartu Ülikool. Humanitaarteaduste ja kunstide valdkond2018-06-082018-06-082018http://hdl.handle.net/10062/60466Teksti sõnaliikideks jaotamine sündis koos lingvistikaga, kuid selle protsessi automatiseerimine on muutunud võimalikuks alles viimastel kümnenditel ning seda tänu arvutite võimsuse kasvule. Tekstitöötluse algoritmid on alates sellest ajast iga aastaga üha paranenud. Selle magistritöö raames pannakse üks selle valdkonna lipulaevadest proovile korpuse peal, mis hõlmab eesti keelt emakeelena kõnelevate inglise keele õppijate tekste (TCELE korpus). Korpuse suurus on antud hetkel ca. 25 000 sõna (127 kirjalikku esseed) ning 11 transkribeeritud intervjuud (~100 minutit). Eesmärk on hinnata TCELE ja muude sarnaste korpuste veaprotsenti. Töö esimeses osas tutvustatakse lugejale korpuse kokkupanemist, annoteerimist ja väljavõtet (ingl. retrieval ) ning antakse ülevaade sõnaliikide määramisest ja veaprotsendist. Pärast seda antakse ülevaade varasematest uuringutest ning vastatakse muuhulgas, järgnevatele küsimustele: mida on eelnevalt tehtud? Mis olid uuringute leiud? Millised automaatsed märgendajad (ingl. taggers) ja sõnaliikide loendeid (ingl. tagset ) kasutati?engopenAccessAttribution-NonCommercial-NoDerivs 3.0 Estoniahttp://creativecommons.org/licenses/by-nc-nd/3.0/ee/inglise keelsõnaliigidkorpused (keelet.)korpuslingvistikamagistritöödCalculating the error percentage of an automated part-of-speech tagger when analyzing Estonian learner English: an empirical analysisThesis