Calculating the error percentage of an automated part-of-speech tagger when analyzing Estonian learner English: an empirical analysis

dc.contributor.advisorKlavan, Jane, juhendaja
dc.contributor.authorUndo, Aare
dc.contributor.otherTartu Ülikool. Inglise filoloogia osakondet
dc.contributor.otherTartu Ülikool. Humanitaarteaduste ja kunstide valdkondet
dc.date.accessioned2018-06-08T09:12:04Z
dc.date.available2018-06-08T09:12:04Z
dc.date.issued2018
dc.description.abstractTeksti sõnaliikideks jaotamine sündis koos lingvistikaga, kuid selle protsessi automatiseerimine on muutunud võimalikuks alles viimastel kümnenditel ning seda tänu arvutite võimsuse kasvule. Tekstitöötluse algoritmid on alates sellest ajast iga aastaga üha paranenud. Selle magistritöö raames pannakse üks selle valdkonna lipulaevadest proovile korpuse peal, mis hõlmab eesti keelt emakeelena kõnelevate inglise keele õppijate tekste (TCELE korpus). Korpuse suurus on antud hetkel ca. 25 000 sõna (127 kirjalikku esseed) ning 11 transkribeeritud intervjuud (~100 minutit). Eesmärk on hinnata TCELE ja muude sarnaste korpuste veaprotsenti. Töö esimeses osas tutvustatakse lugejale korpuse kokkupanemist, annoteerimist ja väljavõtet (ingl. ​retrieval​ ) ning antakse ülevaade sõnaliikide määramisest ja veaprotsendist. Pärast seda antakse ülevaade varasematest uuringutest ning vastatakse muuhulgas, järgnevatele küsimustele: mida on eelnevalt tehtud? Mis olid uuringute leiud? Millised automaatsed märgendajad (ingl. ​taggers) ja sõnaliikide loendeid (ingl. ​tagset​ ) kasutati?et
dc.description.urihttp://www.ester.ee/record=b5142572*estet
dc.identifier.urihttp://hdl.handle.net/10062/60466
dc.language.isoenget
dc.publisherTartu Ülikoolet
dc.rightsopenAccesset
dc.rightsAttribution-NonCommercial-NoDerivs 3.0 Estonia*
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/ee/*
dc.subjectinglise keelet
dc.subjectsõnaliigidet
dc.subjectkorpused (keelet.)et
dc.subjectkorpuslingvistikaet
dc.subject.othermagistritöödet
dc.titleCalculating the error percentage of an automated part-of-speech tagger when analyzing Estonian learner English: an empirical analysiset
dc.typeThesiset

Files

Original bundle
Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
MA-Thesis_Undo_Aare.pdf
Size:
823 KB
Format:
Adobe Portable Document Format
Description:
License bundle
Now showing 1 - 1 of 1
No Thumbnail Available
Name:
license.txt
Size:
1.7 KB
Format:
Item-specific license agreed upon to submission
Description: