Calculating the error percentage of an automated part-of-speech tagger when analyzing Estonian learner English: an empirical analysis

Undo, Aare

Calculating the error percentage of an automated part-of-speech tagger when analyzing Estonian learner English: an empirical analysis

dc.contributor.advisor	Klavan, Jane, juhendaja
dc.contributor.author	Undo, Aare
dc.contributor.other	Tartu Ülikool. Inglise filoloogia osakond	et
dc.contributor.other	Tartu Ülikool. Humanitaarteaduste ja kunstide valdkond	et
dc.date.accessioned	2018-06-08T09:12:04Z
dc.date.available	2018-06-08T09:12:04Z
dc.date.issued	2018
dc.description.abstract	Teksti sõnaliikideks jaotamine sündis koos lingvistikaga, kuid selle protsessi automatiseerimine on muutunud võimalikuks alles viimastel kümnenditel ning seda tänu arvutite võimsuse kasvule. Tekstitöötluse algoritmid on alates sellest ajast iga aastaga üha paranenud. Selle magistritöö raames pannakse üks selle valdkonna lipulaevadest proovile korpuse peal, mis hõlmab eesti keelt emakeelena kõnelevate inglise keele õppijate tekste (TCELE korpus). Korpuse suurus on antud hetkel ca. 25 000 sõna (127 kirjalikku esseed) ning 11 transkribeeritud intervjuud (~100 minutit). Eesmärk on hinnata TCELE ja muude sarnaste korpuste veaprotsenti. Töö esimeses osas tutvustatakse lugejale korpuse kokkupanemist, annoteerimist ja väljavõtet (ingl. retrieval ) ning antakse ülevaade sõnaliikide määramisest ja veaprotsendist. Pärast seda antakse ülevaade varasematest uuringutest ning vastatakse muuhulgas, järgnevatele küsimustele: mida on eelnevalt tehtud? Mis olid uuringute leiud? Millised automaatsed märgendajad (ingl. taggers) ja sõnaliikide loendeid (ingl. tagset ) kasutati?	et
dc.description.uri	http://www.ester.ee/record=b5142572*est	et
dc.identifier.uri	http://hdl.handle.net/10062/60466
dc.language.iso	eng	et
dc.publisher	Tartu Ülikool	et
dc.rights	openAccess	et
dc.rights	Attribution-NonCommercial-NoDerivs 3.0 Estonia	*
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/ee/	*
dc.subject	inglise keel	et
dc.subject	sõnaliigid	et
dc.subject	korpused (keelet.)	et
dc.subject	korpuslingvistika	et
dc.subject.other	magistritööd	et
dc.title	Calculating the error percentage of an automated part-of-speech tagger when analyzing Estonian learner English: an empirical analysis	et
dc.type	Thesis	et

Failid

Originaal pakett

Nüüd näidatakse 1 - 1 1

Nimi:: MA-Thesis_Undo_Aare.pdf
Suurus:: 823 KB
Formaat:: Adobe Portable Document Format
Kirjeldus:

Lae alla

Litsentsi pakett

Nüüd näidatakse 1 - 1 1

Nimi:: license.txt
Suurus:: 1.7 KB
Formaat:: Item-specific license agreed upon to submission
Kirjeldus:

Lae alla

Kollektsioonid

Anglistika magistritööd – Master's theses