Beyond genres: a dimensional text model for text classification

Vaik, Kristiina

Beyond genres: a dimensional text model for text classification

dc.contributor.advisor	Muischnek, Kadri, juhendaja
dc.contributor.advisor	Sirts, Kairit, juhendaja
dc.contributor.author	Vaik, Kristiina
dc.contributor.other	Tartu Ülikool. Humanitaarteaduste ja kunstide valdkond
dc.date.accessioned	2024-11-28T12:01:05Z
dc.date.available	2024-11-28T12:01:05Z
dc.date.issued	2024-11-28
dc.description.abstract	Interneti võidukäik on suurendanud elektrooniliste tekstide hulka, mis on olnud murranguline mitmete teadusvaldkondade jaoks. Suured veebitekstide korpused on justkui ajakapslid, mis on jäädvustanud meie pidevalt muutuvad keelt. Veebikorpused pakuvad rikkalikku keelematerjali, kuid meil pole selget ülevaadet nende sisust. Kas tegemist on juhusliku sõpradevahelise vestluse või ametliku dokumendiga või hoopis millegi muuga? Veebikorpuste liigitamine on justkui püüd kategoriseerida kõiki raamatuid hiiglaslikus raamatukogus, teadmata, milline on raamatute sisu. Osa keeleuurijaid kasutavad liigitusalusena laiasid kategooriad, nagu ajakirjandus või ilukirjandus; samas on ka neid, kes teevad kitsamat eristamist, näiteks jagavad ajakirjanduse kategooria eraldi arvamusteks ja spordiuudisteks. Aastate jooksul on loodud palju erinevaid liigitusi, kuid neil kõigil on üks ühine joon: annoteerijate vähene üksmeel. See tekitab küsimuse, kuidas me saame oodata häid tulemusi masinatelt, kui isegi inimesed ei suuda kokku leppida, mis liiki kirjutisega on tegu? Selleks, et veebikorpuseid maksimaalselt ära kasutada, vajame etemat liigitusalust. Minu doktoritöö eesmärk on esitada alternatiivne viis veebitekstide kategoriseerimiseks. Selmet suruda tekste kindlatesse kategooriatesse (nagu aja- või ilukirjandus), vaatlen hoopis tekstides peituvaid omadusi, mida nimetan dimensioonideks. Näiteks vaatlen, kas tekst on ametlik või spontaanne, faktiline või arvamuslik, keeruline või lihtne, või kas see räägib abstraktsetest või konkreetsetest nähtustest? Eesmärk on uurida, kas minu pakutud dimensioonid ja raamistik on inimeste jaoks äratuntavad. Kui jah, siis tuvastada, kas ja kuidas pakutud dimensioonid üksteisest erinevad. Leidsin, et annoteerijad saavutasid väljapakutud dimensioonide seas enamjaolt üksmeele, mis viitab dimensioonide selgetele kommunikatiivsetele funktsioonidele, ja et igal dimensioonil on ainulaadne koosesinevate keeleliste tunnuste muster. Tulemused joonduvad suuremas jaos ka juba varasemate uurimustega, kus peamise eristusena saab välja tuua vastanduse kirjaliku kõnekeele (spontaanne, isiklik, subjektiivne) ja standardsema kirjakeele (rohkem planeeritud, formaalne, informatiivne) vahel. Ülejäänud dimensionid langevad kuhugi vahepeale või sisaldavad vaid neile ainulaadseid eripärasid. Mõistmine, kuidas need dimensioonid ja nende keelelised mustrid omavahel on seotud, loob tugevad eeldused tulevastele uurimustöödele, mille eesmärk on aidata kaasa veebikorpustes peituvate struktuuride uurimisele ja liigitamisele.
dc.description.abstract	The internet is a huge repository of different texts. It’s a goldmine of information, covering everything from casual chats to academic articles, and a great resource for many fields of science. Huge text collections, known as Web corpora, are transforming how we study language. They’re like time capsules, capturing the ever-changing way we talk and write. The thing is, we don’t know what’s in these digital collections. Is it casual conversations, formal writing, or something else entirely? It’s like trying to categorize every book in a giant library without knowing what’s in them. Some researchers have focused on broad categories like news or fiction. In contrast, others make more fine-grained distinctions, such as dividing the news category into opinion pieces, sports reports, and interviews. Over the years, many different classifications have been created, but they all have one thing in common: the consensus among the annotators is low. This raises a question, how can we expect computers to do it, if even people can’t agree on what kind of writing something is? To make the most of this linguistic goldmine, we need a better roadmap. This research aims to offer an alternative way of categorizing texts found online. Rather than forcing texts into fixed categories (like news or fiction), this research looks at the text’s underlying qualities (i.e., dimensions). For example, is the text formal or casual, factual or opinionated, complex or simple, and talking about abstract or concrete phenomena? I aimed to seek whether the proposed dimensions are recognizable to humans and, if so, identify whether and how the proposed dimensions differ from one another. I found that the proposed dimensions showed a consistent level of agreement among humans, suggesting clear communicative functions and definitions, and dimensions can be set apart by having unique linguistic fingerprints. Interestingly, the results show a clear divide between dimensions that resemble written spoken language (spontaneous, personal, subjective) and language that is more planned and formal (impersonal, informational). Other dimensions fall somewhere in between or have their special linguistic characteristics. Understanding how these dimensions relate to each other and recognizing unique linguistic patterns within them sets the stage for future research of uncovering the hidden structures in Web corpora.
dc.description.uri	https://www.ester.ee/record=b5713664
dc.identifier.isbn	978-9916-27-750-8
dc.identifier.isbn	978-9916-27-751-5 (pdf)
dc.identifier.issn	1406-5657
dc.identifier.issn	2806-237X (pdf)
dc.identifier.uri	https://hdl.handle.net/10062/106094
dc.language.iso	en
dc.relation.ispartofseries	Dissertationes linguisticae Universitatis Tartuensis; 47
dc.rights	Attribution-NonCommercial-NoDerivs 3.0 Estonia	en
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/ee/
dc.subject.other	tekstid
dc.subject.other	klassifitseerimine
dc.subject.other	mudelid
dc.subject.other	korpuslingvistika
dc.subject.other	arvutilingvistika
dc.subject.other	texts
dc.subject.other	classification
dc.subject.other	models
dc.subject.other	corpus linguistics
dc.subject.other	computational linguistics
dc.title	Beyond genres: a dimensional text model for text classification
dc.title.alternative	Väljaspool žanre: dimensionaalne tekstimudel tekstide klassifitseerimiseks
dc.type	Thesis	en

Failid

Originaal pakett

Nüüd näidatakse 1 - 1 1

Nimi:: vaik_kristiina.pdf
Suurus:: 3.53 MB
Formaat:: Adobe Portable Document Format

Lae alla

Kollektsioonid

1. TÜ väitekirjad alates 2004. Kaitstud doktoritööd, teadusmagistritööd. Doctoral theses, PhD, MSc, MPhil.