Beyond genres: a dimensional text model for text classification
dc.contributor.advisor | Muischnek, Kadri, juhendaja | |
dc.contributor.advisor | Sirts, Kairit, juhendaja | |
dc.contributor.author | Vaik, Kristiina | |
dc.contributor.other | Tartu Ülikool. Humanitaarteaduste ja kunstide valdkond | |
dc.date.accessioned | 2024-11-28T12:01:05Z | |
dc.date.available | 2024-11-28T12:01:05Z | |
dc.date.issued | 2024-11-28 | |
dc.description.abstract | Interneti võidukäik on suurendanud elektrooniliste tekstide hulka, mis on olnud murranguline mitmete teadusvaldkondade jaoks. Suured veebitekstide korpused on justkui ajakapslid, mis on jäädvustanud meie pidevalt muutuvad keelt. Veebikorpused pakuvad rikkalikku keelematerjali, kuid meil pole selget ülevaadet nende sisust. Kas tegemist on juhusliku sõpradevahelise vestluse või ametliku dokumendiga või hoopis millegi muuga? Veebikorpuste liigitamine on justkui püüd kategoriseerida kõiki raamatuid hiiglaslikus raamatukogus, teadmata, milline on raamatute sisu. Osa keeleuurijaid kasutavad liigitusalusena laiasid kategooriad, nagu ajakirjandus või ilukirjandus; samas on ka neid, kes teevad kitsamat eristamist, näiteks jagavad ajakirjanduse kategooria eraldi arvamusteks ja spordiuudisteks. Aastate jooksul on loodud palju erinevaid liigitusi, kuid neil kõigil on üks ühine joon: annoteerijate vähene üksmeel. See tekitab küsimuse, kuidas me saame oodata häid tulemusi masinatelt, kui isegi inimesed ei suuda kokku leppida, mis liiki kirjutisega on tegu? Selleks, et veebikorpuseid maksimaalselt ära kasutada, vajame etemat liigitusalust. Minu doktoritöö eesmärk on esitada alternatiivne viis veebitekstide kategoriseerimiseks. Selmet suruda tekste kindlatesse kategooriatesse (nagu aja- või ilukirjandus), vaatlen hoopis tekstides peituvaid omadusi, mida nimetan dimensioonideks. Näiteks vaatlen, kas tekst on ametlik või spontaanne, faktiline või arvamuslik, keeruline või lihtne, või kas see räägib abstraktsetest või konkreetsetest nähtustest? Eesmärk on uurida, kas minu pakutud dimensioonid ja raamistik on inimeste jaoks äratuntavad. Kui jah, siis tuvastada, kas ja kuidas pakutud dimensioonid üksteisest erinevad. Leidsin, et annoteerijad saavutasid väljapakutud dimensioonide seas enamjaolt üksmeele, mis viitab dimensioonide selgetele kommunikatiivsetele funktsioonidele, ja et igal dimensioonil on ainulaadne koosesinevate keeleliste tunnuste muster. Tulemused joonduvad suuremas jaos ka juba varasemate uurimustega, kus peamise eristusena saab välja tuua vastanduse kirjaliku kõnekeele (spontaanne, isiklik, subjektiivne) ja standardsema kirjakeele (rohkem planeeritud, formaalne, informatiivne) vahel. Ülejäänud dimensionid langevad kuhugi vahepeale või sisaldavad vaid neile ainulaadseid eripärasid. Mõistmine, kuidas need dimensioonid ja nende keelelised mustrid omavahel on seotud, loob tugevad eeldused tulevastele uurimustöödele, mille eesmärk on aidata kaasa veebikorpustes peituvate struktuuride uurimisele ja liigitamisele. | |
dc.description.abstract | The internet is a huge repository of different texts. It’s a goldmine of information, covering everything from casual chats to academic articles, and a great resource for many fields of science. Huge text collections, known as Web corpora, are transforming how we study language. They’re like time capsules, capturing the ever-changing way we talk and write. The thing is, we don’t know what’s in these digital collections. Is it casual conversations, formal writing, or something else entirely? It’s like trying to categorize every book in a giant library without knowing what’s in them. Some researchers have focused on broad categories like news or fiction. In contrast, others make more fine-grained distinctions, such as dividing the news category into opinion pieces, sports reports, and interviews. Over the years, many different classifications have been created, but they all have one thing in common: the consensus among the annotators is low. This raises a question, how can we expect computers to do it, if even people can’t agree on what kind of writing something is? To make the most of this linguistic goldmine, we need a better roadmap. This research aims to offer an alternative way of categorizing texts found online. Rather than forcing texts into fixed categories (like news or fiction), this research looks at the text’s underlying qualities (i.e., dimensions). For example, is the text formal or casual, factual or opinionated, complex or simple, and talking about abstract or concrete phenomena? I aimed to seek whether the proposed dimensions are recognizable to humans and, if so, identify whether and how the proposed dimensions differ from one another. I found that the proposed dimensions showed a consistent level of agreement among humans, suggesting clear communicative functions and definitions, and dimensions can be set apart by having unique linguistic fingerprints. Interestingly, the results show a clear divide between dimensions that resemble written spoken language (spontaneous, personal, subjective) and language that is more planned and formal (impersonal, informational). Other dimensions fall somewhere in between or have their special linguistic characteristics. Understanding how these dimensions relate to each other and recognizing unique linguistic patterns within them sets the stage for future research of uncovering the hidden structures in Web corpora. | |
dc.description.uri | https://www.ester.ee/record=b5713664 | |
dc.identifier.isbn | 978-9916-27-750-8 | |
dc.identifier.isbn | 978-9916-27-751-5 (pdf) | |
dc.identifier.issn | 1406-5657 | |
dc.identifier.issn | 2806-237X (pdf) | |
dc.identifier.uri | https://hdl.handle.net/10062/106094 | |
dc.language.iso | en | |
dc.relation.ispartofseries | Dissertationes linguisticae Universitatis Tartuensis; 47 | |
dc.rights | Attribution-NonCommercial-NoDerivs 3.0 Estonia | en |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/3.0/ee/ | |
dc.title | Beyond genres: a dimensional text model for text classification | |
dc.title.alternative | Väljaspool žanre: dimensionaalne tekstimudel tekstide klassifitseerimiseks | |
dc.type | Thesis | en |
Failid
Originaal pakett
1 - 1 1