Autorsuse tuvastamine sõnavaralise ja märgipõhise tekstianalüüsi meetoditega

dc.contributor.advisorTamme, Tõnu, juhendaja
dc.contributor.authorLorenz, Jürgen
dc.contributor.otherTartu Ülikool. Loodus- ja tehnoloogiateaduskondet
dc.contributor.otherTartu Ülikool. Tehnoloogiainstituutet
dc.date.accessioned2016-02-05T11:07:21Z
dc.date.available2016-02-05T11:07:21Z
dc.date.issued2015
dc.description.abstractInteneti lai levik tänapäeval on olulise probleemina tõstatanud tekstide autorsuse küsimuse. Mõningatel juhtudel on tingimata vaja kirjutaja isik kindlaks teha. Autorsuse tuvastamise meetodid annavad võimaluse võrdlemisi täpselt määrata kahtluse all oleva teksti autori. Käesolevas bakalaureusetöös uuriti autorsuse tuvastamist sõnavaraliste ja märgip õhiste tekstianalüüsi meetoditega. Tehtud uurimuse ning eksperimendi tulemuste põhjal võib järeldada, et sõnavarap õhise ja märgipõhise tekstianalüüsi meetoditega on edukalt võimalik tundmatu teksti autorit tuvastada. Seda näitas väga hästi tabelis 9 välja toodud Vootele Päi kahe arvamusartikli võrdlus ning vastava tabeli analüüs peatükis 5.1, mille tulemuseks oli kahe teksti aritmeetilise keskmise erinevus ligikaudu 3% ning hii-ruut-statistiku väärtus oli üle viie korra väiksem 95% tõenäosuse juures ja 6 vabadusastmete arvuga, mis näitab kui sarnased need kaks artiklit omavahel olid. Samamoodi näitasid eksperimendi tulemused ka vastupidist ehk kahe teksti erinevust. Tabelis 13 ning peatükis 5.5 esitatud tabelite analüüsi põhjal on näha nii aritmeetiliselt kui ka kumulatiivselt kahe teksti erinevust ning ka hii-ruut-statistik kinnitab seda. Hii-ruut-statistiku väärtus oli mõlema võrdluse puhul lävendist kõrgem. Selline erinevus viitab järjekordselt sellele, et kasutusel olev mudel suudab kahte autorit omavahel eristada. Tekstide erinevuse hindamiseks oli kasutusel kolm erinevat hindamisevalemit. Kõige paremini sobis hii-ruut statistik, sest see näitas kõige täpsemalt kahe teksti statistilist erinevust seitsme parameetri põhjal. Veel oli kasutusel aritmeetiline keskmine ja kumulatiivne hindamine, millele vastavalt leiti kas seitsme parameetri aritmeetiline keskmise või summa. Sõnavaralised ja märgipõhised tekstianalüüsi meetodid on vägagi efektiivsed. Need meetodid näitavad, et tõesti on igal autoril oma nii-öelda käekiri, mis on talle tahes-tahtmata omane. Esmane uurimus autorite tuvastamisel, kasutades kindlaid mudeleid, oli äärmiselt edukas, kuid siiski on vajalikud edaspidised laialdasemad uuringud. Järgmise etapina olekski plaanis teha ulatuslik uuring, mis tooks välja selle programmi võimalikud piirangud, ning vajadusel kohandada mudelit ka tulevikus kasutatavate suuremate andmestike jaoks.en
dc.identifier.urihttp://hdl.handle.net/10062/50452
dc.language.isoeten
dc.publisherTartu Ülikoolen
dc.subjectAutorsuse tuvastamineen
dc.subjectsõnavaraline analüüsen
dc.subjectmärgipõhine analüüsen
dc.subjectn-grammiden
dc.subjectteksti analüüsen
dc.subject.otherbakalaureusetöödet
dc.titleAutorsuse tuvastamine sõnavaralise ja märgipõhise tekstianalüüsi meetoditegaen
dc.typeThesisen

Failid

Originaal pakett

Nüüd näidatakse 1 - 1 1
Laen...
Pisipilt
Nimi:
Lorenz_BA2015.pdf
Suurus:
284.36 KB
Formaat:
Adobe Portable Document Format
Kirjeldus:

Litsentsi pakett

Nüüd näidatakse 1 - 1 1
Pisipilt ei ole saadaval
Nimi:
license.txt
Suurus:
1.71 KB
Formaat:
Item-specific license agreed upon to submission
Kirjeldus: