Lausete arv: 865 - Sõnade arv: 9694
Analüüsiks kulunud aeg: 422.863 sekundit
Uus analüüs
mina-
Analüsaator leiab lausest mina- või meie-vormis sõnad
Umbisikulise tegumoe analüüs tagastab lõpuks kõik laused, kus eirati tsitaadi- või mõisteväliselt umbisikulist tegumoodi.
Annan
Annan Tartu Ülikoolile loa teha punktis 1 nimetatud teos üldsusele kättesaadavaks Tartu Ülikooli veebikeskkonna, sealhulgas digitaalarhiivi DSpace kaudu Creative Commonsi litsentsiga CC BY NC ND 3.0, mis lubab autorile viidates teost reprodutseerida, levitada ja üldsusele suunata ning keelab luua tuletatud teost ja kasutada teost ärieesmärgil, kuni autoriõiguse kehtivuse lõppemiseni.
mina-
Iga lause puhul tuuakse välja sõnad, mis ei ole mina- või meie-vormis (vt joonis 541).
Kinnitan, ma
Kinnitan, et lihtlitsentsi andmisega ei riku ma teiste isikute intellektuaalomandi ega isikuandmete kaitse õigusaktidest tulenevaid õigusi.
nägime, meid
Lauses Mees, keda seal nägime, tahtis olla sõbralik ja tervitas meid leidub ClauseSegmenter sõnul 3 osalauset.
Mina, annan, minu
Litsents
Lihtlitsents lõputöö reprodutseerimiseks ja üldsusele kättesaadavaks tegemiseks
Mina, Karl Erik Karindi
annan Tartu Ülikoolile tasuta loa (lihtlitsentsi) minu loodud teose
Lõputöö teksti analüsaator,
mille juhendaja on Raimond-Hendrik Tunnel,
reprodutseerimiseks eesmärgiga seda säilitada, sealhulgas lisada digitaalarhiivi DSpace kuni autoriõiguse kehtivuse lõppemiseni.
mulle, Näen
Morfoloogilise analüüsi kiht lausel Ta ütles mulle: ,,Näen sind!”.
Arvan
Näide ümberütlevast väljendist oleks see, kui ,,Arvan, et” asemel kasutada hoopis ,,Arvatakse, et…”.
Olen
Olen teadlik, et punktides 1 ja 2 nimetatud õigused jäävad alles ka autorile.
mina-
Olukorras, kus mina- või meie-vorm on sisupeatükist väljaspool, saab CGLearn ignoreerida vastava peatüki korral umbisikulisuse analüüsi tulemusi.
mina-
On aga võimalik, et kuigi sisendteksti autor ei kasutanud lõputöös mina- või meie-vormi töö sisupeatükkides, siis sellegipoolest leidub mina-vorm kas tsitaadis, mõistes või väljaspool sisupeatükke (nt Kokkuvõtte peatükis).
mina-, me, mina
Reeglite järgi on sõna mina- või meie-vormis siis, kui sõna on tegusõna ning kas lõppeb ühendiga sin, in, n, sime, ime, me või on sõnajuureks mina.
mina-
See leidis etteantud lõputööde tekstides üles kõik laused, kus esines mina- või meie-vorm.
mina, arvan
See tähendab, et iseendale viidates on soovituslik kasutada näiteks varianti arvatakse, aga mitte mina arvan.
mina-
Seetõttu ei märgita CGLearn õpikeskkonnas näiteks kokkuvõttes mina- või meie-vormi kasutamist veaks.
mina-
Selles on vaja vaid veenduda, et mina- või meie-vormis sõna ei oleks mõiste või osa tsitaadist.
mina
Sõna I tähendab eesti keeles mina →
Sõna I tähendab eesti keeles mina
Niiviisi oleks üpriski lihtne parsida tekstist välja kaldkiri, pealkirjad ning alampealkirjad.
nägime, meid
Teises osalauses keda seal nägime on leitud verbiahel nägime ja kolmandas osalauses teretas meid on verbiahel teretas.
mina-
Umbisikulisuse analüsaator ei tuvastanud kolmel testijal mitte ühtegi mina- või meie-vormis sõna.
mina-
Umbisikulisuse analüsaatori puhul vastas 4 testijat, et analüüs ei tuvastanud tekstis mitte ühtegi mina- või meie-vormis sõna.
mina-
Uuritakse, kas sõna vastab reeglitele, mis on mina- või meie-vormi määramiseks loodud.
käsitlen
Viitamine iseendale teadustekstides: töös käsitletakse, töös käsitlen, töö käsitleb.... http://www.emakeeleselts.ee/omakeel/2015_2/10.pdf (10.04.2020).
mina-
siis otsustatakse, et sõna on mina- või meie-vormis.
mina-
Ühel inimesel tuvastati mina- või meie-vormis sõna, ent see oli kaldkirjas mõiste.
Näiteks klassifitseeris analüsaator järgneva lause keeruliseks: Kuna käesolevas uurimistöös uuritakse verbe, mida on kasutatud otsekõne saatelausetes, ning vähesel määral ka saatelausete paiknemist, siis selles peatükis antakse lühike ülevaade, kuidas üldse tegelaskõnet kirjanduses on võimalik edasi anda ning milline tähtsus on saatelausetel dialoogide puhul.
Näiteks pidas analüsaator kantseliitlikuks järgmised sõnapaarid: näiteks on; lisaks on; selleks on; selliseks on ja tulemuseks on.
Seetõttu tehti edasiarendus: kui sõna vastab eelmises lõigus mainitud reeglitele, ent sõna on kas lisaks, näiteks, selleks, selliseks või tulemuseks, siis seda kantseliidiks ei märgita.
Seda seepärast, et arvutiteadlase Jakob Nielsen on väitnud, et suurema testijate arvu puhul on suurem tõenäosus, et tagasiside kordub ja ei anna mingisugust lisandväärtust [60].
Mooduli lõpus paluti hinnata analüsaatori kasulikkust skaalal 0-10, kus 0 tähendas, et analüsaator ei olnud üldse kasulik ning 10 tähendas, et analüsaator oli väga kasulik.
Osalause(d), mille ette läheb koma
Originaallause
selgus aga,
Katsetades selgus aga, et sellise reegli puhul võivad pikad laused jääda pikaks märkimata.
kohalduvad versiooniga 1.6.
Kuna Sõrmuse lõputöös oli kasutatud EstNLTK versiooni 1.4.1, pidi funktsioone muutma, et nad oleksid kohalduvad versiooniga 1.6.
oli see hetk ; kui aeg hakkas otsa saama on osalausestaja B poolitanud kolmeks erinevaks osalauseks.
Näiteks joonisel 580 on näha, et osalause mida jälgiti oli see hetk kui aeg hakkas otsa saama on osalausestaja B poolitanud kolmeks erinevaks osalauseks.
teatavad erinevused,
Näiteks korrektse lause Kuna metoodikas olid teatavad erinevused, ei ole nad täielikult võrreldavad puhul leiab osalausestaja B, et teatavad erinevused on eraldi osalause.
Poolt-tarind on võõrapärane vorm, mis jätab lauses tegija tagaplaanile.
Näiteks ingliskeelse lause The work was done by the employee puhul oleks eestikeelne otsetõlge Töö oli töötaja poolt tehtud.
Kantseliiti sai vältida sellega, kui muudeti lause sõnastust või eemaldati sõna poolt.
Öeldistäiteks olev v- või tav- kesksõna võib mõjuda bürokraatlikult.
Seda seetõttu, et meetrik on oluline pigem lasteraamatute puhul, kus tekst peab lastele kergesti arusaadav olema.
Üks levinumaid ekslikke arusaamasid on see, et teadustekst peab olema keeruline, ent tegelikkuses peaks see olema selgesti arusaadav ja sujuvalt loetav ilma, et see muutuks liiga primitiivseks [5].
Lõputöö analüsaatori veebiliides Liides on lihtsasti kasutatav.
Selleks kasutatakse VISLCG3 süntaksi analüsaatorit, mis on EstNLTK teegist kättesaadav [572].
Näiteks lauses Leping on kehtiv 2 aastat on oleviku kesksõna kehtiv.
Näiteks, kas on võimalik, et sõnapaar on kehtiv puhul märgitakse sõna kehtiv verbiks, ent on huvitav puhul sõna huvitav omadussõnaks.
Ei süntaksi ega morfoloogilise analüüsi sõnaliigi märgendajad ei suutnud tuvastada, kas sõna on kesksõna, mis väljendab tegevust (näiteks kehtiv, lööv) või on sõna tavaline omadussõna (näiteks huvitav, põnev).
Nagu Sõrmuse töös, otsitakse esmaselt sõna, mille süntaksimärgend on määrus ning kääne on saav.
Kõik viis testijat leidsid, et analüsaatori rangus oli sobiv.
Kuna backend on niikuinii eraldiseisev API, saab veebiliidese teenust serveerida eraldi serveril.
Märgib omaduste või seisundite juhuslikkust, ajutist iseloomu.
Parem on
kasutada kindlamat kõneviisi.
Teadustekst Olgugi, et pole olemas ametlikku tekstiliikide jaotust, saab sellegipoolest tänapäeval jaotada keelekasutust argikeeleks, ilukirjanduslikuks keeleks ja tarbekeeleks, millest viimast on võimalik omakorda jaotada ajakirjanduslikuks keeleks, ametikeeleks ja teaduskeeleks [3].
Alternatiivid Eesti- ning ingliskeelsete tekstide puhul pole olemas programmi, mille põhieesmärgiks on lõputööde ehk akadeemilise teksti automaatne analüüs ja tagasisidestamine.
Tulemuste analüüsiks on soovituslik kasutada juurkaustas olevat abimoodulit html_exporter.
Lisaks saab 1.6 regulaarselt uuendusi, mistõttu on tulevikus rohkem võimalusi uuteks analüüsideks.
Sõnade kihi jagunemine Span objektideks Erinevatel kihtidel on Span objektidel kihispetsiifilised atribuudid.
Sarnaselt QuoteAnalyzer ja QuoteRemover klassidele, on CitationRemover teistele analüsaatoritele abiklassiks.
Nendeks on numbriline viitamine ja tekstisisene viitamine autori nime ja aastaarvuga.
Reeglite järgi on sõna mina- või meie-vormis siis, kui sõna on tegusõna ning kas lõppeb ühendiga sin, in, n, sime, ime, me või on sõnajuureks mina.
Esmaselt on vaja sõnade sagedushinnangute leidmiseks tekst lemmatiseerida.
Luuakse sõnastik, kus võtmeteks on lemmad ning väärtusteks kõik sõnad (koos algus- ja lõpuindeksitega), mis sellele lemmale tekstis vastavad (vt joonis 581).
Luuakse sõnastik, kus võtmeteks on lemmad ning väärtusteks kõik sõnad (koos algus- ja lõpuindeksitega), mis sellele lemmale tekstis vastavad (vt joonis 581).
Teiseks, lauses võib olla palju osalauseid, aga ainult vähestes osalausetes leidub verbiahel.
Näiteks, kas on võimalik, et sõnapaar on kehtiv puhul märgitakse sõna kehtiv verbiks, ent on huvitav puhul sõna huvitav omadussõnaks.
Näiteks lauset Arsti sooviks on teha head oleks parem kirjutada Arst soovib teha head.
Lause Arsti sooviks on teha head on tõepoolest kantseliitlik, ent analüsaator tõi välja ka sõnapaare, kus probleemi tegelikult ei esinenud.
Selle režiimi kasutamiseks on vaja ClauseSegmenter klassi isendit luues anda sisendparameetriks ignore_missing_commas=True.
Kokkuvõtteks võib öelda, et ClauseSegmenter klasside kasutamine puuduvate komade leidmiseks on igati valiidne valik.
See-eest ei saa veel järeldada, et madalamate hinnangute põhjuseks on uus lemmade sageduste andmestik.
See tähendab, et saadetakse HTTP POST request, kus võtmeks on „user_text“ ja väärtuseks analüüsitav tekst.
Lõpptulemuseks oleks see, et analüüsid saaksid toimuda samamoodi nagu ennegi, ent kasutajamugavus on paranenud.
Probleemi leevendamiseks on mitmeid variante.
Litsents Lihtlitsents lõputöö reprodutseerimiseks ja üldsusele kättesaadavaks tegemiseks Mina, Karl Erik Karindi annan Tartu Ülikoolile tasuta loa (lihtlitsentsi) minu loodud teose Lõputöö teksti analüsaator, mille juhendaja on Raimond-Hendrik Tunnel, reprodutseerimiseks eesmärgiga seda säilitada, sealhulgas lisada digitaalarhiivi DSpace kuni autoriõiguse kehtivuse lõppemiseni.
Mine-vormi kasutus koos tühiverbiga.
|
kantseliit 33x |
Analüsaatorid 17 5.1 Sisendteksti eeltöötlus 17 5.2 Mõiste- ja tsitaadituvastaja ning -eemaldaja 17 5.3 Viite-eemaldaja 20 5.4 Umbisikulise tegumoe analüsaator 21 5.5 Korduvate sõnade analüsaator 23 5.6 Lausepikkuse ja -keerulisuse analüsaator 27 5.7 Kantseliidi analüsaator 33 5.7.1 Poolt-tarind 34 5.7.2 Olema + kesksõna 35 5.7.3 Määrus saavas käändes 37 5.7.4 Nominaalstiil 38 5.8 Puuduvate komade analüsaator 39 6. Kasutaja näeb kokkupandavate lahtritena viite põhilist analüüsi: umbisikulise tegumoe, lausepikkuse, puuduvate komade, kantseliidi ja sõnakorduste analüüsi. 5.7 Kantseliidi analüsaator Lõputöö analüsaator kontrollib, kas sisendtekstis leidub kantseliiti . Kantseliit on ebaselge, keerukas, raskesti ja mitmeti mõistetav keelekasutus [570]. Kantseliidi kontrollid on suuresti üle võetud Kaarel Sõrmuse 2017. aasta bakalaureusekraadi lõputööst „Kantseliidi- ja paronüümituvastaja“ [571]. Moodul kutsub välja eri funktsioone ehk analüsaatoreid, millest igaüks otsib tekstist kindlat sorti kantseliidi tunnust (vt joonis 570). Kantseliidi analüsaatori jagunemine Mooduli analüsaatorid vaatavad igat lauset eraldiseisvalt. Ka kantseliidi analüsaatorites kasutatakse sõltuvussüntaksi puud, et leida sõnade ülemusi. Kõik 4 kantseliidi analüsaatorit analüüsivad lauset. Kui lauses leidub kindel kantseliidi tüüp, tuuakse see välja. Kantseliiti sai vältida sellega, kui muudeti lause sõnastust või eemaldati sõna poolt. Kui ülemuse algvorm on olema, siis on tuvastatud olema + kesksõna kantseliit . Näiteks toodi kantseliidina välja sõnapaar on huvitav. Kuna sõna huvitav puhul ei ole tegu kesksõna, vaid omadussõnaga, ei tohiks analüsaator seda kantseliidina välja tuua. See-eest, kui märgendajad suudaks kesksõna ja omadussõna eristada, oleks lihtne kantseliidi tuvastamisel võtta arvesse ainult sõnu, mis on kesksõnad. Kui öeldistäide on kas huvitav või vaieldav, siis seda kantseliidina arvesse ei võeta. Kantseliit tuuakse veebiliideses esile (vt joonis 5730). Seetõttu tehti edasiarendus: kui sõna vastab eelmises lõigus mainitud reeglitele, ent sõna on kas lisaks, näiteks, selleks, selliseks või tulemuseks, siis seda kantseliidiks ei märgita. Kantseliidi analüsaatori juures paluti hinnata igat spetsiifilist kantseliidi analüsaatorit eraldi. Seejärel paluti hinnata iga kantseliidi analüsaatori kasulikkust skaalal 0-10. 6.3 Teine iteratsioon Teiseks iteratsiooniks lisati töösse kantseliidi analüsaator. Korduvate sõnade analüsaatori hinnangud 2. iteratsioonis Edasiarendusena lisati kantseliidi analüsaator. Joonisel 633 on välja toodud kõikide kantseliidi analüsaatorite hinnangud. Kantseliidi analüsaatorite hinnangud 2. iteratsioonis Tagasisidest selgus, et testijate jaoks oli kantseliidi analüsaatoritest kõige kasulikum poolt-tarindi analüsaator. Olema + kesksõna ja nominaalstiili hindasid kõik vastanud võrreldes teiste kantseliidi analüsaatoritega madalamalt. Kantseliidi analüsaatoreid oli hinnatud sarnaselt teisele iteratsioonile, ent seekord said analüsaatorid rohkem positiivset vastukaja. Kantseliidi analüsaatorite hinnangud 3. iteratsioonis Tundub, et seekord olid olema + kesksõna ja nominaalstiili analüsaatorid kasulikumad kui teises iteratsioonis. [570] Kantseliit - Üks levinud stiiliaps. Kuidas hoiduda kantseliidist . |
|||||||
|
5.7 Kantseliidi analüsaator Lõputöö analüsaator kontrollib, kas sisendtekstis leidub kantseliiti . Kantseliit on ebaselge, keerukas, raskesti ja mitmeti mõistetav keelekasutus [570]. [...] Kantseliidi kontrollid on suuresti üle võetud Kaarel Sõrmuse 2017. aasta bakalaureusekraadi lõputööst „Kantseliidi- ja paronüümituvastaja“ [571 | |||||||
|
Korduvate sõnade analüsaatori hinnangud 2. iteratsioonis Edasiarendusena lisati kantseliidi analüsaator. [...] Joonisel 633 on välja toodud kõikide kantseliidi analüsaatorite hinnangud. [...] Kantseliidi analüsaatorite hinnangud 2. iteratsioonis Tagasisidest selgus, et testijate jaoks oli kantseliidi analüsaatoritest kõige kasulikum poolt-tarindi analüsaator | |||||||
|
lausepikkus 23x |
Analüsaatorid 17 5.1 Sisendteksti eeltöötlus 17 5.2 Mõiste- ja tsitaadituvastaja ning -eemaldaja 17 5.3 Viite-eemaldaja 20 5.4 Umbisikulise tegumoe analüsaator 21 5.5 Korduvate sõnade analüsaator 23 5.6 Lausepikkuse ja -keerulisuse analüsaator 27 5.7 Kantseliidi analüsaator 33 5.7.1 Poolt-tarind 34 5.7.2 Olema + kesksõna 35 5.7.3 Määrus saavas käändes 37 5.7.4 Nominaalstiil 38 5.8 Puuduvate komade analüsaator 39 6. Kasutaja näeb kokkupandavate lahtritena viite põhilist analüüsi: umbisikulise tegumoe, lausepikkuse , puuduvate komade, kantseliidi ja sõnakorduste analüüsi. Sellegipoolest on mõnes analüsaatoris, näiteks lausepikkuse- ja keerulisuse analüsaatoris, vaja jutumärkide vahel olev tekst eemaldada. QuoteRemover lausepuhastuse lõpptulemus QuoteRemover on kõige olulisem lausepikkuse- ja keerulisuse analüsaatoris, kus on vaja, et tsitaadid ei mõjutaks kuidagi lause keerukust. Selle kohta on rohkem infot alampeatükis ,, Lausepikkuse- ja keerulisuse analüsaator”. 5.6 Lausepikkuse ja -keerulisuse analüsaator Emakeeleseltsi väitel peab selge tekst olema lihtsa ja loogilise lauseehitusega [14]. Lõputöö analüsaatoris kontrollib lausepikkust moodul sentences_analyzer. Kuna loetelust ei ole üldiselt lugejal keeruline aru saada, ei tohiks ka lausepikkuse ja -keerulisuse analüsaator seda keerulise lausena välja tuua. Lisareegli tõttu võetakse eelneva lause puhul lausepikkuse ja -keerulisuse analüüsis arvesse vaid ühte osalauset (Eelmise sajandi kuulsaimad kirjanikud on Charles Dickens, Virginia Woolf, James Joyce, F. Scott Fitzgerald ja Arthur C. Clarke), milles leidub verbiahel on. Lausepikkuse- ja keerulisuse analüsaator töötab hästi. Seetõttu on lausepikkuse ja -keerulisuse analüsaator teksti autorile siiski kõigest abivahend ning kirjutaja peab lõpuks ise otsustama, kas muudab lauset. Lausepikkuse ja -keerulisuse analüsaatori puhul paluti vastata, mitu lauset see esile tõi. Sel hetkel oli lõputöö teksti analüsaatori programmis vaid kolm analüsaatorit: umbisikulisuse, lausepikkuse ja -keerulisuse ning korduvate sõnade analüsaator. Lausepikkuse ja -keerulisuse analüsaatori kohta vastasid mõlemad testijad, et analüsaator ei tuvastanud ühtegi pikka lauset. Lausepikkuse ja -keerulisuse analüsaator ei tuvastanud kahel inimesel mitte ühtegi liiga pikka lauset. Neljas vastanu tõi lausepikkuse ja -keerulisuse analüsaatori kriitikana välja selle, et lausestaja pidas lõigu pealkirja ja esimest lauset üheks lauseks, mistõttu analüsaator andis valepositiivseid tulemusi. Lausepikkuse- ja keerulisuse analüsaatori hinnangud 2. iteratsioonis Kokkuvõttes hinnati lausepikkuse ja -keerulisuse analüsaatorit positiivselt. Lausepikkuse ja -keerulisuse analüsaatoris tehti parandus, et joonise või peatüki pealkiri ei oleks kokku liidetud lõigu või peatüki esimese lausega. Lausepikkuse ja -keerulisuse analüsaatorit hinnati seekord paremini kui teises iteratsioonis. Joonisel 641 on näha lausepikkuse ja -keerulisuse analüsaatori kasulikkuse hinnanguid. Lausepikkuse ja -keerulisuse analüsaatori hinnangud 3. iteratsioonis Korduvate sõnade analüsaatori puhul leidsid 3 vastanut, et analüüs tõi välja sobival arvul sõnu. |
|||||||
|
veebiliides 30x |
Kasutajate tagasiside 42 6.1 Küsitlus 42 6.2 Esimene iteratsioon 43 6.3 Teine iteratsioon 44 6.4 Kolmas iteratsioon 47 7.1 Sisendteksti formaadi muutmine 51 7.2 Teistele keeltele laiendamine 52 7.3 Veebiliidese kasutajamugavus 52 7.4 Skaleeruvus 52 7.5 Kasutaja eelistuste salvestamine 53 8. Selleks, et lõputööde analüsaator oleks lihtsasti kättesaadav kirjutajatele, kes pole CGLearn õpikeskkonda registreeritud, loodi programmi jaoks ka veebiliides . Veebiliidesest tuleb rohkem juttu peatükis ,,Programmi ülevaade”. Mikroteenusele esitab päringu veebipõhine õpikeskkond CGLearn või analüsaatori jaoks loodud veebiliides (vt joonis 410). Kasutajatele näitab vastust arusaadaval kujul kasutajaliides, mis on kas programmi jaoks loodud veebiliides või CGLearn õpikeskkond. 4.2 Veebiliides Lõputöö analüsaatoril on veebiliides (joonis 2), mida saab kasutada koheseks tekstianalüüsiks. Kõik veebiliidese kaudu tehtud päringud salvestatakse andmebaasi. Lõputöö analüsaatori veebiliides Liides on lihtsasti kasutatav. 4.3 Tulemuste salvestamine Selleks, et jälgida veebiliidese kasutust ja analüüsida programmi tulemusi, on võimalik salvestada kõik veebiliidese kaudu tehtud analüüsid andmebaasi. Veebiliideses tuuakse poolt-tarindiga lause esile (vt joonis 5710). Poolt-tarindi analüüsi tulemus veebiliideses Joonisel 5710 on näha, et sõna Tema on omastavas käändes. Kantseliitlik tekst tuuakse veebiliideses esile (vt joonis 5720). Olema kesksõna kontrolli tulemus veebiliideses Katsetamisest selgus, et analüsaator toob tihti esile valepositiivseid tulemusi. Kantseliit tuuakse veebiliideses esile (vt joonis 5730). Määrus saavas käändes kontrolli tulemus veebiliideses . Nominaalstiil tuuakse veebiliideses esile (vt joonis 5740). Nominaalstiili kontrolli tulemus veebiliideses Sõrmuse nominaalstiili kontrollis oli veel lisareegleid, mida lõputöö teksti analüsaatorisse ümber ei tõstetud. Veebiliideses näidatakse seejärel tulemusena lauset ning osalauseid, mille ette peaks lisama komad (vt joonis 581). Seetõttu leiti 3 inimest juurde, kes kasutasid lõputöö teksti analüsaatori kasutamiseks loodud veebiliidest . Teised testijad said analüüside tulemusi näha veebiliideses . Nemad kasutasid testimiseks loodud veebiliidest . Võttes näiteks selle sama peatüki pealkirja ja esimese lause: kui kasutaja kopeerib terve lõputöö teksti veebiliidesesse , siis kuna vaadeldava peatüki nime lõpus pole punkti, tuvastab EstNLTK tekstilõigu „5. 7.3 Veebiliidese kasutajamugavus Praeguses veebiliideses saab kasutaja sisestada oma teksti ainult kopeerides. Üks variant, kuidas protsessi lihtsustada, oleks lisada veebiliidesele võimalus laadida üles oma lõputöö teksti fail. See on Estonian Scientific Computing Infrastructure (ETAIS) veebiliidese kaudu saadud High Performance Computing (HPC) keskuse server. Kuna backend on niikuinii eraldiseisev API, saab veebiliidese teenust serveerida eraldi serveril. |
|||||||
|
4.2 Veebiliides Lõputöö analüsaatoril on veebiliides (joonis 2), mida saab kasutada koheseks tekstianalüüsiks. Kõik veebiliidese kaudu tehtud päringud salvestatakse andmebaasi. [...] Lõputöö analüsaatori veebiliides Liides on lihtsasti kasutatav | |||||||
|
umbisikulisus 10x |
Lõputöö analüsaatori programmis loodi umbisikulisuse kontrollimiseks Pythoni moodul impersonality_analyzer, mis analüüsib ja otsustab, kas lõputöö on täielikult umbisikulises tegumoes kirjutatud. Umbisikulisuse analüüsi käivitab analyze funktsioon, mis saab argumentideks originaalteksti ja EstNLTK Text objekti lausete kihi. Olukorras, kus mina- või meie-vorm on sisupeatükist väljaspool, saab CGLearn ignoreerida vastava peatüki korral umbisikulisuse analüüsi tulemusi. Umbisikulisuse analüsaatori moodulis paluti vastajatel märkida tõeseks väited, mis kehtisid analüüsi tulemuste kohta. Sel hetkel oli lõputöö teksti analüsaatori programmis vaid kolm analüsaatorit: umbisikulisuse , lausepikkuse ja -keerulisuse ning korduvate sõnade analüsaator. Umbisikulisuse analüsaatori puhul vastasid mõlemad tudengid, et analüüs tuvastas isikulised sõnad, mille nad muutsid ümber umbisikulisteks. Kuna mõlemad tudengid tegid umbisikulisuse analüsaatori tõttu oma lõputöö tekstis muudatusi, võib järeldada, et analüsaator oli neile kasulik. Umbisikulisuse analüsaatori puhul vastas 4 testijat, et analüüs ei tuvastanud tekstis mitte ühtegi mina- või meie-vormis sõna. Seetõttu hinnati umbisikulisuse analüsaatorit ka võrdlemisi keskmiselt, neli vastanut andis hindeks 5 ning üks andis hindeks 4 (vt joonis 630). |
|||||||
|
valepositiivne 23x |
Selleks, et vältida valepositiivseid tulemusi, tehakse iga sõna puhul kontroll, kas see on mõiste või osa tsitaadist. Niiviisi võib lihtsasti tekkida valepositiivseid tulemusi, kus teksti autor on mõiste või tsitaadi jaoks jutumärkide asemel kasutanud kaldkirja. Näidislause osalausestamise tulemus Selleks, et vältida osalausestajast tingitud valepositiivseid tulemusi seoses keeruliste lausetega, on lisatud eraldi reegel sulgude vahel oleva teksti kohta. Esialgsed analüsaatorid andsid tihti valepositiivseid vastuseid. Katsetamisest selgus, et poolt-tarindi kontrolli tulemustes leidus kõige vähem valepositiivseid kirjeid. Olema kesksõna kontrolli tulemus veebiliideses Katsetamisest selgus, et analüsaator toob tihti esile valepositiivseid tulemusi. Niiviisi väheneks valepositiivsete tulemuste arv märgatavalt. Mõningate valepositiivsete tulemuste vältimiseks loodi erandid. Katsetamisest selgus see-eest, et analüsaatori tulemustes esines palju valepositiivseid kirjeid. Kuigi määrus saavas käändes analüsaator võib tekitada palju valepositiivseid , on sellel siiski potentsiaali olla kasulik. Katsetamisest selgus, et nominaalstiili analüsaator niivõrd palju valepositiivseid tulemusi ei andnud. Mida rohkem on sisendtekstis komavigu, seda vähem on valepositiivseid tulemusi. Näiteks leidis puuduvate komade analüsaator ühe 6000-sõnalise sisendteksti puhul 9 komaveaga lauset, millest 8 olid tõepoolest vigased ja üks oli valepositiivne tulemus. Niiviisi sai tuvastada, mitu tuvastatud puuduva komaga lauset olid tegelikult valepositiivsed . Neljas vastanu tõi lausepikkuse ja -keerulisuse analüsaatori kriitikana välja selle, et lausestaja pidas lõigu pealkirja ja esimest lauset üheks lauseks, mistõttu analüsaator andis valepositiivseid tulemusi. Ka katsetamisel tundus, et see analüsaator andis kõige vähem valepositiivseid tulemusi. Olema + kesksõna analüsaatori hinnangud on aga vastavuses varasemate katsetustega, sest ka katsetustes leidus palju valepositiivseid tulemusi. Üks vastanu kommenteeris isegi, et poolt-tarind ja olema-kesksõna analüsaatorid olid isegi valepositiivsete tulemuste puhul kasulikud, kuna need tuletasid meelde korrektset kirjastiili. Testijate tagasisidest ja kommentaaridest selgus, et programmist on kasu olgugi, et vahepeal leitakse valepositiivseid tulemusi. Lisaks ei saa märkida, missuguseid valepositiivseid tulemusi ei soovi kasutaja järgnevates analüüsides enam näha. Funktsionaalsuse lisamine annaks kindlasti palju lisandväärtust, kuna analüüsides esineb valepositiivseid tulemusi. Valepositiivsed tulemused võivad aga mitmete analüüside jooksul (näiteks iganädalaste CGLearni saadetud tekstide puhul) osutuda soovimatuks müraks, mis häirivad tulemuste uurimist. |
|||||||
|
lõputöö 90x |
Tartu Ülikool Arvutiteaduse instituut Informaatika õppekava Karl Erik Karindi Lõputöö teksti analüsaator Bakalaureusetöö (9 EAP) Juhendaja: Raimond-Hendrik Tunnel, MSc Tartu 2020 Lõputöö teksti analüsaator Lühikokkuvõte: Bakalaureusetöö on lõputööde automaatne analüüs ja tagasisidestamine. Lõputöö kirjutamise protsessi käigus tekib kirjutades nii stiili- kui ka grammatikavigu, mille parandamisele kulub palju aega ja energiat. Veelgi probleemsem on olukord, kus vead jäävad märkamata ja lõputöö kvaliteet seepärast kannatab. Seetõttu luuaksegi lõputööna programm, mis keeletehnoloogilisi lahendusi kasutades tuvastab vead ja annab soovitusi, kuidas neid parandada. Lõputöö analüüsijast peaks kasu saama tudengid ja juhendajad nii töö kirjutamise käigus kui ka lõpliku töö ülevaatusel. Sissejuhatus Igal aastal lõpetab Tartu Ülikooli üle 2000 tudengi, kellest igaüks peab lõpetamiseks kirjutama lõputöö [1]. Lõputöö on demonstratsioon teadmistest ja oskustest, mida tudeng on oma õpingute vältel omandanud. Lõputööd kirjutades on oluline kasutada korrektset ja akadeemilist keelekasutust ning -stiili, mis on omane teadustekstile. Lisaks kasutati ja arendati olemasolevaid lahendusi, mis olid leitud kas internetist või varasematest lõputöödest . Programm aitab järgida head lõputööle omast keelekasutust, -stiili ja -nõudeid. Töö idee tuli veebipõhise õpikeskkonna CGLearn lõputööde moodulist [CG0]. Lõputööde moodul võimaldab aga lõputöö kirjutajaid efektiivsemalt juhendada [CG1]. Näiteks saab moodulis nii juhendaja kui ka juhendatav lihtsasti jälgida lõputöö kirjutamise protsessi. Juhendatav saab ka logida lõputööle kulutatud aega ja jälgida graafikust kinni pidamist. CGLearni registreeritud tudengid saavad iga nädala alguses raporti oma lõputöö kirjalikust osast. Enne lõputöö analüsaatori loomist analüüsis veebirakendus ainult ingliskeelsete lõputööde tekstikeerukust. Igal nädalal esitab CGLearni õpikeskkond lõputööde analüsaatori programmi API-le päringu, mille vastusest saab tekstianalüüside tulemused kätte. Seejärel lisatakse tulemused raportisse, kust juhendatavad saavad näha automaatset tagasisidet oma lõputööde tekstidele. Selleks, et lõputööde analüsaator oleks lihtsasti kättesaadav kirjutajatele, kes pole CGLearn õpikeskkonda registreeritud, loodi programmi jaoks ka veebiliides. Lõputöö viimases faasis uuriti, kas loodud analüüsid olid eestikeelsete lõputööde kirjutamisel tudengite jaoks kasulikud. Selles lõputöös keskendutakse just teaduskeele analüüsile. Alternatiivid Eesti- ning ingliskeelsete tekstide puhul pole olemas programmi, mille põhieesmärgiks on lõputööde ehk akadeemilise teksti automaatne analüüs ja tagasisidestamine. 4.1 Ülesehitus Lõputöö analüsaatori jaoks loodi lahtise Application Programming Interface-ga (API) mikroteenus. Lõputöö analüsaatori ülesehitus Lõputöö teksti analüsaator on jagatud erinevateks väiksemateks analüsaatoriteks, millest igaühel on oma eesmärk. Joonisel 411 on näha lõputöö teksti analüsaatori töövoogu. 4.2 Veebiliides Lõputöö analüsaatoril on veebiliides (joonis 2), mida saab kasutada koheseks tekstianalüüsiks. Lõputöö analüsaatori veebiliides Liides on lihtsasti kasutatav. Kasutaja peab vaid kopeerima oma lõputöö teksti vastavasse tekstilahtrisse ning seejärel vajutama nupule „Analüüsi“. Lõputöös otsustati rakenduse backendi puhul Flaski kasuks, kuna selle kohta on palju dokumentatsiooni ning sellega on lihtne ja kiire luua REST arhitektuuril põhinevat arendusserverit. Antud lõputöös olid EstNLTK funktsionaalsustest suurima vaatluse all osalausestamine, sõnestamine, morfoloogilise analüüs ja lausestamine. Käesolevas lõputöös otsustati kasutada EstNLTK versiooni 1.6. morph_analysis kiht oli lõputöös korduvalt kasutatud sõnade analüüsi puhul võtmetähtsusega. Kuna EstNLTK teegis ei leidu nende tuvastamiseks sääraseid funktsionaalsusi, otsustati lõputöös luua klassid QuoteAnalyzer ja QuoteRemover. Erinevates instituutides võib lõputöö kirjutamisnõuetes tegumoe nõue varieeruda, aga arvutiteaduse instituudis on soovituslik kasutada mina-vormi asemel umbisikulist tegumoodi. Lõputöö analüsaatori programmis loodi umbisikulisuse kontrollimiseks Pythoni moodul impersonality_analyzer, mis analüüsib ja otsustab, kas lõputöö on täielikult umbisikulises tegumoes kirjutatud. On aga võimalik, et kuigi sisendteksti autor ei kasutanud lõputöös mina- või meie-vormi töö sisupeatükkides, siis sellegipoolest leidub mina-vorm kas tsitaadis, mõistes või väljaspool sisupeatükke (nt Kokkuvõtte peatükis). See leidis etteantud lõputööde tekstides üles kõik laused, kus esines mina- või meie-vorm.
< Lõputöös loodud ülekasutatud sõnade analüsaator on see-eest kirjutatud Pythonis ja analüüsib hetkel vaid eesti keelt. Võrreldes programmiga Synonymy, on tehtud ka lisaks edasiarendusi ja kohandusi vastavalt lõputööde analüsaatori API vajadustele. Lõputöös kasutatakse Eesti Keeleressursside Keskuse (EKRK) koostatud teaduskirjanduskorpuse lemmade sagedusloendit [550][551]. Näiteks oli ühes testimiseks kasutatud lõputöös mainitud ainet „Programmeerimise alused“ 31 korda, mistõttu märgiti ka lemma programmeerimine ülekasutatuks. Lõputöö analüsaatoris kontrollib lausepikkust moodul sentences_analyzer. 5.7 Kantseliidi analüsaator Lõputöö analüsaator kontrollib, kas sisendtekstis leidub kantseliiti. Kantseliidi kontrollid on suuresti üle võetud Kaarel Sõrmuse 2017. aasta bakalaureusekraadi lõputööst „Kantseliidi- ja paronüümituvastaja“ [571]. Sõrmuse lõputöös oli mitmeid analüüse, mis tuvastasid erinevaid kantseliitlikke tekstitunnuseid. Lõputöö analüsaatorisse tõsteti ümber poolt-tarindi, määrus saavas käändes, olema + kesksõna ja nominaalstiili analüüsid. Kuna Sõrmuse lõputöös oli kasutatud EstNLTK versiooni 1.4.1, pidi funktsioone muutma, et nad oleksid kohalduvad versiooniga 1.6. Lõputöö analüsaatoris on loodud eraldi moodul officialese_analyzer, mis otsib tekstis kantseliitlikke tunnuseid. Olema + kesksõna analüsaator on võetud Sõrmuse lõputööst , ent sellele on lisatud mõned reeglid. Analüsaator on võetud üle Sõrmuse lõputööst , ent sellele on tehtud mõned edasiarendused. Nominaalstiili analüüs on ümber tõstetud Sõrmuse lõputööst . Nominaalstiili kontrolli tulemus veebiliideses Sõrmuse nominaalstiili kontrollis oli veel lisareegleid, mida lõputöö teksti analüsaatorisse ümber ei tõstetud. Kuna lõputöö kirjutamise aastal oli CGLearn keskkonnas ainult 2 eestikeelse lõputöö kirjutajat, otsustati otsida testijaid ka mujalt. Seetõttu leiti 3 inimest juurde, kes kasutasid lõputöö teksti analüsaatori kasutamiseks loodud veebiliidest. Niiviisi sai määrata, kuivõrd palju võeti analüsaatori tulemusi oma lõputöö kirjutamisel arvesse. Niiviisi sai lihtsasti analüüsida, milliseid tulemusi lõputöö teksti analüsaator välja tõi. Sel hetkel oli lõputöö teksti analüsaatori programmis vaid kolm analüsaatorit: umbisikulisuse, lausepikkuse ja -keerulisuse ning korduvate sõnade analüsaator. Kuna mõlemad tudengid tegid umbisikulisuse analüsaatori tõttu oma lõputöö tekstis muudatusi, võib järeldada, et analüsaator oli neile kasulik. See ei olnud aga lõputöö kirjutamise ajal EstNLTK versioonis 1.6 veel võimalik. Tundub, et lõputöö teksti analüsaator on lõputöö kirjutamisel kasulik tööriist. Edasiarendamise võimalused Lõputöö teksti analüsaatorit on võimalik edasi arendada mitmel erineval viisil. Võttes näiteks selle sama peatüki pealkirja ja esimese lause: kui kasutaja kopeerib terve lõputöö teksti veebiliidesesse, siis kuna vaadeldava peatüki nime lõpus pole punkti, tuvastab EstNLTK tekstilõigu „5. Näiteks salvestati idee katsetamiseks Microsoft Word-is lõputöö tekst . Seetõttu otsustati, et lõputöö analüsaator võtab sisendiks siiski puhtal kujul teksti. See tähendab, et kasutaja peab võtma lahti oma lõputöö tekstifaili ja seejärel kopeerima liidesesse oma teksti. Üks variant, kuidas protsessi lihtsustada, oleks lisada veebiliidesele võimalus laadida üles oma lõputöö teksti fail. 7.4 Skaleeruvus Lõputöö analüsaator jookseb Ubuntu 18.04 serveril, millel on 4 tuuma ja 4 GB vahemälu. Kui analüüs tehti aga lõputöö teksti analüsaatori live-serveril, siis kulus aega 70.84 sekundit. Programmi põhiline eesmärk on aga analüüsida lõputöö tekste, mis on automaatselt CGLearnist analüüsiks saadetud. Igal pühapäeval saadetakse eestikeelsed lõputööd API-le, misjärel analüüsitakse kõik tööd. Näiteks võib tuua olukorra, kus kasutaja proovib lõputööde analüsaatorit teist korda. Näiteks CGLearn saadab iganädalaselt raporti koos lõputöö analüsaatori tulemustega. Kui lõputöö kirjutaja ei soovi valepositiivset lauset muuta, oleks kasulik, kui ta saaks märkida lauset sobivaks. CGLearnis on küll olemas kasutajaprofiilid, ent lõputööde analüsaatori backend veel kasutajaspetsiifilisi eelistusi ei toeta. Lõputööde tõhusam juhendamine https://www.ajakiri.ut.ee/artikkel/3364 (21.04.2020). [2] TÜ arvutiteaduse instituudis kaitstavate lõputööde nõuded ja hindamine. Tartu Ülikooli Eesti ja üldkeeleteaduse instituudi lõputöö . Tartu Ülikooli Arvutiteaduse instituudi lõputöö . |
|||||||
|
Tartu Ülikool Arvutiteaduse instituut Informaatika õppekava Karl Erik Karindi Lõputöö teksti analüsaator Bakalaureusetöö (9 EAP) Juhendaja: Raimond-Hendrik Tunnel, MSc Tartu 2020 Lõputöö teksti analüsaator Lühikokkuvõte: Bakalaureusetöö on lõputööde automaatne analüüs ja tagasisidestamine. Lõputöö kirjutamise protsessi käigus tekib kirjutades nii stiili- kui ka grammatikavigu, mille parandamisele kulub palju aega ja energiat. Veelgi probleemsem on olukord, kus vead jäävad märkamata ja lõputöö kvaliteet seepärast kannatab. Seetõttu luuaksegi lõputööna programm, mis keeletehnoloogilisi lahendusi kasutades tuvastab vead ja annab soovitusi, kuidas neid parandada. Lõputöö analüüsijast peaks kasu saama tudengid ja juhendajad nii töö kirjutamise käigus kui ka lõpliku töö ülevaatusel. | |||||||
|
Töö idee tuli veebipõhise õpikeskkonna CGLearn lõputööde moodulist [CG0]. [...] Lõputööde moodul võimaldab aga lõputöö kirjutajaid efektiivsemalt juhendada [CG1]. Näiteks saab moodulis nii juhendaja kui ka juhendatav lihtsasti jälgida lõputöö kirjutamise protsessi. [...] Juhendatav saab ka logida lõputööle kulutatud aega ja jälgida graafikust kinni pidamist. [...] CGLearni registreeritud tudengid saavad iga nädala alguses raporti oma lõputöö kirjalikust osast. Enne lõputöö analüsaatori loomist analüüsis veebirakendus ainult ingliskeelsete lõputööde tekstikeerukust | |||||||
|
analüsaator 221x |
Tartu Ülikool Arvutiteaduse instituut Informaatika õppekava Karl Erik Karindi Lõputöö teksti analüsaator Bakalaureusetöö (9 EAP) Juhendaja: Raimond-Hendrik Tunnel, MSc Tartu 2020 Lõputöö teksti analüsaator Lühikokkuvõte: Bakalaureusetöö on lõputööde automaatne analüüs ja tagasisidestamine. Analüsaatorid 17 5.1 Sisendteksti eeltöötlus 17 5.2 Mõiste- ja tsitaadituvastaja ning -eemaldaja 17 5.3 Viite-eemaldaja 20 5.4 Umbisikulise tegumoe analüsaator 21 5.5 Korduvate sõnade analüsaator 23 5.6 Lausepikkuse ja -keerulisuse analüsaator 27 5.7 Kantseliidi analüsaator 33 5.7.1 Poolt-tarind 34 5.7.2 Olema + kesksõna 35 5.7.3 Määrus saavas käändes 37 5.7.4 Nominaalstiil 38 5.8 Puuduvate komade analüsaator 39 6. Umbisikulise tegumoe analüsaatori tulemused 55 Viited 56 Litsents 60 1. Erinevate algoritmide ning analüüside koos katsetamiseks loodi analüsaatorist programm, mis toetab tudengit ja juhendajat töö kirjutamisel. Enne lõputöö analüsaatori loomist analüüsis veebirakendus ainult ingliskeelsete lõputööde tekstikeerukust. Seetõttu loodigi erinevaid analüsaatoreid , mis annavad tagasisidet levinumate tekstivigade kohta. Igal nädalal esitab CGLearni õpikeskkond lõputööde analüsaatori programmi API-le päringu, mille vastusest saab tekstianalüüside tulemused kätte. Selleks, et lõputööde analüsaator oleks lihtsasti kättesaadav kirjutajatele, kes pole CGLearn õpikeskkonda registreeritud, loodi programmi jaoks ka veebiliides. 4.1 Ülesehitus Lõputöö analüsaatori jaoks loodi lahtise Application Programming Interface-ga (API) mikroteenus. Mikroteenusele esitab päringu veebipõhine õpikeskkond CGLearn või analüsaatori jaoks loodud veebiliides (vt joonis 410). Lõputöö analüsaatori ülesehitus Lõputöö teksti analüsaator on jagatud erinevateks väiksemateks analüsaatoriteks , millest igaühel on oma eesmärk. Objektil on andmeväljad, kuhu hakatakse kõikide analüsaatorite tulemusi salvestama. Analüsaatorite ja eeltöötluse kohta on rohkem juttu peatükis ,, Analüsaatorid ”. Kui mingi spetsiifiline analüsaator on oma töö lõpetanud, salvestatakse selle tulemus eelmainitud Summary objekti sisse. Joonisel 411 on näha lõputöö teksti analüsaatori töövoogu. Analüsaatorid on üksteisest sõltumatud ja eraldatud. Kuna iga analüsaator on eraldi moodulis, on neid võimalik lihtsasti muuta. Modulaarse ülesehituse üks suurimaid boonuseid on ka see, et programmi on soovi korral lihtne lisada uusi analüsaatoreid . 4.2 Veebiliides Lõputöö analüsaatoril on veebiliides (joonis 2), mida saab kasutada koheseks tekstianalüüsiks. Lõputöö analüsaatori veebiliides Liides on lihtsasti kasutatav. Analüsaatorid Lõputööde analüsaatori programm jaguneb omakorda väiksemateks analüsaatoriteks , millest igaüks otsib sisendtekstis kindlat tüüpi murekohta. Kõik analüsaatorid asuvad programmi kaustas Services/Analysis. Järgnevates alampeatükkides tuleb juttu teksti eeltöötlusest, analüsaatoritest , nende loogikast ja tulemustest. 5.1 Sisendteksti eeltöötlus Enne seda, kui analüsaatorid saavad tööle hakata, peab teksti eeltöötlema. See objekt antakse kõikide järgnevate analüsaatorite käivitusfunktsioonidele kaasa. Kuna kõikidel analüsaatoritel on eeltöötlusest saadud infot vaja, on seda mõistlikum teha kohe alguses ainult ühe korra. Niiviisi on rakendus tunduvalt kiirem kui siis, kui iga analüsaator peaks analüüsikihid ise lisama. 5.2 Mõiste- ja tsitaadituvastaja ning -eemaldaja Programmi analüsaatorites on vaja eristada, kas tekstilõik on mõiste või tsitaat. Klassid on abianalüsaatorid analüsaatorite jaoks, millest tuleb juttu järgnevates alampeatükkides. Joonisel 511 on illustreeritud analüsaatori lõpptulemust, kus punasega on märgitud jutumärkide vahel olevad sõnad. Mõndades analüsaatorites piisab sellest, kui ainult tuvastatakse sõnad, mis on jutumärkide sees. Sellegipoolest on mõnes analüsaatoris , näiteks lausepikkuse- ja keerulisuse analüsaatoris , vaja jutumärkide vahel olev tekst eemaldada. QuoteRemover lausepuhastuse lõpptulemus QuoteRemover on kõige olulisem lausepikkuse- ja keerulisuse analüsaatoris , kus on vaja, et tsitaadid ei mõjutaks kuidagi lause keerukust. Selle kohta on rohkem infot alampeatükis ,,Lausepikkuse- ja keerulisuse analüsaator ”. 5.3 Viite-eemaldaja Programm vajab analüsaatorit , mis tuvastab ja eemaldab lausest kõik viited. Sarnaselt QuoteAnalyzer ja QuoteRemover klassidele, on CitationRemover teistele analüsaatoritele abiklassiks. 5.4 Umbisikulise tegumoe analüsaator Teadustekst peaks üldise arusaama järgi olema objektiivne ja neutraalne nii keeleliselt kui ka sisult [10]. Lõputöö analüsaatori programmis loodi umbisikulisuse kontrollimiseks Pythoni moodul impersonality_analyzer, mis analüüsib ja otsustab, kas lõputöö on täielikult umbisikulises tegumoes kirjutatud. Kui QuoteAnalyzer tuvastab, et sõna on jutumärkide vahel, siis umbisikulise tegumoe analüsaator seda arvesse ei võta. Analüsaator leiab lausest mina- või meie-vormis sõnad Umbisikulise tegumoe analüüs tagastab lõpuks kõik laused, kus eirati tsitaadi- või mõisteväliselt umbisikulist tegumoodi. Analüsaatoril on see-eest üks suurem puudus. Nimelt ei suuda analüsaator sisendteksti puhul eristada, kas tekst on kaldkirjas või mitte. Kuigi kaldkirja on lubatud kasutada nii tsitaadi kui ka mõiste jaoks, kohtleb analüsaator seda siiski tavalise tekstina. Katsetustest selgus, et analüsaator töötab hästi. 5.5 Korduvate sõnade analüsaator Üks levinumaid stiilivigasid on see, et tekstis kasutatakse teatud sõnu liiga palju.
< Ülekasutatud sõnade analüsaatori loogika põhineb suuresti GitHubi kasutaja omerdemirkan vabavaralisel programmil nimega Synonymy [12]. Lõputöös loodud ülekasutatud sõnade analüsaator on see-eest kirjutatud Pythonis ja analüüsib hetkel vaid eesti keelt. Võrreldes programmiga Synonymy, on tehtud ka lisaks edasiarendusi ja kohandusi vastavalt lõputööde analüsaatori API vajadustele. Kui sõna esineb tõepoolest harilikust märgatavalt rohkem, siis märgistab analüsaator sõna ülekasutatuks. Korduvate sõnade analüsaator töötab järgnevalt: Lemmatiseerimine Kasutatakse EstNLTK morfoloogilise analüüsi kihti, et leida iga sõna lemma. Analüsaatori tulemusi saab näha lisades. 5.6 Lausepikkuse ja -keerulisuse analüsaator Emakeeleseltsi väitel peab selge tekst olema lihtsa ja loogilise lauseehitusega [14]. Lõputöö analüsaatoris kontrollib lausepikkust moodul sentences_analyzer. Kuna loetelust ei ole üldiselt lugejal keeruline aru saada, ei tohiks ka lausepikkuse ja -keerulisuse analüsaator seda keerulise lausena välja tuua. Kuna lause ei vasta eelmainitud pika või keerulise lause reeglile, siis analüsaator ei too seda lauset välja. Üks analüsaatori olulisemaid omadusi on, et see ei võta arvesse jutumärkide vahel olevaid sõnu. Analüsaator märgistaks tsitaadi ilma lisakontrollita liiga pikaks. Kuna see aga ei vasta liiga pika või keerulise lause tuvastamise reeglitele, ei too analüsaator seda lauset välja. Lausepikkuse- ja keerulisuse analüsaator töötab hästi. Katsetamisest ja tagasisidest on selgunud, et analüsaator toob tõepoolest välja laused, mis võivad lugeja jaoks olla liiga pikad või keerulised. Teksti autor peab see-eest ise otsustama, kas analüsaatori välja toodud lause on ka tõepoolest liiga pikk. Näiteks klassifitseeris analüsaator järgneva lause keeruliseks: Kuna käesolevas uurimistöös uuritakse verbe, mida on kasutatud otsekõne saatelausetes, ning vähesel määral ka saatelausete paiknemist, siis selles peatükis antakse lühike ülevaade, kuidas üldse tegelaskõnet kirjanduses on võimalik edasi anda ning milline tähtsus on saatelausetel dialoogide puhul. Seetõttu on lausepikkuse ja -keerulisuse analüsaator teksti autorile siiski kõigest abivahend ning kirjutaja peab lõpuks ise otsustama, kas muudab lauset. 5.7 Kantseliidi analüsaator Lõputöö analüsaator kontrollib, kas sisendtekstis leidub kantseliiti. Lõputöö analüsaatorisse tõsteti ümber poolt-tarindi, määrus saavas käändes, olema + kesksõna ja nominaalstiili analüüsid. Katsetamisest selgus aga, et mõndasid analüsaatoreid sai ka edasi arendada. Esialgsed analüsaatorid andsid tihti valepositiivseid vastuseid. Lõputöö analüsaatoris on loodud eraldi moodul officialese_analyzer, mis otsib tekstis kantseliitlikke tunnuseid. Moodul kutsub välja eri funktsioone ehk analüsaatoreid , millest igaüks otsib tekstist kindlat sorti kantseliidi tunnust (vt joonis 570). Kantseliidi analüsaatori jagunemine Mooduli analüsaatorid vaatavad igat lauset eraldiseisvalt. Selleks kasutatakse VISLCG3 süntaksi analüsaatorit , mis on EstNLTK teegist kättesaadav [572]. Sarnaselt lause-, sõna- ja morfoloogilise analüüsikihtidele (vt joonis 460), lisab süntaksi analüsaator igale sõnale süntaksi analüüsikihi. Ka kantseliidi analüsaatorites kasutatakse sõltuvussüntaksi puud, et leida sõnade ülemusi. Kõik 4 kantseliidi analüsaatorit analüüsivad lauset. Analüsaatoritest on juttu järgnevates alampeatükkides. Kui eelnev sõna on omastavas käändes, tuvastab analüsaator , et lauses on poolt-tarind [571]. Kõikides lausetes, kus analüsaator oli välja toonud poolt-tarindi, see ka tõepoolest lauses sisaldus. Olema + kesksõna analüsaator on võetud Sõrmuse lõputööst, ent sellele on lisatud mõned reeglid. Olema kesksõna kontrolli tulemus veebiliideses Katsetamisest selgus, et analüsaator toob tihti esile valepositiivseid tulemusi. Analüsaator toob välja omadussõnad, mille lõpus on -v või -tav. Kuna sõna huvitav puhul ei ole tegu kesksõna, vaid omadussõnaga, ei tohiks analüsaator seda kantseliidina välja tuua. Analüsaator on võetud üle Sõrmuse lõputööst, ent sellele on tehtud mõned edasiarendused. Katsetamisest selgus see-eest, et analüsaatori tulemustes esines palju valepositiivseid kirjeid. Lause Arsti sooviks on teha head on tõepoolest kantseliitlik, ent analüsaator tõi välja ka sõnapaare, kus probleemi tegelikult ei esinenud. Näiteks pidas analüsaator kantseliitlikuks järgmised sõnapaarid: näiteks on; lisaks on; selleks on; selliseks on ja tulemuseks on. Kuigi määrus saavas käändes analüsaator võib tekitada palju valepositiivseid, on sellel siiski potentsiaali olla kasulik. Nominaalstiili kontrolli tulemus veebiliideses Sõrmuse nominaalstiili kontrollis oli veel lisareegleid, mida lõputöö teksti analüsaatorisse ümber ei tõstetud. Katsetamisest selgus, et nominaalstiili analüsaator niivõrd palju valepositiivseid tulemusi ei andnud. 5.8 Puuduvate komade analüsaator Programmi katsetades märgati, et sisendtekstides leidus komavigu. Seetõttu otsustati luua analüsaator , mis leiab puuduvate komadega laused ja annab seejärel soovituse, kuhu vajalikud komad panna. Analüsaator asub moodulis missing_commas_analyzer. Analüsaatori puhul otsustati katsetada, kas on võimalik kasutada EstNLTK ClauseSegmenter osalausestajat ja selle erinevaid režiime selleks, et leida sisendtekstis puuduvad komad. Analüsaatori töö algatamisel luuakse esmaselt kaks ClauseSegmenter klassi isendit. Lauses on analüsaatori reeglite järgi puuduv koma siis, kui osalausestaja B osalausete arv on suurem kui osalausestaja A osalausete arv. Puuduvate komade analüsaatori efektiivsus ja kasulikkus sõltub suuresti sisendteksti korrektsusest. Näiteks leidis puuduvate komade analüsaator ühe 6000-sõnalise sisendteksti puhul 9 komaveaga lauset, millest 8 olid tõepoolest vigased ja üks oli valepositiivne tulemus. Seetõttu toob analüsaator välja, et teatavad erinevused ette käib koma. Seetõttu leiti 3 inimest juurde, kes kasutasid lõputöö teksti analüsaatori kasutamiseks loodud veebiliidest. Igas moodulis olid küsimused ühe spetsiifilise analüsaatori kohta. Mooduli lõpus paluti hinnata analüsaatori kasulikkust skaalal 0-10, kus 0 tähendas, et analüsaator ei olnud üldse kasulik ning 10 tähendas, et analüsaator oli väga kasulik. Umbisikulisuse analüsaatori moodulis paluti vastajatel märkida tõeseks väited, mis kehtisid analüüsi tulemuste kohta. Lausepikkuse ja -keerulisuse analüsaatori puhul paluti vastata, mitu lauset see esile tõi. Niiviisi sai määrata, kuivõrd palju võeti analüsaatori tulemusi oma lõputöö kirjutamisel arvesse. Lisaks paluti kommenteerida analüsaatori rangust ehk seda, kas välja toodud laused olid liiga pikad või olid need tegelikult sobivad. Korduvate sõnade analüsaatori puhul paluti märkida väited, mis kehtisid analüsaatori tulemuste kohta. Paluti kommenteerida, kas analüsaator tõi välja sobival arvul sõnu, kuivõrd palju sai teha muudatusi, kuivõrd palju tegelikult tehti muudatusi. Kantseliidi analüsaatori juures paluti hinnata igat spetsiifilist kantseliidi analüsaatorit eraldi. Küsiti, mitu tulemust iga analüsaator välja tõi. Seejärel paluti hinnata iga kantseliidi analüsaatori kasulikkust skaalal 0-10. Puuduvate komade analüsaatori puhul paluti vastata, mitu puuduva komaga lauset tõi analüsaator välja. Niiviisi sai lihtsasti analüüsida, milliseid tulemusi lõputöö teksti analüsaator välja tõi. Sel hetkel oli lõputöö teksti analüsaatori programmis vaid kolm analüsaatorit : umbisikulisuse, lausepikkuse ja -keerulisuse ning korduvate sõnade analüsaator . Umbisikulisuse analüsaatori puhul vastasid mõlemad tudengid, et analüüs tuvastas isikulised sõnad, mille nad muutsid ümber umbisikulisteks. 10-palli skaalal hinnati analüsaatori kasulikkust hinnetega 6 ja 10. Kuna mõlemad tudengid tegid umbisikulisuse analüsaatori tõttu oma lõputöö tekstis muudatusi, võib järeldada, et analüsaator oli neile kasulik. Lausepikkuse ja -keerulisuse analüsaatori kohta vastasid mõlemad testijad, et analüsaator ei tuvastanud ühtegi pikka lauset. Sellegipoolest hinnati analüsaatorit hinnetega 6 ja 8. Sellest võib järeldada, et hoolimata sellest, et analüsaator ei tuvastanud pikki lauseid, oli sellest siiski kasu. Analüsaatori tulemus andis kasutajatele kindlust, et nende tekstis ei leidu liiga pikkasid lauseid. Korduvate sõnade analüsaatori puhul leidis üks vastaja, et analüsaator tõi välja liiga palju korduvaid sõnu. Teine leidis see-eest, et analüsaator tõi välja sobival arvul sõnu. Lisaks leidsid mõlemad, et kõiki sõnu, mida analüsaator välja tõi, ei saanud asendada teiste sõnadega. Korduvate sõnade analüsaatorile anti hindeks 8 ja 10. Selle põhjal võiks järeldada, et kasutajatele oli sellest analüsaatorist kõige rohkem kasu. Kommentaarina lisati, et oleks hea, kui korduvate sõnade analüsaator pakuks sõnadele sünonüüme. 6.3 Teine iteratsioon Teiseks iteratsiooniks lisati töösse kantseliidi analüsaator . Umbisikulisuse analüsaatori puhul vastas 4 testijat, et analüüs ei tuvastanud tekstis mitte ühtegi mina- või meie-vormis sõna. Seetõttu hinnati umbisikulisuse analüsaatorit ka võrdlemisi keskmiselt, neli vastanut andis hindeks 5 ning üks andis hindeks 4 (vt joonis 630). Lausepikkuse ja -keerulisuse analüsaator ei tuvastanud kahel inimesel mitte ühtegi liiga pikka lauset. Kaks vastanut muutsid analüsaatori tulemusena oma lauseid. Viiest vastanust leidsid kolm, et analüsaator töötab hästi ja esile tõstetud laused olid nende meelest tõepoolest natuke liiga pikad. Neljas vastanu tõi lausepikkuse ja -keerulisuse analüsaatori kriitikana välja selle, et lausestaja pidas lõigu pealkirja ja esimest lauset üheks lauseks, mistõttu analüsaator andis valepositiivseid tulemusi. Kuna enamik vastanutest oli analüsaatori tulemustega rahul, jäeti see järgmiseks iteratsiooniks samaks. Lausepikkuse- ja keerulisuse analüsaatori hinnangud 2. iteratsioonis Kokkuvõttes hinnati lausepikkuse ja -keerulisuse analüsaatorit positiivselt. Korduvate sõnade analüsaatori puhul leidis kolm vastanut, et analüüs tõi välja sobival arvul korduvaid sõnu. Kaks vastanut arvas see-eest, et analüsaator liiga palju korduvaid sõnu välja toonud. Korduvate sõnade analüsaatori hinnangud on välja toodud joonisel 632. Hinnangutest võib järeldada, et korduvate sõnade analüsaator oli vastanute jaoks üks kasulikumaid analüsaatoreid . Korduvate sõnade analüsaatori hinnangud 2. iteratsioonis Edasiarendusena lisati kantseliidi analüsaator . Testijatel paluti igat kantseliiditüübi analüsaatorit eraldi hinnata 10-palli skaalal. Joonisel 633 on välja toodud kõikide kantseliidi analüsaatorite hinnangud. Kantseliidi analüsaatorite hinnangud 2. iteratsioonis Tagasisidest selgus, et testijate jaoks oli kantseliidi analüsaatoritest kõige kasulikum poolt-tarindi analüsaator . Ka katsetamisel tundus, et see analüsaator andis kõige vähem valepositiivseid tulemusi. Määrus saavas käändes analüsaatorit hinnati erinevalt. Kolme vastanu jaoks oli analüsaatorist palju kasu, ent kahe jaoks peaaegu üldse mitte. Olema + kesksõna ja nominaalstiili hindasid kõik vastanud võrreldes teiste kantseliidi analüsaatoritega madalamalt. Mõned vastanud panid hindeks 0, kuna nende jaoks ei toonud analüsaatorid midagi välja. Olema + kesksõna analüsaatori hinnangud on aga vastavuses varasemate katsetustega, sest ka katsetustes leidus palju valepositiivseid tulemusi. Korduvate sõnade analüsaatorile lisati reegel, et sõna ei võeta arvesse, kui see on jutumärkide vahel. Vahetati välja korduvate sõnade analüsaatori lemmade sageduste andmestik. Lausepikkuse ja -keerulisuse analüsaatoris tehti parandus, et joonise või peatüki pealkiri ei oleks kokku liidetud lõigu või peatüki esimese lausega. Lisati puuduvate komade analüsaator . Umbisikulisuse analüsaator ei tuvastanud kolmel testijal mitte ühtegi mina- või meie-vormis sõna. Nagu näha jooniselt 640, hinnati analüsaatori kasulikkust kokkuvõttes võrdlemisi keskmiselt. Võrreldes eelmise iteratsiooniga oli analüsaatorit hinnatud sarnaselt. Lausepikkuse ja -keerulisuse analüsaatorit hinnati seekord paremini kui teises iteratsioonis. Kõik viis testijat leidsid, et analüsaatori rangus oli sobiv. Ranguseks peetakse analüsaatori puhul seda, kas välja toodud laused on tõesti pikad või keerulised. Joonisel 641 on näha lausepikkuse ja -keerulisuse analüsaatori kasulikkuse hinnanguid. Lausepikkuse ja -keerulisuse analüsaatori hinnangud 3. iteratsioonis Korduvate sõnade analüsaatori puhul leidsid 3 vastanut, et analüüs tõi välja sobival arvul sõnu. Korduvate sõnade analüsaatori hinnangud 3. iteratsioonis Nagu näha jooniselt 642, on võrreldes eelmise iteratsiooniga korduvate sõnade analüsaatori kasulikkuse hinnangud madalamad. Analüsaatorit peaks uuesti katsetama karmimate reeglitega, kus sõnu ei märgita niivõrd leebelt liigselt korduvateks. Kantseliidi analüsaatoreid oli hinnatud sarnaselt teisele iteratsioonile, ent seekord said analüsaatorid rohkem positiivset vastukaja. Kantseliidi analüsaatorite hinnangud 3. iteratsioonis Tundub, et seekord olid olema + kesksõna ja nominaalstiili analüsaatorid kasulikumad kui teises iteratsioonis. Üks vastanu kommenteeris isegi, et poolt-tarind ja olema-kesksõna analüsaatorid olid isegi valepositiivsete tulemuste puhul kasulikud, kuna need tuletasid meelde korrektset kirjastiili. Kolmandas iteratsioonis lisati edasiarendusena puuduvate komade analüsaator . Neljal vastanul ei toonud puuduvate komade analüsaator välja ühtegi komaviga. Joonisel 644 on toodud välja analüsaatori tuvastatud laused ning osalaused, mille ette soovitati lisada koma. Puuduvate komade analüsaatori kasulikkust hinnati positiivselt. Puuduvate komade analüsaatori hinnanguid on näha joonisel 645. Puuduvate komade analüsaatori hinnangud 3. iteratsioonis Kokkuvõttes leiti, et analüsaatoreid hinnati positiivselt. Tundub, et lõputöö teksti analüsaator on lõputöö kirjutamisel kasulik tööriist. Edasiarendamise võimalused Lõputöö teksti analüsaatorit on võimalik edasi arendada mitmel erineval viisil. Siin peatükis on välja toodud mõned võimalused analüsaatori edasi arendamiseks. Umbisikulise tegumoe analüsaatori põhiline eesmärk on hoida autori isikut tagaplaanil, ent antud näite puhul see oma eesmärki ei täida. Seetõttu otsustati, et lõputöö analüsaator võtab sisendiks siiski puhtal kujul teksti. 7.2 Teistele keeltele laiendamine Kuigi programmi ülekasutatud sõnade analüsaator töötab ainult eesti keelega, saab seda laiendada ja kasutada ka ingliskeelsete tekstidega. Seejärel oleks vaja viia andmed sobivale kujule, et edasised analüsaatorite funktsioonid saaksid neid kasutada samamoodi, nagu on tehtud eestikeelsete tekstide puhul. 7.4 Skaleeruvus Lõputöö analüsaator jookseb Ubuntu 18.04 serveril, millel on 4 tuuma ja 4 GB vahemälu. Kui analüüs tehti aga lõputöö teksti analüsaatori live-serveril, siis kulus aega 70.84 sekundit. 7.5 Kasutaja eelistuste salvestamine Üks analüsaatori puudujääke on see, et kasutaja ei saa hetkel valida, missuguseid analüüse ta mingitel spetsiifilistel tekstilõikudel rakendada tahab. Näiteks võib tuua olukorra, kus kasutaja proovib lõputööde analüsaatorit teist korda. Analüüsis A ütles lausepikkuse ja -keerulisuse analüsaator , et mingi kindel lause on liiga pikk. Näiteks CGLearn saadab iganädalaselt raporti koos lõputöö analüsaatori tulemustega. CGLearnis on küll olemas kasutajaprofiilid, ent lõputööde analüsaatori backend veel kasutajaspetsiifilisi eelistusi ei toeta. Umbisikulise tegumoe analüsaatori tulemused Viited [1] Tartu Ülikool, kõrghariduse esimese astme ja integreeritud õppe lõpetanud (alates 1985). |
|||||||
|
Analüsaatorid 17 5.1 Sisendteksti eeltöötlus 17 5.2 Mõiste- ja tsitaadituvastaja ning -eemaldaja 17 5.3 Viite-eemaldaja 20 5.4 Umbisikulise tegumoe analüsaator 21 5.5 Korduvate sõnade analüsaator 23 5.6 Lausepikkuse ja -keerulisuse analüsaator 27 5.7 Kantseliidi analüsaator 33 5.7.1 Poolt-tarind 34 5.7.2 Olema + kesksõna 35 5.7.3 Määrus saavas käändes 37 5.7.4 Nominaalstiil 38 5.8 Puuduvate komade analüsaator 39 6. | |||||||
|
Objektil on andmeväljad, kuhu hakatakse kõikide analüsaatorite tulemusi salvestama. [...] Analüsaatorite ja eeltöötluse kohta on rohkem juttu peatükis ,, Analüsaatorid ”. Kui mingi spetsiifiline analüsaator on oma töö lõpetanud, salvestatakse selle tulemus eelmainitud Summary objekti sisse | |||||||
|
Joonisel 411 on näha lõputöö teksti analüsaatori töövoogu. [...] Analüsaatorid on üksteisest sõltumatud ja eraldatud. Kuna iga analüsaator on eraldi moodulis, on neid võimalik lihtsasti muuta. Modulaarse ülesehituse üks suurimaid boonuseid on ka see, et programmi on soovi korral lihtne lisada uusi analüsaatoreid . 4.2 Veebiliides Lõputöö analüsaatoril on veebiliides (joonis 2), mida saab kasutada koheseks tekstianalüüsiks. [...] Lõputöö analüsaatori veebiliides Liides on lihtsasti kasutatav | |||||||
|
Analüsaatorid Lõputööde analüsaatori programm jaguneb omakorda väiksemateks analüsaatoriteks , millest igaüks otsib sisendtekstis kindlat tüüpi murekohta. Kõik analüsaatorid asuvad programmi kaustas Services/Analysis. Järgnevates alampeatükkides tuleb juttu teksti eeltöötlusest, analüsaatoritest , nende loogikast ja tulemustest. 5.1 Sisendteksti eeltöötlus Enne seda, kui analüsaatorid saavad tööle hakata, peab teksti eeltöötlema. | |||||||
|
See objekt antakse kõikide järgnevate analüsaatorite käivitusfunktsioonidele kaasa. [...] Kuna kõikidel analüsaatoritel on eeltöötlusest saadud infot vaja, on seda mõistlikum teha kohe alguses ainult ühe korra. Niiviisi on rakendus tunduvalt kiirem kui siis, kui iga analüsaator peaks analüüsikihid ise lisama. 5.2 Mõiste- ja tsitaadituvastaja ning -eemaldaja Programmi analüsaatorites on vaja eristada, kas tekstilõik on mõiste või tsitaat. [...] Klassid on abianalüsaatorid analüsaatorite jaoks, millest tuleb juttu järgnevates alampeatükkides | |||||||
|
QuoteRemover lausepuhastuse lõpptulemus QuoteRemover on kõige olulisem lausepikkuse- ja keerulisuse analüsaatoris , kus on vaja, et tsitaadid ei mõjutaks kuidagi lause keerukust. Selle kohta on rohkem infot alampeatükis ,,Lausepikkuse- ja keerulisuse analüsaator ”. 5.3 Viite-eemaldaja Programm vajab analüsaatorit , mis tuvastab ja eemaldab lausest kõik viited. [...] Sarnaselt QuoteAnalyzer ja QuoteRemover klassidele, on CitationRemover teistele analüsaatoritele abiklassiks | |||||||
|
Kui QuoteAnalyzer tuvastab, et sõna on jutumärkide vahel, siis umbisikulise tegumoe analüsaator seda arvesse ei võta. [...] Analüsaator leiab lausest mina- või meie-vormis sõnad Umbisikulise tegumoe analüüs tagastab lõpuks kõik laused, kus eirati tsitaadi- või mõisteväliselt umbisikulist tegumoodi. [...] Analüsaatoril on see-eest üks suurem puudus. Nimelt ei suuda analüsaator sisendteksti puhul eristada, kas tekst on kaldkirjas või mitte. [...] Kuigi kaldkirja on lubatud kasutada nii tsitaadi kui ka mõiste jaoks, kohtleb analüsaator seda siiski tavalise tekstina | |||||||
|
Katsetustest selgus, et
analüsaator
töötab hästi. [...] 5.5 Korduvate sõnade
analüsaator
Üks levinumaid stiilivigasid on see, et tekstis kasutatakse teatud sõnu liiga palju. [...] < | |||||||
|
Lausepikkuse- ja keerulisuse analüsaator töötab hästi. Katsetamisest ja tagasisidest on selgunud, et analüsaator toob tõepoolest välja laused, mis võivad lugeja jaoks olla liiga pikad või keerulised. Teksti autor peab see-eest ise otsustama, kas analüsaatori välja toodud lause on ka tõepoolest liiga pikk. Näiteks klassifitseeris analüsaator järgneva lause keeruliseks: Kuna käesolevas uurimistöös uuritakse verbe, mida on kasutatud otsekõne saatelausetes, ning vähesel määral ka saatelausete paiknemist, siis selles peatükis antakse lühike ülevaade, kuidas üldse tegelaskõnet kirjanduses on võimalik edasi anda ning milline tähtsus on saatelausetel dialoogide puhul. | |||||||
|
Lõputöö analüsaatoris on loodud eraldi moodul officialese_analyzer, mis otsib tekstis kantseliitlikke tunnuseid. Moodul kutsub välja eri funktsioone ehk analüsaatoreid , millest igaüks otsib tekstist kindlat sorti kantseliidi tunnust (vt joonis 570). [...] Kantseliidi analüsaatori jagunemine Mooduli analüsaatorid vaatavad igat lauset eraldiseisvalt. [...] Selleks kasutatakse VISLCG3 süntaksi analüsaatorit , mis on EstNLTK teegist kättesaadav [572]. Sarnaselt lause-, sõna- ja morfoloogilise analüüsikihtidele (vt joonis 460), lisab süntaksi analüsaator igale sõnale süntaksi analüüsikihi | |||||||
|
Nominaalstiili kontrolli tulemus veebiliideses Sõrmuse nominaalstiili kontrollis oli veel lisareegleid, mida lõputöö teksti analüsaatorisse ümber ei tõstetud. [...] Katsetamisest selgus, et nominaalstiili analüsaator niivõrd palju valepositiivseid tulemusi ei andnud. [...] 5.8 Puuduvate komade analüsaator Programmi katsetades märgati, et sisendtekstides leidus komavigu. Seetõttu otsustati luua analüsaator , mis leiab puuduvate komadega laused ja annab seejärel soovituse, kuhu vajalikud komad panna. Analüsaator asub moodulis missing_commas_analyzer. Analüsaatori puhul otsustati katsetada, kas on võimalik kasutada EstNLTK ClauseSegmenter osalausestajat ja selle erinevaid režiime selleks, et leida sisendtekstis puuduvad komad | |||||||
|
Igas moodulis olid küsimused ühe spetsiifilise analüsaatori kohta. Mooduli lõpus paluti hinnata analüsaatori kasulikkust skaalal 0-10, kus 0 tähendas, et analüsaator ei olnud üldse kasulik ning 10 tähendas, et analüsaator oli väga kasulik. Umbisikulisuse analüsaatori moodulis paluti vastajatel märkida tõeseks väited, mis kehtisid analüüsi tulemuste kohta. Lausepikkuse ja -keerulisuse analüsaatori puhul paluti vastata, mitu lauset see esile tõi. [...] Niiviisi sai määrata, kuivõrd palju võeti analüsaatori tulemusi oma lõputöö kirjutamisel arvesse. [...] Lisaks paluti kommenteerida analüsaatori rangust ehk seda, kas välja toodud laused olid liiga pikad või olid need tegelikult sobivad. Korduvate sõnade analüsaatori puhul paluti märkida väited, mis kehtisid analüsaatori tulemuste kohta. Paluti kommenteerida, kas analüsaator tõi välja sobival arvul sõnu, kuivõrd palju sai teha muudatusi, kuivõrd palju tegelikult tehti muudatusi. [...] Kantseliidi analüsaatori juures paluti hinnata igat spetsiifilist kantseliidi analüsaatorit eraldi. Küsiti, mitu tulemust iga analüsaator välja tõi. Seejärel paluti hinnata iga kantseliidi analüsaatori kasulikkust skaalal 0-10. Puuduvate komade analüsaatori puhul paluti vastata, mitu puuduva komaga lauset tõi analüsaator välja | |||||||
|
Sel hetkel oli lõputöö teksti analüsaatori programmis vaid kolm analüsaatorit : umbisikulisuse, lausepikkuse ja -keerulisuse ning korduvate sõnade analüsaator . Umbisikulisuse analüsaatori puhul vastasid mõlemad tudengid, et analüüs tuvastas isikulised sõnad, mille nad muutsid ümber umbisikulisteks. 10-palli skaalal hinnati analüsaatori kasulikkust hinnetega 6 ja 10. Kuna mõlemad tudengid tegid umbisikulisuse analüsaatori tõttu oma lõputöö tekstis muudatusi, võib järeldada, et analüsaator oli neile kasulik. Lausepikkuse ja -keerulisuse analüsaatori kohta vastasid mõlemad testijad, et analüsaator ei tuvastanud ühtegi pikka lauset. Sellegipoolest hinnati analüsaatorit hinnetega 6 ja 8. Sellest võib järeldada, et hoolimata sellest, et analüsaator ei tuvastanud pikki lauseid, oli sellest siiski kasu. Analüsaatori tulemus andis kasutajatele kindlust, et nende tekstis ei leidu liiga pikkasid lauseid. Korduvate sõnade analüsaatori puhul leidis üks vastaja, et analüsaator tõi välja liiga palju korduvaid sõnu. Teine leidis see-eest, et analüsaator tõi välja sobival arvul sõnu. Lisaks leidsid mõlemad, et kõiki sõnu, mida analüsaator välja tõi, ei saanud asendada teiste sõnadega. [...] Korduvate sõnade analüsaatorile anti hindeks 8 ja 10. Selle põhjal võiks järeldada, et kasutajatele oli sellest analüsaatorist kõige rohkem kasu. Kommentaarina lisati, et oleks hea, kui korduvate sõnade analüsaator pakuks sõnadele sünonüüme. [...] 6.3 Teine iteratsioon Teiseks iteratsiooniks lisati töösse kantseliidi analüsaator . [...] Umbisikulisuse analüsaatori puhul vastas 4 testijat, et analüüs ei tuvastanud tekstis mitte ühtegi mina- või meie-vormis sõna. [...] Seetõttu hinnati umbisikulisuse analüsaatorit ka võrdlemisi keskmiselt, neli vastanut andis hindeks 5 ning üks andis hindeks 4 (vt joonis 630). Lausepikkuse ja -keerulisuse analüsaator ei tuvastanud kahel inimesel mitte ühtegi liiga pikka lauset. [...] Kaks vastanut muutsid analüsaatori tulemusena oma lauseid. Viiest vastanust leidsid kolm, et analüsaator töötab hästi ja esile tõstetud laused olid nende meelest tõepoolest natuke liiga pikad. Neljas vastanu tõi lausepikkuse ja -keerulisuse analüsaatori kriitikana välja selle, et lausestaja pidas lõigu pealkirja ja esimest lauset üheks lauseks, mistõttu analüsaator andis valepositiivseid tulemusi. [...] Kuna enamik vastanutest oli analüsaatori tulemustega rahul, jäeti see järgmiseks iteratsiooniks samaks. [...] Lausepikkuse- ja keerulisuse analüsaatori hinnangud 2. iteratsioonis Kokkuvõttes hinnati lausepikkuse ja -keerulisuse analüsaatorit positiivselt. [...] Korduvate sõnade analüsaatori puhul leidis kolm vastanut, et analüüs tõi välja sobival arvul korduvaid sõnu. Kaks vastanut arvas see-eest, et analüsaator liiga palju korduvaid sõnu välja toonud. [...] Korduvate sõnade analüsaatori hinnangud on välja toodud joonisel 632. Hinnangutest võib järeldada, et korduvate sõnade analüsaator oli vastanute jaoks üks kasulikumaid analüsaatoreid . [...] Korduvate sõnade analüsaatori hinnangud 2. iteratsioonis Edasiarendusena lisati kantseliidi analüsaator . Testijatel paluti igat kantseliiditüübi analüsaatorit eraldi hinnata 10-palli skaalal. Joonisel 633 on välja toodud kõikide kantseliidi analüsaatorite hinnangud. [...] Kantseliidi analüsaatorite hinnangud 2. iteratsioonis Tagasisidest selgus, et testijate jaoks oli kantseliidi analüsaatoritest kõige kasulikum poolt-tarindi analüsaator . Ka katsetamisel tundus, et see analüsaator andis kõige vähem valepositiivseid tulemusi. Määrus saavas käändes analüsaatorit hinnati erinevalt. Kolme vastanu jaoks oli analüsaatorist palju kasu, ent kahe jaoks peaaegu üldse mitte. Olema + kesksõna ja nominaalstiili hindasid kõik vastanud võrreldes teiste kantseliidi analüsaatoritega madalamalt. Mõned vastanud panid hindeks 0, kuna nende jaoks ei toonud analüsaatorid midagi välja. Olema + kesksõna analüsaatori hinnangud on aga vastavuses varasemate katsetustega, sest ka katsetustes leidus palju valepositiivseid tulemusi. [...] Korduvate sõnade analüsaatorile lisati reegel, et sõna ei võeta arvesse, kui see on jutumärkide vahel. Vahetati välja korduvate sõnade analüsaatori lemmade sageduste andmestik. Lausepikkuse ja -keerulisuse analüsaatoris tehti parandus, et joonise või peatüki pealkiri ei oleks kokku liidetud lõigu või peatüki esimese lausega. Lisati puuduvate komade analüsaator . Umbisikulisuse analüsaator ei tuvastanud kolmel testijal mitte ühtegi mina- või meie-vormis sõna. [...] Nagu näha jooniselt 640, hinnati analüsaatori kasulikkust kokkuvõttes võrdlemisi keskmiselt. Võrreldes eelmise iteratsiooniga oli analüsaatorit hinnatud sarnaselt. Lausepikkuse ja -keerulisuse analüsaatorit hinnati seekord paremini kui teises iteratsioonis | |||||||
|
Kõik viis testijat leidsid, et analüsaatori rangus oli sobiv. Ranguseks peetakse analüsaatori puhul seda, kas välja toodud laused on tõesti pikad või keerulised. Joonisel 641 on näha lausepikkuse ja -keerulisuse analüsaatori kasulikkuse hinnanguid. [...] Lausepikkuse ja -keerulisuse analüsaatori hinnangud 3. iteratsioonis Korduvate sõnade analüsaatori puhul leidsid 3 vastanut, et analüüs tõi välja sobival arvul sõnu | |||||||
|
Korduvate sõnade analüsaatori hinnangud 3. iteratsioonis Nagu näha jooniselt 642, on võrreldes eelmise iteratsiooniga korduvate sõnade analüsaatori kasulikkuse hinnangud madalamad. [...] Analüsaatorit peaks uuesti katsetama karmimate reeglitega, kus sõnu ei märgita niivõrd leebelt liigselt korduvateks. Kantseliidi analüsaatoreid oli hinnatud sarnaselt teisele iteratsioonile, ent seekord said analüsaatorid rohkem positiivset vastukaja. [...] Kantseliidi analüsaatorite hinnangud 3. iteratsioonis Tundub, et seekord olid olema + kesksõna ja nominaalstiili analüsaatorid kasulikumad kui teises iteratsioonis. [...] Üks vastanu kommenteeris isegi, et poolt-tarind ja olema-kesksõna analüsaatorid olid isegi valepositiivsete tulemuste puhul kasulikud, kuna need tuletasid meelde korrektset kirjastiili. Kolmandas iteratsioonis lisati edasiarendusena puuduvate komade analüsaator . Neljal vastanul ei toonud puuduvate komade analüsaator välja ühtegi komaviga. [...] Joonisel 644 on toodud välja analüsaatori tuvastatud laused ning osalaused, mille ette soovitati lisada koma. Puuduvate komade analüsaatori kasulikkust hinnati positiivselt. Puuduvate komade analüsaatori hinnanguid on näha joonisel 645. [...] Puuduvate komade analüsaatori hinnangud 3. iteratsioonis Kokkuvõttes leiti, et analüsaatoreid hinnati positiivselt. [...] Tundub, et lõputöö teksti analüsaator on lõputöö kirjutamisel kasulik tööriist. [...] Edasiarendamise võimalused Lõputöö teksti analüsaatorit on võimalik edasi arendada mitmel erineval viisil. Siin peatükis on välja toodud mõned võimalused analüsaatori edasi arendamiseks | |||||||
|
kesksõna 19x |
Analüsaatorid 17 5.1 Sisendteksti eeltöötlus 17 5.2 Mõiste- ja tsitaadituvastaja ning -eemaldaja 17 5.3 Viite-eemaldaja 20 5.4 Umbisikulise tegumoe analüsaator 21 5.5 Korduvate sõnade analüsaator 23 5.6 Lausepikkuse ja -keerulisuse analüsaator 27 5.7 Kantseliidi analüsaator 33 5.7.1 Poolt-tarind 34 5.7.2 Olema + kesksõna 35 5.7.3 Määrus saavas käändes 37 5.7.4 Nominaalstiil 38 5.8 Puuduvate komade analüsaator 39 6. Lõputöö analüsaatorisse tõsteti ümber poolt-tarindi, määrus saavas käändes, olema + kesksõna ja nominaalstiili analüüsid. 5.7.2 Olema + kesksõna Öedistäide, mis on v- või tav-kesksõna, võib mõjuda kohmakalt [5720]. Oleviku kesksõna väljendab tegevust, mis iseloomustab tegijat või tegijaobjekti [5721]. Näiteks lauses Leping on kehtiv 2 aastat on oleviku kesksõna kehtiv. Olema + kesksõna analüsaator on võetud Sõrmuse lõputööst, ent sellele on lisatud mõned reeglid. Kui ülemuse algvorm on olema, siis on tuvastatud olema + kesksõna kantseliit. Olema kesksõna kontrolli tulemus veebiliideses Katsetamisest selgus, et analüsaator toob tihti esile valepositiivseid tulemusi. Kuna sõna huvitav puhul ei ole tegu kesksõna , vaid omadussõnaga, ei tohiks analüsaator seda kantseliidina välja tuua. Katsetati, kas on võimalik eristada kesksõnu ja omadussõnu nende liigi järgi. Kahjuks ei olnud kesksõnu ja omadussõnu võimalik eristada. Ei süntaksi ega morfoloogilise analüüsi sõnaliigi märgendajad ei suutnud tuvastada, kas sõna on kesksõna , mis väljendab tegevust (näiteks kehtiv, lööv) või on sõna tavaline omadussõna (näiteks huvitav, põnev). Märgendajad märkisid kõik kesksõnad omadussõnadeks. See-eest, kui märgendajad suudaks kesksõna ja omadussõna eristada, oleks lihtne kantseliidi tuvastamisel võtta arvesse ainult sõnu, mis on kesksõnad . Olema + kesksõna ja nominaalstiili hindasid kõik vastanud võrreldes teiste kantseliidi analüsaatoritega madalamalt. Olema + kesksõna analüsaatori hinnangud on aga vastavuses varasemate katsetustega, sest ka katsetustes leidus palju valepositiivseid tulemusi. Kantseliidi analüsaatorite hinnangud 3. iteratsioonis Tundub, et seekord olid olema + kesksõna ja nominaalstiili analüsaatorid kasulikumad kui teises iteratsioonis. |
|||||||
|
5.7.2 Olema + kesksõna Öedistäide, mis on v- või tav-kesksõna, võib mõjuda kohmakalt [5720]. Oleviku kesksõna väljendab tegevust, mis iseloomustab tegijat või tegijaobjekti [5721]. Näiteks lauses Leping on kehtiv 2 aastat on oleviku kesksõna kehtiv. [...] Olema + kesksõna analüsaator on võetud Sõrmuse lõputööst, ent sellele on lisatud mõned reeglid | |||||||
|
Kui ülemuse algvorm on olema, siis on tuvastatud olema + kesksõna kantseliit. [...] Olema kesksõna kontrolli tulemus veebiliideses Katsetamisest selgus, et analüsaator toob tihti esile valepositiivseid tulemusi. [...] Kuna sõna huvitav puhul ei ole tegu kesksõna , vaid omadussõnaga, ei tohiks analüsaator seda kantseliidina välja tuua. Katsetati, kas on võimalik eristada kesksõnu ja omadussõnu nende liigi järgi. [...] Kahjuks ei olnud kesksõnu ja omadussõnu võimalik eristada. Ei süntaksi ega morfoloogilise analüüsi sõnaliigi märgendajad ei suutnud tuvastada, kas sõna on kesksõna , mis väljendab tegevust (näiteks kehtiv, lööv) või on sõna tavaline omadussõna (näiteks huvitav, põnev). Märgendajad märkisid kõik kesksõnad omadussõnadeks. See-eest, kui märgendajad suudaks kesksõna ja omadussõna eristada, oleks lihtne kantseliidi tuvastamisel võtta arvesse ainult sõnu, mis on kesksõnad |
|||||||