Lõputöö analüsaator

Tekstianalüüsi tulemused

Lausete arv: 387 - Sõnade arv: 4666

Analüüsiks kulunud aeg: 179.951 sekundit

Uus analüüs
Järgnevates lausetes leidub mina- või meie-vormi:

mina-
Kui sõna on tegusõna ning kas lõppeb ühendiga „sin“, „in“, „n“, „sime“, „ime“, „me“ või on sõnajuureks „mina“, siis otsustatakse, et tekstis on kasutatud mina- või meie-vormi.


nägime, meid
Lauses Mees, keda seal nägime, tahtis olla sõbralik ja tervitas meid leidub ClauseSegmenter-i sõnul 3 osalauset.


mina-
On aga võimalik, et kuigi sisendteksti autor ei kasutanud lõputöös mina- või meie-vormi töö sisupeatükkides, siis sellegipoolest leidub mina-vorm kas tsitaadis, või mõistes või väljaspool sisupeatükke (nt Kokkuvõtte peatükis).


mina
Sõna I tähendab eesti keeles mina →

Sõna I tähendab eesti keeles mina

Niiviisi oleks üpriski lihtne parsida tekstist välja kaldkiri, pealkirjad ning alampealkirjad.


nägime, meid
Teises osalauses keda seal nägime on leitud verbiahel nägime ja kolmandas osalauses teretas meid on verbiahel teretas.






Järgnevaid lauseid võib pidada liiga pikaks:

Kui sõna on tegusõna ning kas lõppeb ühendiga „sin“, „in“, „n“, „sime“, „ime“, „me“ või on sõnajuureks „mina“, siis otsustatakse, et tekstis on kasutatud mina- või meie-vormi.


Näiteks klassifitseeris analüsaator järgneva lause keeruliseks: Kuna käesolevas uurimistöös uuritakse verbe, mida on kasutatud otsekõne saatelausetes, ning vähesel määral ka saatelausete paiknemist, siis selles peatükis antakse lühike ülevaade, kuidas üldse tegelaskõnet kirjanduses on võimalik edasi anda ning milline tähtsus on saatelausetel dialoogide puhul.


Analüüs ei tuvastanud üheski lauses puuduvat koma.

Poolt-tarind on võõrapärane vorm, mis jätab lauses tegija tagaplaanile.

Analüüs ei tuvastanud ühtegi poolt-tarindit.

Öeldistäiteks olev v- või tav- kesksõna võib mõjuda bürokraatlikult.

Näiteks „Pakkumine on kehtiv 6 kuud“ saab paremini kirjutada „Pakkumine kehtib kuus kuud“.
Järgnevates lausetes leidub olema-kesksõna:

Üks levinumaid ekslikke arusaamasid on see, et teadustekst peab olema keeruline, ent tegelikkuses peaks see olema selgesti arusaadav ja sujuvalt loetav ilma, et see muutuks liiga primitiivseks [5].

Liides on lihtsasti kasutatav.

Kuna backend on niikuinii eraldiseisev API, saab veebiliidese teenust serveerida eraldi serveril.



Märgib omaduste või seisundite juhuslikkust, ajutist iseloomu.
Parem on kasutada kindlamat kõneviisi.

Näiteks „Põhiliseks eesmärgiks on..." saab paremini kirjutada „Põhiline eesmärk on...“.
Järgnevates lausetes leidub määrus saavas käändes:

Teadustekst Olgugi, et pole olemas ametlikku tekstiliikide jaotust, saab sellegipoolest tänapäeval jaotada keelekasutust argikeeleks, ilukirjanduslikuks keeleks ja tarbekeeleks, millest viimast on võimalik omakorda jaotada ajakirjanduslikuks keeleks, ametikeeleks ja teaduskeeleks [3].

Alternatiivid Eesti- ning ingliskeelsete tekstide puhul pole olemas programmi, mille põhieesmärgiks on lõputööde ehk akadeemilise teksti automaatne analüüs ja tagasisidestamine.

Lisaks saab 1.6 regulaarselt uuendusi, mistõttu on tulevikus rohkem võimalusi uuteks analüüsideks.

Lõputöö analüsaatoris on umbisikulisuse kontrollimiseks olemas Pythoni moodul „impersonality_analyzer.

Kui sõna on tegusõna ning kas lõppeb ühendiga „sin“, „in“, „n“, „sime“, „ime“, „me“ või on sõnajuureks „mina“, siis otsustatakse, et tekstis on kasutatud mina- või meie-vormi.

Esmaselt on vaja sõnade sagedushinnangute leidmiseks tekst lemmatiseerida.

Luuakse sõnastik, kus võtmeteks on lemmad ning väärtusteks kõik sõnad (koos indeksitega), mis sellele lemmale tekstis vastavad.

Luuakse sõnastik, kus võtmeteks on lemmad ning väärtusteks kõik sõnad (koos indeksitega), mis sellele lemmale tekstis vastavad.

Tüüpiliselt sisaldab lause finiitset verbivormi ja ühte või enamat osa, mille keskmeks on määr- või käändsõna (nt „Minu ema ostis eelmisel päeval poest süüa“) [13].

Teiseks, lauses võib olla palju osalauseid, aga ainult vähestes osalausetes leidub verbiahel.

Tulemuste analüüsiks on soovituslik kasutada juurkaustas olevat abimoodulit html_exporter.

See tähendab, et saadetakse HTTP POST request, kus võtmeks on „user_text“ ja väärtuseks analüüsitav tekst.

Lõpptulemuseks oleks see, et analüüsid saaksid toimuda samamoodi nagu ennegi, ent kasutajamugavus on paranenud.

Probleemi leevendamiseks on mitmeid variante.



Mine-vormi kasutus koos tühiverbiga.

Näiteks "Teostasime kontrollimist" saab paremini kirjutada "Kontrollisime"
Järgnevates lausetes esineb nominalisatsioon mine-vormis:

Seejärel toimub osalausestamine, misjärel leitakse kõik lause verbiahelad (ingl.



lausepikkus
10x

Funktsionaalsus 10 3.3.1 Umbisikulise tegumoe kontroll 12 3.3.2 Korduvate sõnade kontroll 14 3.3.3 Lausepikkuse ja -keerulisuse kontroll 18 3.3.4 Kantseliidi kontroll 20 3.3.5 Abistavad analüsaatorid 20 3.4 Andmete salvestamine 21 3.5 Jõudlus 21 4.

Kasutaja näeb kokkupandavate lahtritena nelja põhilist analüüsi: umbisikulise tegumoe, lausepikkuse , kantseliidi ja sõnakorduste kontrolli.

Korduvate sõnade analüsaatori tulemus 3.3.3 Lausepikkuse ja -keerulisuse kontroll Eesti Keele Instituudi (EKI) definitsiooni järgi jaguneb lause moodustajateks ehk vahetervikuteks ning seejärel üksiksõnadeks.

Lõputöö analüsaatoris kontrollib lausepikkust moodul sentences_analyzer.

Kuna loetelust ei ole üldiselt lugejal keeruline aru saada, ei tohiks ka lausepikkuse ja -keerulisuse analüsaator seda keerulise lausena välja tuua.

Lisareegli tõttu võetakse eelneva lause puhul lausepikkuse ja -keerulisuse analüüsis arvesse vaid ühte osalauset (Eelmise sajandi kuulsaimad kirjanikud on Charles Dickens, Virginia Woolf, James Joyce, F. Scott Fitzgerald ja Arthur C. Clarke), milles leidub verbiahel on.

Lausepikkuse ja -keerulisuse analüsaatori eesmärk on aidata tuvastada lauseid, mis võivad raskesti arusaadavad olla.

Seetõttu on lausepikkuse ja -keerulisuse analüsaator teksti autorile siiski kõigest abivahend.

Lausepikkuse ja -keerulisuse analüsaatori algoritm 3.3.4 Kantseliidi kontroll Lõputöö analüsaator kontrollib sisendtekstis ka kantseliiti.

teadustekst
10x

Teadustekst 6 2.

Seda kirjutades on oluline kasutada korrektset ja akadeemilist keelekasutust ning -stiili, mis on omane teadustekstile .

Tudengil on aga teadusteksti norme ja tavasid tihtipeale raske järgida, kuna selle kirjutamisega on üldiselt kõige vähem kogemusi.

Teadustekst Olgugi, et pole olemas ametlikku tekstiliikide jaotust, saab sellegipoolest tänapäeval jaotada keelekasutust argikeeleks, ilukirjanduslikuks keeleks ja tarbekeeleks, millest viimast on võimalik omakorda jaotada ajakirjanduslikuks keeleks, ametikeeleks ja teaduskeeleks [3].

Üks levinumaid ekslikke arusaamasid on see, et teadustekst peab olema keeruline, ent tegelikkuses peaks see olema selgesti arusaadav ja sujuvalt loetav ilma, et see muutuks liiga primitiivseks [5].

Mitmete teadustekstide autorid nagu näiteks Sirkka Hirsjärvi, Pirkko Remes ja Paula Sajavaara väidavad, et teadusteksti autor peab enda isikut tagaplaanil hoidma [11].

Kuna tasakaalus korpus on segu ajakirjandus-, ilukirjandus- ja teaduskirjanduskorpuse lemmadest ja nende sagedustest, ei andnud see teadusteksti analüüsi puhul siiski kõige paremaid tulemusi.

Seejärel leitakse sõna tegelik sagedushinnang teadustekstide korpusest.

veebiliides
12x

Edasiarendamise võimalused 23 5.1 Sisendteksti formaadi muutmine 23 5.2 Veebiliidese kasutajamugavus 24 5.3 Skaleeruvus 24 5.4 Kasutaja eelistuste salvestamine 25 6.

Funktsionaalsus Lõputöö analüsaatoril on veebiliides (joonis 2), mida saab kasutada koheseks tekstianalüüsiks.

Lõputöö analüsaatori veebiliides Joonis 3.

QuoteAnalyzer ja CitationAnalyzer 3.4 Andmete salvestamine Programm võimaldab salvestada kõik veebiliidese kaudu tehtud analüüsid andmebaasi.

Niiviisi on võimalik jälgida veebiliidese kasutamist ja analüüsida programmi tulemusi.

Võttes näiteks selle sama peatüki pealkirja ja esimese lause: kui kasutaja kopeerib terve lõputöö teksti veebiliidesesse , siis kuna vaadeldava peatüki nime lõpus pole punkti, tuvastab EstNLTK tekstilõigu „5.

5.2 Veebiliidese kasutajamugavus Praeguses veebiliideses saab kasutaja sisestada oma teksti ainult kopeerides.

Üks variant, kuidas protsessi lihtsustada, oleks lisada veebiliidesele võimalus laadida üles oma lõputöö teksti fail.

Kuna backend on niikuinii eraldiseisev API, saab veebiliidese teenust serveerida eraldi serveril.

Niiviisi ei pea üks server tegelema kahe asjaga, nii veebiliidese kui analüüsiga.

lõputöö
49x

Tartu Ülikool Arvutiteaduse instituut Informaatika õppekava Karl Erik Karindi Lõputööde analüüs ja tulemuste visualiseerimine Bakalaureusetöö (9 EAP) Juhendaja: Raimond-Hendrik Tunnel, MSc Tartu 2020 Lõputööde analüüs ja tulemuste visualiseerimine Lühikokkuvõte: Bakalaureusetöö on lõputööde automaatne analüüs ja tagasisidestamine.

Lõputöö kirjutamise protsessi käigus tekib kirjutades nii stiili- kui ka grammatikavigu, mille parandamisele kulub palju aega ja energiat.

Veelgi probleemsem on olukord, kus vead jäävad märkamata ja lõputöö kvaliteet seepärast kannatab.

Seetõttu luuaksegi lõputööna programm, mis keeletehnoloogilisi lahendusi kasutades tuvastab vead ja annab soovitusi, kuidas neid parandada.

Lõputöö analüüsijast peaks kasu saama tudengid ja juhendajad nii töö kirjutamise käigus kui ka lõpliku töö ülevaatusel.

Lisa 26 Viited 27 Sissejuhatus Igal aastal lõpetab Tartu Ülikooli üle 2000 tudengi, kellest igaüks peab lõpetamiseks kirjutama lõputöö [1].

Lõputöö on demonstratsioon teadmistest ja oskustest, mida tudeng on oma õpingute vältel omandanud.

Lisaks kasutati ja arendati olemasolevaid lahendusi, mis olid leitud kas internetist või varasematest lõputöödest .

Programm aitab järgida head lõputööle omast keelekasutust, -stiili ja -nõudeid.

CGLearn on veebirakendus, millega juhendaja saab jälgida oma juhendatavate tudengite lõputöö protsessi.

Rakenduses on võimalik näiteks jälgida oma lõputöö kava ning logida lõputööle kulutatud aega ja koosolekuid.

CGLearni registreeritud tudengid saavad iga nädala alguses raporti oma lõputöö kirjalikust osast.

Enne lõputöö analüsaatori loomist analüüsis veebirakendus ainult ingliskeelsete lõputööde tekstikeerukust.

Lõpuks uuriti, kas olemasolevad vahendid olid eestikeelsete lõputööde kirjutamisel tudengite jaoks kasulikud.

Alternatiivid Eesti- ning ingliskeelsete tekstide puhul pole olemas programmi, mille põhieesmärgiks on lõputööde ehk akadeemilise teksti automaatne analüüs ja tagasisidestamine.

Programmi ülevaade Lõputöö analüsaatori jaoks loodi lahtise API-ga mikroteenus, millele esitab päringu CgLearni veebiteenus.

Antud lõputöös olid suurima vaatluse all osalausestamise, sõnestamise, morfoloogilise analüüsi ja lausestamise funktsionaalsused.

Käesolevas lõputöös otsustati kasutada EstNLTK versiooni 1.6.

Näiteks on kihi „morph_analysis“ kaudu võimalik saada kätte sõna algvorm ja sõnaliik, mis oli lõputöös korduvalt kasutatud sõnade analüüsi puhul võtmetähtsusega.

Lõputöös otsustati rakenduse backendi puhul Flaski kasuks, kuna selle kohta on palju dokumentatsiooni ning sellega on lihtne ja kiire luua REST arhitektuuril põhinevat arendusserverit.

Funktsionaalsus Lõputöö analüsaatoril on veebiliides (joonis 2), mida saab kasutada koheseks tekstianalüüsiks.

Kasutaja peab vaid kopeerima oma lõputöö teksti vastavasse tekstilahtrisse ning seejärel vajutama nupule „Analüüsi“.

Lõputöö analüsaatori veebiliides Joonis 3.

Erinevates instituutides võib lõputöö kirjutamisnõuetes tegumoe nõue varieeruda, aga arvutiteaduse instituudis on soovituslik kasutada mina-vormi asemel umbisikulist tegumoodi.

Lõputöö analüsaatoris on umbisikulisuse kontrollimiseks olemas Pythoni moodul „impersonality_analyzer.

py“, mis analüüsib ja otsustab, kas lõputöö on täielikult umbisikulises tegumoes kirjutatud.

On aga võimalik, et kuigi sisendteksti autor ei kasutanud lõputöös mina- või meie-vormi töö sisupeatükkides, siis sellegipoolest leidub mina-vorm kas tsitaadis, või mõistes või väljaspool sisupeatükke (nt Kokkuvõtte peatükis).

<> Lõputöö analüsaatoris on moodul „overused_word_analyzer.

Lõputöös loodud ülekasutatud sõnade analüsaator on see-eest kirjutatud Pythonis ja suudab analüüsida vaid eesti keelt.

Lisaks on tehtud edasiarendusi ja kohandusi vastavalt lõputööde analüsaatori API vajadustele.

Lõputöös kasutatakse Eesti Keeleressursside Keskuse (EKK) koostatud teaduskirjanduskorpuse lemmade sagedusloendit [3321].

Näiteks oli ühes testimiseks kasutatud lõputöös mainitud ainet „Programmeerimise alused“ 31 korda, mistõttu märgiti ka lemma „programmeerimine“ ülekasutatuks.

Lõputöö analüsaatoris kontrollib lausepikkust moodul sentences_analyzer.

Lausepikkuse ja -keerulisuse analüsaatori algoritm 3.3.4 Kantseliidi kontroll Lõputöö analüsaator kontrollib sisendtekstis ka kantseliiti.

Kantseliidi kontrollid on suuresti võetud üle Kaarel Sõrmuse 2017. aasta bakalaureusekraadi lõputööst „Kantseliidi- ja paronüümituvastaja“ [3341].

Võttes näiteks selle sama peatüki pealkirja ja esimese lause: kui kasutaja kopeerib terve lõputöö teksti veebiliidesesse, siis kuna vaadeldava peatüki nime lõpus pole punkti, tuvastab EstNLTK tekstilõigu „5.

Näiteks salvestati idee katsetamiseks Microsoft Word-is lõputöö tekst .

Seetõttu otsustati, et lõputöö analüsaator võtab sisendiks siiski puhtal kujul teksti.

See tähendab, et kasutaja peab võtma lahti oma lõputöö tekstifaili ja seejärel kopeerima liidesesse oma teksti.

Üks variant, kuidas protsessi lihtsustada, oleks lisada veebiliidesele võimalus laadida üles oma lõputöö teksti fail.

5.3 Skaleeruvus Lõputöö analüsaator jookseb Ubuntu 18.04 serveril, millel on 4 tuuma ja 4 GB vahemälu.

Näiteks võib tuua olukorra, kus kasutaja proovib lõputööde analüsaatorit teist korda.

Näiteks CGLearn saadab iganädalaselt raporti koos lõputöö analüsaatori tulemustega.

Kui lõputöö kirjutaja ei soovi valepositiivset lauset muuta, oleks kasulik, kui ta saaks märkida lauset sobivaks.

Tartu Ülikool Arvutiteaduse instituut Informaatika õppekava Karl Erik Karindi Lõputööde analüüs ja tulemuste visualiseerimine Bakalaureusetöö (9 EAP) Juhendaja: Raimond-Hendrik Tunnel, MSc Tartu 2020 Lõputööde analüüs ja tulemuste visualiseerimine Lühikokkuvõte: Bakalaureusetöö on lõputööde automaatne analüüs ja tagasisidestamine. Lõputöö kirjutamise protsessi käigus tekib kirjutades nii stiili- kui ka grammatikavigu, mille parandamisele kulub palju aega ja energiat. Veelgi probleemsem on olukord, kus vead jäävad märkamata ja lõputöö kvaliteet seepärast kannatab. Seetõttu luuaksegi lõputööna programm, mis keeletehnoloogilisi lahendusi kasutades tuvastab vead ja annab soovitusi, kuidas neid parandada. Lõputöö analüüsijast peaks kasu saama tudengid ja juhendajad nii töö kirjutamise käigus kui ka lõpliku töö ülevaatusel.

CGLearn on veebirakendus, millega juhendaja saab jälgida oma juhendatavate tudengite lõputöö protsessi. Rakenduses on võimalik näiteks jälgida oma lõputöö kava ning logida lõputööle kulutatud aega ja koosolekuid. CGLearni registreeritud tudengid saavad iga nädala alguses raporti oma lõputöö kirjalikust osast. Enne lõputöö analüsaatori loomist analüüsis veebirakendus ainult ingliskeelsete lõputööde tekstikeerukust. CGLearni autor leidis, et tudengitel ei olnud tekstikeerukuse analüüsist kasu. Seetõttu otsustati katsetada eestikeelse tekstianalüüsi vahendeid, et luua erinevaid keeleanalüüse. Lõpuks uuriti, kas olemasolevad vahendid olid eestikeelsete lõputööde kirjutamisel tudengite jaoks kasulikud.

Näiteks salvestati idee katsetamiseks Microsoft Word-is lõputöö tekst .html faililaiendiga. Kuigi pealkirjad ja kaldkiri olid tõepoolest õigete tag-idega ümbritsetud, esines probleeme kodeeringuga. Kõik täpitähed olid asendatud küsimärkidega kujul „�“. Lisaks tekkis ka faili salvestamisel palju ebavajalikku müra. Seetõttu otsustati, et lõputöö analüsaator võtab sisendiks siiski puhtal kujul teksti. 5.2 Veebiliidese kasutajamugavus Praeguses veebiliideses saab kasutaja sisestada oma teksti ainult kopeerides. See tähendab, et kasutaja peab võtma lahti oma lõputöö tekstifaili ja seejärel kopeerima liidesesse oma teksti. Olgugi, et see on võrdlemisi kiire, võtab see sellegipoolest aega, mida kasutaja tõenäoliselt kulutada ei taha. Üks variant, kuidas protsessi lihtsustada, oleks lisada veebiliidesele võimalus laadida üles oma lõputöö teksti fail. Seejärel saaks rakendus parsida faili sisu ja muuta see ümber tekstikujule. Lõpptulemuseks oleks see, et analüüsid saaksid toimuda samamoodi nagu ennegi, ent kasutajamugavus on paranenud. 5.3 Skaleeruvus Lõputöö analüsaator jookseb Ubuntu 18.04 serveril, millel on 4 tuuma ja 4 GB vahemälu.

lemma
23x

Lisaks oleks vaja andmebaasis kasutada andmestikku, kus oleks informatsiooni lemmade ja nende sageduste kohta ingliskeelses tekstikorpuses.

Selleks, et üleskasutatud sõnade analüüsi teostada, on vaja andmestikku lemmadest ja nende esinemissagedustestest tekstides.

Lõputöös kasutatakse Eesti Keeleressursside Keskuse (EKK) koostatud teaduskirjanduskorpuse lemmade sagedusloendit [3321].

Kuni töö katsetamisfaasi viimase iteratsioonini kasutati EKK tasakaalus korpuse lemmade sagedusloendit [3322].

Kuna tasakaalus korpus on segu ajakirjandus-, ilukirjandus- ja teaduskirjanduskorpuse lemmadest ja nende sagedustest, ei andnud see teadusteksti analüüsi puhul siiski kõige paremaid tulemusi.

Seetõttu valiti andmeteks siiski teaduskirjanduskorpuse lemmad ja nende esinemissagedused tekstides.

Vaadates morfoloogilise analüüsikihi tulemusi, leitakse sõnade lemmad .

Luuakse sõnastik, kus võtmeteks on lemmad ning väärtusteks kõik sõnad (koos indeksitega), mis sellele lemmale tekstis vastavad.

Lemmade sõnastikust eemaldatakse lemmad , mis on kas stoppsõnad või esinevad tekstis vähem kui 7 korda.

Iga lemma puhul kasutatakse valemit, et leida selle tekstisisene sagedushinnang.

Tuvastatakse ülekasutatud sõnad sedakaudu, et võrreldakse lemma sagedushinnangut ja selle tegelikku sagedust tekstis.

Kui tulemus on suurem kui 5 ehk tekstisiseselt on kasutatud lemmat 5 korda rohkem kui oodatud, märgitakse lemma ülekasutatuks.

Ülekasutatud lemmad sorteeritakse sagedushinnangu järgi kahanevalt.

See tähendab, et esimene lemma on tekstis kõige rohkem ülekasutatud.

Infoliigsuse vältimiseks jäetakse järele ainult 8 ülekasutatud lemmat .

Iga ülekasutatud lemmaga kaasneb ka info sõnade ja nende positsioonide (indeksite) kohta, mis sellele lemmale vastavad.

Lauseklastriteks peetakse tekstiosasid, kus ühise lemmaga sõnad ei ole üksteisest kaugemal kui 300 karakterit.

Seetõttu, kui üks lemma sisaldub enam kui 20 lauses, näidatakse kasutajale ainult esimest 20 lauset, milles sõna sisaldub.

Lisaks oleks vaja andmebaasis kasutada andmestikku, kus oleks informatsiooni lemmade ja nende sageduste kohta ingliskeelses tekstikorpuses. Selleks, et üleskasutatud sõnade analüüsi teostada, on vaja andmestikku lemmadest ja nende esinemissagedustestest tekstides. Andmete kasutamisest tuleb juttu järgmises lõigus. Lõputöös kasutatakse Eesti Keeleressursside Keskuse (EKK) koostatud teaduskirjanduskorpuse lemmade sagedusloendit [3321]. Kuni töö katsetamisfaasi viimase iteratsioonini kasutati EKK tasakaalus korpuse lemmade sagedusloendit [3322]. Kuna tasakaalus korpus on segu ajakirjandus-, ilukirjandus- ja teaduskirjanduskorpuse lemmadest ja nende sagedustest, ei andnud see teadusteksti analüüsi puhul siiski kõige paremaid tulemusi. Seetõttu valiti andmeteks siiski teaduskirjanduskorpuse lemmad ja nende esinemissagedused tekstides.

Vaadates morfoloogilise analüüsikihi tulemusi, leitakse sõnade lemmad . Luuakse sõnastik, kus võtmeteks on lemmad ning väärtusteks kõik sõnad (koos indeksitega), mis sellele lemmale tekstis vastavad. 4. Lemmade sõnastikust eemaldatakse lemmad , mis on kas stoppsõnad või esinevad tekstis vähem kui 7 korda. Seejärel eemaldatakse sõnad, mida EKK sagedusloendis ei ole. 5. Iga lemma puhul kasutatakse valemit, et leida selle tekstisisene sagedushinnang. 6. Tuvastatakse ülekasutatud sõnad sedakaudu, et võrreldakse lemma sagedushinnangut ja selle tegelikku sagedust tekstis. Jagatakse tekstisisene sagedus korpusesisese sagedushinnanguga. Kui tulemus on suurem kui 5 ehk tekstisiseselt on kasutatud lemmat 5 korda rohkem kui oodatud, märgitakse lemma ülekasutatuks. 7. Ülekasutatud lemmad sorteeritakse sagedushinnangu järgi kahanevalt. See tähendab, et esimene lemma on tekstis kõige rohkem ülekasutatud. Infoliigsuse vältimiseks jäetakse järele ainult 8 ülekasutatud lemmat . 8. Iga ülekasutatud lemmaga kaasneb ka info sõnade ja nende positsioonide (indeksite) kohta, mis sellele lemmale vastavad.

sisendtekst
8x

Edasiarendamise võimalused 23 5.1 Sisendteksti formaadi muutmine 23 5.2 Veebiliidese kasutajamugavus 24 5.3 Skaleeruvus 24 5.4 Kasutaja eelistuste salvestamine 25 6.

Originaalset sisendteksti saab anda argumendina Text objektile, mis võimaldab tekstist erinevaid analüüsikihte luua.

On aga võimalik, et kuigi sisendteksti autor ei kasutanud lõputöös mina- või meie-vormi töö sisupeatükkides, siis sellegipoolest leidub mina-vorm kas tsitaadis, või mõistes või väljaspool sisupeatükke (nt Kokkuvõtte peatükis).

Iga sõna puhul, mis sisendtekstis esineb, arvutatakse selle sõna tekstisisene sagedushinnang.

Tulemusena saab võrrelda, kas sõna esineb sisendtekstis rohkem kui on tavaliselt teadustekstides oodatud.

Lausepikkuse ja -keerulisuse analüsaatori algoritm 3.3.4 Kantseliidi kontroll Lõputöö analüsaator kontrollib sisendtekstis ka kantseliiti.

Edasiarendamise võimalused 5.1 Sisendteksti formaadi muutmine Programm võtab sisendiks JSON kujul infot.

tegumood
12x

Funktsionaalsus 10 3.3.1 Umbisikulise tegumoe kontroll 12 3.3.2 Korduvate sõnade kontroll 14 3.3.3 Lausepikkuse ja -keerulisuse kontroll 18 3.3.4 Kantseliidi kontroll 20 3.3.5 Abistavad analüsaatorid 20 3.4 Andmete salvestamine 21 3.5 Jõudlus 21 4.

Kasutaja näeb kokkupandavate lahtritena nelja põhilist analüüsi: umbisikulise tegumoe , lausepikkuse, kantseliidi ja sõnakorduste kontrolli.

Analüüsi tulemuse vaade 3.3.1 Umbisikulise tegumoe kontroll Teadustekst peaks üldise arusaama järgi olema objektiivne ja neutraalne nii keeleliselt kui ka sisult [10].

Eesti keeles on nii isikuline kui umbisikuline tegumood , millest viimast kasutatakse selleks, et kirjutaja isikut kõige paremini tagaplaanile jätta [10].

Erinevates instituutides võib lõputöö kirjutamisnõuetes tegumoe nõue varieeruda, aga arvutiteaduse instituudis on soovituslik kasutada mina-vormi asemel umbisikulist tegumoodi .

py“, mis analüüsib ja otsustab, kas lõputöö on täielikult umbisikulises tegumoes kirjutatud.

Umbisikulisuse Aanalüüs tagastab lõpuks kõik laused, kus eirati umbisikulist tegumoodi .

Kui QuoteAnalyzer tuvastab, et sõna on jutumärkide vahel, siis umbisikulise tegumoe analüsaator seda arvesse ei võta.

Umbisikulise tegumoe analüsaatori algoritm 3.3.2 Korduvate sõnade kontroll Üks levinumaid stiilivigasid on see, et tekstis kasutatakse teatud sõnu liiga palju.

Selles spetsiifilises näites annaks aga umbisikulise tegumoe analüüs tagasisidet, et lauses leidub mina-vormis sõna „mina“.

Eesti keeles on nii isikuline kui umbisikuline tegumood , millest viimast kasutatakse selleks, et kirjutaja isikut kõige paremini tagaplaanile jätta [10]. Erinevates instituutides võib lõputöö kirjutamisnõuetes tegumoe nõue varieeruda, aga arvutiteaduse instituudis on soovituslik kasutada mina-vormi asemel umbisikulist tegumoodi . See tähendab, et iseendale viidates on soovituslik kasutada näiteks varianti „arvatakse“, aga mitte „mina arvan“. Lõputöö analüsaatoris on umbisikulisuse kontrollimiseks olemas Pythoni moodul „impersonality_analyzer.py“, mis analüüsib ja otsustab, kas lõputöö on täielikult umbisikulises tegumoes kirjutatud.

keerulisus
8x

Funktsionaalsus 10 3.3.1 Umbisikulise tegumoe kontroll 12 3.3.2 Korduvate sõnade kontroll 14 3.3.3 Lausepikkuse ja - keerulisuse kontroll 18 3.3.4 Kantseliidi kontroll 20 3.3.5 Abistavad analüsaatorid 20 3.4 Andmete salvestamine 21 3.5 Jõudlus 21 4.

Korduvate sõnade analüsaatori tulemus 3.3.3 Lausepikkuse ja - keerulisuse kontroll Eesti Keele Instituudi (EKI) definitsiooni järgi jaguneb lause moodustajateks ehk vahetervikuteks ning seejärel üksiksõnadeks.

Kuna loetelust ei ole üldiselt lugejal keeruline aru saada, ei tohiks ka lausepikkuse ja - keerulisuse analüsaator seda keerulise lausena välja tuua.

Lisareegli tõttu võetakse eelneva lause puhul lausepikkuse ja - keerulisuse analüüsis arvesse vaid ühte osalauset (Eelmise sajandi kuulsaimad kirjanikud on Charles Dickens, Virginia Woolf, James Joyce, F. Scott Fitzgerald ja Arthur C. Clarke), milles leidub verbiahel on.

Lausepikkuse ja - keerulisuse analüsaatori eesmärk on aidata tuvastada lauseid, mis võivad raskesti arusaadavad olla.

Seetõttu on lausepikkuse ja - keerulisuse analüsaator teksti autorile siiski kõigest abivahend.

Lausepikkuse ja - keerulisuse analüsaatori algoritm 3.3.4 Kantseliidi kontroll Lõputöö analüsaator kontrollib sisendtekstis ka kantseliiti.