Lõputöö analüsaator

Tekstianalüüsi tulemused

Lausete arv: 281 - Sõnade arv: 3600

Analüüsiks kulunud aeg: 104.412 sekundit

Uus analüüs
Järgnevates lausetes leidub mina- või meie-vormi:

mina-
Kui sõna on tegusõna ning kas lõppeb ühendiga „sin“, „in“, „n“, „sime“, „ime“, „me“ või on sõnajuureks „mina“, siis otsustatakse, et tekstis on kasutatud mina- või meie-vormi.


nägime, meid
Näiteks on kolm osalauset lauses Mees, keda seal nägime, tahtis olla sõbralik ja tervitas meid.


mina
Sõna I tähendab eesti keeles mina 

Sõna I tähendab eesti keeles mina

Niiviisi oleks üpriski lihtne parsida tekstist välja kaldkiri, pealkirjad ning alampealkirjad.


nägime, meid
Teises osalauses keda seal nägime on leitud verbiahel nägime ja kolmandas osalauses teretas meid on verbiahelaks teretas.





Järgnevaid lauseid võib pidada liiga pikaks:

On oluline, et kõik välja toodud faktid ning väited oleksid põhjendatud kas näidete või allikaviidetega, kõik mõisted ja terminid selgitatakse esimesel kasutusel lahti, välditakse liigset sõnakasutust ja on pööratud tähelepanu teksti liigendusele ja struktuurile [5].


Teiseks, kui lauses on küll palju osalauseid, aga verbiahel leidub vähestes osalausetes, on suur tõenäosus, et tegemist on loeteluga.


Näiteks ei tohiks keeruliseks märgistada lauset: „Viimaste sajandite kuulsaimad kirjanikud on Charles Dickens (1812), Virginia Woolf (1882), James Joyce (1882), F. Scott Fitzgerald (1896) ja Arthur C. Clarke (1917).“ Kuigi lugejale võiks tunduda, et lause ei ole keeruline, siis osalausestaja leiab, et selles lauses on 6 osalauset.

Poolt-tarind on võõrapärane vorm, mis jätab lauses tegija tagaplaanile.

Näiteks lause „Trahv oli politseiniku poolt tehtud.“ saab paremini kirjutada kas lausena "Trahv oli politseiniku tehtud" või "Politseinik tegi trahvi."
Järgnevates lausetes leidub poolt-tarind:

Teksti autor peab see-eest ise otsustama, kas analüsaatori poolt välja toodud lause on ka tõepoolest liiga pikk.



Öeldistäiteks olev v- või tav- kesksõna võib mõjuda bürokraatlikult.

Näiteks „Pakkumine on kehtiv 6 kuud“ saab paremini kirjutada „Pakkumine kehtib kuus kuud“.
Järgnevates lausetes leidub olema-kesksõna:

Üks levinumaid ekslikke arusaamasid on see, et teadustekst peab olema keeruline, ent tegelikkuses peaks see olema selgesti arusaadav ja sujuvalt loetav ilma, et see muutuks liiga primitiivseks [5].

Liides on lihtsasti kasutatav.

Niiviisi on mugav analüüsida tulemusi.

Kuna backend on niikuinii eraldiseisev API, saab veebiliidese teenust serveerida eraldi serveril.



Märgib omaduste või seisundite juhuslikkust, ajutist iseloomu.
Parem on kasutada kindlamat kõneviisi.

Näiteks „Põhiliseks eesmärgiks on..." saab paremini kirjutada „Põhiline eesmärk on...“.
Järgnevates lausetes leidub määrus saavas käändes:

Teadustekst Olgugi, et pole olemas ametlikku tekstiliikide jaotust, saab sellegipoolest tänapäeval jaotada keelekasutust argikeeleks, ilukirjanduslikuks keeleks ja tarbekeeleks, millest viimast on võimalik omakorda jaotada ajakirjanduslikuks keeleks, ametikeeleks ja teaduskeeleks [3].

Alternatiivid Eesti- ning ingliskeelsete tekstide puhul pole olemas programmi, mille põhieesmärgiks on lõputööde ehk akadeemilise teksti automaatne analüüs ja tagasisidestamine.

Eesmärgiks on ühendada ja parandada olemasolevaid keeletöötluse võimalusi selleks, et need oleksid kõikidele soovijatele kergesti kättesaadavad [9].

Selle autoriks on Armin Ronacher ning see sai populaarseks seetõttu, et inimesed soovisid alternatiivi keerukaks peetud Django-le [6].

Lõputöö analüsaatoris on umbisikulisuse kontrollimiseks olemas Pythoni moodul „impersonality_analyzer.

Kui sõna on tegusõna ning kas lõppeb ühendiga „sin“, „in“, „n“, „sime“, „ime“, „me“ või on sõnajuureks „mina“, siis otsustatakse, et tekstis on kasutatud mina- või meie-vormi.

Esmaselt on vaja sõnade sagedushinnangute leidmiseks tekst lemmatiseerida.

Luuakse sõnastik, kus võtmeteks on lemmad ning väärtusteks kõik sõnad (koos indeksitega), mis sellele lemmale tekstis vastavad.

Luuakse sõnastik, kus võtmeteks on lemmad ning väärtusteks kõik sõnad (koos indeksitega), mis sellele lemmale tekstis vastavad.

Tüüpiliselt sisaldab lause finiitset verbivormi ja ühte või enamat osa, mille keskmeks on määr- või käändsõna (nt „Minu ema ostis eelmisel päeval poest süüa“) [13].

Teises osalauses keda seal nägime on leitud verbiahel nägime ja kolmandas osalauses teretas meid on verbiahelaks teretas.

Seetõttu on lausepikkuse ja -keerulisuse analüsaator teksti autorile siiski kõigest abivahendiks.

See tähendab, et saadetakse HTTP POST request, kus võtmeks on „user_text“ ja väärtuseks analüüsitav tekst.

Lõpptulemuseks oleks see, et analüüsid saaksid alata samamoodi nagu ennegi, ent kasutajamugavus on paranenud.

Probleemi leevendamiseks on mitmeid variante.



Mine-vormi kasutus koos tühiverbiga.

Näiteks "Teostasime kontrollimist" saab paremini kirjutada "Kontrollisime"
Järgnevates lausetes esineb nominalisatsioon mine-vormis:

Versioon 1.6 tekstianalüüs ja -töötlemine toimub kihilise süsteemi põhjal.

Seejärel toimub osalausestamine, misjärel leitakse kõik lause verbiahelad.



lemma
21x

Selleks, et analüsaator töötaks, on vaja andmestikku lemmadest ja nende esinemissagedustestest tekstides.

Lõputöös kasutatakse Eesti Keeleressursside Keskuse (EKK) koostatud teaduskirjanduskorpuse lemmade sagedusloendit [3321].

Kuni töö katsetamisfaasi viimase iteratsioonini kasutati EKK tasakaalus korpuse lemmade sagedusloendit [3322].

Kuna tasakaalus korpus on segu ajakirjandus-, ilukirjandus- ja teaduskirjanduskorpuse lemmadest ja nende sagedustest, ei andnud see teadusteksti analüüsi puhul siiski kõige paremaid tulemusi.

Seetõttu valiti andmeteks siiski teaduskirjanduskorpuse lemmad ja nende esinemissagedused tekstides.

Iga sõna puhul leitakse selle sõna lemma .

Luuakse sõnastik, kus võtmeteks on lemmad ning väärtusteks kõik sõnad (koos indeksitega), mis sellele lemmale tekstis vastavad.

Lemmade sõnastikust filtreeritakse välja stoppsõnad ja lemmad , mis esinevad tekstis vähem kui 7 korda.

Iga lemma puhul leitakse selle tekstisisene sagedushinnang.

Kui tulemus on suurem kui 5 ehk tekstisiseselt on kasutatud lemmat 5 korda rohkem kui oodatud, märgitakse lemma ülekasutatuks.

Ülekasutatud lemmad sorteeritakse sagedushinnangu järgi kahanevalt.

See tähendab, et esimene lemma on tekstis kõige rohkem ülekasutatud.

Infoliigsuse vältimiseks jäetakse järele ainult 8 ülekasutatud lemmat .

Iga ülekasutatud lemmaga kaasneb ka info sõnade ja nende positsioonide (indeksite) kohta, mis sellele lemmale vastavad.

Lauseklastriteks peetakse tekstiosasid, kus ühise lemmaga sõnad ei ole üksteisest kaugemal kui 300 karakterit.

Seetõttu, kui üks lemma sisaldub enam kui 20 lauses, näidatakse kasutajale ainult esimest 20 lauset, milles sõna sisaldub.

Selleks, et analüsaator töötaks, on vaja andmestikku lemmadest ja nende esinemissagedustestest tekstides. [...] Lõputöös kasutatakse Eesti Keeleressursside Keskuse (EKK) koostatud teaduskirjanduskorpuse lemmade sagedusloendit [3321]. Kuni töö katsetamisfaasi viimase iteratsioonini kasutati EKK tasakaalus korpuse lemmade sagedusloendit [3322]. Kuna tasakaalus korpus on segu ajakirjandus-, ilukirjandus- ja teaduskirjanduskorpuse lemmadest ja nende sagedustest, ei andnud see teadusteksti analüüsi puhul siiski kõige paremaid tulemusi. Seetõttu valiti andmeteks siiski teaduskirjanduskorpuse lemmad ja nende esinemissagedused tekstides

Iga sõna puhul leitakse selle sõna lemma . Luuakse sõnastik, kus võtmeteks on lemmad ning väärtusteks kõik sõnad (koos indeksitega), mis sellele lemmale tekstis vastavad. Lemmade sõnastikust filtreeritakse välja stoppsõnad ja lemmad , mis esinevad tekstis vähem kui 7 korda. [...] Iga lemma puhul leitakse selle tekstisisene sagedushinnang. [...] Kui tulemus on suurem kui 5 ehk tekstisiseselt on kasutatud lemmat 5 korda rohkem kui oodatud, märgitakse lemma ülekasutatuks. Ülekasutatud lemmad sorteeritakse sagedushinnangu järgi kahanevalt. See tähendab, et esimene lemma on tekstis kõige rohkem ülekasutatud. Infoliigsuse vältimiseks jäetakse järele ainult 8 ülekasutatud lemmat . Iga ülekasutatud lemmaga kaasneb ka info sõnade ja nende positsioonide (indeksite) kohta, mis sellele lemmale vastavad

lõputöö
37x

Tartu Ülikool Arvutiteaduse instituut Informaatika õppekava Karl Erik Karindi Lõputööde analüüs ja tulemuste visualiseerimine Bakalaureusetöö (9 EAP) Juhendaja: Raimond-Hendrik Tunnel, MSc Tartu 2020 Lõputööde analüüs ja tulemuste visualiseerimine Lühikokkuvõte: Bakalaureusetöö on lõputööde automaatne analüüs ja tagasisidestamine.

Lõputöö kirjutamise protsessi käigus tekib kirjutades nii stiili- kui ka grammatikavigu, mille parandamisele kulub palju aega ja energiat.

Veelgi probleemsem on olukord, kus vead jäävad märkamata ja lõputöö kvaliteet seepärast kannatab.

Seetõttu luuaksegi lõputööna programm, mis keeletehnoloogilisi lahendusi kasutades tuvastab vead ja annab soovitusi, kuidas neid parandada.

Lõputöö analüüsijast peaks kasu saama tudengid ja juhendajad nii töö kirjutamise käigus kui ka lõpliku töö ülevaatusel.

Edasiarendamise võimalused 19 5.1 Sisendteksti formaadi muutmine 19 5.2 Veebiliidese kasutajamugavus 20 5.3 Skaleeruvus 21 Viited 21 Sissejuhatus Igal aastal lõpetab Tartu Ülikooli üle 2000 tudengi, kellest igaüks peab lõpetamise tingimusena kirjutama lõputöö [1].

Lõputöö on demonstratsioon teadmistest ja oskustest, mida tudeng on oma õpingute vältel omandanud.

Käesolevas töös loodi analüsaatorist programm, mis toetab tudengit ja juhendajat töö kirjutamisel ning aitab järgida head lõputööle omast keelekasutust, -stiili ja -nõudeid.

Alternatiivid Eesti- ning ingliskeelsete tekstide puhul pole olemas programmi, mille põhieesmärgiks on lõputööde ehk akadeemilise teksti automaatne analüüs ja tagasisidestamine.

Programmi ülevaade Lõputöö analüsaatori jaoks loodi lahtise API-ga mikroteenus, millele esitab päringu CgLearni lõputöö veebiteenus.

Antud lõputöös olid suurima tähtsusega osalausestamise, sõnestamise, morfoloogilise analüüsi ja lausestamise funktsionaalsused.

Lõputöös otsustati kasutada EstNLTK versiooni 1.6.

Näiteks on kihi „morph_analysis“ kaudu võimalik saada kätte sõna algvorm ja sõnaliik, mis oli lõputöös korduvalt kasutatud sõnade analüüsi puhul võtmetähtsusega.

Lõputöös otsustati rakenduse backendi puhul Flaski kasuks, kuna selle kohta on palju dokumentatsiooni ning sellega on lihtne ja kiire luua REST arhitektuuril põhinevat arendusserverit.

3.3 Funktsionaalsus Lõputöö analüsaatoril on veebiliides (joonis 2), mida saab kasutada koheseks tekstianalüüsiks.

Kasutaja peab vaid kopeerima oma lõputöö teksti vastavasse tekstilahtrisse ning seejärel vajutama nupule „Analüüsi“.

Erinevates instituutides võib lõputöö kirjutamisnõuetes tegumoe nõue varieeruda, aga arvutiteaduse instituudis on soovituslik kasutada mina-vormi asemel umbisikulist tegumoodi.

Lõputöö analüsaatoris on umbisikulisuse kontrollimiseks olemas Pythoni moodul „impersonality_analyzer.

py“, mis analüüsib ja otsustab, kas lõputöö on täielikult umbisikulises tegumoes kirjutatud.

On aga võimalik, et kuigi teksti autor ei kasutanud lõputöös mina-vormi, siis sellegipoolest leidub mina-vorm kas tsitaadis või mõistes.

<> Lõputöö analüsaatoris on moodul „overused_word_analyzer.

Lõputöös loodud ülekasutatud sõnade analüsaator on see-eest kirjutatud Pythonis ja suudab analüüsida vaid eesti keelt.

Lisaks on tehtud edasiarendusi ja kohandusi vastavalt lõputööde analüsaatori API vajadustele.

Lõputöös kasutatakse Eesti Keeleressursside Keskuse (EKK) koostatud teaduskirjanduskorpuse lemmade sagedusloendit [3321].

Näiteks oli ühes testimiseks kasutatud lõputöös mainitud ainet „Programmeerimise alused“ 31 korda, mistõttu märgiti ka lemma „programmeerimine“ ülekasutatuks.

Lõputöö analüsaatoris kontrollib lausepikkust moodul „sentence_length_analyzer.

Lausepikkuse ja -keerulisuse analüsaator 3.3.4 Kantseliidi kontroll Lõputöö analüsaator kontrollib sisendtekstis ka kantseliiti.

Kantseliidi kontrollid on suuresti võetud üle Kaarel Sõrmuse 2017. aasta bakalaureusekraadi lõputööst „Kantseliidi- ja paronüümituvastaja“ [3341].

Võttes näiteks selle sama peatüki pealkirja ja esimese lause: kui kasutaja kopeerib terve lõputöö teksti veebiliidesesse, siis kuna vaadeldava peatüki nime lõpus pole punkti, tuvastab EstNLTK tekstilõigu „5.

Näiteks salvestati idee katsetamiseks Microsoft Word-is lõputöö tekst .

Seetõttu otsustati, et lõputöö analüsaator võtab sisendiks siiski puhtal kujul teksti.

See tähendab, et kasutaja peab võtma lahti oma lõputöö tekstifaili ja seejärel kopeerima liidesesse oma teksti.

Üks variant, kuidas protsessi lihtsustada, oleks lisada veebiliidesele võimalus laadida üles oma lõputöö teksti fail.

Tartu Ülikool Arvutiteaduse instituut Informaatika õppekava Karl Erik Karindi Lõputööde analüüs ja tulemuste visualiseerimine Bakalaureusetöö (9 EAP) Juhendaja: Raimond-Hendrik Tunnel, MSc Tartu 2020 Lõputööde analüüs ja tulemuste visualiseerimine Lühikokkuvõte: Bakalaureusetöö on lõputööde automaatne analüüs ja tagasisidestamine. Lõputöö kirjutamise protsessi käigus tekib kirjutades nii stiili- kui ka grammatikavigu, mille parandamisele kulub palju aega ja energiat. Veelgi probleemsem on olukord, kus vead jäävad märkamata ja lõputöö kvaliteet seepärast kannatab. Seetõttu luuaksegi lõputööna programm, mis keeletehnoloogilisi lahendusi kasutades tuvastab vead ja annab soovitusi, kuidas neid parandada. Lõputöö analüüsijast peaks kasu saama tudengid ja juhendajad nii töö kirjutamise käigus kui ka lõpliku töö ülevaatusel.

Näiteks salvestati idee katsetamiseks Microsoft Word-is lõputöö tekst . [...] Seetõttu otsustati, et lõputöö analüsaator võtab sisendiks siiski puhtal kujul teksti. [...] See tähendab, et kasutaja peab võtma lahti oma lõputöö tekstifaili ja seejärel kopeerima liidesesse oma teksti. [...] Üks variant, kuidas protsessi lihtsustada, oleks lisada veebiliidesele võimalus laadida üles oma lõputöö teksti fail. [...] 5.3 Skaleeruvus Lõputöö analüsaator jookseb Ubuntu 18.04 serveril, millel on 4 tuuma ja 4 GB vahemälu

sisendtekst
7x

Edasiarendamise võimalused 19 5.1 Sisendteksti formaadi muutmine 19 5.2 Veebiliidese kasutajamugavus 20 5.3 Skaleeruvus 21 Viited 21 Sissejuhatus Igal aastal lõpetab Tartu Ülikooli üle 2000 tudengi, kellest igaüks peab lõpetamise tingimusena kirjutama lõputöö [1].

Originaalset sisendteksti saab anda argumendina Text objektile, mis võimaldab tekstist erinevaid analüüsikihte luua.

Iga sõna puhul, mis sisendtekstis esineb, arvutatakse selle sõna tekstisisene sagedushinnang.

Tulemusena saab võrrelda, kas sõna esineb sisendtekstis rohkem kui on tavaliselt teadustekstides oodatud.

Lausepikkuse ja -keerulisuse analüsaator 3.3.4 Kantseliidi kontroll Lõputöö analüsaator kontrollib sisendtekstis ka kantseliiti.

Edasiarendamise võimalused 5.1 Sisendteksti formaadi muutmine Programm võtab sisendiks JSON kujul infot.

umbisikuline
12x

Programmi ülevaade 7 3.1 EstNLTK 7 3.2 Flask 8 3.3 Funktsionaalsus 8 3.3.1 Umbisikulise tegumoe kontroll 10 3.3.2 Korduvate sõnade kontroll 11 3.3.3 Lausepikkuse ja -keerulisuse kontroll 15 3.3.4 Kantseliidi kontroll 18 3.4 Andmete salvestamine 18 3.5 Jõudlus 19 4.

Kasutaja näeb kokkupandavate lahtritena nelja põhilist analüüsi: umbisikulise tegumoe, lausepikkuse, kantseliidi ja sõnakorduste kontrolli.

3.3.1 Umbisikulise tegumoe kontroll Teadustekst peaks üldise arusaama järgi olema objektiivne ja neutraalne nii keeleliselt kui ka sisult [10].

Eesti keeles on nii isikuline kui umbisikuline tegumood, millest viimast kasutatakse selleks, et kirjutaja isikut kõige paremini tagaplaanile jätta [10].

Erinevates instituutides võib lõputöö kirjutamisnõuetes tegumoe nõue varieeruda, aga arvutiteaduse instituudis on soovituslik kasutada mina-vormi asemel umbisikulist tegumoodi.

py“, mis analüüsib ja otsustab, kas lõputöö on täielikult umbisikulises tegumoes kirjutatud.

Analüüs tagastab lõpuks kõik laused, kus eirati umbisikulist tegumoodi.

Lisaks tuuakse iga lause puhul välja sõnad, mis ei ole umbisikulised .

Kui sõna on jutumärkide vahel, siis umbisikulise tegumoe analüsaator seda arvesse ei võta.

Umbisikulise tegumoe analüsaatori algoritm 3.3.2 Korduvate sõnade kontroll Üks levinumaid stiilivigasid on see, et tekstis kasutatakse teatud sõnu liiga palju.

Selles spetsiifilises näites annaks aga umbisikulise tegumoe analüüs tagasisidet, et lauses leidub mina-vormis sõna „mina“.

tegumood
12x

Programmi ülevaade 7 3.1 EstNLTK 7 3.2 Flask 8 3.3 Funktsionaalsus 8 3.3.1 Umbisikulise tegumoe kontroll 10 3.3.2 Korduvate sõnade kontroll 11 3.3.3 Lausepikkuse ja -keerulisuse kontroll 15 3.3.4 Kantseliidi kontroll 18 3.4 Andmete salvestamine 18 3.5 Jõudlus 19 4.

Kasutaja näeb kokkupandavate lahtritena nelja põhilist analüüsi: umbisikulise tegumoe , lausepikkuse, kantseliidi ja sõnakorduste kontrolli.

3.3.1 Umbisikulise tegumoe kontroll Teadustekst peaks üldise arusaama järgi olema objektiivne ja neutraalne nii keeleliselt kui ka sisult [10].

Eesti keeles on nii isikuline kui umbisikuline tegumood , millest viimast kasutatakse selleks, et kirjutaja isikut kõige paremini tagaplaanile jätta [10].

Erinevates instituutides võib lõputöö kirjutamisnõuetes tegumoe nõue varieeruda, aga arvutiteaduse instituudis on soovituslik kasutada mina-vormi asemel umbisikulist tegumoodi .

py“, mis analüüsib ja otsustab, kas lõputöö on täielikult umbisikulises tegumoes kirjutatud.

Analüüs tagastab lõpuks kõik laused, kus eirati umbisikulist tegumoodi .

Kui sõna on jutumärkide vahel, siis umbisikulise tegumoe analüsaator seda arvesse ei võta.

Umbisikulise tegumoe analüsaatori algoritm 3.3.2 Korduvate sõnade kontroll Üks levinumaid stiilivigasid on see, et tekstis kasutatakse teatud sõnu liiga palju.

Selles spetsiifilises näites annaks aga umbisikulise tegumoe analüüs tagasisidet, et lauses leidub mina-vormis sõna „mina“.

analüsaator
28x

Käesolevas töös loodi analüsaatorist programm, mis toetab tudengit ja juhendajat töö kirjutamisel ning aitab järgida head lõputööle omast keelekasutust, -stiili ja -nõudeid.

Analüsaatorist peaks kasu saama tudengid ja juhendajad nii töö kirjutamise käigus kui ka lõpliku töö ülevaatusel.

Programmi ülevaade Lõputöö analüsaatori jaoks loodi lahtise API-ga mikroteenus, millele esitab päringu CgLearni lõputöö veebiteenus.

3.3 Funktsionaalsus Lõputöö analüsaatoril on veebiliides (joonis 2), mida saab kasutada koheseks tekstianalüüsiks.

Lõputöö analüsaatoris on umbisikulisuse kontrollimiseks olemas Pythoni moodul „impersonality_analyzer.

Kui sõna on jutumärkide vahel, siis umbisikulise tegumoe analüsaator seda arvesse ei võta.

Sellegipoolest on analüsaatoril üks puudus.

Umbisikulise tegumoe analüsaatori algoritm 3.3.2 Korduvate sõnade kontroll Üks levinumaid stiilivigasid on see, et tekstis kasutatakse teatud sõnu liiga palju.

<> Lõputöö analüsaatoris on moodul „overused_word_analyzer.

Ülekasutatud sõnade analüsaatori loogika põhineb suuresti Githubi kasutaja omerdemirkan vabavaralisel programmil nimega Synonymy [12].

Lõputöös loodud ülekasutatud sõnade analüsaator on see-eest kirjutatud Pythonis ja suudab analüüsida vaid eesti keelt.

Lisaks on tehtud edasiarendusi ja kohandusi vastavalt lõputööde analüsaatori API vajadustele.

Selleks, et analüsaator töötaks, on vaja andmestikku lemmadest ja nende esinemissagedustestest tekstides.

Kui leidub, siis analüsaator märgistab sõna ülekasutatuks.

Ülekasutatud sõnade analüsaator töötab järgnevalt: Kutsutakse välja mooduli „overused_word_analyzer.

Lõputöö analüsaatoris kontrollib lausepikkust moodul „sentence_length_analyzer.

Kuna loetelust ei ole üldiselt lugejal keeruline aru saada, ei tohiks ka lausepikkuse ja -keerulisuse analüsaator seda keerulise lausena välja tuua.

Lausepikkuse ja -keerulisuse analüsaatori eesmärk on aidata tuvastada lauseid, mis võivad raskesti arusaadavad olla.

Teksti autor peab see-eest ise otsustama, kas analüsaatori poolt välja toodud lause on ka tõepoolest liiga pikk.

Näiteks klassifitseeris analüsaator järgneva lause keeruliseks: „Kuna käesolevas uurimistöös uuritakse verbe, mida on kasutatud otsekõne saatelausetes, ning vähesel määral ka saatelausete paiknemist, siis selles peatükis antakse lühike ülevaade, kuidas üldse tegelaskõnet kirjanduses on võimalik edasi anda ning milline tähtsus on saatelausetel dialoogide puhul.“ See lause meeldis töö autorile, kes ei pidanud seda liigselt keeruliseks.

Seetõttu on lausepikkuse ja -keerulisuse analüsaator teksti autorile siiski kõigest abivahendiks.

Analüsaator ei võta arvesse jutumärkide vahel olevaid sõnu, kuna nende põhjal tehakse eeldus, et need on kas tsitaadis või näited.

Analüsaator märgistaks tsitaadi ilma lisakontrollita liiga pikaks, aga kuna tekst on tsitaadis, siis tsitaadikontrolli tõttu võetakse analüüsil arvesse ainult lauseosa Ta on kirjutanud:.

Lausepikkuse ja -keerulisuse analüsaator 3.3.4 Kantseliidi kontroll Lõputöö analüsaator kontrollib sisendtekstis ka kantseliiti.

Umbisikulise tegumoe analüsaatori põhiline eesmärk on hoida autori isikut tagaplaanil, ent antud näite puhul see oma eesmärki ei täida.

Seetõttu otsustati, et lõputöö analüsaator võtab sisendiks siiski puhtal kujul teksti.

Kui sõna on jutumärkide vahel, siis umbisikulise tegumoe analüsaator seda arvesse ei võta. Sellegipoolest on analüsaatoril üks puudus. [...] Umbisikulise tegumoe analüsaatori algoritm 3.3.2 Korduvate sõnade kontroll Üks levinumaid stiilivigasid on see, et tekstis kasutatakse teatud sõnu liiga palju. [...] <> Lõputöö analüsaatoris on moodul „overused_word_analyzer. [...] Ülekasutatud sõnade analüsaatori loogika põhineb suuresti Githubi kasutaja omerdemirkan vabavaralisel programmil nimega Synonymy [12]. [...] Lõputöös loodud ülekasutatud sõnade analüsaator on see-eest kirjutatud Pythonis ja suudab analüüsida vaid eesti keelt. Lisaks on tehtud edasiarendusi ja kohandusi vastavalt lõputööde analüsaatori API vajadustele. Selleks, et analüsaator töötaks, on vaja andmestikku lemmadest ja nende esinemissagedustestest tekstides

osalause
16x

Näiteks on kolm osalauset lauses Mees, keda seal nägime, tahtis olla sõbralik ja tervitas meid.

Iga verbiahela puhul kaardistatakse ära, millisesse osalausesse see kuulub.

Pärast osalausestamist ja kaardistamist on tulemuseks see, et esimeses osalauses Mees tahtis olla sõbralik ja on tuvastatud verbiahel tahtis olla.

Teises osalauses keda seal nägime on leitud verbiahel nägime ja kolmandas osalauses teretas meid on verbiahelaks teretas.

Lause on programmi reeglite mõistes keeruline järgnevatel tingimustel: Osalausete arv on 5 või rohkem ning vähemalt kahes osalauses on verbiahel.

Verbiahelate osalausetes sisaldumise kontroll täidab mitut eesmärki.

Esiteks, verbiahel osalauses tähendab seda, et osalause tutvustab lausesse mingisugust uut mõtet.

Teiseks, kui lauses on küll palju osalauseid , aga verbiahel leidub vähestes osalausetes , on suur tõenäosus, et tegemist on loeteluga.

Näiteks ei tohiks keeruliseks märgistada lauset: „Viimaste sajandite kuulsaimad kirjanikud on Charles Dickens (1812), Virginia Woolf (1882), James Joyce (1882), F. Scott Fitzgerald (1896) ja Arthur C. Clarke (1917).“ Kuigi lugejale võiks tunduda, et lause ei ole keeruline, siis osalausestaja leiab, et selles lauses on 6 osalauset .

Esimese osalausena tuvastatakse Eelmise sajandi kuulsaimad kirjanikud on Charles Dickens, Virginia Woolf, James Joyce, F. Scott Fitzgerald ja Arthur C. Clarke.

Ülejäänud 5 osalauset on osalausestaja arvamusel aga aastaarvud, vastavalt (1812), (1882), (1882), (1896), (1917).

Näiteks on kolm osalauset lauses Mees, keda seal nägime, tahtis olla sõbralik ja tervitas meid. Iga verbiahela puhul kaardistatakse ära, millisesse osalausesse see kuulub. Pärast osalausestamist ja kaardistamist on tulemuseks see, et esimeses osalauses Mees tahtis olla sõbralik ja on tuvastatud verbiahel tahtis olla. Teises osalauses keda seal nägime on leitud verbiahel nägime ja kolmandas osalauses teretas meid on verbiahelaks teretas. [...] Lause on programmi reeglite mõistes keeruline järgnevatel tingimustel: Osalausete arv on 5 või rohkem ning vähemalt kahes osalauses on verbiahel. Verbiahelate osalausetes sisaldumise kontroll täidab mitut eesmärki. Esiteks, verbiahel osalauses tähendab seda, et osalause tutvustab lausesse mingisugust uut mõtet. [...] Teiseks, kui lauses on küll palju osalauseid , aga verbiahel leidub vähestes osalausetes , on suur tõenäosus, et tegemist on loeteluga

Näiteks ei tohiks keeruliseks märgistada lauset: „Viimaste sajandite kuulsaimad kirjanikud on Charles Dickens (1812), Virginia Woolf (1882), James Joyce (1882), F. Scott Fitzgerald (1896) ja Arthur C. Clarke (1917).“ Kuigi lugejale võiks tunduda, et lause ei ole keeruline, siis osalausestaja leiab, et selles lauses on 6 osalauset . Esimese osalausena tuvastatakse Eelmise sajandi kuulsaimad kirjanikud on Charles Dickens, Virginia Woolf, James Joyce, F. Scott Fitzgerald ja Arthur C. Clarke. Ülejäänud 5 osalauset on osalausestaja arvamusel aga aastaarvud, vastavalt (1812), (1882), (1882), (1896), (1917). See-eest leidub verbiahel ainult esimeses osalauses , mistõttu lauset keeruliseks ei märgistata.

tsitaat
11x

On aga võimalik, et kuigi teksti autor ei kasutanud lõputöös mina-vormi, siis sellegipoolest leidub mina-vorm kas tsitaadis või mõistes.

Selleks, et vältida valepositiivseid tulemusi, tehakse iga sõna puhul kontroll, kas see on mõiste või osa tsitaadist ehk jutumärkide vahel.

Kui mõiste või tsitaat on kaldkirjas, siis seda võetakse samamoodi arvesse nagu tavalist sõnagi.

Lisaks selgus katsetamisest, et arvesse ei tohiks võtta jutumärkide vahel esinevaid sõnu, sest need on kas tsitaadid või nimed.

Analüsaator ei võta arvesse jutumärkide vahel olevaid sõnu, kuna nende põhjal tehakse eeldus, et need on kas tsitaadis või näited.

Tsitaat on aga autori tekstist sõltumatu ehk autor seda muuta ei saa, seetõttu ei ole ka vajadust tsitaati keerulise näitena välja tuua.

Näiteks ekstreemse näite puhul: Ta on kirjutanud: „Praegu on kogu meie ametnikkond ühtse riikliku süsteemi teenistuses ning kirjade ja teiste dokumentide sõnastus minetab järjest isikupära, mistõttu asutustevahelised sidemed on tihedad, sest ühes kantseleis keele kohta langetatud väärotsus jõuab dokumentide vahendusel peagi teistesse, kus keele asjus kriitikavõimetud ametnikud selle omaks võtavad ja seda omakorda levitama hakkavad.“ Tsitaat on näite jaoks kohandatud Uno Liivaku kirjutis.

Analüsaator märgistaks tsitaadi ilma lisakontrollita liiga pikaks, aga kuna tekst on tsitaadis , siis tsitaadikontrolli tõttu võetakse analüüsil arvesse ainult lauseosa Ta on kirjutanud:.