Lausete arv: 600 - Sõnade arv: 7004
Analüüsiks kulunud aeg: 271.999 sekundit
Uus analüüs
mina-
Analüsaator leiab lausest mina- või meie-vormis sõnad
Umbisikulise tegumoe analüüs tagastab lõpuks kõik laused, kus eirati tsitaadi- või mõisteväliselt umbisikulist tegumoodi.
mina-
Iga lause puhul tuuakse välja sõnad, mis ei ole mina- või meie-vormis (vt joonis 541).
nägime, meid
Lauses Mees, keda seal nägime, tahtis olla sõbralik ja tervitas meid leidub ClauseSegmenter-i sõnul 3 osalauset.
mulle, Näen
Morfoloogilise analüüsi kiht lausel Ta ütles mulle: ,,Näen sind!”.
Arvan
Näide ümberütlevast väljendist oleks see, kui ,,Arvan, et” asemel kasutada hoopis ,,Arvatakse, et…”.
mina-
Olukorras, kus mina- või meie-vorm on sisupeatükist väljaspool, saab CGLearn ignoreerida vastava peatüki korral umbisikulisuse analüüsi tulemusi.
mina-
On aga võimalik, et kuigi sisendteksti autor ei kasutanud lõputöös mina- või meie-vormi töö sisupeatükkides, siis sellegipoolest leidub mina-vorm kas tsitaadis, mõistes või väljaspool sisupeatükke (nt Kokkuvõtte peatükis).
mina-, me, mina
Reeglite järgi on sõna mina- või meie-vormis siis, kui sõna on tegusõna ning kas lõppeb ühendiga sin, in, n, sime, ime, me või on sõnajuureks mina.
mina-
See leidis etteantud lõputööde tekstides üles kõik laused, kus esines mina- või meie-vorm.
mina, arvan
See tähendab, et iseendale viidates on soovituslik kasutada näiteks varianti arvatakse, aga mitte mina arvan.
mina-
Seetõttu ei märgita CGLearn õpikeskkonnas näiteks kokkuvõttes mina- või meie-vormi kasutamist veaks.
mina-
Selles on vaja vaid veenduda, et mina- või meie-vormis sõna ei oleks mõiste või osa tsitaadist.
mina
Sõna I tähendab eesti keeles mina →
Sõna I tähendab eesti keeles mina
Niiviisi oleks üpriski lihtne parsida tekstist välja kaldkiri, pealkirjad ning alampealkirjad.
nägime, meid
Teises osalauses keda seal nägime on leitud verbiahel nägime ja kolmandas osalauses teretas meid on verbiahel teretas.
mina-
Uuritakse, kas sõna vastab reeglitele, mis on mina- või meie-vormi määramiseks loodud.
mina-
siis otsustatakse, et sõna on mina- või meie-vormis.
Näiteks klassifitseeris analüsaator järgneva lause keeruliseks: Kuna käesolevas uurimistöös uuritakse verbe, mida on kasutatud otsekõne saatelausetes, ning vähesel määral ka saatelausete paiknemist, siis selles peatükis antakse lühike ülevaade, kuidas üldse tegelaskõnet kirjanduses on võimalik edasi anda ning milline tähtsus on saatelausetel dialoogide puhul.
Nagu Sõrmuse tööski, kui leitakse sõna, mis on öeldistäide ja mille lõpp on -tav või -v, uuritakse selle sõna süntaktilist ülemat.
Nagu Sõrmuse tööski, kui leitakse sõna, mille süntaksimärgend on määrus ning kääne on saav, võetakse vaatluse alla selle sõna süntaktiline ülemus [571].
Näiteks pidas analüsaator kantseliitlikuks sõnapaarid näiteks on; lisaks on; selleks on; selliseks on ja tulemuseks on.
Seetõttu tehti edasiarendus: kui sõna vastab eelmises lõigus mainitud reeglitele, ent sõna on kas lisaks, näiteks, selleks, selliseks või tulemuseks, siis seda kantseliidiks ei märgita.
Osalause(d), mille ette läheb koma
Originaallause
selgus aga,
Katsetades selgus aga, et sellise reegli puhul võivad pikad laused jääda pikaks märkimata.
kohalduvad versiooniga 1.6.
Kuna Sõrmuse lõputöös oli kasutatud EstNLTK versiooni 1.4.1, pidi funktsioone muutma, et nad oleksid kohalduvad versiooniga 1.6.
Poolt-tarind on võõrapärane vorm, mis jätab lauses tegija tagaplaanile.
Näiteks ingliskeelse lause The work was done by the employee puhul oleks eestikeelne otsetõlge Töö oli töötaja poolt tehtud.
Kantseliiti sai vältida sellega, kui muudeti lause sõnastust või eemaldati sõna poolt.
Öeldistäiteks olev v- või tav- kesksõna võib mõjuda bürokraatlikult.
Seda seetõttu, et meetrik on oluline pigem lasteraamatute puhul, kus tekst peab lastele kergesti arusaadav olema.
Üks levinumaid ekslikke arusaamasid on see, et teadustekst peab olema keeruline, ent tegelikkuses peaks see olema selgesti arusaadav ja sujuvalt loetav ilma, et see muutuks liiga primitiivseks [5].
Lõputöö analüsaatori veebiliides Liides on lihtsasti kasutatav.
Selleks kasutatakse VISLCG3 süntaksi analüsaatorit, mis on EstNLTK teegist kättesaadav [572].
Näiteks lauses Leping on kehtiv 2 aastat on oleviku kesksõna kehtiv.
Näiteks, kas on võimalik, et sõnapaar on kehtiv puhul märgitakse sõna kehtiv verbiks, ent on huvitav puhul sõna huvitav omadussõnaks.
Ei süntaksi ega morfoloogilise analüüsi sõnaliigi märgendajad ei suutnud tuvastada, kas sõna on kesksõna, mis väljendab tegevust (näiteks kehtiv, lööv) või on sõna tavaline omadussõna (näiteks huvitav, põnev).
Nagu Sõrmuse tööski, kui leitakse sõna, mille süntaksimärgend on määrus ning kääne on saav, võetakse vaatluse alla selle sõna süntaktiline ülemus [571].
Kuna backend on niikuinii eraldiseisev API, saab veebiliidese teenust serveerida eraldi serveril.
Märgib omaduste või seisundite juhuslikkust, ajutist iseloomu.
Parem on
kasutada kindlamat kõneviisi.
Teadustekst Olgugi, et pole olemas ametlikku tekstiliikide jaotust, saab sellegipoolest tänapäeval jaotada keelekasutust argikeeleks, ilukirjanduslikuks keeleks ja tarbekeeleks, millest viimast on võimalik omakorda jaotada ajakirjanduslikuks keeleks, ametikeeleks ja teaduskeeleks [3].
Alternatiivid Eesti- ning ingliskeelsete tekstide puhul pole olemas programmi, mille põhieesmärgiks on lõputööde ehk akadeemilise teksti automaatne analüüs ja tagasisidestamine.
Tulemuste analüüsiks on soovituslik kasutada juurkaustas olevat abimoodulit html_exporter.
Lisaks saab 1.6 regulaarselt uuendusi, mistõttu on tulevikus rohkem võimalusi uuteks analüüsideks.
Sõnade kihi jagunemine Span objektideks Erinevatel kihtidel on Span objektidel kihispetsiifilised atribuudid.
Sarnaselt QuoteAnalyzer ja QuoteRemover klassidele, on CitationRemover teistele analüsaatoritele abiklassiks.
Nendeks on numbriline viitamine ja tekstisisene viitamine autori nime ja aastaarvuga.
Reeglite järgi on sõna mina- või meie-vormis siis, kui sõna on tegusõna ning kas lõppeb ühendiga sin, in, n, sime, ime, me või on sõnajuureks mina.
Esmaselt on vaja sõnade sagedushinnangute leidmiseks tekst lemmatiseerida.
Luuakse sõnastik, kus võtmeteks on lemmad ning väärtusteks kõik sõnad (koos indeksitega), mis sellele lemmale tekstis vastavad.
Luuakse sõnastik, kus võtmeteks on lemmad ning väärtusteks kõik sõnad (koos indeksitega), mis sellele lemmale tekstis vastavad.
Teiseks, lauses võib olla palju osalauseid, aga ainult vähestes osalausetes leidub verbiahel.
Näiteks, kas on võimalik, et sõnapaar on kehtiv puhul märgitakse sõna kehtiv verbiks, ent on huvitav puhul sõna huvitav omadussõnaks.
Näiteks lauset Arsti sooviks on teha head oleks parem kirjutada Arst soovib teha head.
Lause Arsti sooviks on teha head on tõepoolest kantseliitlik, ent analüsaator tõi välja ka sõnapaare, kus probleemi tegelikult ei esinenud.
See tähendab, et saadetakse HTTP POST request, kus võtmeks on „user_text“ ja väärtuseks analüüsitav tekst.
Lõpptulemuseks oleks see, et analüüsid saaksid toimuda samamoodi nagu ennegi, ent kasutajamugavus on paranenud.
Probleemi leevendamiseks on mitmeid variante.
Mine-vormi kasutus koos tühiverbiga.
Seejärel toimub osalausestamine, misjärel leitakse kõik lause verbiahelad (ingl verb chains).
|
kantseliit 18x |
Analüsaatorid 17 5.1 Sisendteksti eeltöötlus 17 5.2 Mõiste- ja tsitaadituvastaja ning -eemaldaja 17 5.3 Viite-eemaldaja 20 5.4 Umbisikulise tegumoe analüsaator 20 5.5 Korduvate sõnade analüsaator 23 5.6 Lausepikkuse ja -keerulisuse analüsaator 27 5.7 Kantseliidi analüsaator 31 5.7.1 Poolt-tarind 32 5.7.2 Olema kesksõna 33 5.7.3 Määrus saavas käändes 34 5.8 Puuduvate komade analüsaator 35 6. Kasutaja näeb kokkupandavate lahtritena viite põhilist analüüsi: umbisikulise tegumoe, lausepikkuse, puuduvate komade, kantseliidi ja sõnakorduste analüüsi. 5.7 Kantseliidi analüsaator Lõputöö analüsaator kontrollib, kas sisendtekstis leidub kantseliiti . Kantseliit on ebaselge, keerukas, raskesti ja mitmeti mõistetav keelekasutus [570]. Kantseliidi kontrollid on suuresti üle võetud Kaarel Sõrmuse 2017. aasta bakalaureusekraadi lõputööst „Kantseliidi- ja paronüümituvastaja“ [571]. Moodul kutsub välja eri funktsioone ehk analüsaatoreid, millest igaüks otsib tekstist kindlat sorti kantseliidi tunnust (vt joonis 570). Kantseliidi analüsaatori jagunemine Mooduli analüsaatorid vaatavad igat lauset eraldiseisvalt. Seejärel analüüsivad kõik 4 kantseliidi analüsaatorit lauset. Kui lauses leidub kindel kantseliidi tüüp, tuuakse see välja. Kantseliiti sai vältida sellega, kui muudeti lause sõnastust või eemaldati sõna poolt. Kui ülema algvorm on olema, siis on tuvastatud olema kesksõna kantseliit . Näiteks toodi kantseliidina välja sõnapaar on huvitav. Kuna sõna huvitav puhul ei ole tegu kesksõna, vaid omadussõnaga, ei tohiks analüsaator seda kantseliidina välja tuua. See-eest, kui märgendajad suudaks kesksõna ja omadussõna eristada, oleks lihtne kantseliidi tuvastamisel võtta arvesse ainult sõnu, mis on kesksõnad. Kui öeldistäide on kas huvitav või vaieldav, siis seda kantseliidina arvesse ei võeta. Kantseliit tuuakse veebiliideses esile (vt joonis 5730). |
|||||||
|
5.7 Kantseliidi analüsaator Lõputöö analüsaator kontrollib, kas sisendtekstis leidub kantseliiti . Kantseliit on ebaselge, keerukas, raskesti ja mitmeti mõistetav keelekasutus [570]. [...] Kantseliidi kontrollid on suuresti üle võetud Kaarel Sõrmuse 2017. aasta bakalaureusekraadi lõputööst „Kantseliidi- ja paronüümituvastaja“ [571 | |||||||
|
lausepikkus 12x |
Analüsaatorid 17 5.1 Sisendteksti eeltöötlus 17 5.2 Mõiste- ja tsitaadituvastaja ning -eemaldaja 17 5.3 Viite-eemaldaja 20 5.4 Umbisikulise tegumoe analüsaator 20 5.5 Korduvate sõnade analüsaator 23 5.6 Lausepikkuse ja -keerulisuse analüsaator 27 5.7 Kantseliidi analüsaator 31 5.7.1 Poolt-tarind 32 5.7.2 Olema kesksõna 33 5.7.3 Määrus saavas käändes 34 5.8 Puuduvate komade analüsaator 35 6. Kasutaja näeb kokkupandavate lahtritena viite põhilist analüüsi: umbisikulise tegumoe, lausepikkuse , puuduvate komade, kantseliidi ja sõnakorduste analüüsi. Sellegipoolest on mõnes analüsaatoris, näiteks lausepikkuse- ja keerulisuse analüsaatoris, vaja jutumärkide vahel olev tekst eemaldada. QuoteRemover lausepuhastuse lõpptulemus QuoteRemover on kõige olulisem lausepikkuse- ja keerulisuse analüsaatoris, kus on vaja, et tsitaadid ei mõjutaks kuidagi lause keerukust. Selle kohta on rohkem infot alampeatükis ,, Lausepikkuse- ja keerulisuse analüsaator”. 5.6 Lausepikkuse ja -keerulisuse analüsaator Emakeeleseltsi väitel peab selge tekst olema lihtsa ja loogilise lauseehitusega [14]. Lõputöö analüsaatoris kontrollib lausepikkust moodul sentences_analyzer. Kuna loetelust ei ole üldiselt lugejal keeruline aru saada, ei tohiks ka lausepikkuse ja -keerulisuse analüsaator seda keerulise lausena välja tuua. Lisareegli tõttu võetakse eelneva lause puhul lausepikkuse ja -keerulisuse analüüsis arvesse vaid ühte osalauset (Eelmise sajandi kuulsaimad kirjanikud on Charles Dickens, Virginia Woolf, James Joyce, F. Scott Fitzgerald ja Arthur C. Clarke), milles leidub verbiahel on. Seetõttu on lausepikkuse ja -keerulisuse analüsaator teksti autorile siiski kõigest abivahend. Lausepikkuse- ja keerulisuse analüsaator töötab hästi. |
|||||||
|
veebiliides 24x |
Edasiarendamise võimalused 37 7.1 Sisendteksti formaadi muutmine 37 7.2 Teistele keeltele laiendamine 38 7.3 Veebiliidese kasutajamugavus 38 7.4 Skaleeruvus 38 7.5 Kasutaja eelistuste salvestamine 39 8. Selleks, et lõputööde analüsaator oleks lihtsasti kättesaadav kirjutajatele, kes pole CGLearn õpikeskkonda registreeritud, loodi programmi jaoks ka veebiliides . Veebiliidesest tuleb rohkem juttu peatükis ,,Programmi ülevaade”. Mikroteenusele esitab päringu veebipõhine õpikeskkond CGLearn või analüsaatori jaoks loodud veebiliides (vt joonis 410). Kasutajatele näitab vastust arusaadaval kujul kasutajaliides, mis on kas programmi jaoks loodud veebiliides või CGLearn õpikeskkond. 4.2 Veebiliides Lõputöö analüsaatoril on veebiliides (joonis 2), mida saab kasutada koheseks tekstianalüüsiks. Kõik veebiliidese kaudu tehtud päringud salvestatakse andmebaasi. Lõputöö analüsaatori veebiliides Liides on lihtsasti kasutatav. 4.3 Tulemuste salvestamine Selleks, et jälgida veebiliidese kasutust ja analüüsida programmi tulemusi, on võimalik salvestada kõik veebiliidese kaudu tehtud analüüsid andmebaasi. Veebiliideses tuuakse poolt-tarindiga lause esile (vt joonis 5710). Poolt-tarindi analüüsi tulemus veebiliideses Joonisel 5710 on näha, et sõna Tema on omastavas käändes. Kantseliitlik tekst tuuakse veebiliideses esile (vt joonis 5720). Olema kesksõna kontrolli tulemus veebiliideses Katsetamisest selgus, et analüsaator toob tihti esile valepositiivseid tulemusi. Kantseliit tuuakse veebiliideses esile (vt joonis 5730). Määrus saavas käändes kontrolli tulemus veebiliideses . Võttes näiteks selle sama peatüki pealkirja ja esimese lause: kui kasutaja kopeerib terve lõputöö teksti veebiliidesesse , siis kuna vaadeldava peatüki nime lõpus pole punkti, tuvastab EstNLTK tekstilõigu „5. 7.3 Veebiliidese kasutajamugavus Praeguses veebiliideses saab kasutaja sisestada oma teksti ainult kopeerides. Üks variant, kuidas protsessi lihtsustada, oleks lisada veebiliidesele võimalus laadida üles oma lõputöö teksti fail. See on Estonian Scientific Computing Infrastructure (ETAIS) veebiliidese kaudu saadud High Performance Computing (HPC) keskuse server. Kuna backend on niikuinii eraldiseisev API, saab veebiliidese teenust serveerida eraldi serveril. |
|||||||
|
4.2 Veebiliides Lõputöö analüsaatoril on veebiliides (joonis 2), mida saab kasutada koheseks tekstianalüüsiks. Kõik veebiliidese kaudu tehtud päringud salvestatakse andmebaasi. [...] Lõputöö analüsaatori veebiliides Liides on lihtsasti kasutatav | |||||||
|
teadustekst 11x |
Teadustekst 7 3. Lõputööd kirjutades on oluline kasutada korrektset ja akadeemilist keelekasutust ning -stiili, mis on omane teadustekstile . Tudengil on aga teadusteksti norme ja tavasid tihtipeale raske järgida, kuna selle kirjutamisega on üldiselt vähe kogemusi. Teadustekst Olgugi, et pole olemas ametlikku tekstiliikide jaotust, saab sellegipoolest tänapäeval jaotada keelekasutust argikeeleks, ilukirjanduslikuks keeleks ja tarbekeeleks, millest viimast on võimalik omakorda jaotada ajakirjanduslikuks keeleks, ametikeeleks ja teaduskeeleks [3]. Üks levinumaid ekslikke arusaamasid on see, et teadustekst peab olema keeruline, ent tegelikkuses peaks see olema selgesti arusaadav ja sujuvalt loetav ilma, et see muutuks liiga primitiivseks [5]. Esmaselt luuakse regulaaravaldis, mis suudab leida levinumad teadusteksti viitamisstiilid. Mitmete teadustekstide autorid nagu näiteks Sirkka Hirsjärvi, Pirkko Remes ja Paula Sajavaara väidavad, et teadusteksti autor peab enda isikut tagaplaanil hoidma [11]. Kuna tasakaalus korpus on segu ajakirjandus-, ilukirjandus- ja teaduskirjanduskorpuse lemmadest ja nende sagedustest, ei andnud see teadusteksti analüüsi puhul siiski kõige paremaid tulemusi. Seejärel leitakse sõna tegelik sagedushinnang teadustekstide korpusest. |
|||||||
|
lõputöö 71x |
Tartu Ülikool Arvutiteaduse instituut Informaatika õppekava Karl Erik Karindi Lõputöö teksti analüsaator Bakalaureusetöö (9 EAP) Juhendaja: Raimond-Hendrik Tunnel, MSc Tartu 2020 Lõputöö teksti analüsaator Lühikokkuvõte: Bakalaureusetöö on lõputööde automaatne analüüs ja tagasisidestamine. Lõputöö kirjutamise protsessi käigus tekib kirjutades nii stiili- kui ka grammatikavigu, mille parandamisele kulub palju aega ja energiat. Veelgi probleemsem on olukord, kus vead jäävad märkamata ja lõputöö kvaliteet seepärast kannatab. Seetõttu luuaksegi lõputööna programm, mis keeletehnoloogilisi lahendusi kasutades tuvastab vead ja annab soovitusi, kuidas neid parandada. Lõputöö analüüsijast peaks kasu saama tudengid ja juhendajad nii töö kirjutamise käigus kui ka lõpliku töö ülevaatusel. Sissejuhatus Igal aastal lõpetab Tartu Ülikooli üle 2000 tudengi, kellest igaüks peab lõpetamiseks kirjutama lõputöö [1]. Lõputöö on demonstratsioon teadmistest ja oskustest, mida tudeng on oma õpingute vältel omandanud. Lõputööd kirjutades on oluline kasutada korrektset ja akadeemilist keelekasutust ning -stiili, mis on omane teadustekstile. Lisaks kasutati ja arendati olemasolevaid lahendusi, mis olid leitud kas internetist või varasematest lõputöödest . Programm aitab järgida head lõputööle omast keelekasutust, -stiili ja -nõudeid. Töö idee tuli veebipõhise õpikeskkonna CGLearn lõputööde moodulist [CG0]. Lõputööde moodul võimaldab aga lõputöö kirjutajaid efektiivsemalt juhendada [CG1]. Näiteks saab moodulis nii juhendaja kui ka juhendatav lihtsasti jälgida lõputöö kirjutamise protsessi. Juhendatav saab ka logida lõputööle kulutatud aega ja jälgida graafikust kinni pidamist. CGLearni registreeritud tudengid saavad iga nädala alguses raporti oma lõputöö kirjalikust osast. Enne lõputöö analüsaatori loomist analüüsis veebirakendus ainult ingliskeelsete lõputööde tekstikeerukust. Igal nädalal esitab CGLearni õpikeskkond lõputööde analüsaatori programmi API-le päringu, mille vastusest saab tekstianalüüside tulemused kätte. Seejärel lisatakse tulemused raportisse, kust juhendatavad saavad näha automaatset tagasisidet oma lõputööde tekstidele. Selleks, et lõputööde analüsaator oleks lihtsasti kättesaadav kirjutajatele, kes pole CGLearn õpikeskkonda registreeritud, loodi programmi jaoks ka veebiliides. Lõputöö viimases faasis uuriti, kas loodud analüüsid olid eestikeelsete lõputööde kirjutamisel tudengite jaoks kasulikud. Selles lõputöös keskendutakse just teaduskeele analüüsile. Alternatiivid Eesti- ning ingliskeelsete tekstide puhul pole olemas programmi, mille põhieesmärgiks on lõputööde ehk akadeemilise teksti automaatne analüüs ja tagasisidestamine. Programmi ülevaade 4.1 Ülesehitus Lõputöö analüsaatori jaoks loodi lahtise Application Programming Interface-ga (API) mikroteenus. Lõputöö analüsaatori ülesehitus Lõputöö teksti analüsaator on jagatud erinevateks väiksemateks analüsaatoriteks, millest igaühel on oma eesmärk. Joonisel 411 on näha lõputöö teksti analüsaatori töövoogu. 4.2 Veebiliides Lõputöö analüsaatoril on veebiliides (joonis 2), mida saab kasutada koheseks tekstianalüüsiks. Lõputöö analüsaatori veebiliides Liides on lihtsasti kasutatav. Kasutaja peab vaid kopeerima oma lõputöö teksti vastavasse tekstilahtrisse ning seejärel vajutama nupule „Analüüsi“. Lõputöös otsustati rakenduse backendi puhul Flaski kasuks, kuna selle kohta on palju dokumentatsiooni ning sellega on lihtne ja kiire luua REST arhitektuuril põhinevat arendusserverit. Antud lõputöös olid EstNLTK funktsionaalsustest suurima vaatluse all osalausestamine, sõnestamine, morfoloogilise analüüs ja lausestamine. Käesolevas lõputöös otsustati kasutada EstNLTK versiooni 1.6. morph_analysis kiht oli lõputöös korduvalt kasutatud sõnade analüüsi puhul võtmetähtsusega. Kuna EstNLTK teegis ei leidu nende tuvastamiseks sääraseid funktsionaalsusi, otsustati lõputöös luua klassid QuoteAnalyzer ja QuoteRemover. Erinevates instituutides võib lõputöö kirjutamisnõuetes tegumoe nõue varieeruda, aga arvutiteaduse instituudis on soovituslik kasutada mina-vormi asemel umbisikulist tegumoodi. Lõputöö analüsaatori programmis loodi umbisikulisuse kontrollimiseks Pythoni moodul impersonality_analyzer, mis analüüsib ja otsustab, kas lõputöö on täielikult umbisikulises tegumoes kirjutatud. On aga võimalik, et kuigi sisendteksti autor ei kasutanud lõputöös mina- või meie-vormi töö sisupeatükkides, siis sellegipoolest leidub mina-vorm kas tsitaadis, mõistes või väljaspool sisupeatükke (nt Kokkuvõtte peatükis). See leidis etteantud lõputööde tekstides üles kõik laused, kus esines mina- või meie-vorm.
< Lõputöös loodud ülekasutatud sõnade analüsaator on see-eest kirjutatud Pythonis ja analüüsib hetkel vaid eesti keelt. Võrreldes programmiga Synonymy, on tehtud ka lisaks edasiarendusi ja kohandusi vastavalt lõputööde analüsaatori API vajadustele. Lõputöös kasutatakse Eesti Keeleressursside Keskuse (EKRK) koostatud teaduskirjanduskorpuse lemmade sagedusloendit [550][551]. Näiteks oli ühes testimiseks kasutatud lõputöös mainitud ainet „Programmeerimise alused“ 31 korda, mistõttu märgiti ka lemma programmeerimine ülekasutatuks. Lõputöö analüsaatoris kontrollib lausepikkust moodul sentences_analyzer. 5.7 Kantseliidi analüsaator Lõputöö analüsaator kontrollib, kas sisendtekstis leidub kantseliiti. Kantseliidi kontrollid on suuresti üle võetud Kaarel Sõrmuse 2017. aasta bakalaureusekraadi lõputööst „Kantseliidi- ja paronüümituvastaja“ [571]. Sõrmuse lõputöös oli mitmeid analüüse, mis tuvastasid erinevaid kantseliitlikke tekstitunnuseid. Lõputöö analüsaatorisse tõsteti ümber poolt-tarindi, määrus saavas käändes, olema-kesksõna ja nominalisatsioon mine-vormis analüüsid. Kuna Sõrmuse lõputöös oli kasutatud EstNLTK versiooni 1.4.1, pidi funktsioone muutma, et nad oleksid kohalduvad versiooniga 1.6. Lõputöö analüsaatoris on loodud eraldi moodul officialese_analyzer, mis otsib tekstis kantseliitlikke tunnuseid. Olema kesksõna analüsaator on võetud Sõrmuse lõputööst , ent sellele on lisatud mõned reeglid. Analüsaator on võetud üle Sõrmuse lõputööst , ent sellele on tehtud mõned edasiarendused. Võttes näiteks selle sama peatüki pealkirja ja esimese lause: kui kasutaja kopeerib terve lõputöö teksti veebiliidesesse, siis kuna vaadeldava peatüki nime lõpus pole punkti, tuvastab EstNLTK tekstilõigu „5. Näiteks salvestati idee katsetamiseks Microsoft Word-is lõputöö tekst . Seetõttu otsustati, et lõputöö analüsaator võtab sisendiks siiski puhtal kujul teksti. See tähendab, et kasutaja peab võtma lahti oma lõputöö tekstifaili ja seejärel kopeerima liidesesse oma teksti. Üks variant, kuidas protsessi lihtsustada, oleks lisada veebiliidesele võimalus laadida üles oma lõputöö teksti fail. 7.4 Skaleeruvus Lõputöö analüsaator jookseb Ubuntu 18.04 serveril, millel on 4 tuuma ja 4 GB vahemälu. Kui analüüs tehti aga lõputöö teksti analüsaatori live-serveril, siis kulus aega 70.84 sekundit. Programmi põhiline eesmärk on analüüsida CGLearnist automaatselt analüüsiks saadetud lõputöö tekste. Igal pühapäeval saadetakse eestikeelsed lõputööd API-le. Näiteks võib tuua olukorra, kus kasutaja proovib lõputööde analüsaatorit teist korda. Näiteks CGLearn saadab iganädalaselt raporti koos lõputöö analüsaatori tulemustega. Kui lõputöö kirjutaja ei soovi valepositiivset lauset muuta, oleks kasulik, kui ta saaks märkida lauset sobivaks. |
|||||||
|
Tartu Ülikool Arvutiteaduse instituut Informaatika õppekava Karl Erik Karindi Lõputöö teksti analüsaator Bakalaureusetöö (9 EAP) Juhendaja: Raimond-Hendrik Tunnel, MSc Tartu 2020 Lõputöö teksti analüsaator Lühikokkuvõte: Bakalaureusetöö on lõputööde automaatne analüüs ja tagasisidestamine. Lõputöö kirjutamise protsessi käigus tekib kirjutades nii stiili- kui ka grammatikavigu, mille parandamisele kulub palju aega ja energiat. Veelgi probleemsem on olukord, kus vead jäävad märkamata ja lõputöö kvaliteet seepärast kannatab. Seetõttu luuaksegi lõputööna programm, mis keeletehnoloogilisi lahendusi kasutades tuvastab vead ja annab soovitusi, kuidas neid parandada. Lõputöö analüüsijast peaks kasu saama tudengid ja juhendajad nii töö kirjutamise käigus kui ka lõpliku töö ülevaatusel. | |||||||
|
Töö idee tuli veebipõhise õpikeskkonna CGLearn lõputööde moodulist [CG0]. [...] Lõputööde moodul võimaldab aga lõputöö kirjutajaid efektiivsemalt juhendada [CG1]. Näiteks saab moodulis nii juhendaja kui ka juhendatav lihtsasti jälgida lõputöö kirjutamise protsessi. [...] Juhendatav saab ka logida lõputööle kulutatud aega ja jälgida graafikust kinni pidamist. [...] CGLearni registreeritud tudengid saavad iga nädala alguses raporti oma lõputöö kirjalikust osast. Enne lõputöö analüsaatori loomist analüüsis veebirakendus ainult ingliskeelsete lõputööde tekstikeerukust | |||||||
|
kesksõna 13x |
Analüsaatorid 17 5.1 Sisendteksti eeltöötlus 17 5.2 Mõiste- ja tsitaadituvastaja ning -eemaldaja 17 5.3 Viite-eemaldaja 20 5.4 Umbisikulise tegumoe analüsaator 20 5.5 Korduvate sõnade analüsaator 23 5.6 Lausepikkuse ja -keerulisuse analüsaator 27 5.7 Kantseliidi analüsaator 31 5.7.1 Poolt-tarind 32 5.7.2 Olema kesksõna 33 5.7.3 Määrus saavas käändes 34 5.8 Puuduvate komade analüsaator 35 6. 5.7.2 Olema kesksõna Öedistäide, mis on v- või tav-kesksõna, võib mõjuda kohmakalt [5720]. Oleviku kesksõna väljendab tegevust, mis iseloomustab tegijat või tegijaobjekti [5721]. Näiteks lauses Leping on kehtiv 2 aastat on oleviku kesksõna kehtiv. Olema kesksõna analüsaator on võetud Sõrmuse lõputööst, ent sellele on lisatud mõned reeglid. Kui ülema algvorm on olema, siis on tuvastatud olema kesksõna kantseliit. Olema kesksõna kontrolli tulemus veebiliideses Katsetamisest selgus, et analüsaator toob tihti esile valepositiivseid tulemusi. Kuna sõna huvitav puhul ei ole tegu kesksõna , vaid omadussõnaga, ei tohiks analüsaator seda kantseliidina välja tuua. Katsetati, kas on võimalik eristada kesksõnu ja omadussõnu nende liigi järgi. Kahjuks ei olnud kesksõnu ja omadussõnu võimalik eristada. Ei süntaksi ega morfoloogilise analüüsi sõnaliigi märgendajad ei suutnud tuvastada, kas sõna on kesksõna , mis väljendab tegevust (näiteks kehtiv, lööv) või on sõna tavaline omadussõna (näiteks huvitav, põnev). |
|||||||
|
5.7.2 Olema kesksõna Öedistäide, mis on v- või tav-kesksõna, võib mõjuda kohmakalt [5720]. Oleviku kesksõna väljendab tegevust, mis iseloomustab tegijat või tegijaobjekti [5721]. Näiteks lauses Leping on kehtiv 2 aastat on oleviku kesksõna kehtiv. [...] Olema kesksõna analüsaator on võetud Sõrmuse lõputööst, ent sellele on lisatud mõned reeglid | |||||||
|
Kui ülema algvorm on olema, siis on tuvastatud olema kesksõna kantseliit. [...] Olema kesksõna kontrolli tulemus veebiliideses Katsetamisest selgus, et analüsaator toob tihti esile valepositiivseid tulemusi. [...] Kuna sõna huvitav puhul ei ole tegu kesksõna , vaid omadussõnaga, ei tohiks analüsaator seda kantseliidina välja tuua. Katsetati, kas on võimalik eristada kesksõnu ja omadussõnu nende liigi järgi. [...] Kahjuks ei olnud kesksõnu ja omadussõnu võimalik eristada. Ei süntaksi ega morfoloogilise analüüsi sõnaliigi märgendajad ei suutnud tuvastada, kas sõna on kesksõna , mis väljendab tegevust (näiteks kehtiv, lööv) või on sõna tavaline omadussõna (näiteks huvitav, põnev). [...] See-eest, kui märgendajad suudaks kesksõna ja omadussõna eristada, oleks lihtne kantseliidi tuvastamisel võtta arvesse ainult sõnu, mis on kesksõnad | |||||||
|
valepositiivne 14x |
Selleks, et vältida valepositiivseid tulemusi, tehakse iga sõna puhul kontroll, kas see on mõiste või osa tsitaadist. Niiviisi võib lihtsasti tekkida valepositiivseid tulemusi, kus teksti autor on mõiste või tsitaadi jaoks jutumärkide asemel kasutanud kaldkirja. Näidislause osalausestamise tulemus Selleks, et vältida osalausestajast tingitud valepositiivseid tulemusi seoses keeruliste lausetega, on lisatud eraldi reegel sulgude vahel oleva teksti kohta. Esialgsed analüsaatorid andsid tihti valepositiivseid vastuseid. Katsetamisest selgus, et poolt-tarindi kontrolli tulemustes leidus kõige vähem valepositiivseid kirjeid. Olema kesksõna kontrolli tulemus veebiliideses Katsetamisest selgus, et analüsaator toob tihti esile valepositiivseid tulemusi. Niiviisi väheneks tunduvalt valepositiivsete tulemuste arv. Mõningate valepositiivsete tulemuste vältimiseks loodi erandid. Katsetamisest selgus see-eest, et analüsaatori tulemustes esines palju valepositiivseid kirjeid. Kuigi määrus saavas käändes analüsaator võib tekitada palju valepositiivseid , on sellel siiski potentsiaali olla kasulik. Lisaks ei saa märkida, missuguseid valepositiivseid tulemusi ei soovi kasutaja järgnevates analüüsides enam näha. Funktsionaalsuse lisamine annaks kindlasti palju lisandväärtust, kuna analüüsides esineb valepositiivseid tulemusi. Valepositiivsed tulemused võivad aga mitmete analüüside jooksul (näiteks iganädalaste CGLearni saadetud tekstide puhul) osutuda soovimatuks müraks, mis häirivad tulemuste uurimist. |
|||||||
|
sisendtekst 17x |
Analüsaatorid 17 5.1 Sisendteksti eeltöötlus 17 5.2 Mõiste- ja tsitaadituvastaja ning -eemaldaja 17 5.3 Viite-eemaldaja 20 5.4 Umbisikulise tegumoe analüsaator 20 5.5 Korduvate sõnade analüsaator 23 5.6 Lausepikkuse ja -keerulisuse analüsaator 27 5.7 Kantseliidi analüsaator 31 5.7.1 Poolt-tarind 32 5.7.2 Olema kesksõna 33 5.7.3 Määrus saavas käändes 34 5.8 Puuduvate komade analüsaator 35 6. Edasiarendamise võimalused 37 7.1 Sisendteksti formaadi muutmine 37 7.2 Teistele keeltele laiendamine 38 7.3 Veebiliidese kasutajamugavus 38 7.4 Skaleeruvus 38 7.5 Kasutaja eelistuste salvestamine 39 8. Klient saadab API-le päringu päringu, milles on JSON formaadis analüüsisimisele minev sisendtekst . Seejärel eeltöödeldakse sisendtekst ja algatatakse analüüsid. Originaalsest sisendtekstist luuakse Text objekt, millele saab erinevaid analüüsikihte lisada. 5.1 Sisendteksti eeltöötlus Enne seda, kui analüsaatorid saavad tööle hakata, peab teksti eeltöötlema. Eeltöötlus tähendab seda, et sisendtekstist luuakse Text objekt, misjärel lisatakse objektile kõik EstNLTK analüüsikihid (vt joonis 460). Eeltöötlus on oluline, kuna analüüsikihtide lisamine võib sõltuvalt sisendteksti pikkusest võtta palju aega. Eraldamine sõltub sümbolitest, mis on sisendtekstis üksteisega kõrvuti. QuoteAnalyzer analüüsi tulemus QuoteAnalyzer võimekus ei ole piiratud ainult ühe lausega, vaid see suudab analüüsida tervet sisendteksti . On aga võimalik, et kuigi sisendteksti autor ei kasutanud lõputöös mina- või meie-vormi töö sisupeatükkides, siis sellegipoolest leidub mina-vorm kas tsitaadis, mõistes või väljaspool sisupeatükke (nt Kokkuvõtte peatükis). Nimelt ei suuda analüsaator sisendteksti puhul eristada, kas tekst on kaldkirjas või mitte. Iga sõna puhul, mis sisendtekstis esineb, arvutatakse selle sõna tekstisisene sagedushinnang. Tulemusena saab võrrelda, kas sõna esineb sisendtekstis rohkem kui on tavaliselt teadustekstides oodatud. 5.7 Kantseliidi analüsaator Lõputöö analüsaator kontrollib, kas sisendtekstis leidub kantseliiti. Edasiarendamise võimalused 7.1 Sisendteksti formaadi muutmine Programm võtab sisendiks JSON kujul infot. |
|||||||