Näitelausete korpuspõhine automaattuvastus eesti keele õppesõnastikele

Koppel, Kristina

Näitelausete korpuspõhine automaattuvastus eesti keele õppesõnastikele

dc.contributor.advisor	Pool, Raili, juhendaja
dc.contributor.advisor	Kallas, Jelena, juhendaja
dc.contributor.author	Koppel, Kristina
dc.contributor.other	Tartu Ülikool. Humanitaarteaduste ja kunstide valdkond	et
dc.date.accessioned	2020-02-20T13:15:03Z
dc.date.available	2020-02-20T13:15:03Z
dc.date.issued	2020-02-20
dc.description	Väitekirja elektrooniline versioon ei sisalda publikatsioone	et
dc.description.abstract	Näitelause täidab sõnastikus kindlat eesmärki, aidates aru saada sõna tähendusest ja illustreerides sõna erinevaid kasutuskontekste. Näitelausete põhiallikas on mahukas tekstikorpus, kust aga käsitsi on näitelauset leida väga keeruline. Elektroonilise leksikograafia arenguga on Eestisse jõudnud mitmed töövahendid, mis aitavad automaatselt tuvastada eri sõnastike jaoks vajalikku infot, sealhulgas näitelauseid. Väitekirjas uuritakse, missugused parameetrid iseloomustavad Eesti Keele Instituudis koostatud sõnastike "Eesti keele sõnaraamat 2019", "Eesti keele põhisõnavara sõnastik 2014", "Eesti keele naabersõnad 2019" näitelauseid ning "Eesti keele A1−C1 õpikute korpuse 2018" lauseid. Uurimuse eesmärk on välja töötada meetod, mis võimaldab neid parameetreid arvestades korpusest automaatselt tuvastada eesti keele õppijatele sobivaid lauseid. Töö keskmes on reeglipõhine lähenemine, mida rakendatakse korpuspäringusüsteemi Sketch Engine integreeritud tööriista GDEX ehk Good Dictionary Examples näitel. Parameetrite häälestamiseks on osaliselt kasutatud ka masinõppe elemente. Sõnastiku näitelausete ja õpikulausete analüüs näitas, et hea eesti keele näitelause peab olema täislause ja vastama muuhulgas järgmistele parameetritele: on 4–20 sõnet pikk; ei sisalda sõnesid, mis on pikemad kui 20 tähemärki; ei alga teatud sõnaliikidega (nt sidesõnaga) ega tagasi viitavate sõnade (nt sellepärast) või sõnapaaridega (nt sellisel puhul); ei sisalda vulgaarseid ja halvustavaid sõnu, madala sagedusega sõnu jmt. Uurimuse tulemusena on loodud "Eesti keele õppekorpus 2018 (etSkELL)", mis sisaldab ainult välja töötatud parameetritele vastavaid lauseid. Õppekorpus on omakorda aluseks eesti keele õppekeskkonnale Sketch Engine for Estonian Language Learning ehk etSkELL ja veebilausetele Eesti Keele Instituudi keeleportaalis Sõnaveeb.	et
dc.description.abstract	The function of an example sentence in a dictionary is to help the reader understand the meaning of the headword and illustrate its contexts of use. Nowadays, the main source of example sentences is a large text corpus, where suitable sentences are hard to find. Luckily, e-lexicography has generated automatic tools to help detect various information for dictionaries, including example sentences. The dissertation examines certain parameters of the example sentences presented in the Dictionary of Estonian (2019), Basic Estonian Dictionary (2014), Estonian Collocations Dictionary (2019), and Estonian Coursebook Corpus (2018); all four were compiled at the Institute of the Estonian language. The aim of my study is to elaborate an automatic method using parameters which identify sentences suitable for learners of Estonian. To that end, a rule-based approach was applied to the example of Good Dictionary Examples (GDEX) integrated in the Sketch Engine corpus query tool. Machine learning elements were also adopted to fine-tune the parameters. According to the analysis of the example sentences used in the dictionaries and coursebook sentences, a good Estonian example sentence should be a full sentence meeting, inter alia, the following parameters: length 4–20 tokens; no tokens longer than 20 characters; never begins with certain parts of speech (e.g., conjunction) or an anaphoric word (e.g., sellepärast ‘this is why’) or word pair (e.g., sellisel puhul ‘in such a case’); and vulgar or disparaging words, rare words, etc., are excluded. The study resulted in the compilation of the Estonian Corpus for Learners 2018 (etSkELL), which contains no other sentences but those corresponding to the developed parameters. The corpus, in turn, serves as the basis for the corpus-based web tool Sketch Engine for Estonian Language Learning (etSkELL) and the web sentences in the language portal Sõnaveeb of the Institute of the Estonian Language.	en
dc.description.uri	https://www.ester.ee/record=b5302935	et
dc.identifier.isbn	978-9949-03-300-3
dc.identifier.isbn	978-9949-03-301-0 (pdf)
dc.identifier.issn	1406-5657
dc.identifier.uri	http://hdl.handle.net/10062/67138
dc.language.iso	est	et
dc.relation.ispartofseries	Dissertationes linguisticae Universitatis Tartuensis;38
dc.rights	openAccess	et
dc.rights	Attribution-NonCommercial-NoDerivatives 4.0 International	*
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/4.0/	*
dc.subject	Estonian language	en
dc.subject	language instruction	en
dc.subject	dictionaries	en
dc.subject	online dictionaries	en
dc.subject	e-lexicography	en
dc.subject	corpora (ling.)	en
dc.subject	corpus lexicography	en
dc.subject	automated lexicography	en
dc.subject	linguistic examples	en
dc.subject.other	dissertatsioonid	et
dc.subject.other	ETD	et
dc.subject.other	dissertations	et
dc.subject.other	väitekirjad	et
dc.subject.other	eesti keel	et
dc.subject.other	keeleõpetus	et
dc.subject.other	sõnastikud	et
dc.subject.other	veebisõnastikud	et
dc.subject.other	keelenäited	et
dc.subject.other	lausetüübid	et
dc.subject.other	korpused (keelet.)	et
dc.subject.other	korpuslingvistika	et
dc.subject.other	e-leksikograafia	et
dc.subject.other	korpusleksikograafia	et
dc.subject.other	automaatne leksikograafia	et
dc.title	Näitelausete korpuspõhine automaattuvastus eesti keele õppesõnastikele	et
dc.title.alternative	Corpus-based automatic detection of example sentences for dictionaries for Estonian learners	en
dc.type	Thesis	et

Files

Original bundle

Now showing 1 - 1 of 1

Name:: koppel_kristina.pdf
Size:: 6.4 MB
Format:: Adobe Portable Document Format
Description:

Download

License bundle

Now showing 1 - 1 of 1

Name:: license.txt
Size:: 1 B
Format:: Item-specific license agreed upon to submission
Description:

Download

Collections

1. TÜ väitekirjad alates 2004 - Theses, PhD, MSc, ETD