Reeglipõhine ühestaja eesti keele jaoks

Zirk, Kristi

Reeglipõhine ühestaja eesti keele jaoks

dc.contributor.advisor	Kahusk, Neeme	et
dc.contributor.author	Zirk, Kristi	et
dc.contributor.other	Tartu Ülikool. Matemaatika-informaatikateaduskond	et
dc.contributor.other	Tartu Ülikool. Arvutiteaduse instituut	et
dc.date.accessioned	2013-09-06T11:07:54Z
dc.date.available	2013-09-06T11:07:54Z
dc.date.issued	2013	et
dc.description.abstract	Sõnatähenduste ühestamine on semantilise ühestamise üks allülesandeid. Selle käigus omistatakse sõnale just see tähendus, mis tuleneb tema kontekstist. Erinevates kontekstides võib ühel sõnal olla erinevad semantilised interpretatsioonid, milleks on homonüümia ja polüseemia. Sõnatähenduse ühestamine käib mingi etaloni alusel, milleks on eesti keeles TEKsaurus. Tema väikseim osa on sünohulk ehk sünonüümirida, mille moodustavad ühte mõistet väljendavad sünonüümsed (sama tähendusega) sõnad ja sõnaühendid. Ühestamisel on kasutusel mitmed meetodid, peamiselt kasutatakse reeglipõhiseid ja statistikal põhinevaid ühestajaid. Käesoleva töö teoreetilises osas antakse ülevaade sõnatähenduse ühestamise erinevatest mudelitest ja käsitsi ning automaatse ühestamise meetoditest. Hetkel on eesti keele jaoks olemas umbes 500 000 sõnast koosnev morfoloogiliselt ühestatud korpus, mida on ühestanud vähemalt kaks inimest. Praktilise osa eesmärgiks oli formaliseerida olemasolevad sõnatähenduste ühestamise reeglid ja luua programm, mis kasutaks neid reegleid sõnatähenduste märgendamiseks korpuses. Töö käigus formaliseeriti 75 nimisõna ja 5 verbi reeglit. Sõnatähenduste ühestamise reeglid olid seni kirja pandud eestikeelsete lausetena, mis olid abiks leksikograafidele õige sõnatähenduse määramisel.	et
dc.description.abstract	Word-sense disambiguation (WSD) is an open problem of natural language processing, which governs the process of identifying which sense of a word is used in a sentence, when the word has multiple meanings. WSD is performed by using TEKsaurus as a reference sense inventory for Estonian. The atom of a wordnet-type thesaurus is a synonym set (also called a synset), which is a set containing all the synonymous words or multi-word units that express the same concept. WSD can be classified into two categories: rule-based method and statistics-based method. The theoretical part gives an overview of general topics in WSD. Theoretical part also shows the process of manual and automatically WSD. At this moment morphologically disambiguated corpus of Estonian texts consists approximately 500 000 words and at least two people have disambiguation this. The aim of the practical part was to formalize existing word-sense disambiguation rules and create a program what use these formalized rules to tag words in corpus. 75 noun and 5 verb rules were formalized during the work. WSD rules were so far written down in the Estonian sentences what were helpful to lexicographer to determining the proper meaning of the word.	et
dc.identifier.uri	http://hdl.handle.net/10062/32829
dc.language.iso	et	et
dc.publisher	Tartu Ülikool	et
dc.subject.other	bakalaureusetööd	et
dc.subject.other	informaatika	et
dc.subject.other	infotehnoloogia	et
dc.subject.other	informatics	en
dc.subject.other	infotechnology	en
dc.title	Reeglipõhine ühestaja eesti keele jaoks	et
dc.title.alternative	A Rule-Based Disambiguator for Estonian	et
dc.type	Thesis	et

Failid

Originaal pakett

Nüüd näidatakse 1 - 2 2

Nimi:: thesis.pdf
Suurus:: 562 KB
Formaat:: Adobe Portable Document Format

Lae alla

Nimi:: extra.zip
Suurus:: 46.13 KB
Formaat:: Compressed ZIP

Lae alla

Kollektsioonid

LTAT bakalaureusetööd – Bachelor's theses