Reeglipõhine ühestaja eesti keele jaoks

dc.contributor.advisorKahusk, Neemeet
dc.contributor.authorZirk, Kristiet
dc.contributor.otherTartu Ülikool. Matemaatika-informaatikateaduskondet
dc.contributor.otherTartu Ülikool. Arvutiteaduse instituutet
dc.date.accessioned2013-09-06T11:07:54Z
dc.date.available2013-09-06T11:07:54Z
dc.date.issued2013et
dc.description.abstractSõnatähenduste ühestamine on semantilise ühestamise üks allülesandeid. Selle käigus omistatakse sõnale just see tähendus, mis tuleneb tema kontekstist. Erinevates kontekstides võib ühel sõnal olla erinevad semantilised interpretatsioonid, milleks on homonüümia ja polüseemia. Sõnatähenduse ühestamine käib mingi etaloni alusel, milleks on eesti keeles TEKsaurus. Tema väikseim osa on sünohulk ehk sünonüümirida, mille moodustavad ühte mõistet väljendavad sünonüümsed (sama tähendusega) sõnad ja sõnaühendid. Ühestamisel on kasutusel mitmed meetodid, peamiselt kasutatakse reeglipõhiseid ja statistikal põhinevaid ühestajaid. Käesoleva töö teoreetilises osas antakse ülevaade sõnatähenduse ühestamise erinevatest mudelitest ja käsitsi ning automaatse ühestamise meetoditest. Hetkel on eesti keele jaoks olemas umbes 500 000 sõnast koosnev morfoloogiliselt ühestatud korpus, mida on ühestanud vähemalt kaks inimest. Praktilise osa eesmärgiks oli formaliseerida olemasolevad sõnatähenduste ühestamise reeglid ja luua programm, mis kasutaks neid reegleid sõnatähenduste märgendamiseks korpuses. Töö käigus formaliseeriti 75 nimisõna ja 5 verbi reeglit. Sõnatähenduste ühestamise reeglid olid seni kirja pandud eestikeelsete lausetena, mis olid abiks leksikograafidele õige sõnatähenduse määramisel.et
dc.description.abstractWord-sense disambiguation (WSD) is an open problem of natural language processing, which governs the process of identifying which sense of a word is used in a sentence, when the word has multiple meanings. WSD is performed by using TEKsaurus as a reference sense inventory for Estonian. The atom of a wordnet-type thesaurus is a synonym set (also called a synset), which is a set containing all the synonymous words or multi-word units that express the same concept. WSD can be classified into two categories: rule-based method and statistics-based method. The theoretical part gives an overview of general topics in WSD. Theoretical part also shows the process of manual and automatically WSD. At this moment morphologically disambiguated corpus of Estonian texts consists approximately 500 000 words and at least two people have disambiguation this. The aim of the practical part was to formalize existing word-sense disambiguation rules and create a program what use these formalized rules to tag words in corpus. 75 noun and 5 verb rules were formalized during the work. WSD rules were so far written down in the Estonian sentences what were helpful to lexicographer to determining the proper meaning of the word.et
dc.identifier.urihttp://hdl.handle.net/10062/32829
dc.language.isoetet
dc.publisherTartu Ülikoolet
dc.subject.otherbakalaureusetöödet
dc.subject.otherinformaatikaet
dc.subject.otherinfotehnoloogiaet
dc.subject.otherinformaticsen
dc.subject.otherinfotechnologyen
dc.titleReeglipõhine ühestaja eesti keele jaokset
dc.title.alternativeA Rule-Based Disambiguator for Estonianet
dc.typeThesiset

Files

Original bundle

Now showing 1 - 2 of 2
Loading...
Thumbnail Image
Name:
thesis.pdf
Size:
562 KB
Format:
Adobe Portable Document Format
No Thumbnail Available
Name:
extra.zip
Size:
46.13 KB
Format:
Compressed ZIP