Eesti keele vana ja uue kirjaviisi teisendus lõplike muunduritega

dc.contributor.advisorHeiki-Jaan Kaalep
dc.contributor.authorOrula, Ida Maria
dc.date.accessioned2019-10-15T09:35:36Z
dc.date.available2019-10-15T09:35:36Z
dc.date.issued2019
dc.description.abstractKaasajal on aktuaalne kõiksugu kirjalike allikate automatiseeritud analüüs. Analüüsiks kasutatavad infotehnoloogilised vahendid on aga edukalt rakendatavad üksnes sõnadele, mis on morfoloogilisel tasemel vastavuses tänapäevaste õigekirja normidega. Seega tuleb ajaloolisi tekste esmalt normaliseerida. Probleemile võib läheneda kahest suunast. Ühest küljest võib vanas kirjaviisis tekstid täielikult kaasaega tuua, asendades kõik vanapärased sõnavormid nende kaasaegsete vastetega. Nii on tekstid kaasaegsetele automaatanalüüsitehnoloogiatele arusaadavad ning ka inimestele kergesti loetavad, kuid kaduma läheb oluline info kunagise keelekasutuse kohta. Teine võimalus on muuta olemasolevaid keelt analüüsivaid vahendeid selliselt, et need oskaks ära tunda ka vanas kirjaviisis sõnavorme. Bakalaureusetöös kasutatakse mõlemat lähenemist. Võttes aluseks 1739. aasta Piibli teksti, kirjutatakse uus ortograafiamuundur, mis vastendab vanas kirjaviisis sõnu nende tänapäevaste kujudega. Lisaks kohandatakse olemasolevat eesti keele morfoloogiamuundurit vana kirjakeelega, et oleks võimalik säilitada sõnade tollane kuju, seostades neid siiski kaasaegsete sõnavormidega. Töös antakse ka näpunäiteid, kuidas alustatud lahendust tulevikus edasi arendama peaks.
dc.description.abstractNowadays it is common to analyse all kinds of written sources automatically. However, the necessary technologies are only applicable to words that follow the morphological rules of the modern language. Therefore, it is necessary to normalize historical texts that are written using the old Estonian orthography. This problem may approached from two different angles. On the one hand, it is possible to convert all old Estonian orthography forms to their modern counterparts. This would make the texts easy to understand for both the automated analysis technologies and also for the people who are not so familiar with the old Estonian orthography. However, valuable information about how the language has changed, would be lost. The second approach is to adapt the current technologies to make them recognize the old word forms. In this thesis, both solutions are used. The author creates a new orthographic transducer that maps old word forms from the 1739 Bible translation to their modern forms. In addition, an existing morphological analyser of the Estonian language is modified, to allow it to recognize old Estonian orthography word forms. The author also gives suggestions for future developments of the created system.
dc.identifier.urihttp://hdl.handle.net/10062/66260
dc.language.isoet
dc.titleEesti keele vana ja uue kirjaviisi teisendus lõplike muunduritega
dc.title.alternativeMapping Between Old and New Estonian Orthography Using Finite State Transducers
dc.typeThesis

Failid

Originaal pakett

Nüüd näidatakse 1 - 1 1
Laen...
Pisipilt
Nimi:
thesis.pdf
Suurus:
968.1 KB
Formaat:
Adobe Portable Document Format