Ajaväljendite tuvastamine eestikeelses tekstis
Date
2010
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Tartu Ülikool
Abstract
Käesoleva töö eesmärgiks oli luua eesti keele ajaväljendite tuvastaja: programm, mis leiab
loomuliku keele tekstist üles ajaväljendid ning esitab leitud väljendite semantika formaliseeritud
kujul. Süsteem on ülesehituselt reeglipõhine ning toetub automaatse morfoloogilise analüüsi ja
ühestamise tulemustele. Reeglite koostamisel lähtuti eeskätt ajaväljendite kasutusest ajakirjandustekstides.
Antud töö teoreetilises osas kirjeldati erinevaid ajaväljendite liigitusaluseid ning tutvustati
ajaväljendite märgendamiseks kasutatavaid keeli. Samuti käsitleti erinevaid lähenemisi,
mida on kasutatud teistes keeltes ajaväljendite tuvastajate loomisel.
Töö tuuma moodustab praktiline osa, milles arendati edasi autori bakalaureusetöös alustatud ajaväljendite tuvastajat. Testimisel leiti, et loodud süsteemi juures oli kõige problemaatilisem ajaväljendite eraldamise suhteliselt madal saagis (arenduskorpusel 84%, tundmatul tekstil 75,3%), ajaväljendite eraldamise täpsus oli aga suhteliselt kõrge (mõlemal
korpusel ~98%). Ajaväljendite semantika normaliseerimise tulemused olid võrreldavad teiste keelte jaoks loodud süsteemide tulemustega: arenduskorpusel mõõdeti saagiseks ja täpsuseks
~86%, testkorpusel olid saagis ja täpsus ~91%.