Ajaväljendite tuvastamine eestikeelses tekstis

Date

2010

Journal Title

Journal ISSN

Volume Title

Publisher

Tartu Ülikool

Abstract

Käesoleva töö eesmärgiks oli luua eesti keele ajaväljendite tuvastaja: programm, mis leiab loomuliku keele tekstist üles ajaväljendid ning esitab leitud väljendite semantika formaliseeritud kujul. Süsteem on ülesehituselt reeglipõhine ning toetub automaatse morfoloogilise analüüsi ja ühestamise tulemustele. Reeglite koostamisel lähtuti eeskätt ajaväljendite kasutusest ajakirjandustekstides. Antud töö teoreetilises osas kirjeldati erinevaid ajaväljendite liigitusaluseid ning tutvustati ajaväljendite märgendamiseks kasutatavaid keeli. Samuti käsitleti erinevaid lähenemisi, mida on kasutatud teistes keeltes ajaväljendite tuvastajate loomisel. Töö tuuma moodustab praktiline osa, milles arendati edasi autori bakalaureusetöös alustatud ajaväljendite tuvastajat. Testimisel leiti, et loodud süsteemi juures oli kõige problemaatilisem ajaväljendite eraldamise suhteliselt madal saagis (arenduskorpusel 84%, tundmatul tekstil 75,3%), ajaväljendite eraldamise täpsus oli aga suhteliselt kõrge (mõlemal korpusel ~98%). Ajaväljendite semantika normaliseerimise tulemused olid võrreldavad teiste keelte jaoks loodud süsteemide tulemustega: arenduskorpusel mõõdeti saagiseks ja täpsuseks ~86%, testkorpusel olid saagis ja täpsus ~91%.

Description

Keywords

Citation