Sõltuvussüntaksi analüsaatorite võrdlus eesti keele süntaksi analüüsimiseks

Date

2017

Journal Title

Journal ISSN

Volume Title

Publisher

Abstract

Loomuliku keele töötluse (LKT) tehnoloogia on pidevalt arenemas, viimastel kümnenditel on selles valdkonnas toimunud väga suured edasiminekud. Üks LKT põhiülesanne on sõltuvussüntaksi analüüs, mis on sageli aluseks ka paljudele teistele ülesannetele, näiteks masintõlkele, nimeolemite tuvastamisele jne. Sõltuvussüntaksi analüüsi eesmärgiks on leida lause süntaktiline struktuur ja tuvastada sõnadevahelised grammatilised seosed. Enamik sõltuvussüntaksi analüüsi uuringuid on keskendunud inglise keele analüüsimisele. Antud ma-gistritöö eesmärgiks on hinnata ja võrrelda erinevate süntaksianalüsaatorite tulemuslikkust eesti keele analüüsimisel. Võrdlusesse valitud sõltuvussüntaksi analüsaatorid on: MaltParser, spaCy, Stanford’i neuroanalüsaator (nndep), SyntaxNet ja UDPipe. Hindamiseks kasutati peamiselt märgendatud seoste täpsust (Labelled Attachment Score), märgendamata seoste täpsust (Unlabelled Attachment Score) ning märgenduse täpsust (Label Accuracy). Magistritöö käigus treeniti spaCy, Stanfordi neuroparseri ning UDParseri mudelid eesti keele süntaksi analüüsimiseks, MaltParseri ja SyntaksNet’i jaoks kasutati eksperimentides olemasolevaid eeltreenitud mudeleid.
Natural Language Processing (NLP) technology has been constantly developing and has seen a vast improvement in the last couple of decades. One key task in NLP is dependency parsing that oftentimes is a prerequisite for many other tasks such as machine translation, Named Entity Recognition (NER) and so on. The idea of dependency parsing is to perform a syntactic analysis of a sentence and extract the grammatical relations among the words in that sentence. Most research on dependency parsing has been focusing on English text parsing. In this thesis, an effort has been made to evaluate and compare the performance of some of the state-of-the-art dependency parsers in parsing Estonian. The dependency parsers chosen for evaluation are: MaltParser, spaCy, Stanford neural network dependency parser (nndep), SyntaxNet and UDPipe. The comparison is done using mainly Labelled Attachment Score (LAS), Unlabelled Attachment Score (UAS) and Label Accuracy (LA). New models for Estonian were trained for the spaCy, Stanford nndep and UDPipe parsers while pretrained models for the MaltParser and SyntaxNet were used in the experiments.

Description

Keywords

Citation