Singala keele NLP tööriistade hindamine ja närvivõrgul põhinevad PoS sildistajad (ühestajad).

Date

2019

Journal Title

Journal ISSN

Volume Title

Publisher

Abstract

PoS sildistamine on fundamentaalne probleem, NLP domeenis ja PoS sildistajaid (ühestajaid) kasutatakse selle väljakutse lahendamiseks. Kuigi reeglipõhist, tõenäosuslikku või süvaõppe lähenemisviisi saab kasutada, PoS sildistaja (ühestaja) väljatöötamiseks, aga süvaõppel põhinevad PoS sildistajad (ühestajad) on paremaid tulemusi näidanud. Kõik senimaani läbi viidud singala keele PoS sildistamise uuringud, on läbi viidud kasutades reeglipõhist ja tõenäosuslikku meetodit. See uurimistöö keskendub süvaõppel põhinevate PoS sildistamise (ühendamise) arendamisele ja hindamisele, kasutades singala keele jaoks LSTM võrku. Selle uurimistöö käigus koolitasime viite (5) süvaõppele tuginevat PoS sildistamise (ühendamise) mudelit, kahel erineval andmekogumil ja hindasime nende mudelite tulemusi. Hindamistulemused on näidanud, et süvaõppel põhinevaid PoS sildistajaid (ühestajaid), saab singala keele jaoks kasutada ja nende jõudlus on parem, kui olemasolevad reeglipõhised või tõenäosuslikud PoS sildistajad (ühestajad).
Part Of Speech tagging is a fundamental problem in the NLP domain and Part Of Speech taggers are used to address this challenge. Though Rule based, probabilistic or deep learning approaches can be used to develop a Part Of Speech tagger, deep learning based Part Of Speech taggers have shown better results. All the Part Of Speech tagging researches that have been carried out so far for the Sinhala language have been done using rule based and probabilistic approaches. This research focuses on developing and evaluating deep learning based Part Of Speech taggers using LSTM network for the Sinhala language.In this research we trained 5 deep learning based Part Of Speech tagging models on two different data sets and evaluated the results of those models. The evaluation results have shown that deep learning based Part Of Speech taggers can be used for Sinhala language and their performance is better than the existing rule based or probabilistic Part Of Speech taggers.

Description

Keywords

Citation