Nimeüksuste tuvastaja loomine puudepanga korpuse põhjal

Kivisikk, Martin

Nimeüksuste tuvastaja loomine puudepanga korpuse põhjal

Failid

Kivisikk_Informaatika_2025.pdf (1.63 MB)

Kuupäev

2025

Autorid

Kivisikk, Martin

Kirjastaja

Tartu Ülikool

Abstrakt

In natural language processing, named entity recognition aims to tag information units in text, such as names of people, organizations and locations. Named entity tags have recently been added to the Estonian UD treebanks, but no named entity recognition models using the datasets have been made. In this thesis, models based on BERT were fine-tuned on both individual and combined training sets. The best model turned out to be Est-RoBERTa fine-tuned on the combined training set, which achieved an F-score of 0.828 on the test set. The study revealed that models perform worse on external datasets, as named entities are not necessarily defined and annotated consistently across different corpora.
Keeletehnoloogias on nimeüksuste tuvastamise eesmärk märgendada tekstis infoüksused, näiteks isiku-, organisatsiooni- ja kohanimed. Eesti kirja- ja veebikeele puudepankadele on lisatud nimeüksuste märgendused, aga nendel korpustel ei ole veel nimeüksuste tuvastamise mudeleid loodud. Töös peenhäälestati BERTil põhinevad mudelid nii eraldi kui ka ühisel treeningandmestikul. Parimaks mudeliks osutus ühisel treeningandmestikul peenhäälestatud Est-RoBERTa, mis saavutas testandmestikul F-skoori 0,828. Töös selgus, et välistel andmestikel on mudelitel keerulisem nimeüksuseid tuvastada, sest ei ole tagatud, et nimeüksused on eri andmestikes sarnaselt defineeritud ja tekstis märgendatud.

Märksõnad

nimeüksuste tuvastamine, BERT

URI

https://hdl.handle.net/10062/117066

Kollektsioonid

LTAT bakalaureusetööd – Bachelor's theses

Kirje täielik lehekülg

Nimeüksuste tuvastaja loomine puudepanga korpuse põhjal

Failid

Kuupäev

Autorid

Ajakirja pealkiri

Ajakirja ISSN

Köite pealkiri

Kirjastaja

Abstrakt

Kirjeldus

Märksõnad

Viide

URI

Kollektsioonid