Nimeüksuste tuvastaja loomine puudepanga korpuse põhjal
Laen...
Kuupäev
Autorid
Ajakirja pealkiri
Ajakirja ISSN
Köite pealkiri
Kirjastaja
Tartu Ülikool
Abstrakt
In natural language processing, named entity recognition aims to tag information units in text, such as names of people, organizations and locations. Named entity tags have recently been added to the Estonian UD treebanks, but no named entity recognition models using the datasets have been made. In this thesis, models based on BERT were fine-tuned on both individual and combined training sets. The best model turned out to be Est-RoBERTa fine-tuned on the combined training set, which achieved an F-score of 0.828 on the test set. The study revealed that models perform worse on external datasets, as named entities are not necessarily defined and annotated consistently across different corpora.
Keeletehnoloogias on nimeüksuste tuvastamise eesmärk märgendada tekstis infoüksused, näiteks isiku-, organisatsiooni- ja kohanimed. Eesti kirja- ja veebikeele puudepankadele on lisatud nimeüksuste märgendused, aga nendel korpustel ei ole veel nimeüksuste tuvastamise mudeleid loodud. Töös peenhäälestati BERTil põhinevad mudelid nii eraldi kui ka ühisel treeningandmestikul. Parimaks mudeliks osutus ühisel treeningandmestikul peenhäälestatud Est-RoBERTa, mis saavutas testandmestikul F-skoori 0,828. Töös selgus, et välistel andmestikel on mudelitel keerulisem nimeüksuseid tuvastada, sest ei ole tagatud, et nimeüksused on eri andmestikes sarnaselt defineeritud ja tekstis märgendatud.
Keeletehnoloogias on nimeüksuste tuvastamise eesmärk märgendada tekstis infoüksused, näiteks isiku-, organisatsiooni- ja kohanimed. Eesti kirja- ja veebikeele puudepankadele on lisatud nimeüksuste märgendused, aga nendel korpustel ei ole veel nimeüksuste tuvastamise mudeleid loodud. Töös peenhäälestati BERTil põhinevad mudelid nii eraldi kui ka ühisel treeningandmestikul. Parimaks mudeliks osutus ühisel treeningandmestikul peenhäälestatud Est-RoBERTa, mis saavutas testandmestikul F-skoori 0,828. Töös selgus, et välistel andmestikel on mudelitel keerulisem nimeüksuseid tuvastada, sest ei ole tagatud, et nimeüksused on eri andmestikes sarnaselt defineeritud ja tekstis märgendatud.
Kirjeldus
Märksõnad
nimeüksuste tuvastamine, BERT