Nimeüksuste tuvastaja loomine puudepanga korpuse põhjal

dc.contributor.advisorOrasmaa, Siim, juhendaja
dc.contributor.authorKivisikk, Martin
dc.contributor.otherTartu Ülikool. Loodus- ja täppisteaduste valdkondet
dc.contributor.otherTartu Ülikool. Arvutiteaduse instituutet
dc.date.accessioned2025-10-24T09:07:04Z
dc.date.available2025-10-24T09:07:04Z
dc.date.issued2025
dc.description.abstractIn natural language processing, named entity recognition aims to tag information units in text, such as names of people, organizations and locations. Named entity tags have recently been added to the Estonian UD treebanks, but no named entity recognition models using the datasets have been made. In this thesis, models based on BERT were fine-tuned on both individual and combined training sets. The best model turned out to be Est-RoBERTa fine-tuned on the combined training set, which achieved an F-score of 0.828 on the test set. The study revealed that models perform worse on external datasets, as named entities are not necessarily defined and annotated consistently across different corpora.
dc.description.abstract Keeletehnoloogias on nimeüksuste tuvastamise eesmärk märgendada tekstis infoüksused, näiteks isiku-, organisatsiooni- ja kohanimed. Eesti kirja- ja veebikeele puudepankadele on lisatud nimeüksuste märgendused, aga nendel korpustel ei ole veel nimeüksuste tuvastamise mudeleid loodud. Töös peenhäälestati BERTil põhinevad mudelid nii eraldi kui ka ühisel treeningandmestikul. Parimaks mudeliks osutus ühisel treeningandmestikul peenhäälestatud Est-RoBERTa, mis saavutas testandmestikul F-skoori 0,828. Töös selgus, et välistel andmestikel on mudelitel keerulisem nimeüksuseid tuvastada, sest ei ole tagatud, et nimeüksused on eri andmestikes sarnaselt defineeritud ja tekstis märgendatud.
dc.identifier.urihttps://hdl.handle.net/10062/117066
dc.language.isoet
dc.publisherTartu Ülikoolet
dc.rights.urihttps://creativecommons.org/licenses/by-nc-nd/4.0/
dc.subjectnimeüksuste tuvastamine
dc.subjectBERT
dc.subject.otherbakalaureusetöödet
dc.subject.otherinformaatikaet
dc.subject.otherinfotehnoloogiaet
dc.subject.otherinformaticsen
dc.subject.otherinfotechnologyen
dc.titleNimeüksuste tuvastaja loomine puudepanga korpuse põhjal
dc.title.alternativeDeveloping a Named Entity Recognition Model Based on Treebank Corpora
dc.typeThesis

Failid

Originaal pakett

Nüüd näidatakse 1 - 1 1
Laen...
Pisipilt
Nimi:
Kivisikk_Informaatika_2025.pdf
Suurus:
1.63 MB
Formaat:
Adobe Portable Document Format