Nimeüksuste tuvastamine ajaloolistes Tartu Linnavolikogu protokollides

Laen...
Pisipilt

Kuupäev

Ajakirja pealkiri

Ajakirja ISSN

Köite pealkiri

Kirjastaja

Tartu Ülikool

Abstrakt

This thesis explores the use of machine learning for named entity recognition (NER) in the meeting protocols of the Tartu City Council from 1918 to 1940, which are in Estonian. Most existing named entity recognition models for Estonian have been developed using modern language data and perform poorly when applied to historical texts. To effectively annotate valuable historical documents, it is necessary either to train specialized models or to adapt existing ones — particularly when only a small amount of labeled data is available. This study analyzes current NER models and evaluates their suitability for older language. Given the limited availability of high-quality labeled data, the best-performing model is adapted using machine learning techniques to be more suitable for these historical meeting protocols. The results demonstrate that, by using a small amount of labeled data and a large corpus of unlabeled historical documents, it is possible to improve model performance through weakly supervised learning — achieving better results on older language than models trained on modern language data.
Käesolevas töös uuritakse võimalusi, kuidas masinõppe abil tuvastada nimeüksusi Tartu Linnavolikogu 1918.-1940. a koosolekute protokollides. Enamik olemasolevaid mudeleid, mis nimeüksusi automaatselt tuvastavad, on loodud tänapäevase keele alusel. Vanema kirjakeele puhul ei anna need aga piisavalt häid tulemusi. Väärtuslike ajalooliste dokumentide märgendamiseks on vaja treenida spetsiaalsed mudelid või kohandada olemasolevaid, kui andmeid on vähe. Käesoleva töö käigus analüüsitakse olemasolevaid nimeüksusi märgendavaid mudeleid ja nende üldistuvust vanemale kirjakeele. Kuna kasutada on vähe kvaliteetseid andmeid, kohandatakse leitud parim mudel masinõppe abil antud ajalooliste protokollide märgendamiseks sobivamaks. Käesolev töö näitab, et kasutades väikest hulka märgendatud ja suurt hulka märgendamata vanemaid dokumente, on nõrgalt juhendatud masinõppe abil võimalik kohandada mudel, mille tulemused on vanema kirjakeele puhul paremad kui algsel tänapäeva keelel loodud mudelil.

Kirjeldus

Märksõnad

machine learning, Named entity recognition, supervised machine learning, weakly supervised machine learning, historical data, masinõpe, juhendatud masinõpe, ajaloolised andmed

Viide