Nimeüksuste tuvastamine ajaloolistes Tartu Linnavolikogu protokollides

dc.contributor.advisorOrasmaa, Siim, juhendaja
dc.contributor.authorTolmats, Norman
dc.contributor.otherTartu Ülikool. Loodus- ja täppisteaduste valdkondet
dc.contributor.otherTartu Ülikool. Arvutiteaduse instituutet
dc.date.accessioned2025-10-23T07:31:48Z
dc.date.available2025-10-23T07:31:48Z
dc.date.issued2025
dc.description.abstractThis thesis explores the use of machine learning for named entity recognition (NER) in the meeting protocols of the Tartu City Council from 1918 to 1940, which are in Estonian. Most existing named entity recognition models for Estonian have been developed using modern language data and perform poorly when applied to historical texts. To effectively annotate valuable historical documents, it is necessary either to train specialized models or to adapt existing ones — particularly when only a small amount of labeled data is available. This study analyzes current NER models and evaluates their suitability for older language. Given the limited availability of high-quality labeled data, the best-performing model is adapted using machine learning techniques to be more suitable for these historical meeting protocols. The results demonstrate that, by using a small amount of labeled data and a large corpus of unlabeled historical documents, it is possible to improve model performance through weakly supervised learning — achieving better results on older language than models trained on modern language data.
dc.description.abstract Käesolevas töös uuritakse võimalusi, kuidas masinõppe abil tuvastada nimeüksusi Tartu Linnavolikogu 1918.-1940. a koosolekute protokollides. Enamik olemasolevaid mudeleid, mis nimeüksusi automaatselt tuvastavad, on loodud tänapäevase keele alusel. Vanema kirjakeele puhul ei anna need aga piisavalt häid tulemusi. Väärtuslike ajalooliste dokumentide märgendamiseks on vaja treenida spetsiaalsed mudelid või kohandada olemasolevaid, kui andmeid on vähe. Käesoleva töö käigus analüüsitakse olemasolevaid nimeüksusi märgendavaid mudeleid ja nende üldistuvust vanemale kirjakeele. Kuna kasutada on vähe kvaliteetseid andmeid, kohandatakse leitud parim mudel masinõppe abil antud ajalooliste protokollide märgendamiseks sobivamaks. Käesolev töö näitab, et kasutades väikest hulka märgendatud ja suurt hulka märgendamata vanemaid dokumente, on nõrgalt juhendatud masinõppe abil võimalik kohandada mudel, mille tulemused on vanema kirjakeele puhul paremad kui algsel tänapäeva keelel loodud mudelil.
dc.identifier.urihttps://hdl.handle.net/10062/117009
dc.language.isoet
dc.publisherTartu Ülikoolet
dc.rights.urihttps://creativecommons.org/licenses/by-nc-nd/4.0/
dc.subjectmachine learning
dc.subjectNamed entity recognition
dc.subjectsupervised machine learning
dc.subjectweakly supervised machine learning
dc.subjecthistorical data
dc.subjectmasinõpe
dc.subjectjuhendatud masinõpe
dc.subjectajaloolised andmed
dc.subject.otherbakalaureusetöödet
dc.subject.otherinformaatikaet
dc.subject.otherinfotehnoloogiaet
dc.subject.otherinformaticsen
dc.subject.otherinfotechnologyen
dc.titleNimeüksuste tuvastamine ajaloolistes Tartu Linnavolikogu protokollides
dc.title.alternativeNamed Entity Recognition in Historic Tartu City Council Meeting Protocols
dc.typeThesis

Failid

Originaal pakett

Nüüd näidatakse 1 - 1 1
Laen...
Pisipilt
Nimi:
Tolmats_Informaatika_2025.pdf
Suurus:
258.48 KB
Formaat:
Adobe Portable Document Format