Optical Character Recognition of Estonian Fraktur

dc.contributor.advisorDorkin, Aleksei, juhendaja
dc.contributor.advisorSirts, Kairit, juhendaja
dc.contributor.authorVäli, Mattias
dc.contributor.otherTartu Ülikool. Loodus- ja täppisteaduste valdkondet
dc.contributor.otherTartu Ülikool. Arvutiteaduse instituutet
dc.date.accessioned2025-10-23T06:29:01Z
dc.date.available2025-10-23T06:29:01Z
dc.date.issued2025
dc.description.abstractThe DIGAR portal of the National Library of Estonia hosts a diverse collection of historical Estonian newspapers. This publicly accessible dataset provides valuable resources for historians and other researchers, supporting a wide range of scholarly inquiries. For example, it can be used to investigate contemporary public opinion, trace the activities of individuals, and document historical locations. The National Library of Estonia’s Digilab also supplies machine-recognized text; however, recognition accuracy is often limited, particularly for older newspapers and publications printed in Fraktur script. This study focuses on newspapers published prior to 1944, many of which are regional titles characterized by lower print quality and more limited circulation. The primary objective is to enhance the accuracy of existing machine-recognized text corpora by leveraging state-of-the-art text recognition technologies. Specifically, the project employs advanced models from the Qwen2.5-VL family alongside the Transkribus platform. The proposed framework enables efficient and traceable local processing of data retrieved from the digital archive with predefined storage architecture. The resulting cleaned datasets are prepared for downstream processing on other platforms, and accompanying code is provided to facilitate model training. The data, models, and the associated code base are freely available in Huggingface, Transkribus and Github.
dc.description.abstract Eesti Rahvusraamatukogu DIGARi portaal on Eesti trükiste digitaalne andmebaas, mis sisaldab pea kogu Eesti trükiperioodikat. See andmestik on avalikult kättesaadav ning võimaldab ajaloolastel ja teistel huvilistel rakendada seda erinevateks uurimustöödeks. Näiteks saab seda kasutada omaaegse meelsuse, üksikisikute kui ka asukohtade uurimiseks. Rahvusraamatukogu Digilabor pakub ka masintuvastatud teksti, kuid tuvastatud tekst pole alati täpne, seda eriti vanemate ja fraktuuri kirjapildis perioodika puhul. Antud uurimustöö keskendub ajalehtedele, mis on välja antud enne 1944. aastat. Mitmed vaadeldavad ajalehed on maakonna ajalehed, mille trükikvaliteet on madalam ja levik väiksem. Antud töö eesmärk on otsida võimalusi, kuidas teha täpsemaks seni masintuvastatud tekstikorpusi kasutades modernseid tekstituvastuslahendusi. Selleks kasutatakse Qwen2.5-VL-Instrukt ja Transkribuse platvormi täiustatud mudeleid. Pakutud raamistik võimaldab andmeid digiarhiivist sisse lugeda, neid tõhusalt ja jälgitavalt töödelda ning talletada. Puhastatud andmed on valmis edasiseks kasutamiseks teistel platvormidel ning on loodud ka kood mudelite treenimiseks. Andmed, mudelid ja kood on vabalt kättesaadavad Hugging Face’i, Transkribuse ja GitHubi platvormidel.
dc.identifier.urihttps://hdl.handle.net/10062/117002
dc.language.isoen
dc.publisherTartu Ülikoolet
dc.rightsAttribution-NonCommercial-NoDerivatives 4.0 International
dc.rights.urihttps://creativecommons.org/licenses/by-nc-nd/4.0/
dc.subjectDIGAR
dc.subjectFraktur
dc.subjectTranskribus
dc.subjectDigital Archive
dc.subjectQWEN
dc.subjectOCR
dc.subject.othermagistritöödet
dc.subject.otherinformaatikaet
dc.subject.otherinfotehnoloogiaet
dc.subject.otherinformaticsen
dc.subject.otherinfotechnologyen
dc.titleOptical Character Recognition of Estonian Fraktur
dc.title.alternativeEestikeelse fraktuurkirja masintuvastamine
dc.typeThesisen

Failid

Originaal pakett

Nüüd näidatakse 1 - 1 1
Laen...
Pisipilt
Nimi:
Vali_andmeteadus_2025.pdf
Suurus:
1.63 MB
Formaat:
Adobe Portable Document Format