Optical Character Recognition of Estonian Fraktur
Laen...
Kuupäev
Autorid
Ajakirja pealkiri
Ajakirja ISSN
Köite pealkiri
Kirjastaja
Tartu Ülikool
Abstrakt
The DIGAR portal of the National Library of Estonia hosts a diverse collection of historical Estonian newspapers. This publicly accessible dataset provides valuable resources for historians and other researchers, supporting a wide range of scholarly inquiries. For example, it can be used to investigate contemporary public opinion, trace the activities of individuals, and document historical locations. The National Library of Estonia’s Digilab also supplies machine-recognized text; however, recognition accuracy is often limited, particularly for older newspapers and publications printed in Fraktur script. This study focuses on newspapers published prior to 1944, many of which are regional titles characterized by lower print quality and more limited circulation. The primary objective is to enhance the accuracy of existing machine-recognized text corpora by leveraging state-of-the-art text recognition technologies. Specifically, the project employs advanced models from the Qwen2.5-VL family alongside the Transkribus platform. The proposed framework enables efficient and traceable local processing of data retrieved from the digital archive with predefined storage architecture. The resulting cleaned datasets are prepared for downstream processing on other platforms, and accompanying code is provided to facilitate model training. The data, models, and the associated code base are freely available in Huggingface, Transkribus and Github.
Eesti Rahvusraamatukogu DIGARi portaal on Eesti trükiste digitaalne andmebaas, mis sisaldab pea kogu Eesti trükiperioodikat. See andmestik on avalikult kättesaadav ning võimaldab ajaloolastel ja teistel huvilistel rakendada seda erinevateks uurimustöödeks. Näiteks saab seda kasutada omaaegse meelsuse, üksikisikute kui ka asukohtade uurimiseks. Rahvusraamatukogu Digilabor pakub ka masintuvastatud teksti, kuid tuvastatud tekst pole alati täpne, seda eriti vanemate ja fraktuuri kirjapildis perioodika puhul. Antud uurimustöö keskendub ajalehtedele, mis on välja antud enne 1944. aastat. Mitmed vaadeldavad ajalehed on maakonna ajalehed, mille trükikvaliteet on madalam ja levik väiksem. Antud töö eesmärk on otsida võimalusi, kuidas teha täpsemaks seni masintuvastatud tekstikorpusi kasutades modernseid tekstituvastuslahendusi. Selleks kasutatakse Qwen2.5-VL-Instrukt ja Transkribuse platvormi täiustatud mudeleid. Pakutud raamistik võimaldab andmeid digiarhiivist sisse lugeda, neid tõhusalt ja jälgitavalt töödelda ning talletada. Puhastatud andmed on valmis edasiseks kasutamiseks teistel platvormidel ning on loodud ka kood mudelite treenimiseks. Andmed, mudelid ja kood on vabalt kättesaadavad Hugging Face’i, Transkribuse ja GitHubi platvormidel.
Eesti Rahvusraamatukogu DIGARi portaal on Eesti trükiste digitaalne andmebaas, mis sisaldab pea kogu Eesti trükiperioodikat. See andmestik on avalikult kättesaadav ning võimaldab ajaloolastel ja teistel huvilistel rakendada seda erinevateks uurimustöödeks. Näiteks saab seda kasutada omaaegse meelsuse, üksikisikute kui ka asukohtade uurimiseks. Rahvusraamatukogu Digilabor pakub ka masintuvastatud teksti, kuid tuvastatud tekst pole alati täpne, seda eriti vanemate ja fraktuuri kirjapildis perioodika puhul. Antud uurimustöö keskendub ajalehtedele, mis on välja antud enne 1944. aastat. Mitmed vaadeldavad ajalehed on maakonna ajalehed, mille trükikvaliteet on madalam ja levik väiksem. Antud töö eesmärk on otsida võimalusi, kuidas teha täpsemaks seni masintuvastatud tekstikorpusi kasutades modernseid tekstituvastuslahendusi. Selleks kasutatakse Qwen2.5-VL-Instrukt ja Transkribuse platvormi täiustatud mudeleid. Pakutud raamistik võimaldab andmeid digiarhiivist sisse lugeda, neid tõhusalt ja jälgitavalt töödelda ning talletada. Puhastatud andmed on valmis edasiseks kasutamiseks teistel platvormidel ning on loodud ka kood mudelite treenimiseks. Andmed, mudelid ja kood on vabalt kättesaadavad Hugging Face’i, Transkribuse ja GitHubi platvormidel.
Kirjeldus
Märksõnad
DIGAR, Fraktur, Transkribus, Digital Archive, QWEN, OCR