Automated Tagging of Datasets to Improve Data Findability on Open Government Data Portals

dc.contributor.advisorNikiforova, Anastasija, juhendaja
dc.contributor.authorKliimask, Kevin
dc.contributor.otherTartu Ülikool. Loodus- ja täppisteaduste valdkondet
dc.contributor.otherTartu Ülikool. Arvutiteaduse instituutet
dc.date.accessioned2024-10-02T11:37:27Z
dc.date.available2024-10-02T11:37:27Z
dc.date.issued2024
dc.description.abstractAlates 2000-ndate keskpaigast on erinevad valitsustasandid propageerinud riiklike avaandmete portaale. Kuna riiklikes avaandmete portaalides avaldatakse üha rohkem andmekogumeid, muutub konkreetsete andmete leidmine aina raskemaks. Andmekogumite leitavuse tagamise võtmeks on nende täielik ja täpne dokumenteerimine, sealhulgas andmestike seostamine asjakohaste siltidega. Eesti avaandmete teabeväravas on avalikustatud kokku 1787 andmestikku (23 aprill, 2024 seisuga) ning neid analüüsides selgus, et 11% andmestikest pole seotud ühegi sildiga. Lisaks selgus, et 26% andmestikest oli seotud ainult ühe sildiga. See viitab sellele, et Eesti avaandmete teabeväravas esineb probleeme andmekogumite leitavuse ja kättesaadavusega. Käesoleva töö peamine eesmärk on esitada automatiseeritud lahendus andmekogumite sildistamiseks, et parandada andmete leitavust riiklikes avaandmete portaalides. Selle töö käigus loodi rakenduse prototüüp, mis kasutab suuri keelemudeleid nagu GPT-3.5-turbo ja GPT-4 andmekogumite sildistamiseks inglise ja eesti keeles. Loodud prototüüpi hinnati kasutajate poolt ning nende tagasisidet kasutati rakenduse täiustamise planeerimiseks.
dc.identifier.urihttps://hdl.handle.net/10062/105029
dc.language.isoen
dc.publisherTartu Ülikoolet
dc.rightsAttribution-NonCommercial-NoDerivs 3.0 Estoniaen
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/ee/
dc.subjectOpen Government Data
dc.subjectopen data
dc.subjectdata findability
dc.subjectautomation
dc.subjecttag
dc.subjectlarge language model
dc.subjectLLM
dc.subjectGPT
dc.subjectavalikud andmed
dc.subjectavaandmed
dc.subjectandmete leitavus
dc.subjectautomatiseerimine
dc.subjectsilt
dc.subjectmärksõna
dc.subjectsuur keelemudel
dc.subject.otherbakalaureusetöödet
dc.subject.otherinformaatikaet
dc.subject.otherinfotehnoloogiaet
dc.subject.otherinformaticsen
dc.subject.otherinfotechnologyen
dc.titleAutomated Tagging of Datasets to Improve Data Findability on Open Government Data Portals
dc.typeThesis

Failid

Originaal pakett

Nüüd näidatakse 1 - 1 1
Laen...
Pisipilt
Nimi:
kliimask_informaatika_2024.pdf
Suurus:
502.61 KB
Formaat:
Adobe Portable Document Format