Automated Tagging of Datasets to Improve Data Findability on Open Government Data Portals
| dc.contributor.advisor | Nikiforova, Anastasija, juhendaja | |
| dc.contributor.author | Kliimask, Kevin | |
| dc.contributor.other | Tartu Ülikool. Loodus- ja täppisteaduste valdkond | et |
| dc.contributor.other | Tartu Ülikool. Arvutiteaduse instituut | et |
| dc.date.accessioned | 2024-10-02T11:37:27Z | |
| dc.date.available | 2024-10-02T11:37:27Z | |
| dc.date.issued | 2024 | |
| dc.description.abstract | Alates 2000-ndate keskpaigast on erinevad valitsustasandid propageerinud riiklike avaandmete portaale. Kuna riiklikes avaandmete portaalides avaldatakse üha rohkem andmekogumeid, muutub konkreetsete andmete leidmine aina raskemaks. Andmekogumite leitavuse tagamise võtmeks on nende täielik ja täpne dokumenteerimine, sealhulgas andmestike seostamine asjakohaste siltidega. Eesti avaandmete teabeväravas on avalikustatud kokku 1787 andmestikku (23 aprill, 2024 seisuga) ning neid analüüsides selgus, et 11% andmestikest pole seotud ühegi sildiga. Lisaks selgus, et 26% andmestikest oli seotud ainult ühe sildiga. See viitab sellele, et Eesti avaandmete teabeväravas esineb probleeme andmekogumite leitavuse ja kättesaadavusega. Käesoleva töö peamine eesmärk on esitada automatiseeritud lahendus andmekogumite sildistamiseks, et parandada andmete leitavust riiklikes avaandmete portaalides. Selle töö käigus loodi rakenduse prototüüp, mis kasutab suuri keelemudeleid nagu GPT-3.5-turbo ja GPT-4 andmekogumite sildistamiseks inglise ja eesti keeles. Loodud prototüüpi hinnati kasutajate poolt ning nende tagasisidet kasutati rakenduse täiustamise planeerimiseks. | |
| dc.identifier.uri | https://hdl.handle.net/10062/105029 | |
| dc.language.iso | en | |
| dc.publisher | Tartu Ülikool | et |
| dc.rights | Attribution-NonCommercial-NoDerivs 3.0 Estonia | en |
| dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/3.0/ee/ | |
| dc.subject | Open Government Data | |
| dc.subject | open data | |
| dc.subject | data findability | |
| dc.subject | automation | |
| dc.subject | tag | |
| dc.subject | large language model | |
| dc.subject | LLM | |
| dc.subject | GPT | |
| dc.subject | avalikud andmed | |
| dc.subject | avaandmed | |
| dc.subject | andmete leitavus | |
| dc.subject | automatiseerimine | |
| dc.subject | silt | |
| dc.subject | märksõna | |
| dc.subject | suur keelemudel | |
| dc.subject.other | bakalaureusetööd | et |
| dc.subject.other | informaatika | et |
| dc.subject.other | infotehnoloogia | et |
| dc.subject.other | informatics | en |
| dc.subject.other | infotechnology | en |
| dc.title | Automated Tagging of Datasets to Improve Data Findability on Open Government Data Portals | |
| dc.type | Thesis |
Failid
Originaal pakett
1 - 1 1
Laen...
- Nimi:
- kliimask_informaatika_2024.pdf
- Suurus:
- 502.61 KB
- Formaat:
- Adobe Portable Document Format