Avaandmeait

dc.contributor.advisorRaun, Kristo, juhendaja
dc.contributor.advisorKongo, Priit, juhendaja
dc.contributor.authorLõhmus, Kristjan
dc.contributor.otherTartu Ülikool. Loodus- ja täppisteaduste valdkondet
dc.contributor.otherTartu Ülikool. Arvutiteaduse instituutet
dc.date.accessioned2025-10-27T13:11:18Z
dc.date.available2025-10-27T13:11:18Z
dc.date.issued2025
dc.description.abstractEstonia has numerous open datasets published by different public sector agencies, but their impact is limited by fragmentation, inconsistent quality, and a lack of machine-readability. This thesis addresses these issues by designing and implementing a centralized open data analytics platform called Avaandmeait. The platform is built on a modern data lakehouse architecture, combining the flexibility of data lakes with the structured querying capabilities of data warehouses. It leverages technologies such as Apache Iceberg for a unified table storage format, Trino for distributed querying, Apache Airflow for workflow orchestration, and dbt for managing data transformations. By standardizing formats and consolidating previously siloed datasets into a single repository, the system enhances data quality, comparability, and accessibility, allowing analysts to focus on insights rather than data cleaning. The thesis demonstrates the platform’s practical benefits through use cases, including combining traffic information from Transport Administration with geospatial data from the Land Board and meteorological data from the Environmental Agency, and linking procurement data from Public Procurement Register with economic data from the Business Register. These scenarios illustrate how Avaandmeait enables complex cross-domain analyses that were previously cumbersome to perform
dc.description.abstract Eestis avaldavad erinevad riigiasutused arvukalt avaandmestikke, kuid nende kasutuspotentsiaali piiravad andmete killustatus, ebaühtlane kvaliteet ja puudulik masinloetavus. Käesolev magistritöö tegeleb nende probleemide lahendamisega, kujundades ja juurutades keskse avaandmete analüüsiplatvormi nimega Avaandmeait. Platvorm on üles ehitatud kaasaegse andmejärvemaja arhitektuuri alusel, ühendades andmejärvede paindlikkuse andmeladude struktureeritud päringuvõimekusega. Platvormi loomisel on kasutatud modernseid andmeinseneeria tehnoloogiaid: Apache Iceberg ühtse tabeliformaadi tagamiseks, Trino hajusate päringute teostamiseks, Apache Airflow andmetöövoogude orkestreerimiseks ning dbt andmetransformatsioonide haldamiseks. Ühtlustades andmeformaate ja koondades varem killustunud andmestikud ühtsesse hoidlasse, tõstab süsteem oluliselt andmete kvaliteeti, võrreldavust ja kättesaadavust, võimaldades andmekasutajatel keskenduda sisulisele analüüsile andmete puhastamise asemel. Platvormi praktilist väärtust demonstreeritakse näidete abil, sealhulgas kombineerides Transpordiameti liiklusloenduse andmed Maa-ameti geograafiliste ja Keskkonnaagentuuri ilmastikuandmetega ning sidudes Riigihangete registri hanked Äriregistri majandusaruannete andmetega. Need juhtumid illustreerivad, kuidas Avaandmeait võimaldab andmestike rikastamist läbi ristkasutuse
dc.identifier.urihttps://hdl.handle.net/10062/117116
dc.language.isoen
dc.publisherTartu Ülikoolet
dc.rightsAttribution-NonCommercial-NoDerivatives 4.0 International
dc.rights.urihttps://creativecommons.org/licenses/by-nc-nd/4.0/
dc.subjectAndmeinseneeria
dc.subjectandmeait
dc.subjectavaandmed
dc.subject.othermagistritöödet
dc.subject.otherinformaatikaet
dc.subject.otherinfotehnoloogiaet
dc.subject.otherinformaticsen
dc.subject.otherinfotechnologyen
dc.titleAvaandmeait
dc.title.alternativeEstonian Open Data Warehouse
dc.typeThesisen

Failid

Originaal pakett

Nüüd näidatakse 1 - 1 1
Laen...
Pisipilt
Nimi:
Lohmus_andmeteadus_2025.pdf
Suurus:
2.33 MB
Formaat:
Adobe Portable Document Format