Raun, Kristo, juhendajaKongo, Priit, juhendajaLõhmus, KristjanTartu Ülikool. Loodus- ja täppisteaduste valdkondTartu Ülikool. Arvutiteaduse instituut2025-10-272025-10-272025https://hdl.handle.net/10062/117116Estonia has numerous open datasets published by different public sector agencies, but their impact is limited by fragmentation, inconsistent quality, and a lack of machine-readability. This thesis addresses these issues by designing and implementing a centralized open data analytics platform called Avaandmeait. The platform is built on a modern data lakehouse architecture, combining the flexibility of data lakes with the structured querying capabilities of data warehouses. It leverages technologies such as Apache Iceberg for a unified table storage format, Trino for distributed querying, Apache Airflow for workflow orchestration, and dbt for managing data transformations. By standardizing formats and consolidating previously siloed datasets into a single repository, the system enhances data quality, comparability, and accessibility, allowing analysts to focus on insights rather than data cleaning. The thesis demonstrates the platform’s practical benefits through use cases, including combining traffic information from Transport Administration with geospatial data from the Land Board and meteorological data from the Environmental Agency, and linking procurement data from Public Procurement Register with economic data from the Business Register. These scenarios illustrate how Avaandmeait enables complex cross-domain analyses that were previously cumbersome to performEestis avaldavad erinevad riigiasutused arvukalt avaandmestikke, kuid nende kasutuspotentsiaali piiravad andmete killustatus, ebaühtlane kvaliteet ja puudulik masinloetavus. Käesolev magistritöö tegeleb nende probleemide lahendamisega, kujundades ja juurutades keskse avaandmete analüüsiplatvormi nimega Avaandmeait. Platvorm on üles ehitatud kaasaegse andmejärvemaja arhitektuuri alusel, ühendades andmejärvede paindlikkuse andmeladude struktureeritud päringuvõimekusega. Platvormi loomisel on kasutatud modernseid andmeinseneeria tehnoloogiaid: Apache Iceberg ühtse tabeliformaadi tagamiseks, Trino hajusate päringute teostamiseks, Apache Airflow andmetöövoogude orkestreerimiseks ning dbt andmetransformatsioonide haldamiseks. Ühtlustades andmeformaate ja koondades varem killustunud andmestikud ühtsesse hoidlasse, tõstab süsteem oluliselt andmete kvaliteeti, võrreldavust ja kättesaadavust, võimaldades andmekasutajatel keskenduda sisulisele analüüsile andmete puhastamise asemel. Platvormi praktilist väärtust demonstreeritakse näidete abil, sealhulgas kombineerides Transpordiameti liiklusloenduse andmed Maa-ameti geograafiliste ja Keskkonnaagentuuri ilmastikuandmetega ning sidudes Riigihangete registri hanked Äriregistri majandusaruannete andmetega. Need juhtumid illustreerivad, kuidas Avaandmeait võimaldab andmestike rikastamist läbi ristkasutuseenAttribution-NonCommercial-NoDerivatives 4.0 Internationalhttps://creativecommons.org/licenses/by-nc-nd/4.0/AndmeinseneeriaandmeaitavaandmedmagistritöödinformaatikainfotehnoloogiainformaticsinfotechnologyAvaandmeaitEstonian Open Data WarehouseThesis