Understanding and Visualizing Data Lineage in Health Data Transformation Pipelines

dc.contributor.advisorTalvik, Harry-Anton, juhendaja
dc.contributor.authorNeljandik, Siim
dc.contributor.otherTartu Ülikool. Loodus- ja täppisteaduste valdkondet
dc.contributor.otherTartu Ülikool. Arvutiteaduse instituutet
dc.date.accessioned2025-10-20T12:11:38Z
dc.date.available2025-10-20T12:11:38Z
dc.date.issued2025
dc.description.abstractKaasaegsed andmete teisenduskonveierid muutuvad üha keerukamaks ja mastaapsemaks ja andmete päritolu tuvastamine järjest keerukamaks. See kehtib eriti terviseandmete kohta, mille tundlikkuse ja võimaliku individuaalse mõju tõttu on oluline tuvastada andmete päritolu, ilma isikuandmeid avalikustamata. Andmevoogude mõistmine on oluline ka rangete rahvusvaheliste regulatsioonidega (näiteks USA Health Insurance Portability and Accountability Act ja Euroopa Liidu Isikuandmete Kaitse Üldmäärus) kooskõlas olemiseks. Ülioluline on ka teisenduskonveieri andmete päritolu mõistmine. See võimaldab kasutajatel leida lõppväljundist andmete algallikad ning hinnata andmete ja süsteemi muutuste mõju lõpptulemusele. Käesolevas lõputöös uurisime olemasolevaid tööriistu ning nende poolt kasutatud süntaksianalüüsi teeke. Töö tulemusena tuvastasime tööriistad, mis sobivad praktilises näitena käsitletud terviseandmete töötlemise protsessi jaoks. Nendest osutusid väljavalituks Tokern, Marquez ja SQLLineage, mille paigutasime teisenduskonveierile. Paigutuse käigus uurisime nende tööriistade piiranguid ja laiendasime neid kus vajalik, et saavutada soovitud funktsionaalsus.
dc.identifier.urihttps://hdl.handle.net/10062/116915
dc.language.isoen
dc.publisherTartu Ülikoolet
dc.rights.urihttps://creativecommons.org/licenses/by-nc-nd/4.0/
dc.subjectData Lineage
dc.subjectDatabase
dc.subjectSQL
dc.subjectAndmevood
dc.subjectandmebaas
dc.subject.otherbakalaureusetöödet
dc.subject.otherinformaatikaet
dc.subject.otherinfotehnoloogiaet
dc.subject.otherinformaticsen
dc.subject.otherinfotechnologyen
dc.titleUnderstanding and Visualizing Data Lineage in Health Data Transformation Pipelines
dc.typeThesis

Failid

Originaal pakett

Nüüd näidatakse 1 - 1 1
Laen...
Pisipilt
Nimi:
Neljandik_Computer_Science_2025.pdf
Suurus:
1.03 MB
Formaat:
Adobe Portable Document Format