Understanding and Visualizing Data Lineage in Health Data Transformation Pipelines
Laen...
Kuupäev
Autorid
Ajakirja pealkiri
Ajakirja ISSN
Köite pealkiri
Kirjastaja
Tartu Ülikool
Abstrakt
Kaasaegsed andmete teisenduskonveierid muutuvad üha keerukamaks ja mastaapsemaks ja andmete päritolu tuvastamine järjest keerukamaks. See kehtib eriti terviseandmete kohta, mille tundlikkuse ja võimaliku individuaalse mõju tõttu on oluline tuvastada andmete päritolu, ilma isikuandmeid avalikustamata. Andmevoogude mõistmine on oluline ka rangete rahvusvaheliste regulatsioonidega (näiteks
USA Health Insurance Portability and Accountability Act ja Euroopa Liidu Isikuandmete Kaitse Üldmäärus) kooskõlas olemiseks.
Ülioluline on ka teisenduskonveieri andmete päritolu mõistmine. See võimaldab kasutajatel leida lõppväljundist andmete algallikad ning hinnata andmete ja süsteemi muutuste mõju lõpptulemusele. Käesolevas lõputöös uurisime olemasolevaid tööriistu ning nende poolt
kasutatud süntaksianalüüsi teeke. Töö tulemusena tuvastasime tööriistad, mis sobivad praktilises näitena käsitletud terviseandmete töötlemise protsessi jaoks. Nendest osutusid väljavalituks Tokern, Marquez ja SQLLineage, mille paigutasime teisenduskonveierile. Paigutuse käigus uurisime nende tööriistade piiranguid ja laiendasime neid kus vajalik, et saavutada soovitud funktsionaalsus.
Kirjeldus
Märksõnad
Data Lineage, Database, SQL, Andmevood, andmebaas