Understanding and Visualizing Data Lineage in Health Data Transformation Pipelines

Laen...
Pisipilt

Kuupäev

Ajakirja pealkiri

Ajakirja ISSN

Köite pealkiri

Kirjastaja

Tartu Ülikool

Abstrakt

Kaasaegsed andmete teisenduskonveierid muutuvad üha keerukamaks ja mastaapsemaks ja andmete päritolu tuvastamine järjest keerukamaks. See kehtib eriti terviseandmete kohta, mille tundlikkuse ja võimaliku individuaalse mõju tõttu on oluline tuvastada andmete päritolu, ilma isikuandmeid avalikustamata. Andmevoogude mõistmine on oluline ka rangete rahvusvaheliste regulatsioonidega (näiteks USA Health Insurance Portability and Accountability Act ja Euroopa Liidu Isikuandmete Kaitse Üldmäärus) kooskõlas olemiseks. Ülioluline on ka teisenduskonveieri andmete päritolu mõistmine. See võimaldab kasutajatel leida lõppväljundist andmete algallikad ning hinnata andmete ja süsteemi muutuste mõju lõpptulemusele. Käesolevas lõputöös uurisime olemasolevaid tööriistu ning nende poolt kasutatud süntaksianalüüsi teeke. Töö tulemusena tuvastasime tööriistad, mis sobivad praktilises näitena käsitletud terviseandmete töötlemise protsessi jaoks. Nendest osutusid väljavalituks Tokern, Marquez ja SQLLineage, mille paigutasime teisenduskonveierile. Paigutuse käigus uurisime nende tööriistade piiranguid ja laiendasime neid kus vajalik, et saavutada soovitud funktsionaalsus.

Kirjeldus

Märksõnad

Data Lineage, Database, SQL, Andmevood, andmebaas

Viide