SynthGuard: Scalable and Privacy-Preserving Synthetic Data Generation Workflow Framework
Laen...
Kuupäev
Autorid
Ajakirja pealkiri
Ajakirja ISSN
Köite pealkiri
Kirjastaja
Tartu Ülikool
Abstrakt
Synthetic data enables privacy-preserving data sharing, especially important in sensitive domains under strict regulations such as the GDPR. While demand for synthetic data generation (SDG) is growing, existing tools often lack scalability, integration, and usability. This thesis presents SynthGuard, a cloud-native workflow framework for scalable and secure synthetic data generation. Built using containerized microservices and Kubernetes orchestration, SynthGuard automates the deployment and management of complex data synthesis pipelines. Its modular design allows flexible integration of SDG tools, while abstracting infrastructure complexity. The framework was evaluated through use cases in EU-funded projects, showcasing reproducibility, scalability, and privacy compliance. SynthGuard simplifies the development and operation of synthetic data workflows, offering a practical foundation for responsible data ecosystems in both research and industry.
Tehisandmed võimaldavad privaatsust säilitavat andmejagamist, mis on eriti oluline tundlikes valdkondades, kus kehtivad ranged regulatsioonid, nagu GDPR. Kuigi nõudlus tehisandmete genereerimise (SDG) järele kasvab, puuduvad olemasolevatel tööriistadel sageli mastaabitavus, integreeritavus ja kasutusmugavus. Käesolev bakalaureusetöö esitleb SynthGuardi: pilvepõhist töövookeskkonda mastaabitavaks ja turvaliseks tehisandmete genereerimiseks. SynthGuard kasutab konteinerdatud mikroteenuseid ja Kubernetese orkestreerimist, et automatiseerida keerukate tehisandmete töövoogude juurutamist ja haldamist. Selle modullaarne disain võimaldab SDG tööriistade paindlikku integreerimist, samal ajal abstraheerides infrastruktuuri keerukust. Raamistikku hinnati EL-i rahastatud projektide kasutusmallide kaudu, mis näitasid reprodutseeritavuse, mastaabitavuse ja privaatsuse paranemist. SynthGuard lihtsustab tehisandmete töövoogude arendamist ja toimimist, pakkudes väärtust tundlikele küberökosüsteemidele nii teaduses kui ka tööstuses.
Tehisandmed võimaldavad privaatsust säilitavat andmejagamist, mis on eriti oluline tundlikes valdkondades, kus kehtivad ranged regulatsioonid, nagu GDPR. Kuigi nõudlus tehisandmete genereerimise (SDG) järele kasvab, puuduvad olemasolevatel tööriistadel sageli mastaabitavus, integreeritavus ja kasutusmugavus. Käesolev bakalaureusetöö esitleb SynthGuardi: pilvepõhist töövookeskkonda mastaabitavaks ja turvaliseks tehisandmete genereerimiseks. SynthGuard kasutab konteinerdatud mikroteenuseid ja Kubernetese orkestreerimist, et automatiseerida keerukate tehisandmete töövoogude juurutamist ja haldamist. Selle modullaarne disain võimaldab SDG tööriistade paindlikku integreerimist, samal ajal abstraheerides infrastruktuuri keerukust. Raamistikku hinnati EL-i rahastatud projektide kasutusmallide kaudu, mis näitasid reprodutseeritavuse, mastaabitavuse ja privaatsuse paranemist. SynthGuard lihtsustab tehisandmete töövoogude arendamist ja toimimist, pakkudes väärtust tundlikele küberökosüsteemidele nii teaduses kui ka tööstuses.
Kirjeldus
Märksõnad
synthetic data, workflow automation, synthetic data generation, data privacy, pipeline orchestration