SynthGuard: Scalable and Privacy-Preserving Synthetic Data Generation Workflow Framework

dc.contributor.advisorBrito, Eduardo Ribas, juhendaja
dc.contributor.authorTamm, Kristian
dc.contributor.otherTartu Ülikool. Loodus- ja täppisteaduste valdkondet
dc.contributor.otherTartu Ülikool. Arvutiteaduse instituutet
dc.date.accessioned2025-10-24T10:59:36Z
dc.date.available2025-10-24T10:59:36Z
dc.date.issued2025
dc.description.abstractSynthetic data enables privacy-preserving data sharing, especially important in sensitive domains under strict regulations such as the GDPR. While demand for synthetic data generation (SDG) is growing, existing tools often lack scalability, integration, and usability. This thesis presents SynthGuard, a cloud-native workflow framework for scalable and secure synthetic data generation. Built using containerized microservices and Kubernetes orchestration, SynthGuard automates the deployment and management of complex data synthesis pipelines. Its modular design allows flexible integration of SDG tools, while abstracting infrastructure complexity. The framework was evaluated through use cases in EU-funded projects, showcasing reproducibility, scalability, and privacy compliance. SynthGuard simplifies the development and operation of synthetic data workflows, offering a practical foundation for responsible data ecosystems in both research and industry.
dc.description.abstract Tehisandmed võimaldavad privaatsust säilitavat andmejagamist, mis on eriti oluline tundlikes valdkondades, kus kehtivad ranged regulatsioonid, nagu GDPR. Kuigi nõudlus tehisandmete genereerimise (SDG) järele kasvab, puuduvad olemasolevatel tööriistadel sageli mastaabitavus, integreeritavus ja kasutusmugavus. Käesolev bakalaureusetöö esitleb SynthGuardi: pilvepõhist töövookeskkonda mastaabitavaks ja turvaliseks tehisandmete genereerimiseks. SynthGuard kasutab konteinerdatud mikroteenuseid ja Kubernetese orkestreerimist, et automatiseerida keerukate tehisandmete töövoogude juurutamist ja haldamist. Selle modullaarne disain võimaldab SDG tööriistade paindlikku integreerimist, samal ajal abstraheerides infrastruktuuri keerukust. Raamistikku hinnati EL-i rahastatud projektide kasutusmallide kaudu, mis näitasid reprodutseeritavuse, mastaabitavuse ja privaatsuse paranemist. SynthGuard lihtsustab tehisandmete töövoogude arendamist ja toimimist, pakkudes väärtust tundlikele küberökosüsteemidele nii teaduses kui ka tööstuses.
dc.identifier.urihttps://hdl.handle.net/10062/117079
dc.language.isoen
dc.publisherTartu Ülikoolet
dc.rights.urihttps://creativecommons.org/licenses/by-nc-nd/4.0/
dc.subjectsynthetic data
dc.subjectworkflow automation
dc.subjectsynthetic data generation
dc.subjectdata privacy
dc.subjectpipeline orchestration
dc.subject.otherbakalaureusetöödet
dc.subject.otherinformaatikaet
dc.subject.otherinfotehnoloogiaet
dc.subject.otherinformaticsen
dc.subject.otherinfotechnologyen
dc.titleSynthGuard: Scalable and Privacy-Preserving Synthetic Data Generation Workflow Framework
dc.title.alternativeSynthGuard: mastabeeritav ja privaatsust säilitav tehisandmete genereerimise töövooraamistik
dc.typeThesis

Failid

Originaal pakett

Nüüd näidatakse 1 - 1 1
Laen...
Pisipilt
Nimi:
tamm_informaatika_2025.pdf
Suurus:
2.57 MB
Formaat:
Adobe Portable Document Format