Framework for Privacy-Preserving Synthesis of Textual Data

dc.contributor.advisorLaur, Sven, juhendaja
dc.contributor.advisorKamm, Liina, juhendaja
dc.contributor.authorStomakhin, Fedor
dc.contributor.otherTartu Ülikool. Loodus- ja täppisteaduste valdkondet
dc.contributor.otherTartu Ülikool. Arvutiteaduse instituutet
dc.date.accessioned2025-10-29T09:10:52Z
dc.date.available2025-10-29T09:10:52Z
dc.date.issued2025
dc.description.abstractTo safeguard patient privacy, sharing medical record data for research must adhere to various privacy regulations. To facilitate data sharing, various data protection techniques have been proposed, such as pseudonymization, anonymization and the use of synthetic data. The aim of synthetic data generation is, based on an original dataset, to produce a new dataset in a way that preserves the statistical relationships within the original data while not exposing any identifying or sensitive information about the data subjects therein. Synthetically generated data can still be insufficient from the point of view of privacy-preservation. For this purpose, approaches rooted in differential privacy (DP) have been proposed. DP typically relies on worst-case assumptions about attackers' knowledge, potentially leading to overly conservative measures. Applying DP principles to free-form text, such as medical epicrises, is complicated by their high dimensionality and complexity, as the same information can be conveyed in many different ways. In this work, motivated by the challenges of sharing textual health data, we propose and apply a general framework for evaluating privacy risks in text generated by large language models (LLMs). Considering a journalist attack model, we adapt differential privacy principles, quantifying privacy loss (ε, δ) based on the outputs of specific attack functions rather than relying on worst-case assumptions of DP. We demonstrate the framework by establishing baseline privacy characteristics via direct n-gram sampling analysis on both medical and social media texts and by exploring membership inference signals using surprisal analysis on LLMs fine-tuned with social media texts. While assessing synthetic data from standard LLMs highlighted methodological challenges, the framework provides a methodology for evaluating the privacy properties of text generation models and their outputs, informing decisions on sharing such data for research purposes.
dc.description.abstract Patsientide privaatsuse kaitsmiseks peab terviseandmete jagamine teadusuuringuteks vastama erinevatele privaatsusregulatsioonidele. Selle protsessi hõlbustamiseks on välja pakutud mitmeid andmekaitsetehnikaid, nagu pseudonüümimine, anonüümimine ja sünteetiliste andmete kasutamine. Sünteetiliste andmete genereerimise eesmärk on algandmete põhjal luua uusi andmeid viisil, mis säilitab algsete andmete statistilised seosed, kuid ei avalda andmesubjekte isikustavat ega nende tundlikku teavet. Andmesüntees võib siiski jääda privaatsuskaitse seisukohast ebapiisavaks. Seetõttu on välja pakutud diferentsiaalprivaatsusel (DP) põhinevaid lahendusi. DP lähtub reeglina ründaja teadmuse halvima juhu eeldustest, mis võib viia ülemäära konservatiivsete privaatsusmeetmeteni. Vabavormiliste tekstide, näiteks epikriiside kõrge dimensionaalsuse ja hõreduse tõttu on nendele DP põhimõtete rakendamine keeruline, kuna ühte ja sama teavet saab esitada erinevatel viisidel. Lähtudes terviseandmetena esinevate tekstide jagamisega seotud väljakutsetest, pakume käesolevas töös välja ja rakendame üldist raamistikku suurte keelemudelite (LLM) genereeritud tekstide privaatsusriskide hindamiseks. Rakendame DP põhimõtteid ajakirjaniku ründemudeli korral, kvantifitseerides privaatsuskadu (ε, δ) spetsiifiliste ründefunktsioonide väljunditel, selle asemel et tugineda üldisematele DP halvima juhu eeldustele. Näitlikustame raamistikku defineerides privaatsuse baastasemed n-gramide otsevalimisel põhineva analüüsiga nii meditsiini- kui sotsiaalmeediatekstidel. Samuti uurime liikmelisuse järeldamise signaale peenhäälestatud LLM-ide puhul üllatuslikkusel põhineva analüüsiga sotsiaalmeediatekstidel peenhäälestatud LLM-idel. Ehkki LLM-ide sünteesitud andmete hindamine tõi esile genereerimise stohhastilisusega seotuid väljakutseid, pakub raamistik metoodika hindamaks tekstisünteesimudelite ja nende väljundite privaatsusomadusi, aidates teha otsuseid selliste andmete jagamise kohta teadustöö otstarbeks.
dc.identifier.urihttps://hdl.handle.net/10062/117179
dc.language.isoen
dc.publisherTartu Ülikoolet
dc.rightsAttribution-NonCommercial-NoDerivatives 4.0 International
dc.rights.urihttps://creativecommons.org/licenses/by-nc-nd/4.0/
dc.subjectnatural language processing
dc.subjectlarge language models
dc.subjectsynthetic data
dc.subjectdifferential privacy
dc.subjectelectronic medical records
dc.subjectdiferentsiaalprivaatsus
dc.subjectmeditsiiniandmed
dc.subjectloomuliku keele töötlus
dc.subjectsuured keelemudelid
dc.subject.othermagistritöödet
dc.subject.otherinformaatikaet
dc.subject.otherinfotehnoloogiaet
dc.subject.otherinformaticsen
dc.subject.otherinfotechnologyen
dc.titleFramework for Privacy-Preserving Synthesis of Textual Data
dc.title.alternativeRaamistik tekstiandmete privaatsust säilitavaks sünteesiks
dc.typeThesisen

Failid

Originaal pakett

Nüüd näidatakse 1 - 1 1
Laen...
Pisipilt
Nimi:
stomakhin_andmeteadus_2025.pdf
Suurus:
6.05 MB
Formaat:
Adobe Portable Document Format