Framework for Privacy-Preserving Synthesis of Textual Data

Stomakhin, Fedor

Framework for Privacy-Preserving Synthesis of Textual Data

Failid

stomakhin_andmeteadus_2025.pdf (6.05 MB)

Kuupäev

2025

Autorid

Stomakhin, Fedor

Kirjastaja

Tartu Ülikool

Abstrakt

To safeguard patient privacy, sharing medical record data for research must adhere to various privacy regulations. To facilitate data sharing, various data protection techniques have been proposed, such as pseudonymization, anonymization and the use of synthetic data. The aim of synthetic data generation is, based on an original dataset, to produce a new dataset in a way that preserves the statistical relationships within the original data while not exposing any identifying or sensitive information about the data subjects therein. Synthetically generated data can still be insufficient from the point of view of privacy-preservation. For this purpose, approaches rooted in differential privacy (DP) have been proposed. DP typically relies on worst-case assumptions about attackers' knowledge, potentially leading to overly conservative measures. Applying DP principles to free-form text, such as medical epicrises, is complicated by their high dimensionality and complexity, as the same information can be conveyed in many different ways. In this work, motivated by the challenges of sharing textual health data, we propose and apply a general framework for evaluating privacy risks in text generated by large language models (LLMs). Considering a journalist attack model, we adapt differential privacy principles, quantifying privacy loss (ε, δ) based on the outputs of specific attack functions rather than relying on worst-case assumptions of DP. We demonstrate the framework by establishing baseline privacy characteristics via direct n-gram sampling analysis on both medical and social media texts and by exploring membership inference signals using surprisal analysis on LLMs fine-tuned with social media texts. While assessing synthetic data from standard LLMs highlighted methodological challenges, the framework provides a methodology for evaluating the privacy properties of text generation models and their outputs, informing decisions on sharing such data for research purposes.
Patsientide privaatsuse kaitsmiseks peab terviseandmete jagamine teadusuuringuteks vastama erinevatele privaatsusregulatsioonidele. Selle protsessi hõlbustamiseks on välja pakutud mitmeid andmekaitsetehnikaid, nagu pseudonüümimine, anonüümimine ja sünteetiliste andmete kasutamine. Sünteetiliste andmete genereerimise eesmärk on algandmete põhjal luua uusi andmeid viisil, mis säilitab algsete andmete statistilised seosed, kuid ei avalda andmesubjekte isikustavat ega nende tundlikku teavet. Andmesüntees võib siiski jääda privaatsuskaitse seisukohast ebapiisavaks. Seetõttu on välja pakutud diferentsiaalprivaatsusel (DP) põhinevaid lahendusi. DP lähtub reeglina ründaja teadmuse halvima juhu eeldustest, mis võib viia ülemäära konservatiivsete privaatsusmeetmeteni. Vabavormiliste tekstide, näiteks epikriiside kõrge dimensionaalsuse ja hõreduse tõttu on nendele DP põhimõtete rakendamine keeruline, kuna ühte ja sama teavet saab esitada erinevatel viisidel. Lähtudes terviseandmetena esinevate tekstide jagamisega seotud väljakutsetest, pakume käesolevas töös välja ja rakendame üldist raamistikku suurte keelemudelite (LLM) genereeritud tekstide privaatsusriskide hindamiseks. Rakendame DP põhimõtteid ajakirjaniku ründemudeli korral, kvantifitseerides privaatsuskadu (ε, δ) spetsiifiliste ründefunktsioonide väljunditel, selle asemel et tugineda üldisematele DP halvima juhu eeldustele. Näitlikustame raamistikku defineerides privaatsuse baastasemed n-gramide otsevalimisel põhineva analüüsiga nii meditsiini- kui sotsiaalmeediatekstidel. Samuti uurime liikmelisuse järeldamise signaale peenhäälestatud LLM-ide puhul üllatuslikkusel põhineva analüüsiga sotsiaalmeediatekstidel peenhäälestatud LLM-idel. Ehkki LLM-ide sünteesitud andmete hindamine tõi esile genereerimise stohhastilisusega seotuid väljakutseid, pakub raamistik metoodika hindamaks tekstisünteesimudelite ja nende väljundite privaatsusomadusi, aidates teha otsuseid selliste andmete jagamise kohta teadustöö otstarbeks.

Märksõnad

natural language processing, large language models, synthetic data, differential privacy, electronic medical records, diferentsiaalprivaatsus, meditsiiniandmed, loomuliku keele töötlus, suured keelemudelid

URI

https://hdl.handle.net/10062/117179

Kollektsioonid

LTAT magistritööd – Master's theses

Kirje täielik lehekülg

Framework for Privacy-Preserving Synthesis of Textual Data

Failid

Kuupäev

Autorid

Ajakirja pealkiri

Ajakirja ISSN

Köite pealkiri

Kirjastaja

Abstrakt

Kirjeldus

Märksõnad

Viide

URI

Kollektsioonid