An Approach for Generating Realistic Synthetic Transaction Data

dc.contributor.advisorJöhnemark, Alexander, juhendaja
dc.contributor.advisorGoldšteine, Jolanta, juhendaja
dc.contributor.advisorHadachi, Amnir, juhendaja
dc.contributor.authorBektas, Mert
dc.contributor.otherTartu Ülikool. Loodus- ja täppisteaduste valdkondet
dc.contributor.otherTartu Ülikool. Arvutiteaduse instituutet
dc.date.accessioned2024-10-02T11:33:40Z
dc.date.available2024-10-02T11:33:40Z
dc.date.issued2024
dc.description.abstractTänapäeva pidevalt arenevas finantstehnoloogia ja pangandusmaailmas on andmekaitse olulisel kohal. Pangad otsivad innovatiivseid ja turvalisi lahendusi andmekaitsega seotud probleemide ületamiseks ning efektiivsema ärimudeli loomiseks. Federated Learning (FL) on uudne lähenemisviis, mis võimaldab mudeli treenimist eraldiseisvate organisatsioonide vahel. Autor töötas koostöös Swedbankiga projektis, et valmistada ette FL rakendamine koos teise pangaga ja vahendusettevõttega meie rahapesu avastamise süsteemi täiustamiseks, säilitades samal ajal andmete turvalisus. Mõlemad pangad kasutasid avatud lähtekoodiga mitmeagendilise simulatsiooni AMLSim ajakohastatud versiooni, et luua sünteetilisi andmeid ja jagada parameetriväärtuseid. See magistritöö eesmärgiks on genereerida sünteetilisi andmeid, mis on lähedased Swedbanki reaalsete tehingute andmetele ning leida sobivad parameetriväärtused, mida jagada vahendusettevõttega, et tulevikus FL edukalt taasrakendada. Taoline sünteetiliste andmete genereerimine, mis oleks sarnased reaalsetele tehingutele, võimalikuks pankadevahelise koostöö finantskuritegevuse vastu. Reaalsete tehingute andmed filtreeritakse, et neil oleksid AMLSimi genereeritud andmetega sarnased omadused. Nii reaalsed kui ka sünteetilised andmekogumid muudetakse graafikuks. Graafiku hindamiseks kasutatud mõõdikud olid In-degree/Out-degree Ratio, PageRank ja Label Propagation. Valimi moodustamiseks kasutati Snowball sampling algorithm’i, et muuta need võrreldavaks väiksema sünteetilise andmekogumiga. Selle algoritmi hindamiseks luuakse samast graafikust kolm erinevat alamgraafikut ja nende struktuuri hinnatakse eelmainitud hindamismõõdikute abil ning Graph Componenti ja Graph Density’ga, et veenduda alamgraafikute sarnasuses teiste alamgraafikutega. Viimasena sünteetilised graafikud hinnatakse eelmainitud meetodite abil, et kontrollida, kas nende struktuurid on lähedased reaalsetele graafikutele. Tulemusi kasutatakse AMLSimi hüperparameetrite häälestamiseks, et genereerida realistlik andmekogum.
dc.identifier.urihttps://hdl.handle.net/10062/105028
dc.language.isoen
dc.publisherTartu Ülikoolet
dc.rightsAttribution-NonCommercial-NoDerivs 3.0 Estoniaen
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/ee/
dc.subjectsynthetic data generation
dc.subjecttransaction data
dc.subjectgraph subsampling
dc.subjectgraph comparison
dc.subjectsünteetiliste andmete genereerimine
dc.subjecttehingute andmed
dc.subjectalamgraafikute testimine
dc.subjectgraafikute võrdlus
dc.subject.othermagistritöödet
dc.subject.otherinformaatikaet
dc.subject.otherinfotehnoloogiaet
dc.subject.otherinformaticsen
dc.subject.otherinfotechnologyen
dc.titleAn Approach for Generating Realistic Synthetic Transaction Data
dc.typeThesisen

Failid

Originaal pakett

Nüüd näidatakse 1 - 1 1
Laen...
Pisipilt
Nimi:
Bektas_computer_science_2024.pdf
Suurus:
6.75 MB
Formaat:
Adobe Portable Document Format