An Approach for Generating Realistic Synthetic Transaction Data
Date
2024
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Tartu Ülikool
Abstract
Tänapäeva pidevalt arenevas finantstehnoloogia ja pangandusmaailmas on andmekaitse olulisel kohal. Pangad otsivad innovatiivseid ja turvalisi lahendusi andmekaitsega seotud probleemide ületamiseks ning efektiivsema ärimudeli loomiseks. Federated Learning (FL) on uudne lähenemisviis, mis võimaldab mudeli treenimist eraldiseisvate organisatsioonide vahel. Autor töötas koostöös Swedbankiga projektis, et valmistada ette FL rakendamine koos teise pangaga ja vahendusettevõttega meie rahapesu avastamise süsteemi täiustamiseks, säilitades samal ajal andmete turvalisus. Mõlemad pangad kasutasid avatud lähtekoodiga mitmeagendilise simulatsiooni AMLSim ajakohastatud versiooni, et luua sünteetilisi andmeid ja jagada parameetriväärtuseid. See magistritöö eesmärgiks on genereerida sünteetilisi andmeid, mis on lähedased Swedbanki reaalsete tehingute andmetele ning leida sobivad parameetriväärtused, mida jagada
vahendusettevõttega, et tulevikus FL edukalt taasrakendada. Taoline sünteetiliste andmete genereerimine, mis oleks sarnased reaalsetele tehingutele, võimalikuks pankadevahelise koostöö finantskuritegevuse vastu. Reaalsete tehingute andmed filtreeritakse, et neil oleksid AMLSimi genereeritud andmetega sarnased omadused. Nii reaalsed kui ka sünteetilised andmekogumid muudetakse graafikuks. Graafiku hindamiseks kasutatud mõõdikud olid In-degree/Out-degree Ratio, PageRank ja Label Propagation. Valimi moodustamiseks kasutati Snowball sampling algorithm’i, et muuta need võrreldavaks väiksema sünteetilise andmekogumiga. Selle algoritmi hindamiseks luuakse samast graafikust kolm erinevat alamgraafikut ja nende struktuuri hinnatakse eelmainitud hindamismõõdikute abil ning Graph Componenti ja Graph Density’ga, et veenduda alamgraafikute sarnasuses teiste alamgraafikutega. Viimasena sünteetilised graafikud hinnatakse eelmainitud meetodite abil, et kontrollida, kas nende struktuurid on lähedased reaalsetele graafikutele. Tulemusi kasutatakse AMLSimi hüperparameetrite häälestamiseks, et genereerida
realistlik andmekogum.
Description
Keywords
synthetic data generation, transaction data, graph subsampling, graph comparison, sünteetiliste andmete genereerimine, tehingute andmed, alamgraafikute testimine, graafikute võrdlus