Automatiseeritud makse klassifikaator jaepanganduses

Date

2018

Journal Title

Journal ISSN

Volume Title

Publisher

Abstract

Selleks, et saavutada oma ärilisi eesmärke ja parendada teenusepakkumist, kasutavad jaepangad spetsiaalseid tehnikaid oma klientide andmete analüüsimisel. \t\tKaasaaegseid masinõppe tehnikaid saab selles valdkonnas kasutada täiendusena klassikalistele andmeanalüüsi meetoditele. Oskus oma klientide makseid klassifitseerida võimaldab jaepankadel oma klientide kulutuste mustritest paremini aru saada ja oma pakkumisi spetsiaalselt kohandada. \t\tMaksete klassifitseerimine on raske probleem, kuna äriklientide hulk on suur ja muutuv ja kuna iga äriklient võib pakkuda mitut tüüpi tooteid, näiteks võib müüa nii toitu kui elektroonikat. Kaks maksete klassifitseerimise põhilist lähenemist on reeglitepõhine ja masinõppe põhine klassifitseerimine. \t\tMasinõppepõhine klassifitseerimismeetod on supervised õppe vorm, ja sellisena vajab ta märgendatud andmeühikute kogumit - meie puhul klientide endi poolt klassifitseeritud transaktsioone (mis on oma olemuselt crowdsourcing). \t\tReeglitepõhine lähenemine ei ole skaleeruv, sest see vajab iga äri ja transaktsioonitüübi jaoks hallatavat reeglite kogumit. Crowdsourcing põhine lähenemine toob endaga kaasa vasturääkivused ja seda on alguses raske käivitada, kuna vajatakse suure hulga klientide poolt, pika ajaperioodi jooksul, manuaalselt märgendatud transaktsioonide kogumit. \t\tSiinkohal toome ära finantsasutuse kaasusuuringu, mille raames on kasutatud hübriidlähenemist. Kasutusel on finantsplaneerimise tööriist, mille käivitamiseks on loodud esmane reeglite kogum, ja klientidele on selle raames loodud võimalus vaadelda oma transaktsioone klassifitseerituna 66 kategooriasse ning lisada märgendeid klassifitseerimata transaktsioonidele või uuesti märgendada juba märgendatud transaktsioone. Crowdsource märgendeid ja algset reeglite kogumit kasutatakse seejärel masinõppe mudeli treenimisel.\t\tMe hindame oma mudeli tõhusust elust võetud anonümiseeritud andmestikku kasutades, mille oleme saanud pangalt. See koosneb kontomaksetest ja kaardimaksetest. Täpsustades võib öelda, et kontomaksete andmestikul parandas hübriidlähenemine reeglitepõhise süsteemiga võrreldes katvust 76.4\\%-lt 87.4\\%-le, mille juures crowdsource abiga leitud märgendeid replitseeriti 0.92 keskmise AUC juures, ja seda olenemata crowdsource märgendites leiduvatest vasturääkivustest. \t\tSelline süsteemi edasiarendus viitab väljapakutud hübriidmudeli põhjendatusele, ning positiivne hinnang tulemustele võimaldab meid seadistada ja integreerida hübriidmudelit panga süsteemidega.
Retail banks use special techniques to analise their customer data to achieve business goals or improve their service. Modern machine learning techniques can be utilised to augment the classic data analysis techniques in this field. The ability to classify payments of their customers enables retail banks to better understand their customers' expenditure patterns and to customize their offers accordingly. \t\tPayment classification is a difficult problem because of the large and evolving set of businesses and the fact that each business may offer multiple types of products, e.g.\\ a business may sell both food and electronics. Two major approaches to payment classification are rule-based classification and machine learning-based classification. The classification machine learning technique is a variant of supervised learning, and, as such, it requires a labeled transaction set — in our case, transactions classified by the customers themselves (as a form of crowdsourcing). The rule-based approach is not scalable as it requires rules to be maintained for every business and type of transaction. The crowdsourcing approach leads to inconsistencies and is difficult to bootstrap since it requires a large number of customers to manually label their transactions for an extended period of time.\t\t\t\tHere we present a case study at a financial institution in which a hybrid approach is employed. A set of rules is used to bootstrap a financial planner that allowed customers to view their transactions classified with respect to 66 categories, and to add labels to unclassified transactions or to re-label transactions. The crowdsourced labels, together with the initial rule set, are then used to train a machine learning model. \t\tWe evaluated our model on real anonymised dataset, provided by the bank, which consists of wire transfers and card payments. In particular, for the wire transfer dataset, the hybrid approach increased the coverage of the rule-based system from 76.4\\% to 87.4\\% while replicating the crowdsourced labels with a mean AUC of 0.92, despite inconsistencies between crowdsourced labels. \t\t\t\tThis improvement shows the viability of hybrid models proposed, and the positive evaluation result allows us to set up the integration of the hybrid model with the bank's systems.

Description

Keywords

Citation