Monotoonsuse mõõtmine mitmeklassi klassifitseerimisel

Date

2018

Journal Title

Journal ISSN

Volume Title

Publisher

Abstract

Masinõpe on arvutiteaduste valdkond, mille põhieesmärgiks on luua meetodid, mis suudavad teha ennustusi andmete põhjal. Mitmeklassi klassifitseerimisülesande puhul on lahenduseks klassifitseerida objekt ühte vähemalt kolmest võimalikust klassist, kasutades selleks vaadelduid andmeid. Peale mudeli treenimist, on vaja kuidagi ka mudeli täpsust hinnata. Üldiselt tehakse andmestik kaheks - treening- ja testandmeteks - ja mudeli täpsust testitakse testandmete peal. Mudelid väljastavad skoore, mis näitavad ennustuse enesekindlust. Otsustuste tegemise protsessis on eriti kasulik, kui need skoorid on tõlgendatavad klasside tõenäosustena. Kalibreerimist kasutatakse skooride tõenäosuseks konverteerimisel. Vead ennustamistel võivad olla negatiivsete tagajärgeda, kui neid kasutataks teatud teatud valdkondades ja viisidel, seega on tähtis, et mudelid oleksid hästi kalibreeritud. Kõige laialt levinum binaarne kalibreerimismeetod on isotooniline regressioon, see sobitab vaba joone skooridele, aga sellel on üks kitsendus - joon peab olema mittelangev. Mitmeklassi klassifitseerimisel üldiselt vähendatakse probleem binaarsele tasemele, et sellel saaks jätkuvalt rakendada isotoonilist regressiooni, aga see eeldab, et skoorid oleksid monotoonsed. Seega on ainult loogiline uurida, kas mitmeklassi klassifitseerimisel monotoonsus peab paika, sest see aitaks luua uusi mitmeklassi kalibreerimismeetodeid.Antud bakalaureuse lõputöö keskendub monotoonsuse mõõtmisele luues mitmeid masinõppe mudeleid erinevate andmestike peal. Mõõtmiseks teostamiseks tuli ka välja mõelda viis, kuidas seda teha - tööraames pakkusime välja kaks meetodit. Esimene meetod järjestab kõik tõenäosused ühe klassi raames, luues üks-vs-ülejäänud võrdluse. Teine meetod võtab kahe klassi parimad 50% tõenäosustest (et vähendada kolmanda klassi mõju andmepunktidel) ja järjestab need ning luues seega üks-vs-üks võrdluse. Töö peamine tulemus on, et 71,4% andmestik-mudel paaridest on monotoonsed ning mittemonotoonsete paaride monotoonsus sõltub suuresti sellest, et andmestikel, kus mudeleid treeniti, oli kõikide mudelite täpsus madal.Viidi läbi empiiriline uuring 21 andmestiku peal, kus igal andmestikul treeniti 7 masinõppe mudelit. Monotoonsuse mõõtmiseks kasutati kaht eri mõõtmismeetodit ja tulemuste põhjal võib öelda, et mõlemal mõõtmismeetodil on sarnased resultaadid ning monotoonsust mõjutab mudeli täpsus. Monotoonsust mitmeklassi andmestike peal ei ole varasemalt uuritud ja vastav lõputöö annab ülevaate, kas sellised andmestikud on monotoonsed või ei.Masinõpe on igapäevaelus laialt kasutuses - reklaamid, pangandus, meditsiin ja seetõttu on vajalik, et mudelid oleksid hästi kalibreeritud. Teades, et mitmeklassi andmestikud on monotoonsed, siis see annab võimaluse luua efektiivsema kalibeerimismeetodi vastavatel andmestikel.
Machine learning is a field in computer science where the main purpose is to create a method which can make predictions about data. Multiclass classification is a task in machine learning where the solution is to classify an object into one of at least three classes based on real-life observations. After training the model, it is usually necessary to somehow evaluate the accuracy of the model. This is usually done by splitting data into two sets - training and test set - and testing the trained model against the test set. Models output scores, which show the confidence of the prediction. In the process of decision making, it is very helpful if these scores could be interpreted as class probabilities. Calibration is used to convert these scores to probabilities. Having prediction errors can have negative consequences in certain applications, so it is necessary for models to be well calibrated. Most popular and widely used binary calibration method is isotonic regression, it fits a free-form line to scores, but there is a constraint - the line must be non-decreasing everywhere. For multiclass cases, a reduction to binary task is mostly done to use isotonic regression but this once again means that scores need to be monotonous. Consequently it is logical to check if this also holds true in multiclass problems as this can help in developing multiclass calibration methods.This Bachelor's thesis focuses on measuring the monotonicity by creating multiple machine learning models on different datasets. But to measure monotonicity, we first had to come up with ways on how to measure it - for this thesis we proposed two different methods. First method ranks all probabilities base on a single class probabilities resulting in a one-vs-rest comparison. Second method takes top 50% probabilities of two classes (to reduce the noise made by third class), ranks them and this results in a one-vs-one comparison. Main result of the experiment is that 71,4% of dataset-model pairs seem to be monotonic while the monotonicity of non-monotonic pairs seems to be highly affected by having low accuracy on all models on these datasets.An empirical study was conducted on 21 datasets where on each set 7 models were trained. Two different measurement methods were used to calculate monotonicity and based on results these two methods have similar outcomes and seem to be affected by the accuracy of the model. Monotonicity in multiclass datasets has not been researched before and this research provides insight on if multiclass sets are monotonic or not.Many models nowadays are used widely in marketing, banking and medicine and having calibrated models is a necessity. Knowing that multiclass datasets are monotonic now gives the opportunity to devise a more efficient calibration method on multiclass problems.

Description

Keywords

Citation