Klassifikaatorite hindamine kohaste skoorimisreeglitega

Date

2019

Journal Title

Journal ISSN

Volume Title

Publisher

Abstract

Üks põhilisi ülesandeid masinõppes on klassifitseerimine, mis seisneb andmepunktile kategoorse väärtuse ennustamises teatud tunnuste alusel.Klassifitseerija sooritusvõimet saab mõõta kaofunktsiooni abil, mis omistab igale klassitsifeerimisel tehtud veale mingi väärtuse.Klassifitseerimisveaks nimetatakse olukorda, kus ennustatud kategoorne väärtus on erinev sellest, mis peaks olema tegelik väärtus. Kõige lihtsam on käsitleda kõikvõimalikke klassifitseerimisvigu võrdse kuluga. Siiski, mõndade probleemide lahendamine nõuab erinevat tüüpi klassifitseerimisvigadele erineva kaalu omistamist, ning see moodustab kaokonteksti. Olenevalt kaokontekstist on võimalik rakendada erinevaid kaofunktsioone. Näiteks, kui ühe valepositiivse ja ühe valenegatiivse hindade aritmeetiline keskmine on fikseeritud ning mõlemad on ühtlaselt jaotunud, sobib kaofunktsiooniks Brier’i skoor. Kui nende harmooniline keskmine on fikseeritud, sobib selle asemel kasutada logaritmilist kaofunktsiooni. Need kaks funktsiooni kuuluvad suuremasse kaofunktsioonide perekonda, mida tuntakse kohaste skoorimisreeglite nime all. Skoorimisreeglid on kaofunktsioonid mis tegelevad spetsiifiliselt tõenäosusliku klassifitseerimisega, kus klassifitseerijalt on oodatud iga kategooria tõenäosuseennustamist, kus tõenäosus omakorda näitab kindlust ennustatud kategoorias.Antud magistritöös esitletakse uut kaokonteksti binaarsele klassifitseerimisele,kus kummalgi klassil on sõltumatult ühtlane jaotus. Nimetatud kaokontekstilepakutakse välja uus kaofunktsioon nimega Pöördskoor ning selle puhul tõestatakse, et see on kohane skoorimisreegel. Eksperimendid kinnitavad, et kogukulu vastavas kaokontekstis ning oodatud kadu kasutades uut kaofunktsiooni on samad.
Classification is a fundamental task in machine learning, which involvespredicting the class of a data instance based on a set of features. Performance of a classifier can be measured using a loss function, which assigns a loss value for each classification error.Classification error happens when the predicted and the actual class differ. Inthe simplest case, all combinations resulting in a classification error are considered equal in terms of cost. However, some problems demand different types of misclassification to be of different importance, which forms a cost context. Depending on the properties of the cost contexts, different loss functions can be applied. For example, if the arithmetic mean of costs for one false positive and one false negative is fixed and these costs are uniformly distributed, then Brier score is the suitable loss function. If their harmonic mean is fixed, then log loss should be used instead. These two functions belong to a larger family of loss functions known as proper scoring rules. Scoring rules are loss functions which deal specifically with probabilistic classification, where the classifier is required to predict probability for each class, indicating prediction confidence. In this thesis, a new cost context for binary classification is presented, whereboth costs have their own uniform distributions. A corresponding new loss function for this cost context is proposed, named Inverse Score, and is subsequently proven to be a proper scoring rule. The experiments confirm that the total cost when using said cost context and expected loss when using the new loss function are the same.

Description

Keywords

Citation