Sobiva headusmõõdu valimine binaarsete klassifitseerimisüles-annete korral

Date

2018

Journal Title

Journal ISSN

Volume Title

Publisher

Abstract

Masinõpe on tehisintellekti üks suurimaid harusid, mille ideeks on imiteerida õppimisprotsessi, mida kõik elusorganismid kasutavad igapäevaste probleemidega toimetulemisel. See kasutab õppimiseks sarnaste ülesannete kohta olemasolevaid andmeid. Selle käigus üritab masinõppe algoritm tuvastada erinevaid mustreid,et treenida mudel, mis aitaks hiljem teha üldistusi samalaadsete probleemidega tegelemisel. Üheks masinõppe suunaks on binaarklassifitseerimine. Binaarne klassifitseerimine tegeleb probleemidega, millele leidub ainult kaks võimalikku lahendit ehk klassi. Seega üritab binaarse klassifitseerimisülesande lahendamiseks treenitud mudel ennustada, kas vastav probleem kuulub klassi A või B. Seoses sellega aga tekib küsimus, kas olemasolev mudel on sobilik vastava probleemi lahendamiseks. Seda saab hinnata headusmõõtudega. Käesolev uurimistöö tutvustab, kuidas valida sobivat headusmõõtu binaarsetele klassifitseerimisülesannetele. Töö toob välja erinevaid headusmõõte ning esitab küsimused, mis aitavad kindlaks teha klassifitseerimisprobleemi eesmärgi ning konteksti. Varasemalt on ilmunud mitmeid töid, mis annavad ülevaate erinevatest headusmõõtudest ning nende omadustest, kuid need nõuavad tööde lugejatelt juba teatud eelteadmisi ning jätavad tähelepanuta erinevate mõõtude kasutamisega kaasnevad riskid ning puudujäägid. Samuti ei too need välja kindlat juhist, kuidas mõõtu valida.Seega on antud töö eesmärk aidata sobiva mõõduni jõuda ka inimestel, kellel puuduvad sügavamad teadmised masinõppest.
Machine learning is a big part of artificial intelligence which tries to imitatethe learning process what every living organism uses in everyday life to deal witharisen problems. It uses available data about the problem of interest to learn anddetect patterns so it can build a model which could be helpful in overcoming similarproblems in the future.One branch of machine learning is binary classification. It specializes in problemswhere there are only two possible outcomes also know as classes. Therefore themodel which has been trained to solve such problems can only predict class Aor class B. This in turn raises question how can one know if the given modelis appropriate to deal with such problems. One way to evaluate this, is to useperformance meaasures.This thesis focuses on how to choose appropriate performance measure forbinary classification problems. It brings out different measures and providesquestions which try to discover the purpose of the model and the context in whichit was trained. There have been published many works which give an insight intoperformance measures and their characteristics but they require the reader toalready be familiar with the topic and therefore leave out risks and shortcomingsof certain measures. They also don’t provide a concrete manual on how to choosea performance measure.This work tries to help people, who lack deeper knowledge about machinelearning, to discover appropriate measure for the problem in hand.

Description

Keywords

Citation