In-Depth Analysis of Miscalibration In Binary Classification

dc.contributor.advisorAllikivi, Mari-Liis, juhendaja
dc.contributor.authorAavola, Heili
dc.contributor.otherTartu Ülikool. Loodus- ja täppisteaduste valdkondet
dc.contributor.otherTartu Ülikool. Arvutiteaduse instituutet
dc.date.accessioned2025-10-28T08:38:51Z
dc.date.available2025-10-28T08:38:51Z
dc.date.issued2025
dc.description.abstractReliable probability estimates from binary classifiers are crucial for decisionmaking. While standard evaluation metrics provide an overall assessment of calibration quality, a deeper examination of miscalibration patterns can offer further insights into how calibration methods perform. This thesis presents an in-depth analysis of miscalibration patterns for five post-hoc calibration methods: Isotonic Calibration, Logistic Calibration, Beta Calibration, Histogram Binning, and Simplified Venn-Abers. Using a synthetic data framework with five diverse, known true calibration maps, we performed 100 simulation runs for each method-map combination. A suite of five specialized characterization plots was employed to visualize and understand nuanced error profiles, including accuracy, bias, variance, and directional tendencies in misestimation. The results reveal distinct behavioral characteristics and trade-offs. Parametric methods (Logistic, Beta) exhibited high stability but incurred significant systematic bias when their functional assumptions did not match the true probability landscape. Non-parametric methods (Isotonic, SVA) demonstrated superior adaptability and lower average error but with step-like outputs and slightly higher variance in complex regions. Histogram Binning showed considerable artifacts tied to its fixed-bin structure. The characterization plots successfully highlighted consistent directional biases and other nuanced error patterns not evident from aggregate metrics. This granular understanding reveals the precise behavior of different calibration methods, offering a more nuanced basis for selecting approaches tailored to specific application needs and risk sensitivities, particularly in complex or risk-sensitive contexts, moving beyond single performance scores.
dc.description.abstract Usaldusväärsed tõenäosushinnangud binaarsetelt klassifikaatoritelt on otsustusprotsessides kriitilise tähtsusega, kuid standardsed hindamismõõdikud varjavad sageli kalibreerimisvigade keerukat olemust. Käesolev magistritöö esitab süvaanalüüsi kalibreerimisvigade mustritest viie laialt levinud järelkalibreerimismeetodi puhul: isotooniline kalibreerimine, logistiline kalibreerimine, beeta kalibreerimine, histogrammipõhine kalibreerimine ja lihtsustatud Venn-Abers. Kasutades sünteetiliste andmete raamistikku, mis tugines viiele erinevale teadaolevale tõesele kalibratsioonikaardile ja seeläbi teadaolevatele tegelikele tõenäosustele, viidi läbi 100 simulatsioonikäiku iga meetodi ja kaardi kombinatsiooni kohta. Kasutati viit spetsialiseeritud karakteriseerimisgraafikut, et visualiseerida ja mõista nüansirikkaid veaprofiile, sealhulgas täpsust, nihet, dispersiooni ja suunatud tendentse valehinnangutes. Tulemused näitavad selgelt eristuvaid käitumuslikke omadusi ja kompromisse. Parameetrilised meetodid (Logistiline, Beeta) näitasid suurt stabiilsust, kuid tekitasid märkimisväärset süstemaatilist nihet, kui nende funktsionaalsed eeldused ei vastanud tegelikule tõenäosusmaastikule. Mitteparameetrilised meetodid (Isotooniline, SVA) demonstreerisid paremat kohanemisvõimet ja väiksemat keskmist viga, kuid tulemuseks olid astmelised väljundid ja veidi suurem dispersioon keerukates piirkondades. Histogrammidel põhinev klassidesse jaotamine tekitas märkimisväärseid artefakte, mis olid seotud selle fikseeritud klassijaotuse struktuuriga. Karakteriseerimisgraafikud tõid edukalt esile järjepidevad suunatud nihked ja muud nüansirikkad veamustrid, mis koondmõõdikutest ei ilmne. Selline detailne arusaam aitab praktikutel teha teadlikumaid valikuid kalibreerimismeetodite osas, mis on kohandatud konkreetsetele rakendusvajadustele ja riskitundlikkusele, minnes kaugemale üksikutest tulemusnäitajatest.
dc.identifier.urihttps://hdl.handle.net/10062/117142
dc.language.isoen
dc.publisherTartu Ülikoolet
dc.rightsAttribution-NonCommercial-NoDerivatives 4.0 International
dc.rights.urihttps://creativecommons.org/licenses/by-nc-nd/4.0/
dc.subjectMachine learning
dc.subjectcalibration
dc.subjectbinary classification
dc.subjectmasinõpe
dc.subjectkalibreerimine
dc.subjectbinaarne klassifitseerimine
dc.subject.othermagistritöödet
dc.subject.otherinformaatikaet
dc.subject.otherinfotehnoloogiaet
dc.subject.otherinformaticsen
dc.subject.otherinfotechnologyen
dc.titleIn-Depth Analysis of Miscalibration In Binary Classification
dc.title.alternativeKalibreerimisvigade süvaanalüüs binaarses klassifitseerimises
dc.typeThesisen

Failid

Originaal pakett

Nüüd näidatakse 1 - 1 1
Laen...
Pisipilt
Nimi:
Aavola_MSc_datascience_2025.pdf
Suurus:
19.5 MB
Formaat:
Adobe Portable Document Format