In-Depth Analysis of Miscalibration In Binary Classification

Allikivi, Mari-Liis, juhendajaAavola, HeiliTartu Ülikool. Loodus- ja täppisteaduste valdkondTartu Ülikool. Arvutiteaduse instituut2025-10-282025-10-282025https://hdl.handle.net/10062/117142Reliable probability estimates from binary classifiers are crucial for decisionmaking. While standard evaluation metrics provide an overall assessment of calibration quality, a deeper examination of miscalibration patterns can offer further insights into how calibration methods perform. This thesis presents an in-depth analysis of miscalibration patterns for five post-hoc calibration methods: Isotonic Calibration, Logistic Calibration, Beta Calibration, Histogram Binning, and Simplified Venn-Abers. Using a synthetic data framework with five diverse, known true calibration maps, we performed 100 simulation runs for each method-map combination. A suite of five specialized characterization plots was employed to visualize and understand nuanced error profiles, including accuracy, bias, variance, and directional tendencies in misestimation. The results reveal distinct behavioral characteristics and trade-offs. Parametric methods (Logistic, Beta) exhibited high stability but incurred significant systematic bias when their functional assumptions did not match the true probability landscape. Non-parametric methods (Isotonic, SVA) demonstrated superior adaptability and lower average error but with step-like outputs and slightly higher variance in complex regions. Histogram Binning showed considerable artifacts tied to its fixed-bin structure. The characterization plots successfully highlighted consistent directional biases and other nuanced error patterns not evident from aggregate metrics. This granular understanding reveals the precise behavior of different calibration methods, offering a more nuanced basis for selecting approaches tailored to specific application needs and risk sensitivities, particularly in complex or risk-sensitive contexts, moving beyond single performance scores.Usaldusväärsed tõenäosushinnangud binaarsetelt klassifikaatoritelt on otsustusprotsessides kriitilise tähtsusega, kuid standardsed hindamismõõdikud varjavad sageli kalibreerimisvigade keerukat olemust. Käesolev magistritöö esitab süvaanalüüsi kalibreerimisvigade mustritest viie laialt levinud järelkalibreerimismeetodi puhul: isotooniline kalibreerimine, logistiline kalibreerimine, beeta kalibreerimine, histogrammipõhine kalibreerimine ja lihtsustatud Venn-Abers. Kasutades sünteetiliste andmete raamistikku, mis tugines viiele erinevale teadaolevale tõesele kalibratsioonikaardile ja seeläbi teadaolevatele tegelikele tõenäosustele, viidi läbi 100 simulatsioonikäiku iga meetodi ja kaardi kombinatsiooni kohta. Kasutati viit spetsialiseeritud karakteriseerimisgraafikut, et visualiseerida ja mõista nüansirikkaid veaprofiile, sealhulgas täpsust, nihet, dispersiooni ja suunatud tendentse valehinnangutes. Tulemused näitavad selgelt eristuvaid käitumuslikke omadusi ja kompromisse. Parameetrilised meetodid (Logistiline, Beeta) näitasid suurt stabiilsust, kuid tekitasid märkimisväärset süstemaatilist nihet, kui nende funktsionaalsed eeldused ei vastanud tegelikule tõenäosusmaastikule. Mitteparameetrilised meetodid (Isotooniline, SVA) demonstreerisid paremat kohanemisvõimet ja väiksemat keskmist viga, kuid tulemuseks olid astmelised väljundid ja veidi suurem dispersioon keerukates piirkondades. Histogrammidel põhinev klassidesse jaotamine tekitas märkimisväärseid artefakte, mis olid seotud selle fikseeritud klassijaotuse struktuuriga. Karakteriseerimisgraafikud tõid edukalt esile järjepidevad suunatud nihked ja muud nüansirikkad veamustrid, mis koondmõõdikutest ei ilmne. Selline detailne arusaam aitab praktikutel teha teadlikumaid valikuid kalibreerimismeetodite osas, mis on kohandatud konkreetsetele rakendusvajadustele ja riskitundlikkusele, minnes kaugemale üksikutest tulemusnäitajatest.enAttribution-NonCommercial-NoDerivatives 4.0 Internationalhttps://creativecommons.org/licenses/by-nc-nd/4.0/Machine learningcalibrationbinary classificationmasinõpekalibreeriminebinaarne klassifitseeriminemagistritöödinformaatikainfotehnoloogiainformaticsinfotechnologyIn-Depth Analysis of Miscalibration In Binary ClassificationKalibreerimisvigade süvaanalüüs binaarses klassifitseerimisesThesis