Advancing human-centric counterfactual explanations in explainable AI

Laen...
Pisipilt

Kuupäev

Ajakirja pealkiri

Ajakirja ISSN

Köite pealkiri

Kirjastaja

Tartu Ülikooli Kirjastus

Abstrakt

Tehisintellekt (TI) mõjutab üha enam kriitilisi otsuseid erinevates valdkondades, nagu tervishoid, haridus ja rahandus. Mudelite kasvav keerukus ja ulatus muudavad otsustusprotsessid sageli läbipaistmatuks, rõhutades vajadust seletusmeetodite järele, mis suurendaksid nende läbipaistvust ja kontrollitavust. Selle väljakutsega tegeleb seletatava tehisintellekti (XAI) valdkond, arendades seletusi, mis on inimestele tähenduslikud ja arusaadavad. Inimlikud seletusprotsessid on oma olemuselt keerukad ja kontrastiivsed, hõlmates sageli võrdlusi ja hüpoteetilisi stsenaariume. Sellist kontrastiivset mõtlemist väljendavad kõige paremini kontrafaktuaalsed seletused, mis vastavad küsimusele: „Millised minimaalsed muudatused võiksid mudeli otsust muuta?“. Selleks, et kontrafaktuaalsed seletused oleksid tõhusad, peavad need olema kooskõlas inimlike eelistustega – olema tähenduslikud, rakendatavad ja kasutajatele usaldusväärsed. Käesolev doktoritöö edendab inimkeskseid kontrafaktuaalseid seletusi nelja omavahel seotud uuringu kaudu. Uurimistöö tugineb kognitiivteaduse arusaamadele, täiustades seeläbi kontrafaktuaalsete seletuste genereerimist ning hindamist erinevates rakendusvaldkondades. Esimene uuring, mis on inspireeritud inimlikest kognitiivsetest eelistustest, tutvustab difuusse kauguse ja suunatud koherentsuse kasutamist kontrafaktuaalsete seletuste otsingus. Need kaks uuendust võimaldavad luua lihtsamini teostatavaid ja inimkesksemaid seletusi, rõhutades andmeruumi sidusust ning joondades tunnuste muutused inimese mõtlemismustritega. Väljatöötatud lähenemine, nimega Coherent Directional Counterfactual Explainer (CoDiCE), näitab paremat tulemuslikkust seletuste loomisel, mis on praktiliselt rakendatavad ning inimese seletusloogikaga kooskõlas. Teine uuring tegeleb ühe kontrafaktuaalsete seletuste keskse väljakutsega- kuidas neid usaldusväärselt hinnata. Selleks arendatakse välja CounterEval-andmestik, mis koondab inimeste üksikasjalikud hinnangud mitmete seletuslike mõõtmete osas. Üle 200 osalejalt kogutud andmete põhjal luuakse ühtne hindamisraamistik, mis kasutab suurte keelemudelite (LLMid) võimekust ennustada keskmisi ja individuaalseid inimhinnanguid. See pakub skaleeritavat ja järjepidevat viisi seletuste kvaliteedi hindamiseks. Järgnev analüüs uurib, kuidas seletustega seotud rahulolu saab modelleerida teiste seletuslike mõõdikute (nt teostatavus, usaldus, täielikkus ja keerukus) põhjal, andes sügavama ülevaate teguritest, mis kujundavad üldist kasutajate rahulolu. Kolmas uuring näitab kontrafaktuaalsete seletuste praktilist väärtust meditsiinilise pilditöötluse kontekstis, esitades COunterfactual INpainting (COIN) lähenemise nõrgalt juhendatud semantilisele segmenteerimisele. COIN genereerib seletusi, muutes klassifitseerimistulemuse ebanormaalsest normaalseks ning kasutades algse ja muudetud pildi erinevusi nõrkade segmentatsioonimärgistena. Rakendatuna neerukasvajate segmentatsioonile vähendab see meetod oluliselt radioloogide käsitsi märgistamise töökoormust ning võimaldab patoloogiliste piirkondade tuvastamist ka olukordades, kus ulatuslikult märgistatud andmestikud puuduvad. COINi sooritus ületab märgatavalt traditsioonilised atribuutsioonil põhinevad meetodid, demonstreerides kontrafaktuaalsete seletuste potentsiaali tervishoiu rakendustes. Kokkuvõttes panustavad need uuringud seletatava tehisintellekti valdkonda, arendades ja valideerides kontrafaktuaalsete seletuste meetodeid, mis parandavad TI-süsteemide läbipaistvust ja kasutatavust ning on kooskõlas inimlike tunnetusprotsessidega.
Artificial Intelligence increasingly influences critical decisions across diverse domains like healthcare, education, and finance. The growing complexity and scale of these models often make their decision-making processes opaque, highlighting the importance of developing explanation methods that enhance transparency and accountability. The field of Explainable AI (XAI) aims to address this challenge by developing explanations that are meaningful to users. Human explanation processes are inherently complex and contrastive, often involving comparisons and hypothetical scenarios. This contrastive way of thinking is captured effectively by counterfactual explanations, which answer the question, "What minimal changes could alter a model’s decision?". For counterfactual explanations to be effective, they must align closely with human preferences, ensuring they are meaningful, actionable, and trusted by users. This thesis advances human-centric counterfactual explanations through four interconnected studies. By integrating insights from cognitive science, the research enhances both the generation and evaluation of counterfactual explanations across various domains. The first study, inspired by human cognitive preferences, proposes the use of diffusion distance and directional coherence to enhance the search for counterfactual explanations. These innovations result in more feasible, human-centric explanations by emphasizing data connectivity and aligning changes in feature space with human reasoning patterns. Our approach, named Coherent Directional Counterfactual Explainer (CoDiCE), shows better performance in generating explanations that are both actionable and aligned with human explanatory virtues. Addressing the critical issue of evaluating counterfactual explanations, the second study develops the CounterEval dataset, capturing detailed human judgments across multiple explanatory dimensions. Using data collected from over 200 participants, we introduce a unified evaluation framework that incorporates Large Language Models (LLMs) to predict averaged and individual human ratings, providing a scalable and consistent method to evaluate explanation quality. A subsequent analysis examines how perceived satisfaction with explanations can be modeled from other explanatory metrics (such as feasibility, trust, completeness, and complexity), providing deeper insights into the factors driving overall user satisfaction. The practical impact of counterfactual explanations is further demonstrated in the context of medical imaging by introducing a COunterfactual INpainting approach (COIN) for weakly supervised semantic segmentation in medical imaging. COIN generates explanations by flipping classification outcomes from abnormal to normal, using the differences between the original and altered images as weak segmentation labels. Applied to kidney tumor segmentation, this methodology significantly reduces the manual labeling workload for radiologists and enables pathology segmentation in scenarios lacking extensively annotated datasets. Counterfactual inpainting significantly outperforms attribution-based methods, showcasing the real-world potential of counterfactual explanations in healthcare. Together, these studies contribute to the field of XAI by developing and validating counterfactual explanation methods that enhance the transparency and usability of AI systems and also closely align with human cognitive processes.

Kirjeldus

Doktoritöö elektrooniline versioon ei sisalda publikatsioone

Märksõnad

doktoritööd

Viide