Measuring Human Preferences in Counterfactual Explanations
Kuupäev
2024
Autorid
Ajakirja pealkiri
Ajakirja ISSN
Köite pealkiri
Kirjastaja
Tartu Ülikool
Abstrakt
Masinõppemudelid muutuvad kiire arengu ja uute struktuuride lisamise tõttu üha keerukamaks, mistõttu on nende tehtud otsuste taga olevad protsessid kasutajale vähem läbipaistvad. Üks võimalik viis mõista mudeli tehtud otsuseid on luua nende kohta kontrafaktuaalseid selgitusi(counterfactual explanations) kontrafaktuaalsete selgituste genereerimisalgoritmiga. See meetod aga tõstatab omaette probleemi: kuidas moodustada kontrafaktuaalseid selgitusi, mis on inimestele kõige kasulikumad. Üks variant on kontrafaktuaalsete selgituste genereerimisalgoritmidesse inimlikud eelistused sisse kirjutada. Uurimaks mida inimesed selgituste puhul hindavad, viiakse selle töö raames läbi küsimustik, kus osalejad hindavad kontrafaktuaalsete selgituste üldist kvaliteeti ning
vastavust teatud seletatavuse väärtustele (explanatory virtues). Küsimustiku vastustel rakendatud andmeanalüüs osutas võimalusele, et mõõdetud seletatavuse väärtused on omavahel tihedalt seotud ning potentsiaalselt saab mõõdetud väärtused koondada väiksemale arvule faktoritele. Üldiselt väärtustasid inimesed enim selgituste teostatavust (Feasibility). Küsimustiku raames loodud andmestikku ning andmeanalüüsi avastusi saab kasutada tulevaste kontrafaktuaalsete selgituste genereerimisalgoritmide inimsõbralikumaks muutmisel.
Kirjeldus
Märksõnad
Explainable AI, Counterfactual Explanations, Selgitatav tehisintellekt, kontrafatuaalsed selgitused