Assessing the Quality of Counterfactual Explanations with Large Language Models
Laen...
Kuupäev
Autorid
Ajakirja pealkiri
Ajakirja ISSN
Köite pealkiri
Kirjastaja
Tartu Ülikool
Abstrakt
Masinõppe mudelite kiire leviku tõttu on nende mudelite keerulisus ja läbipaistmatus üheks levinud murekohaks. "Seletatav tehisintellekt"(Explainable AI) on informaatika ala, mis keskendub meetoditele, millega on võimalik masinõppe mudelite sisemist loogikat uurida. Üks selline meetod on kontrafaktuaalsed seletused, mis vastavad küsimusele "Kuidas peaks olukord erinema, et mudel ennustaks teistsugust tulemust?". Tunnuseid, mis teevad sellise selgituse heaks on vähe uuritud ning neid on raske arvutuslikult hinnata. Selles lõputöös loodi küsimustik, mille abil koguti andmestik kontrafaktuaalsetest
seletustest ning nendele antud hinnangutest erinevate kriteeriumite põhjal. Selle andmestiku abil uuriti suurte keelemudelite võimet neid kriteeriume automaatselt hinnata, muuhulgas kasutades siirdeõpet. Tulemusena saavutati suurte keelemudelite puhul täpsus 70% kuni 95%, sõltuvalt konkreetsest mudelist ja testimisandmestikust. Väiksemad keelemudelid olid oluliselt vähem võimekad, kuid siirdeõppe abil suutsid saavutada 70% täpsust. Lisaks uuriti kriteeriumivaheliste korrelatsioonide mõju tulemustele ning hinnati asjaolu, kuivõrd on inimeste üldist rahulolu seletusega võimalik automaatselt hinnata. Need tulemused võimaldavad edasisi uuringuid kontrafaktuaalsete seletuste automaatses
hindamises ning uute kontrafaktuaalsete seletuste otsingualgoritmide arenduses.
Kirjeldus
Märksõnad
Articial Intelligence, XAI, Counterfactual explanations, LLM, Human evaluation, Tehisintellekt, Kontrafaktuaalsed seletused, Keelemudelid, Inimhindamine