Generatiivsete tehisintellektide võimekus kontrollida väidet, võrreldes Delfi Faktikontrolliga
Laen...
Kuupäev
Autorid
Ajakirja pealkiri
Ajakirja ISSN
Köite pealkiri
Kirjastaja
Tartu Ülikool
Abstrakt
Bakalaureusetöö eesmärk oli hinnata tehisintellekti keelemudelite võimekust teostada täiemahulist faktikontrolli. Selle jaoks võrreldi keelemudelite poolt teostatud faktikontrolle eskperdi poolt teostatud faktikontrolliga. Töö keskendus küsimusele, kas ja mil määral suudavad tehisintellekti mudelid (DeepSeek V3, Gemini 2.0 Flash, Grok 3, Claude 3.7 Sonnet ja ChatGPT 4o) toetuda faktidele, pakkuda usaldusväärseid ja aktuaalseid allikaid, kasutada viiteid, teha kontroll läbipaistvalt ja erapooletult ning esitada tööl põhinev järeldus, mis oleks võrreldav eksperdi faktikontrolliga.
Uuring viidi läbi kahes etapis. Esmalt viidi läbi pilootuuring, mille eesmärgiks oli testida autori loodud hindamismaatriksit ning täiustada keelemudelitele esitatavat sisendit. Pilootuuring võimaldas tuvastada mitmeid puudusi senistes hindamismeetodites, mille tulemusena loodi täiustatud maatriks skaalal –2 kuni 2. Seejärel viidi läbi uuring, mille käigus võrreldi tehisintellekti keelemudelite vastuseid Delfi uuriva toimetuse eksperdi poolt koostatud faktikontrolliga.
Tulemused näitasid, et tänapäeva tehisintellekti keelemudelite võimekused ei ole piisavalt head, et teostada iseseisvalt täiemahulist faktikontrolli. Igal keelemudelil olid oma plussid ja miinused, mis takistasid või toetasid faktikontrolli teostamist. Keelemudelid suutsid eristada fakte ja väljamõeldisi ning jõudsid kõik järeldusele, et väide ei vasta tõele. Vastused keelemudelite vahel enamasti varieerusid, sest iga keelemudel põhines erineval treeningul (vt ptk 1.3), kuid esines ka mitmeid sarnasusi ülesande lähenemisele. Enamasti ei olnud niivõrd tõhusad mudelid, mis ei esitanud faktikontrollis konkreetseid allikaid. Internetile ligipääs ja ligipääsu kasutamine mõjutas kõige rohkem mudelite hinnangut, sest faktikontroll põhineb kontrollitavatel väidetel.
Autorile teadaolevalt on tegemist esimese tööga Eestis, kus on välja töötatud spetsiaalne hindamismaatriks tehisintellekti poolt koostatud faktikontrollide võrdlemiseks eksperdi poolt teostatud faktikontrolliga. Uuring näitas, et tehisintellekt ei suuda iseseisvalt ja usaldusväärselt faktikontrolli teostada, küll aga võib see olla kasulik tööriist ja abiline ekspertidele. Sellest tulenevalt pakub töö aluse edasisteks uuringuteks, kus tehisintellekti keelemudelite faktikontrolli võimekust saab veelgi täpsemalt uurida (nt rohkemate väidete ja mudelite põhjal), samuti täpsustada, millistes valdkondades on tehisintellekt usaldusväärne ja millistes mitte.