Exploring the Capability of Large Language Models to Detect AI-generated Academic Texts
Laen...
Kuupäev
Autorid
Ajakirja pealkiri
Ajakirja ISSN
Köite pealkiri
Kirjastaja
Tartu Ülikool
Abstrakt
The increasing prevalence of Large Language Models (LLMs) poses significant challenges to authorship verification, particularly in the academic context. This thesis addresses this challenge by evaluating state-of-the-art LLMs (Claude 3.7 Sonnet, Gemini 2.5 Pro, Deepseek R1, o4-mini) to classify academic abstracts as AI-generated or human-written. A novel bilingual dataset comprising of human-authored and LLM-generated abstracts was created as part of this study. Our investigation focused on three crucial factors: (1) language resource availability, (2) size of the LLM that generates the content, and (3) prompting techniques. The language resource availability influences detection performance, where the LLMs generally perform better on English (a high-resource language) than Estonian (a low-resource language) abstracts. The size of the generating LLM also proved significant; smaller models were more detectable than larger ones. While metacognitive and chain-of-thought prompting techniques demonstrated strong results, no single strategy proved universally superior. Detecting LLM-generated academic abstracts is a nuanced challenge; however, currently available LLMs demonstrate strong potential as detectors. Nevertheless, their varied effectiveness emphasizes the need for continued research and tool development to safeguard academic integrity in the era of advanced AI.
Suurte keelemudelite (LLM) kasutus on viimastel aastastel hüppeliselt kasvanud, mis mõjutab muuhulgas akadeemilises kontekstis tekstide autorsuse kontrollimise keeruliseks. Antud uurimistöö uurib, kui efektiivsed on uusimad LLMid (Claude 3.7 Sonnet, Gemini 2.5 Pro, Deepseek R1, o4-mini) eristades inimeste poolt kirjutatud ja LLMide poolt genereeritud uurimistööde lühikokkuvõtteid. Selleks eesmärgiks loodi uus kahekeelne andmestik AI-genereeritud ja inimkirjutatud lõputööde lühikokkuvõtetest. Lisaks uuriti, kui palju mõjutavad LLMide tuvastussuutlikkust keeleressursside olemasolu, teksti loova mudeli suurus ja kasutatud viipamistehnika. Keeleressursside olemasolu mõjutas tuvastustäpsust märgatavalt, mudelite täpsus oli kõrgem ingliskeelsete lühikokkuvõtete kui eestikeelsete lühikokkuvõtete puhul. Ka teksti genereeriva LLMi suurus osutus oluliseks faktoriks; väiksemad mudelid olid kergemini tuvastatavad kui suuremad. Kuigi metakognitiivsed ja mõttepõhised arutluskäigu (Chain-of-Thought) viipamistehnikad andsid häid tulemusi, ei osutunud ükski strateegia üldiselt parimaks. LLMide poolt genereeritud akadeemiliste lühikokkuvõtete tuvastamine on keeruline väljakutse, mille täpsust mõjutavad keel, teksti genereeriv mudel ja viipamistehnika, mida kasutatakse. Kuigi uusimatel LLMidel on potentsiaali tuvastusvahenditena, rõhutavad nende puudujäägid vajadust jätkuva uurimistöö ja tööriistade arendamise järele, et kaitsta akadeemilist terviklikkust kõrgtehnoloogilise tehisintellekti ajastul.
Suurte keelemudelite (LLM) kasutus on viimastel aastastel hüppeliselt kasvanud, mis mõjutab muuhulgas akadeemilises kontekstis tekstide autorsuse kontrollimise keeruliseks. Antud uurimistöö uurib, kui efektiivsed on uusimad LLMid (Claude 3.7 Sonnet, Gemini 2.5 Pro, Deepseek R1, o4-mini) eristades inimeste poolt kirjutatud ja LLMide poolt genereeritud uurimistööde lühikokkuvõtteid. Selleks eesmärgiks loodi uus kahekeelne andmestik AI-genereeritud ja inimkirjutatud lõputööde lühikokkuvõtetest. Lisaks uuriti, kui palju mõjutavad LLMide tuvastussuutlikkust keeleressursside olemasolu, teksti loova mudeli suurus ja kasutatud viipamistehnika. Keeleressursside olemasolu mõjutas tuvastustäpsust märgatavalt, mudelite täpsus oli kõrgem ingliskeelsete lühikokkuvõtete kui eestikeelsete lühikokkuvõtete puhul. Ka teksti genereeriva LLMi suurus osutus oluliseks faktoriks; väiksemad mudelid olid kergemini tuvastatavad kui suuremad. Kuigi metakognitiivsed ja mõttepõhised arutluskäigu (Chain-of-Thought) viipamistehnikad andsid häid tulemusi, ei osutunud ükski strateegia üldiselt parimaks. LLMide poolt genereeritud akadeemiliste lühikokkuvõtete tuvastamine on keeruline väljakutse, mille täpsust mõjutavad keel, teksti genereeriv mudel ja viipamistehnika, mida kasutatakse. Kuigi uusimatel LLMidel on potentsiaali tuvastusvahenditena, rõhutavad nende puudujäägid vajadust jätkuva uurimistöö ja tööriistade arendamise järele, et kaitsta akadeemilist terviklikkust kõrgtehnoloogilise tehisintellekti ajastul.
Kirjeldus
Märksõnad
Large Language Models, AI Text Detection, Academic Integrity, AI teksti tuvastamine, suured keelemudelid, akadeemiline ausus