Exploring the Human-like Ability of LLMs in Recognizing Self-generated Text

Kuupäev

2024

Ajakirja pealkiri

Ajakirja ISSN

Köite pealkiri

Kirjastaja

Tartu Ülikool

Abstrakt

Suur keelemudel on generatiivne tehisintellekti mudel, mis suudab genereerida inimkeelele lähedasi tekste. Suurte keelemudelite populaarsus kasvab jõudsasti iga päevaga, kuna nad on võimelised mõistma ja geneereerima tekste, mis sarnanevad väga tihedalt inimeste loodud tekstidele. Nende kasutamine on kiiresti levinud erinevates valdkondades, nagu reklaam, loosungite ja uudiste kirjutamine, lugude genereerimine jne. Teisalt levib ka keelemudelite pahatahtlik kasutamine, mis on tõsiseks ohuks infoökosüsteemidele ja avaliku arvamuse usaldusele. Seetõttu on hädavajalik töötada välja meetodeid, mis suudaksid eristada keelemudelite loodud teksti inimeste poolt kirjutatud tekstist. Käesolevas töös uurisime inimeste ja keelemudeli loodud tekstide keelelisi erinevusi, keelemudelite võimet tuvastada tekste, mis on nende endi poolt genereeritud ning teksti pikkuse mõju selle autori tuvastamisel. Tulemused näitavad, et väiksemate parameetritega keelemudelid genereerivad tekste millel on suurem on tekstisõnade ja teksti sõnavara (ingl Type-Token-Ratio) suhe võrreldes inim-autorite kirjutatud tekstidega, kuid samas on rohkem arenenud mudelite tekstidel inimeste kirjutatud tekstiga rohkem sarnasust. Saadud tulemused näitavad ka, et mida arenenum on keelemudel, seda väiksem on tõenäosus, et nad suudavad oma genereeritud teksti tuvastada, sest nende tekst meenutab rohkem inimeste kirjutatud teksti. See uuring on oluline, et mõista suurte keelemudelite loodud tekstidest tulenevaid probleeme nagu valeinfo. See aitab kaasa uute meetodite väljatöötamisele, et keelemudelite tehtud sisu tuvastada.

Kirjeldus

Märksõnad

Generated texts, Text classification, Large language models, Genereeritud tekst, Teksti klassifitseerimine, Suur keelemudel

Viide