Suurte keelemudelite kasutamine sõnade semantiliseks klassifitseerimiseks
Laen...
Kuupäev
Autorid
Ajakirja pealkiri
Ajakirja ISSN
Köite pealkiri
Kirjastaja
Tartu Ülikool
Abstrakt
To study language and develop language technology applications, it is essential to have as much information as possible about word meanings. One important aspect of meaning is if a word belongs to a specific semantic class. However, there is currently no effective system for annotating such classes. Manual annotation is time-consuming, and automated solutions do not exist yet. This study employed various GPT models to evaluate their suitability for semantic annotation of words. First, the models were used to determine the semantic subclasses of words, and based on these, the study attempted to determine whether a word belongs to the broader category of “physical location”. Additionally, the research examined whether a word’s meaning depends on its context of use. The results showed that using subclasses to identify physical locations is promising but requires more precise prompt engineering. Furthermore, it was found that a word’s semantic class is influenced more by its inherent meaning than by the context in which it appears.
Keele uurimiseks ja keeletehnoloogiliste rakenduste loomiseks on oluline omada võimalikult palju teavet sõnade tähenduse kohta. Üheks oluliseks aspektiks on sõna kuuluvus teatud semantilisse klassi. Siiski puudub hetkel tõhus süsteem selliste klasside märgendamiseks. Manuaalne märgendamine on ajamahukas ning automaatseid lahendusi veel ei eksisteeri. Käesolevas uurimistöös kasutati erinevaid GPT-mudeleid, et hinnata nende sobivust sõnade semantiliseks märgendamiseks. Esiteks määrati mudelite abil sõnade semantilised alamklassid ning nende põhjal püüti järeldada, kas sõna kuulub üldisemasse kategooriasse „füüsiline koht“. Samuti uuriti, kas sõna tähendus sõltub selle esinemise kontekstis. Töö tulemused näitasid, et alamklasside kasutamine füüsilise koha määramiseks on paljulubav, kuid nõuab täpsemat päringute koostamist. Lisaks ilmnes, et sõna kuulumine semantilisse klassi sõltub pigem sõna enda tähendusest kui selle esinemise kontekstis.
Keele uurimiseks ja keeletehnoloogiliste rakenduste loomiseks on oluline omada võimalikult palju teavet sõnade tähenduse kohta. Üheks oluliseks aspektiks on sõna kuuluvus teatud semantilisse klassi. Siiski puudub hetkel tõhus süsteem selliste klasside märgendamiseks. Manuaalne märgendamine on ajamahukas ning automaatseid lahendusi veel ei eksisteeri. Käesolevas uurimistöös kasutati erinevaid GPT-mudeleid, et hinnata nende sobivust sõnade semantiliseks märgendamiseks. Esiteks määrati mudelite abil sõnade semantilised alamklassid ning nende põhjal püüti järeldada, kas sõna kuulub üldisemasse kategooriasse „füüsiline koht“. Samuti uuriti, kas sõna tähendus sõltub selle esinemise kontekstis. Töö tulemused näitasid, et alamklasside kasutamine füüsilise koha määramiseks on paljulubav, kuid nõuab täpsemat päringute koostamist. Lisaks ilmnes, et sõna kuulumine semantilisse klassi sõltub pigem sõna enda tähendusest kui selle esinemise kontekstis.
Kirjeldus
Märksõnad
loomuliku keele töötlus, suured keelemudelid, semantilised klassid, korpused