Suurte keelemudelite kasutamine sõnade semantiliseks klassifitseerimiseks

dc.contributor.advisorLaur, Sven, juhendaja
dc.contributor.authorKaljumäe, Kristina Katarina
dc.contributor.otherTartu Ülikool. Loodus- ja täppisteaduste valdkondet
dc.contributor.otherTartu Ülikool. Arvutiteaduse instituutet
dc.date.accessioned2025-10-24T09:05:14Z
dc.date.available2025-10-24T09:05:14Z
dc.date.issued2025
dc.description.abstractTo study language and develop language technology applications, it is essential to have as much information as possible about word meanings. One important aspect of meaning is if a word belongs to a specific semantic class. However, there is currently no effective system for annotating such classes. Manual annotation is time-consuming, and automated solutions do not exist yet. This study employed various GPT models to evaluate their suitability for semantic annotation of words. First, the models were used to determine the semantic subclasses of words, and based on these, the study attempted to determine whether a word belongs to the broader category of “physical location”. Additionally, the research examined whether a word’s meaning depends on its context of use. The results showed that using subclasses to identify physical locations is promising but requires more precise prompt engineering. Furthermore, it was found that a word’s semantic class is influenced more by its inherent meaning than by the context in which it appears.
dc.description.abstract Keele uurimiseks ja keeletehnoloogiliste rakenduste loomiseks on oluline omada võimalikult palju teavet sõnade tähenduse kohta. Üheks oluliseks aspektiks on sõna kuuluvus teatud semantilisse klassi. Siiski puudub hetkel tõhus süsteem selliste klasside märgendamiseks. Manuaalne märgendamine on ajamahukas ning automaatseid lahendusi veel ei eksisteeri. Käesolevas uurimistöös kasutati erinevaid GPT-mudeleid, et hinnata nende sobivust sõnade semantiliseks märgendamiseks. Esiteks määrati mudelite abil sõnade semantilised alamklassid ning nende põhjal püüti järeldada, kas sõna kuulub üldisemasse kategooriasse „füüsiline koht“. Samuti uuriti, kas sõna tähendus sõltub selle esinemise kontekstis. Töö tulemused näitasid, et alamklasside kasutamine füüsilise koha määramiseks on paljulubav, kuid nõuab täpsemat päringute koostamist. Lisaks ilmnes, et sõna kuulumine semantilisse klassi sõltub pigem sõna enda tähendusest kui selle esinemise kontekstis.
dc.identifier.urihttps://hdl.handle.net/10062/117065
dc.language.isoet
dc.publisherTartu Ülikoolet
dc.rights.urihttps://creativecommons.org/licenses/by-nc-nd/4.0/
dc.subjectloomuliku keele töötlus
dc.subjectsuured keelemudelid
dc.subjectsemantilised klassid
dc.subjectkorpused
dc.subject.otherbakalaureusetöödet
dc.subject.otherinformaatikaet
dc.subject.otherinfotehnoloogiaet
dc.subject.otherinformaticsen
dc.subject.otherinfotechnologyen
dc.titleSuurte keelemudelite kasutamine sõnade semantiliseks klassifitseerimiseks
dc.title.alternativeUsing Large Language Models for Semantic word classification
dc.typeThesis

Failid

Originaal pakett

Nüüd näidatakse 1 - 2 2
Laen...
Pisipilt
Nimi:
Kristina_Katarina_Kaljumae_2025.pdf
Suurus:
893.38 KB
Formaat:
Adobe Portable Document Format
Laen...
Pisipilt
Nimi:
kohafraaside_tuvastamise_kood.zip
Suurus:
864.05 KB
Formaat:
Compressed ZIP