Arvutuslikud mudelid eestikeelsete mõistetevaheliste sarnasuse leidmiseks

Kittask, Claudia

Arvutuslikud mudelid eestikeelsete mõistetevaheliste sarnasuse leidmiseks

Files

thesis.pdf (1.62 MB)

Date

2019

Authors

Kittask, Claudia

Abstract

Käesoleva bakalaureusetöö eesmärk on testida ja võrrelda erinevaid arvutuslikke mudeleid nende oskuse põhjal hinnata mõistete ja sõnade vahelist sarnasust. Mudelite hinnaguid võrreldakse inimeste hinnangutega. Selleks, et mudelite võimekust hinnata, luuakse uus eestikeelne andmekogu, mis sisaldab sõnapaare ja inimeste poolt annoteeritud sarnasuse hinnanguid. Töös hinnatakse kolme eri kategooriasse kuuluvaid arvutuslikke mudeleid: distributiivseid mudeleid, semantilisi võrke ja tehisnägemise mudeleid. Saadud tulemusi saab kasutada tulevaste mudelite hindamiseks.
The purpose of this thesis is to test and compare different computational models of similarity for the Estonian language. Models' predictions for words and concepts similarity is usually compared against human predictions. To make such comparisons between models' similarity estimates and human scores, a proper human annotated data set had to be created for the Estonian language. The SimLex-999 data set was chosen for translation into Estonian. This resource is used to test three families of computational models of similarity: distributional models, semantic networks and computer vision models. The results of this thesis can be used to evaluate future similarity models.

URI

http://hdl.handle.net/10062/66265

Collections

MTAT bakalaureusetööd – Bachelor's theses

Full item page

Arvutuslikud mudelid eestikeelsete mõistetevaheliste sarnasuse leidmiseks

Files

Date

Authors

Journal Title

Journal ISSN

Volume Title

Publisher

Abstract

Description

Keywords

Citation

URI

Collections