Üksuste sidumine teemade modelleerimise abil Apache Sparkis

dc.contributor.advisorPelle Jakovits
dc.contributor.advisorPeep Küngas
dc.contributor.authorKaminska, Olha
dc.date.accessioned2019-10-15T09:39:49Z
dc.date.available2019-10-15T09:39:49Z
dc.date.issued2019
dc.description.abstractLoomuliku keele töötluse üks harusid tegeleb üksuste sidumisega, eesmärgiga võimaldada selgitada sõna tõelist tähendust kindla teksti kontekstis. Erinevates kontekstides võib samal terminil olla mitu tähendust, millest tuleneb ka valdkonna olulisus. Üksuste sidumist rakendatakse aktiivselt äriprobleemide lahendamisel. Üks levinumaid probleeme on sarnaseid tooteid arendavate ettevõtete tuvastamine, mis võimaldaks uurida konkurentsile rajatud turgu. Antud töös käsitletud tooted tähistavad üksuseid ning eesmärgiks on ühendada erinevate ettevõttete valikust pärinevad tooted, mis on omavahel kas samad või sarnased.Siinses uurimuses eri ettevõtetest pärinevate sarnaste toodete sidumine toimus nende tekstiliste kirjelduste põhjal. Saadud tulemustes iga ettevõte seoti vähemalt ühe teise ettevõttega sarnaste toodete põhjal.Võimaldamaks kirjeldada sarnaseid tooteid, kasutati nelja erinevat teemade modelleerimise võtet, et klasterdada vastavate toodete tekstilised kirjeldused. Saadud klastrite põhjal ehitati Apache Sparki keskkonnas seotud graafid ning viidi läbi manuaalne testimine ja statistiliste mõõdikute võrdlemine. Juhendamata masinõppe mudelil (LDA) põhinev graaf näitas parimaid tulemusi.Saavutatud täpsus näitab, et teemade modelleerimise võtteid saab kasutada üksuste sidumiseks ning need võimaldavad jõuda praktiliste tulemusteni.
dc.description.abstractEntity linking is a field of natural language processing that aims to define the real meaning of a word in a particular text. The same term can have different meanings in different contexts, which demonstrates the importance of the field. Entity linking is actively applied to real-world business problems. One widely known problem is defining companies with similar products to investigate competitors on the market. In this task, products represent entities, and the target of the entity linking is to connect the same or similar products among an assortment of different companies.In the current work, similar products from different Estonian companies are linked based on their textual descriptions. In the obtained results, every company is linked with at least one other company through similar products. To define similar products, the textual descriptions are divided into clusters using four different topic modeling techniques. Based on the obtained clusters, linked graphs are built in the Apache Spark environment and manual tests and comparisons using statistical measures are performed. The graphs based on latent Dirichlet allocation topic modeling approaches show the best results.The performance of the methods illustrates that topic modeling techniques can be used for entity linking and can provide practical results.
dc.identifier.urihttp://hdl.handle.net/10062/66419
dc.language.isoen
dc.titleÜksuste sidumine teemade modelleerimise abil Apache Sparkis
dc.title.alternativeEntity Linking via Topic Models in Apache Spark
dc.typeThesis

Failid

Originaal pakett

Nüüd näidatakse 1 - 1 1
Laen...
Pisipilt
Nimi:
thesis.pdf
Suurus:
2.31 MB
Formaat:
Adobe Portable Document Format