Konteksti teisendused loomuliku keele klasterdamiseks

Date

2017

Journal Title

Journal ISSN

Volume Title

Publisher

Abstract

Loomulikust keelest sisuline arusaam on oluline samm üldise tehisintellekti suunas. Osa sellest võib olla sõnade ja dokumentide teisendusel vektorruumi. Võtsime kasutusele põhilised meetodid selles vallas ja implementeerisime suure hulga erinevaid klasterdamise katseid eesti keele koondkorpusest eraldatud sõnade kontekstidel. Peale 20 tuhande katse analüüsimist leidsime, et skip-gram sõnavektorid koos spektraalklasterdusega annavad parimaid tulemusi. Seda nii sõnavektorite keskmistamisel, kui kasutades neid sisendina rekurrentsetesse autoenkooderitesse. Viimased saavutasid parimaid üldiseid tulemusi ning viitavad eelseisvale tööle keerulisemate analoogsete närvivõrkude mudelitega. Uued teadmised on lisatud töö käigus valminud rakendusse, nimega PatternExaminer, mis on kasutusel meditsiinilistest vabatekstidest faktide eraldamisel. Seega käesolev töö viib meid lähemale näiteks automaatsetele kliinilistele uuringutele ning uuendustele personaalmeditsiinis.
Semantic awareness of natural language is an important step towards general artificial intelligence. A part of which could be embedding words and documents into vector space. We selected most of the common methods for doing so and ran a vast selection of different clustering experiments on word contexts extracted from the Estonian reference corpus. After a total of 20 thousand different experiments, we found that the skip-gram word vector model combined with Spectral clustering yields the best results. The word vectors could simply be averaged, or they could be used as input to recurrent autoencoders. The latter achieved best results overall and hint towards future work of employing more complex sequence to sequence recurrent models. The newly found knowledge is implemented into our custom built application, named PatternExaminer, which is used in the pipeline of extracting factual data from medical records. This brings us closer to achievements such as advanced personal medicine and automated clinical trials.

Description

Keywords

Citation