Depressiooni ja ärevuse tuvastamine blogipostituste andmete baasil

Date

2018

Journal Title

Journal ISSN

Volume Title

Publisher

Abstract

Depressioon ja ärevus mõjutavad paljude inimeste elu ja kui diagnoos ei ole õigeaeg-selt määratud, võib see kaasa tuua märkimisväärseid terviseprobleeme ja isegi suitsiidi. Tänapäeval uurivad vaimse tervise spetsialistid ja andmeteadlased meetodeid, kuidas sotsiaalmeedia ja eriti avalikult kättesaadavate tekstisõnumite ja blogitekstide analüüsimise abil depressioonis inimesi tuvstada ja pakkuda neile vajalikku ravi ja toetust. Selles töös kogume eksperimentaalse andmestiku avalikult kättesaadavatest blogipostitustsest, mis koosneb nii kliinilisest kui ka kontrollgrupi postitustest. Kliiniline grupp koosneb autoritest, kes kannatavad depressiooni ja/või ärevuse all, kontrollgrupp koosneb tervetest isikutest, kes oma blogis kirjutavad depressiooni ja ärevuse teemadel. Töös leiame kogutud andmetes sisalduvad latentsed teemad ja analüüsime blogipostituste sisu vastavaltblogi autorite poolt kajastatud teemadele. Katsetame mitmete teksti kodeerimismeetoditega nagu sõnahulk (BOW), TFIDF ja teemamudelist tuletatud tunnused. Treenime tugivektormasinatel (SVM) ning konvolutsioonilistel närvivõrkudel (CNN) põhinevaid klassifikaatoreid kliinilisse ja kontrollgruppi kuuluvate autorite eristamiseks. Lisaks uurime, kuidas mõjutavad erineva pikkusega blogipostitused CNN’i klassifitseerimistäpsust. Parimad täpsuse ja saagise skoorid vastavalt 78% ja 0,72 saadi konvolutsioonilise närvivõrgu (CNN) klassifikaatoriga, mis oli initsialiseeritud eeltreenitud GloVe sõnavektoritega.
Depression and anxiety affect the life of many individuals and if the diagnosis is notstated in time it could lead to considerable health decline and even suicide. Nowadays,mental health specialists, as well as data scientists, work towards analyzing socialmedia sources and, in particular, publicly available text messages and blogs to identifydepressed people and provide them with necessary treatment and support. In this work,we adopt an experimental data collection approach to gather a corpus of blog posts fromclinical and control subjects. Ill people are considered as clinical subjects while controlsubjects refer to healthy individuals. We inspect the latent topics found in collecteddata to analyze the blog’ content according to themes covered by blog authors. Weexperiment with various text encoding techniques such as Bag-of-Words (BOW), TermFrequency-Inverse Document Frequency (TFIDF) and topic model’s features. We applySupport Vector Machines (SVM) and Convolutional Neural Network (CNN) classifiersto discriminate between clinical and control subjects. Additionally, we explore theclassification performance of CNNs trained on blog post texts of different size. Thebest accuracy and recall scores of 78% and 0.72 respectively were obtained with aConvolutional Neural Network (CNN) classifier initialised with pretrained GloVe wordvectors

Description

Keywords

Citation