Mudelipõhise klasteranalüüsi rakendamine Eesti Haigekassa andmetele
Date
2020
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Abstract
Magistritöös analüüsitakse Eesti Haigekassale saadetud raviarvete põhjal moodustatud patsientide ja neile määratud diagnooside andmekogu. Eesmärk on anda ülevaade kvalitatiivsete tunnustega andmetele rakendatud mudelipõhisest klasteranalüüsist. Töös tuuakse välja andmete klasterdamiseks kasutatud segumudeli kuju. Kirjeldatakse ära EM-algoritm, mida rakendatakse mudeli
parameetrite hindamiseks. Lisaks antakse ülevaade integreeritud klassifitseerimistõepära (ICL) kriteeriumist, mille abil leitakse sobivaim segumudel klasterdamiseks.
Uurimise alla on võetud psüühika- ja käitumishäiretega ning vereringeelundite haigustega patsiendid. Klasteranalüüs viiakse eraldi läbi iga valitud vanusegrupi jaoks. Tulemustest selgub näiteks, et psühhoaktiivsete ainete tarvitamisest tingitud psüühika- ja käitumishäiretega patsientidest enamuse moodustavad mehed. Vereringeelundite haigusi uurides aga selgub, et kõige rohkem on patsiente kõrgvererõhkhaigustega, mida seejuures nooremas eas isikutel (vanuses 20-49) esineb rohkem meestel kui naistel. Samuti on esinenud noorematel meestel südame isheemiatõvesid ligi kaks korda rohkem kui naistel.
Description
Keywords
mudelipõhine klasteranalüüs, segujaotused, EM-algoritm, ICL, R (programmeerimiskeel), R (programming language), ICL, EM algorithm, mixture distribution, model-based cluster analysis