Mudelipõhine klasteranalüüs
Date
2019
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Abstract
Mudelipõhiste klasterdamismeetodite korral eeldatakse, et vaatlusi on sobiv kirjeldada segujaotuse abil, mille iga komponent määrab ühe klastri. Mudelipõhine klasteranalüüs leiab üha enam kasutamist, kuna sel juhul asendub sobiva klasterdamismeetodi
valik statistilise mudeli valikuga ja optimaalse klastrite arvu leidmise ülesanne taandub segujaotuse komponentide arvu hindamise ülesandeks. Käesoleva magistritöö eesmärk on anda ülevaade mudelipõhise klasteranalüüsi teostamisest kvantitatiivsete,
kvalitatiivsete ning segatüüpi tunnuste korral. Töö esimeses peatükis defineeritakse segujaotused erinevat tüüpi tunnuste korral ning selgitatakse, kuidas EM-algoritmiga nende jaotuste parameetreid hinnatakse. Lisaks tuletatakse niinimetatud integreeritud
klassifitseerimistõepära ehk ICL kriteerium, mida mudelipõhise klasteranalüüsi korral kasutatakse segumudeli sobivuse ja klastrite arvu hindamiseks. Töö teises peatükis rakendatakse mudelipõhist klasterdamist Tartu Ülikooli Eesti Geenivaramu biomarkerite
andmestikule, mis sisaldab nii kvantitatiivseid kui ka kvalitatiivseid tunnuseid.
Description
Keywords
R (programmeerimiskeel), R (programming language)