Mudelipõhine klasteranalüüs
Abstract
Mudelipõhiste klasterdamismeetodite korral eeldatakse, et vaatlusi on sobiv kirjeldada segujaotuse abil, mille iga komponent määrab ühe klastri. Mudelipõhine klasteranalüüs leiab üha enam kasutamist, kuna sel juhul asendub sobiva klasterdamismeetodi
valik statistilise mudeli valikuga ja optimaalse klastrite arvu leidmise ülesanne taandub segujaotuse komponentide arvu hindamise ülesandeks. Käesoleva magistritöö eesmärk on anda ülevaade mudelipõhise klasteranalüüsi teostamisest kvantitatiivsete,
kvalitatiivsete ning segatüüpi tunnuste korral. Töö esimeses peatükis defineeritakse segujaotused erinevat tüüpi tunnuste korral ning selgitatakse, kuidas EM-algoritmiga nende jaotuste parameetreid hinnatakse. Lisaks tuletatakse niinimetatud integreeritud
klassifitseerimistõepära ehk ICL kriteerium, mida mudelipõhise klasteranalüüsi korral kasutatakse segumudeli sobivuse ja klastrite arvu hindamiseks. Töö teises peatükis rakendatakse mudelipõhist klasterdamist Tartu Ülikooli Eesti Geenivaramu biomarkerite
andmestikule, mis sisaldab nii kvantitatiivseid kui ka kvalitatiivseid tunnuseid.
Collections
The following license files are associated with this item: