Segumudeli õppimine osaliselt sildistatud andmetest
Kuupäev
2013-06-10
Autorid
Ajakirja pealkiri
Ajakirja ISSN
Köite pealkiri
Kirjastaja
Tartu Ülikool
Abstrakt
Töö koosneb kolmest osast. Esimeses kirjeldatakse kahte algoritmi osaliselt sildistatud andmete klassifitseerimiseks. Need meetodid põhinevad Gaussi segumudelil ja EM-algoritmil ning sobiv klastrite arv valitakse Bayesi informatsioonikriteeriumi põhjal. Seej ärel pöördume mitteparameetrilise Bayesi statistika valdkonda: andes Bayesi segumudeli korral komponentide osakaalude eeljaotuseks Dirichlet protsessi, järeldab mudel vajalike klastrite arvu automaatselt ja pääseme subjektiivsest mudeli valikust. Seda mudelit kutsume Dirichlet protsessi segumudeliks. Viimases osas on algoritmide headust testitud nii genereeritud kui ka reaalsetel andmestikel. Kõik kirjeldatud mudelid on implementeeritud ja joonised on koostatud statistikatarkvaras R.