Nominaalsete sisendtunnuste vaheliste seoste kasutamine lähinaabrite meetodi korral

Hendrikson, Reigo

Nominaalsete sisendtunnuste vaheliste seoste kasutamine lähinaabrite meetodi korral

dc.contributor.advisor	Pärna, Kalev, juhendaja	et
dc.contributor.author	Hendrikson, Reigo	et
dc.contributor.other	Tartu Ülikool. Matemaatika-informaatikateaduskond	et
dc.contributor.other	Tartu Ülikool. Matemaatilise statistika instituut	et
dc.date.accessioned	2013-07-03T08:34:03Z
dc.date.available	2013-07-03T08:34:03Z
dc.date.issued	2013-06-12
dc.description.abstract	Lähinaabrite meetod on mitteparameetrilise regressiooni tehnika, mis kasutab uuritava tunnuse hindamiseks mingil objektil vaid neid treeningandmestikku kuuluvad objekte, mis on lähedal uuritavale objektile. Meetod tugineb eeldusele, et uuritava tunnuse väärtus sarnaneb väärtustega, mis vastavad pigem objektile lähemal kui kaugemal paiknevatele objektidele. Käesolev bakalaureusetöö keskendub lähinaabrite meetodi rakendamisele nominaalsetel tunnustel. Nominaaltunnuste korral traditsiooniliselt kasutatav kaugus on nn Hamming'i (0-1)-kaugus, mis on aga liiga kohmakas analüüsivahend. Samuti ei tundu olevat õige kasutada objektidevahelise kauguse mõõduna üksiktunnuste järgi võetud erinevuste summat, kuna see ei võta arvesse nominaaltunnuste vahelisi seoseid. Nominaaltunnuste vaheliste seoste arvesse võtmiseks pakume välja moodustada kõigist nominaaltunnustest liittunnus, mille väärtusteks on lähtetunnuste väärtuste kombinatsioonid. Liittunnuse probleemiks on aga väärtuskombinatsioonide paljusus ja erinevaid tunnuste kombinatsioone esindavate vaatluste vähesus. Selle probleemi lahendamiseks grupeerime tunnuste kombinatsioonid sarnasuse põhjal. Selleks defineerime uue kaugusfunktsiooni, mis erineb traditsioonilisest väärtustega 0 ja 1 kaugusfunktsioonist. Seega pakume antud bakalaureusetöös välja ühe võimaliku viisi nominaalsete tunnuste vaheliste seoste arvestamiseks lähinaabrite meetodi korral. Bakalaureusetöö on jagatud viieks osaks. Esimeses peatükis anname lühikese ülevaate lähinaabrite meetodist ja defineerime uue kaugusfunktsiooni. Teises osas kirjeldame töös kasutatavat meetodit uuritava tunnuse väärtuste prognoosimiseks. Töö kolmandas osas kirjeldame k-keskmise meetodit ja Lloyd'i iteratiivset algoritmi. Neljandas osas keskendume optimaalse klasside arvu määramisele ning viiendas osas rakendame teises peatükis kirjeldatud meetodit reaalsetel andmetel. Töös esitatud joonised ja andmed nende moodustamiseks on saadud programmi R abil. Töö on kirjutatud tekstitöötlusprogrammis MiKTeX.	et
dc.identifier.uri	http://hdl.handle.net/10062/31670
dc.language.iso	et	et
dc.publisher	Tartu Ülikool	et
dc.subject.other	bakalaureusetööd	et
dc.title	Nominaalsete sisendtunnuste vaheliste seoste kasutamine lähinaabrite meetodi korral	et
dc.type	Thesis	et

Files

Original bundle

Now showing 1 - 1 of 1

Name:: hendrikson_reigo_2013.pdf
Size:: 368.31 KB
Format:: Adobe Portable Document Format

Download

License bundle

Now showing 1 - 1 of 1

Name:: license.txt
Size:: 1.71 KB
Format:: Item-specific license agreed upon to submission
Description:

Download

Collections

MSI bakalaureusetööd – Bachelor's theses. Kuni 2015