Nominaalsete sisendtunnuste vaheliste seoste kasutamine lähinaabrite meetodi korral

dc.contributor.advisorPärna, Kalev, juhendajaet
dc.contributor.authorHendrikson, Reigoet
dc.contributor.otherTartu Ülikool. Matemaatika-informaatikateaduskondet
dc.contributor.otherTartu Ülikool. Matemaatilise statistika instituutet
dc.date.accessioned2013-07-03T08:34:03Z
dc.date.available2013-07-03T08:34:03Z
dc.date.issued2013-06-12
dc.description.abstractLähinaabrite meetod on mitteparameetrilise regressiooni tehnika, mis kasutab uuritava tunnuse hindamiseks mingil objektil vaid neid treeningandmestikku kuuluvad objekte, mis on lähedal uuritavale objektile. Meetod tugineb eeldusele, et uuritava tunnuse väärtus sarnaneb väärtustega, mis vastavad pigem objektile lähemal kui kaugemal paiknevatele objektidele. Käesolev bakalaureusetöö keskendub lähinaabrite meetodi rakendamisele nominaalsetel tunnustel. Nominaaltunnuste korral traditsiooniliselt kasutatav kaugus on nn Hamming'i (0-1)-kaugus, mis on aga liiga kohmakas analüüsivahend. Samuti ei tundu olevat õige kasutada objektidevahelise kauguse mõõduna üksiktunnuste järgi võetud erinevuste summat, kuna see ei võta arvesse nominaaltunnuste vahelisi seoseid. Nominaaltunnuste vaheliste seoste arvesse võtmiseks pakume välja moodustada kõigist nominaaltunnustest liittunnus, mille väärtusteks on lähtetunnuste väärtuste kombinatsioonid. Liittunnuse probleemiks on aga väärtuskombinatsioonide paljusus ja erinevaid tunnuste kombinatsioone esindavate vaatluste vähesus. Selle probleemi lahendamiseks grupeerime tunnuste kombinatsioonid sarnasuse põhjal. Selleks defineerime uue kaugusfunktsiooni, mis erineb traditsioonilisest väärtustega 0 ja 1 kaugusfunktsioonist. Seega pakume antud bakalaureusetöös välja ühe võimaliku viisi nominaalsete tunnuste vaheliste seoste arvestamiseks lähinaabrite meetodi korral. Bakalaureusetöö on jagatud viieks osaks. Esimeses peatükis anname lühikese ülevaate lähinaabrite meetodist ja defineerime uue kaugusfunktsiooni. Teises osas kirjeldame töös kasutatavat meetodit uuritava tunnuse väärtuste prognoosimiseks. Töö kolmandas osas kirjeldame k-keskmise meetodit ja Lloyd'i iteratiivset algoritmi. Neljandas osas keskendume optimaalse klasside arvu määramisele ning viiendas osas rakendame teises peatükis kirjeldatud meetodit reaalsetel andmetel. Töös esitatud joonised ja andmed nende moodustamiseks on saadud programmi R abil. Töö on kirjutatud tekstitöötlusprogrammis MiKTeX.et
dc.identifier.urihttp://hdl.handle.net/10062/31670
dc.language.isoetet
dc.publisherTartu Ülikoolet
dc.subject.otherbakalaureusetöödet
dc.titleNominaalsete sisendtunnuste vaheliste seoste kasutamine lähinaabrite meetodi korralet
dc.typeThesiset

Files

Original bundle
Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
hendrikson_reigo_2013.pdf
Size:
368.31 KB
Format:
Adobe Portable Document Format
License bundle
Now showing 1 - 1 of 1
No Thumbnail Available
Name:
license.txt
Size:
1.71 KB
Format:
Item-specific license agreed upon to submission
Description: