Tiheduse hindamine tuuma abil

Olgu meil jätkuvalt valim $x1,...,xn$ , kusjuures iga vaatlustele vastavad tõenäosused on $p(x1)=...= p(xn) = 1∕n$ . Ühikulise pindalaga histogrammi joonistamisel need tõenäosused mingis mõttes hajutatakse (teises mõttes muidugi ka koondatakse. Nimelt kui ühte poollõiku sattus $k$ väärtust, siis tõmmati tiheduse lähendi väärtus kõikjal selles poollõigus kõrguselt $k ∕n$ , kusjuures võis olla, et väga paljude poollõiku kuuluvate punktide ümbruses ei olnud ainsatki valimi punkti. Mõnes mõttes sarnaselt talitatakse ka tiheduse hindamisel tuumameetodil.

Sisuliselt asendatakse tõenäosused pidevate juhuslike suurustega, kusjuures tavaliselt vastavate juhuslike suuruste keskväärtus kattub esialgsete tõenäosuse asukohtadega (võrdluseks histogrammi puhul asendatakse amuti ühtlase jaotusega, ent keskväärtus on tüüpiliselt erinev). Tiheduse lähend konstrueeritakse kui

∑ n fˆ(x ) = p(xj)Kh (x - xj), j=1

kus funktsioon $Kh (x)$ kannab tuuma nime (inglise keeles kernel). Siin $h$ on etteantud parameeter, mida võiks eesti keeles nimetada silumislaiuseks (smoothing bandwidth). See parameeter on defineeritud läbi seose

Kh (u) = K (u∕h )∕h,

kusjuures tuum ise on tüüpiliselt (aga ei pea alati olema) üks sümmeetriline nullkeskmisega tihedusfunktsioon.

Vaatleme siinkohal mõnesid tuumi lähemalt. Ühtlane tuum (uniform kernel või rectangular kernel) on defineeritud kui

K (u) = 1I , 2 |u|≤1

seega ühtlane tuum “jagab tõenäosuse ühtlaselt esialgse tõenäosuse ümbruses”.

Kolmnurkne tuum (triangular kernel) on defineeritud kui

K (u) = (1 - |u |)I|u|≤1,

seega kolmnurkne tuum “jagab tõenäosuse esialgse tõenäosuse ümbruses nõnda, et mõlemas suunas toimub lineaarne kahanemine”.

Epanechnikovi tuum on defineeritud kui

3- 2 K (u) = 4(1 - u )I|u|≤1,

seega Epanechnikovi tuum “jagab tõenäosuse esialgse tõenäosuse ümbruses nõnda, et mõlemas suunas toimub ruutkahanemine”.

Gaussi tuum on defineeritud kui

{ } K (u ) = √1---exp - 1u2 , 2π 2

ehk “esialgne tõenäosus asendatakse normaaljaotusega”.

Muidugi on palju võimalusi erinevaid tuumi tekitada. Tõkestamata kandjaga lähendi saame ainult siis kui tuum ise on tõkestamata kandjaga kusjuures lähendi saba raskuse määrab tuuma saba raskus. Jaotuse saba lähendamise mõttes on eega sisuliselt tegu samamoodi kasutaja suvast lähtuva meetodiga.

Lõpliku kandjaga tuumade puhul on aga tuumast enesest palju olulisem silumislaius. Kui $h$ on väga suur siis toob see kaasa kõikide empiirilise jaotuse eripärade väljasilumise, samas kui väga väike $h$ väärtus ei silu piisavalt ja tulemus on graafiliselt ebaveenev.

« Eelmine | Järgmine »