Tiheduse hindamine tuuma abil
Olgu meil jätkuvalt valim , kusjuures iga vaatlustele vastavad tõenäosused on
. Ühikulise pindalaga histogrammi joonistamisel need
tõenäosused mingis mõttes hajutatakse (teises mõttes muidugi ka koondatakse. Nimelt kui
ühte poollõiku sattus väärtust, siis tõmmati tiheduse lähendi väärtus kõikjal selles
poollõigus kõrguselt , kusjuures võis olla, et väga paljude poollõiku kuuluvate punktide
ümbruses ei olnud ainsatki valimi punkti. Mõnes mõttes sarnaselt talitatakse ka tiheduse
hindamisel tuumameetodil.
Sisuliselt asendatakse tõenäosused pidevate juhuslike suurustega, kusjuures tavaliselt vastavate juhuslike suuruste keskväärtus kattub esialgsete tõenäosuse asukohtadega (võrdluseks histogrammi puhul asendatakse amuti ühtlase jaotusega, ent keskväärtus on tüüpiliselt erinev). Tiheduse lähend konstrueeritakse kui
|
kus funktsioon kannab tuuma nime (inglise keeles kernel). Siin on etteantud parameeter, mida võiks eesti keeles nimetada silumislaiuseks (smoothing bandwidth). See parameeter on defineeritud läbi seose
|
kusjuures tuum ise on tüüpiliselt (aga ei pea alati olema) üks sümmeetriline
nullkeskmisega tihedusfunktsioon.
Vaatleme siinkohal mõnesid tuumi lähemalt. Ühtlane tuum (uniform kernel või rectangular kernel) on defineeritud kui
|
seega ühtlane tuum “jagab tõenäosuse ühtlaselt esialgse tõenäosuse ümbruses”.
Kolmnurkne tuum (triangular kernel) on defineeritud kui
|
seega kolmnurkne tuum “jagab tõenäosuse esialgse tõenäosuse ümbruses nõnda, et mõlemas suunas toimub lineaarne kahanemine”.
Epanechnikovi tuum on defineeritud kui
|
seega Epanechnikovi tuum “jagab tõenäosuse esialgse tõenäosuse ümbruses nõnda, et mõlemas suunas toimub ruutkahanemine”.
Gaussi tuum on defineeritud kui
|
ehk “esialgne tõenäosus asendatakse normaaljaotusega”.
Muidugi on palju võimalusi erinevaid tuumi tekitada. Tõkestamata kandjaga lähendi saame ainult siis kui tuum ise on tõkestamata kandjaga kusjuures lähendi saba raskuse määrab tuuma saba raskus. Jaotuse saba lähendamise mõttes on eega sisuliselt tegu samamoodi kasutaja suvast lähtuva meetodiga.
Lõpliku kandjaga tuumade puhul on aga tuumast enesest palju olulisem silumislaius. Kui on väga suur siis toob see kaasa kõikide empiirilise jaotuse eripärade väljasilumise, samas kui väga väike väärtus ei silu piisavalt ja tulemus on graafiliselt ebaveenev.