Tiheduse hindamine Ris
Vaatleme esmalt tiheduse silumist tuumade abil. Mäletatavasti defineerisime silutud tiheduse kui
|
kus oli tuum silumislaiusega ning kehtis
|
Nii oli silumislaiuse väärtus lõplike kandjatega tuumade korral võrdne kandja poollaiusega (ehk sisuliselt tuuma mõjuraadiusega). Paketis R defineeritud funktsioonis density lähenetakse asjale veidi teisiti (funktsiooni kohta saab abi nagu ikka käsuga ?density). Nimelt vastab argument bw seal tuuma standardhälbele, mis on aga tüüpiliselt suurem kui . Vaatleme näitena kolmnurktuuma, mille korral
|
Seega
|
kust saame, et
|
mistõttu standardhälbe väärtuseks on parajasti siis kui ja seega loengus toodu
mõistes tuleks võtta , et kasutataks tuuma silumislaiusega . Tuumade
standardhälbe leidmine ei ole kuigi keerukas ülesanne nagu nägime kolmnurkse tuuma näitel.
Märgime veel, et Gaussi tuuma kasutamine on identne loengus defineeritule, kuna standardse
normaaljaotuse standardhälve ongi võrdne ühega.
Ise silumislaiuse määramise asemel võib aga määrata hoopis algoritmi, mille alusel optimaalne silumislaius leitakse. Valikud “nrd0” ja “nrd” on rusikareeglid, mis lähtuvad oletusest, et jaotus, millest andmed pärinevad on lähedane normaaljaotusele (unimodaalne, sümmeetriline, kergete sabadega), kasutatakse Gaussi tuuma ja tulemuse headuse määrab integreeritud ruutkeskmine viga ehk
|
kus on tuumameetodil saadud tiheduse hinnang. Eeskiri silumislaiuse määramiseks on siis kujul,
|
kus valiku “nrd0” korral ja valiku “nrd” korral, on valimi
standardhälve ja kvartiilide vahe.
Ristvalideerimist kasutavad valikud “ucv” ja “bcv” eeldusi tihedusfunktsiooni kohta, kust
andmed pärinevad, ei tee ja on seega mõneti üldisemad, ent ei ole samas täiesti võrreldavad,
sest optimaalsuskriteerium on teine. Valik “SJ” on samuti vaba andmete jaotuse
eeldusest, optimaalsuskriteerium on aga ikka minimaalne integreeritud ruutkeskmine
viga.
Kokkuvõttes: on mõistlik kasutada erinevaid silumislaiuse optimaalse määramise meetodeid ja võrrelda saadud neid väärtusi kasutades saadud tulemusi.