Tiheduse hindamine Ris

Vaatleme esmalt tiheduse silumist tuumade abil. Mäletatavasti defineerisime silutud tiheduse kui

         n

			fˆ(x ) = ∑  p(x )K  (x - x ),

			j   h      j

			j=1

kus Kh  oli tuum silumislaiusega h  ning kehtis

Kh (u) = K (u∕h )∕h.

Nii oli silumislaiuse väärtus h  lõplike kandjatega tuumade korral võrdne kandja poollaiusega (ehk sisuliselt tuuma mõjuraadiusega). Paketis R defineeritud funktsioonis density lähenetakse asjale veidi teisiti (funktsiooni kohta saab abi nagu ikka käsuga ?density). Nimelt vastab argument bw seal tuuma standardhälbele, mis on aga tüüpiliselt suurem kui 1  . Vaatleme näitena kolmnurktuuma, mille korral

K (u) = (1 - |u |)I|u|≤1.

Seega

K  (u) = 1---|u|∕h-I    ,

			h          h     |u|≤h

kust saame, et

          ∫                  ∫

			0  21 + u∕h        h  21 - u∕h    h2

			E (Kh ) =     u --------du +     u -------- = ---,

			-h      h          0       h        6

mistõttu standardhälbe väärtuseks on 1  parajasti siis kui     √ --

h =   6  ja seega loengus toodu mõistes tuleks võtta         √ --

bw = h∕   6  , et kasutataks tuuma silumislaiusega h  . Tuumade standardhälbe leidmine ei ole kuigi keerukas ülesanne nagu nägime kolmnurkse tuuma näitel. Märgime veel, et Gaussi tuuma kasutamine on identne loengus defineeritule, kuna standardse normaaljaotuse standardhälve ongi võrdne ühega.

Ise silumislaiuse määramise asemel võib aga määrata hoopis algoritmi, mille alusel optimaalne silumislaius leitakse. Valikud “nrd0” ja “nrd” on rusikareeglid, mis lähtuvad oletusest, et jaotus, millest andmed pärinevad on lähedane normaaljaotusele (unimodaalne, sümmeetriline, kergete sabadega), kasutatakse Gaussi tuuma ja tulemuse headuse määrab integreeritud ruutkeskmine viga ehk

∫

			{                           2}

			D(fˆ(x )) + [E(fˆ(x )) - f (x )] dx,

kus ˆ

f(x)  on tuumameetodil saadud tiheduse hinnang. Eeskiri silumislaiuse määramiseks on siis kujul,

c * min {σ,R ∕1.34}n- 1∕5,

kus c=0.9  valiku “nrd0” korral ja c = 1.06  valiku “nrd” korral, σ  on valimi standardhälve ja R  kvartiilide vahe.

Ristvalideerimist kasutavad valikud “ucv” ja “bcv” eeldusi tihedusfunktsiooni kohta, kust andmed pärinevad, ei tee ja on seega mõneti üldisemad, ent ei ole samas täiesti võrreldavad, sest optimaalsuskriteerium on teine. Valik “SJ” on samuti vaba andmete jaotuse eeldusest, optimaalsuskriteerium on aga ikka minimaalne integreeritud ruutkeskmine viga.

Kokkuvõttes: on mõistlik kasutada erinevaid silumislaiuse optimaalse määramise meetodeid ja võrrelda saadud neid väärtusi kasutades saadud tulemusi.