Eelduste kontroll

Eelduste kontrolli korral on meil sageli huvi

a) kontrollida andmete pärinemist mingist etteantud jaotusest (või kahe grupi andmete pärinemist samast jaotusest)

b) kontrollida dispersioonide võrdsust jaotustel, millest eri gruppide andmed pärinevad.

Esimesele küsimusele om muuhulgas võimalik vastut otsida ka hii-ruut testi abil. Juhul kui eeldatav jaotus on normaaljaotus on võimalik joonistada näiteks kvantiil-kvantiilgraafik funktsiooni qqnorm abil või viia läbi Shapiro-Wilksi normaalsuse test funktsiooni shapiro.test abil. Levinuim meetod, mida saab kasutada pidevate jaotuste korral, on ilmselt siiski Kolmogorov-Smirnovi test

> ks.test(sleep$extra,pnorm)

One-sample Kolmogorov-Smirnov test

data: sleep$extra
D = 0.408, p-value = 0.002563
alternative hypothesis: two-sided

Warning message:
In ks.test(sleep$extra, pnorm) : cannot compute correct p-values with ties


Kui vaatleme andmete pärinemist etteantud jaotusest siis on ks.test argumentideks valim ja jaotusfunktsioon (kui ei eeldata, et andmed pärinevad standardsest jaotusest, siis tuleb täiendavate argumentidena lisada ka jaotuse parameetrid). Kui soovime võrrelda kahte valimit, siis ongi need valimid funktsiooni argumentideks.

Põhimõtteliselt on võimalik kontrollida ka ühepoolset hüpoteesi (argument alternative vaikeväärtusega "two.sided"), näiteks "greater" korral baseerub teststatistik valimi ja nullhüpoteesile vastava jaotuse jaotusfunktsioonide vahel -- seega on sellise olukorra üheks praktiliseks vasteks olukord, kus jaotus, kust pärineb valim, on nihutatud vasakule (ehk siis "väiksem").

Lisaks (näeme seda ka ülaltoodud näite korral) tuleb veel tähelepanu pöörata, et korduvate väärtuste korral valimis ei pruugi leitav p-väärtus olla täpne (pideva jaotuse korral meil tegelikult korduvaid väärtusi esineda ei saa). Ohtlik on see väikese valimi korral.

Üks aspekt, mille vastu praktikas sageli eksitakse, on selle testi korral veel baasjaotuse parameetrite määramine -- ei ole aktsepteeritav, et leiame esmalt valimi põhjal aritmeetilise keskmise ja standardhälbe ning seejärel kontrollime, kas valim pärineb selliste parameetritega normaaljaotusest. Nii saame tüüpiliselt põhjendamatult suure p-väärtuse. Lahenduseks on siis valimi kaheks jagamine -- esimese osa põhjal hindame parameetrid, teise põhjal testime.

Dispersioonide võrdsust gruppides võimaldab testida päris mitu funktsiooni. Neist var.test (kahe grupi jaoks) ja bartlett.test (kahe või enama grupi jaoks) on kasutatavad normaaljaotuse eeldusel, samas kui astakutel põhinev fligner.test (samuti kahe või enama grupi jaoks) sellist eeldust ei tee.

> fligner.test(extra~group,data=sleep)

Fligner-Killeen test of homogeneity of variances

data: extra by group
Fligner-Killeen:med chi-squared = 0.2125, df = 1, p-value = 0.6448

Lisaks eksiteerivad veel jaotusvabad ansari.test ja mood.test, mis võimaldavad kahe grupi korral kontrollida hüpoteesi, et mõlemad on pärit samas jaotuse klassist, ent omavad erinevat skaalaparameetrit. Süntaks on analoogiline eelnevaga. Kõigil juhtudel on võimalik kontrollida ka ühepoolset hüpoteesi.