Mudeli sobivuse kontroll

Olgu meil andmete põhjal hinnatud mudel, mille jaotusfunktsioon on $F *$ (mille eeldame oleva pideva). Kas leitud mudel on ka andmetega kooskõlas? Nagu ikka on esmaseks hindamise vahendiks graafilised meetodid. Kursuses eelnevealt mainitud kvantiil-kvantiil graafik on üks võimalikke vahendeid. Selle graafiku joonistamiseks kasutatava jaotusfunktsiooni pöördfunktsiooni rolli tuleb sel juhul võtta $F *- 1$ .

Olgu $Fn$ valimi põhjal leitud empiiriline jaotusfunktsioon. On selge, et funktsioon

D (x) := |Fn (x) - F * (x)|

kajastab mudeli kooskõla andmetega. Seega on selle funktsiooni graafik samuti üks mudeli sobivuse hindamise vahendeid.

Mudeli sobivust on võimalik kvantifitseerida. Näiteks võime kaaluda nullhüpoteesi, et andmed pärinevad mingist meile teadaolevast pidevast jaotusest $F$ ning sisukaks hüpoteesiks on sel juhul selle väite eitus – andmed ei pärine kirjeldatud jaotusest $F$ . Sellise hüpoteesipaari kontrolliks on otstarbekas kasutada just nimelt funktsiooni $D (x)$ abi.

Kolmogorov-Smirnovi test baseerub teststatistikul

sup|Fn(x) - F (x)|, x

mille väärtust võrreldakse kriitilise väärtusega. Selle ületamisel kummutatakse nullhüpotees. Ehkki pealtnäha keerukas on statistiku väärtuse leidmine tegelikult lihtne, sest tänu $F (x )$ pidevusele ja empiirilise jaotusfunktsiooni “trepikujule” saavutab funktsioon $D (x)$ oma supreemumi ilmtingimata mõne valimi elemendi korral või “vahetult enne seda”. Testi läbiviimist võimaldavad pea kõik statistikapaketid. Reegel, mille vastu aga väga sageli eksima kiputakse on see, et $F$ peab olema valimist sõltumatult määratud. See tähendab, et me ei tohi võtta funktsiooni $F$ rolli funktsiooni $F*$ , sest selle parameetrid on eelnevalt valimi pealt hinnatud ning siis ei pea Kolmogorov-Smirnovi test enam paika selles mõttes, et liiga sageli jäädakse nullhüpoteesi juurde ehk testi võimsus langeb. Lahenduseks on siin valimi juhuslik poolitamine – esimese poole põhjal hinnatakse jaotuse parameetrid (s.o. leitakse $F$ ) ning teise põhjal konstrueeritakse empiiriline jaotusfunktsioon $Fn$ .

Illustreerime eelnevat ühe simuleerimiseksperimendiga. Esmalt genereerime $1000$ valimit mahuga $n = 100$ standardsest normaaljaotusest ja leiame iga kord Kolmogorov-Smirnovi teststatistiku väärtuse kasutades ka $F$ rollis standardset normaaljaotust. Teisel juhul jätame genereerimise eeskirja samaks, ent kasutame $F$ rollis normaaljaotust, mille parameetrid on valimi põhjal hinnatud. Kolmandal juhul on valimid taas standardsest normaaljaotusest aga jaotuse parameetrid hinnatakse vaid valimi esimese poole põhjal ja jõutakse nii jaotuseni $F$ . Valimi teise poole abil aga konstrueeritakse $Fn$ . Esimesel juhul on leitud teststatistikute $0.05$ täiendkvantiil $0.133$ (see on kriitilise väärtuse hinnnang sellise valimimahu korral, sest test on “jaotusvaba” põhinedes ainult jaotusfunktsiooni väärtustel). Teisel juhul aga seda väärtust praktiliselt ei ületata ehkki tegelikult ei ole ju ükski valim pärit hinnatud parameetritega jaotusest. Kolmandal graafikul on olukord juba tunduvalt loogilisem – umbes pooltel juhtudel kriitiline väärtus ületatakse. Siin on küsimus juba testi võimsuses.

Anderson-Darlingi test asutab samuti funktsiooni $D (x )$ , ent jaotuse sabadele pannakse siin lisarõhku. Teststatistikul on kuju

∫ (Fn (x) - F(x ))2 n ----------------f (x)dx, F(x)F (x)

kus integraal on võetud üle kogu jaotuse kandja ja $f(x)$ on jaotusele $F$ vastav tihedusfunktsioon. Näeme, et see statistik põhineb sisuliselt funktsiooni $D (x)$ ruudu keskmisel, ent see keskmine on kaalutud – suurte ja väikeste argumentide korral võimendatakse väärtust tugevamalt. Teisalt on selline lähenemine igati mõistlik – kuivõrd igasuguse jaotusfunktsiooni väärtus algab alati nullist ja lõpeb ühega siis on sabade juures vastasel korral muidu garanteeritud väike jaotusfunktsioonide väärtuste vahe. Ka selle testi korral peab paika, et $F$ peaks olema andmetest sõltumatult määratud.

« Eelmine | Järgmine »