Mudelid

Õpiobjekti teises poole vaatame lineaarseid mudeleid. Alguses lihtsamaid ja pärast keerukamaid -- näiteks korreleeritud vaatlustega mudeleid. Oleme küll juba eelnevalt kasutanud, ent ei ole põhjalikult selgitanud nn. R-i mudeli süntaksit. Siinkohal parandame selle vea.

Põhisümboliks on märk ~, mis eraldab modelleeritava (ehk kirjeldatava ehk sõltuva) suuruse mudeli argumentidest (ehk sõltumatutest muutujatest ehk kirjeldavatest muutujatest). Seega vasakul pool see, mida mudeldame, ja paremal pool see, mille abil mudeldame. Kusjuures kui mudeldamiseks kasutame mitut muutujat, siis eraldab neid omavahel + märk. Sümbol : on interakstiooni märkimiseks. Kuivõrd sümboliga * saab määrata mudelit, kus mudelisse kaasatakse kõikvõimalikud tunnuste kombinatsioonid siis võib tekkida vajadus mõni liige eelnevast nimekirjast välja jätta ja seda saab teha sümboli - abil. Ka vabaliikme saab mudelist reeglina just selle sümboli abil eemaldada. Lisaks veel %in% millega märgitakse tunnuste allutatust (vahel ka sümboliga /) ja operaator I(), mille sulgude sise saab kirja panna matemaatilised tehted tunnustega, ilma et neid tehteid mõistetaks mudeli süntaksina.

Vaatleme näidisena andmestikku ChickWeight, mis kirjeldab tibude kasvu ajas erinevate söötmistingimuste korral. Kokku on andmestikus 50 tibu andmed. Lisaks tibu identifitseerivale tunnusele Chick on andmestikus veel tunnused weight, mis näitab tibu kaalu, Time, mis näitab, millisel hetkel vastav vaatlus on teostatud ning Diet, mis näitab vastavale tibule määratud toitmisreziimi.

Seega lihtsaim võimalik mudel oleks ilmselt weight ~ Time (ehk kaal sõltub ajast). Samas on lihtne ette kujutada ka mudelit weight ~ Diet (kaal sõltub saadud toidutüübist). Eelmisest erineb vabaliikme puudumise poolest mudel weight ~ Diet - 1. Kui aga kaal sõltub mõlemast tunnusest siis on mudelil kuju weight ~ Diet + Time. Lisaks võetakse mudelisse kahe tunnuse vaheline interaktsioon kui kirjutame kas mudeli kujul weight ~ Diet + Time + Diet:Time või lühidalt weight ~ Diet*Time.

Märgime, et mudel weight ~ I(Time - 1) ei ole sama mudel, mis weight ~ Time - 1, sest esimesel juhul on tegu hoopis tunnuse teisendamisega (tunnuse Time väärtusest lahutatakse maha üks ühik)

Küllalt levinud on ka sümboli | kasutamine -- see võimaldab määrata samasse kategooriasse kuuluvaid väärtusi. Näiteks weight ~ Diet | Chick tähistab, et tunnuse Diet kordaja on iga Chick väärtuse korral erinev.