Hajuvusdiagrammid ning korrelatsioonimaatriksite illustreerimine statistikapaketis R

Date

2013-06-12

Journal Title

Journal ISSN

Volume Title

Publisher

Tartu Ülikool

Abstract

Tihti pakub meile huvi kahe arvtunnuse omavaheline käitumine. Mõnikord on see lihtsalt mõistetav – näiteks rohkem õppides on tulemused tihti paremad ja pikemad inimesed kaaluvad enamasti rohkem. Sageli ei ole aga seos selgelt etteaimatav ning selle olemasolu, tugevuse ja suuna hindamiseks tuleb arvutada erinevaid seosekordajaid. Viimaste sisuliseks mõistmiseks on aga lisaks uuringu valdkonna tundmisele vaja teadmisi ka statistikast. Et sugugi mitte kõik uuringu tulemustest huvitatud isikud statistika-alaseid teadmisi ei oma, on statistikul vajalik osata esitada tulemusi selgelt, visuaalselt atraktiivselt ja intuitiivselt mõistetavalt. Juhul, kui uuritavaid tunnuseid on enam kui kaks, muutub vaid seosekordajate põhjal järelduste tegemine sageli keerukaks ka piisavalt statistikateadmisi omavale inimesele. On ju N tunnuse puhul kõikvõimalikke paarikaupa seoseid N(N-1)/2 – seega vaid kümne tunnuse puhul juba 45 –, millest kompaktse ülevaate saamine vaid arve vaadates on sageli pea võimatu ning appi tuleb võtta graafiline esitus. Hajuvusdiagrammid ja korrelatsioonimaatriksid on statistikas laialdaselt kasutatavad vahendid tunnuste vaheliste seoste kirjeldamiseks. Antud töö eesmärgiks on anda ülevaade statistikapaketi R võimalustest hajuvusdiagrammide konstrueerimiseks ja korrelatsioonimaatriksite illustreerimiseks. Bakalaureusetöö esimesed kolm peatükki tutvustavad erinevaid võimalusi visualiseerimaks tunnuste vahelisi seoseid vaid hajuvusdiagrammide abil ilma mingeid seosekordajaid arvutamata. Esimene peatükk sisaldab ülevaadet kahemõõtmeliste hajuvusdiagrammide moodustamisest funktsioonide plot ja scatterplot abil ning kolmamõõtmeliste hajuvusdiagrammide moodustamisest funktsiooni scatterplo3d abil, teine peatükk annab ülevaate kõrge tihedusega hajuvusdiagrammide konstrueerimisest kasutades funktsioone hexbin ja sunflowermatrix ning kolmas peatükk kirjeldab hajuvusdiagrammide maatriksite konstrueerimise võimalusi funktsioonide scatterplotmatrix ja pairs abil. Töö teises pooles annab autor ülevaate tunnuste vahelisi seoseid kirjeldavate korrelatsioonimaatriksite illustreerimisest. Neljas peatükk sisaldab põhjalikku kirjeldust funktsioonist corrplot. Töö viimases osas on ära toodud ülevaade paarist R-s seni realiseerimata võimalust kirjeldada korrelatsioonimaatrikseid hulknurkade abil. Töö autor eeldab lugejalt statistikapaketi R kasutusoskust ning kasutab statistikapaketi R versiooni 2.15.2.

Description

Keywords

Citation