Improving accuracy of survey estimators by using auxiliary information in data collection and estimation stages

Date

2017-12-13

Journal Title

Journal ISSN

Volume Title

Publisher

Abstract

Valikuuringute keskkond on pidevas muutuses ja arenev. Pidevalt arendatakse uusi uuringute disaine, mis üritavad lahendada uuringufirmade ühe süvenevaid probleeme, nagu langevad vastamismäärad, vähenevad uuringute eelarved ja vastajate suur koormus küsitluste paljususe tõttu. Enamus uuemaid meetodeid kasutab abiinformatsiooni – informatsioon kõikide üldkogumi elementide kohta, mida saab kasutada kõigis uuringu etappides. Käesolevas dissertatsioonis on fookuses andmete kogumise ja hindamise etapid. Andmete kogumisel paratamatult ei saada kõikide valimi elementide vastuseid kätte ehk tekib kadu. Lõplik vastanute hulk pole seetõttu esinduslik üldkogumi suhtes. Kohanduvate disainide korral sekkutakse andmete kogumise protsessi ja juhitakse vastajate kaasamist abitunnuseid kasutavate indikaatoritega, et saavutada esinduslikum vastanute hulk hindamise etapiks. Töös kasutame tasakaalu indeksit, mis mõõdab abitunnuste keskmiste erinevust vastanute hulgas ja valimis. Tasakaalu indeksi abil andmete kogumise suunamist nimetame tasakaalustamiseks. Väitekirjas esitame teoreetilisi tulemusi, mis näitavad tasakaalustamise positiivseid tagajärgi. Näitame, et kahel erijuhul leidub seos tasakaalu indeksi ja kao poolt tingitud nihke vahel, ning tasakaalustamise püüdlused andmete kogumise etapis vähendavad suure kaost tingitud nihke tekkimise riski. Kui hindamise etapil saame lisa abitunnuseid, näiteks välitööde protsessis tekkivad andmed, siis abitunnuste vektor erineb andmete kogumise ja hindamise etappidel. Töös tuletame valemid, kus saame lisa abitunnuste mõju välja tuua ja uurida. Üks võimalik abiinformatsiooni allikas on varasemad küsitlusuuringud. Töös uurime juhtu, kus tahame hinnata kahe tunnuse järgi ristklassifitseeritud osakogumites uuritavaid tunnuseid ja saavutada kooskõla teistest uuringutest pärineva marginaalsete osakogumite infoga. Käsitletakse kahte võimalikku meetodit ja antud erijuhu jaoks on tuletatud valemid. Kõik tulemused on illustreeritud simulatsioonide abil.
Sample survey environment is rapidly changing today. New flexible survey designs are developed to cope with increasing problems in the survey industry like declining response rates, limited survey budgets and high response burden, among others. Most of the new methods take advantage of auxiliary variables – information known for all population elements (or possibly aggregated population totals), that can be used for improvements in all stages of a survey. In current thesis, the focus is kept on data collection and estimation stages. During data collection some sampled elements do not respond, causing non-response, and the final set of respondents is often not representative. In responsive and adaptive designs, the data collection process is intervened and guided by indicators that use auxiliary information to bring a more appropriate final set of respondents for the estimation stage. Here we consider an imbalance measure, that quantifies the distance between response set from the sample using auxiliary information. Guiding the data collection with the imbalance measure is referred to as balancing. In the thesis theoretical evidence is presented on positive effects of responsive designs. We show that for two special cases, connection between the imbalance measure and non-response bias can be derived. We show that balancing efforts during data collection will reduce the risk of high non-response bias. When we have more auxiliary variable available in the estimation stage, then the auxiliary vectors differ in data collection and estimation stages. Explicit formulas are derived that show the effects of added auxiliary information. Auxiliary information can come from other surveys and can be estimates of the study variable. The thesis presents formulas for a case with two variables form cross-classified domains and where we want to achieve consistency with marginal study variable totals known from other surveys. All results are illustrated in simulation studies.

Description

Väitekirja elektrooniline versioon ei sisalda publikatsioone

Keywords

matemaatiline statistika, andmekogumine, valikuuringud, mathematical statistics, collecting data, sample surveys

Citation