Eesti alaliste elanike määramine kasutades masinõppe meetodeid
Date
2023
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Tartu Ülikool
Abstract
Riiklikul statistikal on oluline roll levitada ühiskonna kohta teadmisi ja fakte, mis
võimaldaksid teha informeeritud otsuseid. Üks olulisemaid riikliku statistika levitavaid
teadmisi on info rahvastiku kohta ning selle keskmes on info rahvaarvu kohta. Järjest
kiiremini muutuvas maailmas vananeb informatsioon kiiremini kui varem ning seega
oodatakse ka rahvastikustatistikat kiiremini ja tihemini. Euroopa Komisjon valmistab
juba ette määrust, millega tuleks alaliste elanike arvu riigis avaldada kaks korda aastas.
Praegu pannakse Eestis alalise elanikkonna kogum kokku kasutades 18 erinevat registrit,
mis muudab tihemini avaldamise keeruliseks.
Selle magistritöö eesmärk on uurida, millised andmed on residentsuse määramiseks
kõige olulisemad ja kuidas saavad elanikkonna määramisega vähendatud andmete
kontekstis hakkama masinõppe mudelid. Töö eesmärgi täitmiseks on kasutatud
Eesti Statistikaameti poolt kättesaadavaks tehtud andmeid. Andmetel rakendatakse
peakomponentide analüüsi ning testitakse viit erinevat masinõppe mudelit. Tulemused
näitavad, et vähendatud andmestik toimib üsna võrdväärselt algse andmestikuga ning
residentsuse tuvastamiseks võib piisata ka väiksemast hulgast registritest. Masinõppe
meetoditest toimivad kõige paremini otsustusmets ja XGBoost.
Description
Keywords
Registrid, alaline elanik, masinõpe, rahvastik, statistika