Statistiliselt ekvivalentsete argumenttunnuste kogumite leidmine

Date

2024

Journal Title

Journal ISSN

Volume Title

Publisher

Tartu Ülikool

Abstract

Argumenttunnuste valik on mudeli konstrueerimisel üks olulisemaid ülesandeid. Meetodid nagu samm- ja lassoregressioon tagastavad ühe komplekti tunnustest, millega saavutatakse kõige paremini prognoosiv mudel. Kui andmetes esineb palju tugevalt korreleeritud tunnuseid, võib mitu tunnuste komplekti anda sarnase prognoosimisvõimega mudeleid. Statistiliselt ekvivalentsete argumenttunnuste kogumite leidmise (inglise keeles statistically equivalent signatures ehk SES) algoritm rakendab tunnuste valikuks korduvalt tingliku sõltumatuse teste. Lõpuks tagastatakse omavahel ekvivalentsete tunnuste kogumid. Valides igast kogumist täpselt ühe tunnuse, jõutakse erinevate mudeliteni, mis võiksid anda sarnase täpsusega hinnanguid. Magistritöö eesmärk on testida algoritmi Eesti geenivaramu andmetel, kuhu kuuluvad geenidoonorite vere metaboliidi kontsentratsioonid ning metaboliitide kontsentratsioonide suhete väärtused. Lineaarse regressioonimudeli abil prognoositakse kehamassiindeksit ja logistilise regressioonimudeli abil suremust 5 aasta jooksul.

Description

Keywords

masinõpe, statistiliselt ekvivalentsed mudelid, argumenttunnuste valik, machine learning, statistically equivalent signatures, feature selection

Citation