Geograafilise päritolu ennustamine geeniekspressiooni ja geneetilise varieeruvuse abil

Date

2015

Journal Title

Journal ISSN

Volume Title

Publisher

Abstract

Käesoleva bakalaureusetöö eesmärk on uurida, kui palju erineva päritoluga inimesed erinevad üksteisest geeniekspressiooni või geneetilise varieeruvuse mõttes. Selleks kasutatakse avalikke andmeid, kus geeniekspressiooni ja geneetilist varieeruvust on mõõdetud erineva päritoluga ameeriklastel. Andmete analüüsimiseks kasutatakse statistikapakett R’i. Töö käigus tutvutakse erinevate andmeformaatide ja analüüsivõtetega. Lisaks antakse ülevaade erinevatest statistilistest meetoditest, masinõppe algoritmidest ning rakendatakse neid eelpool mainitud andmetel. Lõppeesmärgiks on leida, kui täpselt on võimalik ennustada päritolu geeniekspressiooni abil, geneetilise varieeruvuse abil ja kasutades mõlemat korraga ning leida, milline klassifitseerimismeetod sobib kõige paremini päritolu määramiseks.
The aim of this thesis is to study, how much do gene expression levels or single nucleotide polymorphisms (SNPs) differ in different ethnical groups. Sample data is publicly accessible gene expression and SNP data, which is collected from americans with different ethincal origin. Statistical analysis software R is used for analysing this data. Thesis aims to give an overview of different statistical methods, machine learning algorithms and apply them on sample data. The end goal is to find out how precisely can origin be predicted using gene expression, genetic variability, gene expression and genetic variability and which classification method is best suited for origin determination.

Description

Keywords

Citation