Genetic structure of the Estonian population and genetic distance from other populations of European descent

Date

2010-03-10T08:24:00Z

Journal Title

Journal ISSN

Volume Title

Publisher

Tartu University Press

Abstract

The popularity to find the genes causing the common complex diseases has increased markedly in recent years. The complex diseases such as cardiovascular disorders, hypertension, various cancers, diabetes or asthma, are difficult to study since many genes contribute to the disease. One way to study the complex diseases is to use the population based association studies, in case the allele frequency of genetic markers is compared between the cases (diseases carrying individuals) and controls (disease non-carriers). Often, variations in a single population are of insufficient frequency to provide an adequate number of individuals for a study, and individuals from various nationalities are used in one study. As the differences in allele frequencies between cases and controls may be caused by systematic differences in ancestry, rather than by the association of genes with the disease, the population stratification should be tested carefully before data analysis. In the current Ph.D. thesis I have studied three aspects that influence the performance of the whole-genome association studies, such as marker selection, the informativeness of the used commercial genotyping chips, and also characterized the genetic structure inside Estonian population and between other European populations. HapMap database, initially based on genotyping data of four populations (Europe, China, Japan and Africa), is a good start to select the markers for the association study. The analyses showed that markers (tagSNPs) selected from the HapMap European sample, capture most of the variation in the Estonian sample (90-95% of the common SNPs). Still, it is possible to use the commercial chips in association studies. Two main companies, Affymetrix and Illumina produce whole-genome genotyping chips. As the strategy of marker selection is different between these companies, the Illumina chips perform better in Estonian sample as the markers are selected from the HapMap European population dataset. Further, the genetic structure of Estonian population and the distance from other European populations was studied using the principal component analysis of genotype data of more than 270,000 SNP markers of 3112 individuals from Europe. The analysis yielded a genetic structure map of Europe in which two first principal components highlight genetic diversity corresponding to a northwest to southeast gradient, and position the populations according to their approximate geographic origin. The results of this thesis demonstrate that Estonian samples can be analyzed with most other European samples, with the exception of the isolates (Kuusamo) identified here and the southernmost Europeans, without great loss of study power.
Üha rohkem pööratakse tähelepanu inimpopulatsioonis levivate sagedaste haiguste tekkes osalevate geenide väljaselgitamisele. Sagedased haigused on südame- ja veresoonkonnahaigused, kõrgvererõhutõbi, erinevad kasvajad, diabeet, astma, mille geneetilise tagapõhja uurimisele on keskendunud tuhandeid inimesegeneetikuid. Üheks levinumaks meetodiks haiguste tekkes osalevate geenipiirkondade leidmiseks on kogu genoomi hõlmavad juht-kontrolluuringud, kus võrreldakse erinevate geenipiirkondi kirjeldavate markerite sagedust juhtudel (haigust kandvatel indiviididel) ja kontrollgrupil (uuritavat haigust mittekandvatel indiviididel). Selliste uuringute läbiviimiseks on vaja enamasti tuhat kuni paarkümmend tuhat juhtu ja kontrollindiviidi. Sageli ei ole võimalik ühest populatsioonist uuritavate indiviidide arvu kokku saada ning uuritav grupp tuleb kokku panna erinevatest rahvustest pärit indiviididest. Selleks, et välistada populatsioonide-vahelisest erinevusest tulenevat uuritavate markerite sageduste erinevust haigusega seotud markerite sageduste erinevusest juhtude ja kontrollide vahel, tuleb eelnevalt kindlaks teha populatsioonide geneetiline erinevus (kaugus) üksteisest. Oma doktoritöös käsitlen kolme aspekti juht-kontrolluuringute läbiviimisel Eesti ning laiemalt Euroopa populatsioonides, milleks on uuritavate markerite valimine, kommertsionaalsete geenikiipide sobivuse testimine Eesti populatsiooni uurimiseks ning populatsioonide geneetilise erinevuse mõju hindamine juht-kontrolluuringu tulemustele. Markerite valimiseks kasutasin algselt nelja populatsiooni (Euroopa, Hiina, Jaapan ja Aafrika) genotüpiseerimise andmete põhjal koostatud HapMap andmebaasi. Kõige paremini kirjeldavad, umbes 90-95%, Eesti populatsioonis esinevatest sagedastest markeritest just HapMap Euroopa päritolu populatsiooni põhjal valitud markerid (tagSNPd). Samas on heaks võimaluseks kasutada juht-kontrolluuringutes juba olemasolevaid kommertsionaalseid geenikiipe, millega on võimalik genotüpiseerida umbes miljon markerit ühel indiviidil. Hetkel on turul kahe suurema firma, Affymetrix’i ning Illumina geenikiibid. Kuna firmad kasutavad erinevaid strateegiaid markerite valimiseks, osutusid Eesti populatsiooni kirjeldamisel paremaks Illumina geenikiibid, kus on kasutatud HapMap Euroopa populatsiooni põhjal valitud markereid. Edasi uurisin Eesti geneetilist struktuuri ja hindasin geneetilist kaugust teistest Euroopa populatsioonidest. Kasutades peakomponentanalüüsi, mis hindab indiviidide geneetilist erinevust üksteisest, koostasin 3112 indiviidil genotüpiseeritud 270,000 SNP markeri andmete põhjal Euroopa geneetilise struktuuri iseloomustava kaardi. Peakomponentanalüüsi kaks esimest komponenti lahutavad Euroopa populatsioonid loode-kagu suunaliselt vastates populatsioonide geograafilisele asendile. Eesti populatsiooni suhteliselt ühtlane geneetiline struktuur annab hea eelise komplekshaiguste kaardistamiseks juht-kontrolluuringus. Samuti on hea koostööd teha teiste Euroopa biopankadega, sest suurem osa Euroopa populatsioonidest, välja arvatud geneetilised isolaadid ning Euroopa lõunapoolsemad populatsioonid, on geneetiliselt sarnased Eestiga ning tulenevalt populatsioonide erinevuste korrigeerimisest andmete analüüsimisel on uuringu võimsuse kadu minimaalne.

Description

Väljaande elektroonilisest versioonist puuduvad publikatsioonide täistekstid.

Keywords

Citation