Computational and statistical methods for DNA sequencing data analysis and applications in the Estonian Biobank cohort

Kals, Mart

Computational and statistical methods for DNA sequencing data analysis and applications in the Estonian Biobank cohort

dc.contributor.advisor	Fischer, Krista, juhendaja
dc.contributor.author	Kals, Mart
dc.contributor.other	Tartu Ülikool. Loodus- ja täppisteaduste valdkond	et
dc.date.accessioned	2018-11-27T13:15:55Z
dc.date.available	2018-11-27T13:15:55Z
dc.date.issued	2018-11-27
dc.description	Väitekirja elektrooniline versioon ei sisalda publikatsioone	et
dc.description.abstract	Tänapäeval võimaldavad teise põlvkonna sekveneerimisel (next-generation sequencing, NGS) põhinevad meetodid määrata inimese genoomi järjestusi suurtes kohortides. Seejuures toodetakse väga suuri andmemahtusid, mis tekitavad mitmeid väljakutseid nii informaatika kui statistika valdkonnas. TÜ Eesti Geenivaramu (TÜ EGV) on aastatel 2002-2011 kogunud enam kui 50 000 inimese geeniproovi ja käesoleval aastal lisandub veel 100 000. Praeguseks hetkeks on üle 5 500 geenidoonori DNA-d analüüsitud erinevate NGS meetoditega. Käesolevas doktoritöös on pakutud üldine raamistik TÜ EGV-s toodetud NGS-andmete töötluseks ning lisaks on uuritud, kuidas võimalikult hästi arvestada Eesti päritolu isikute geneetilist eripära. Üheks levinud NGS meetodiks on eksoomi ehk kõigi valku kodeerivate geenipiirkondade sekveneerimine, mis võimaldab efektiivselt leida harvu ja de novo geenivariante ja leiab seetõttu rakendust meditsiinigeneetikas mendeliaarsete haiguste geenimutatsioonide tuvastamisel. Doktoritöö esimeses osas on analüüsitud kolme Eesti perekonna andmeid ja kõigil kolmel juhul kindlaks tehtud potentsiaalne patogeenne mutatsioon, mis lubab tulevikus välja töötada paremaid ravimeetodeid. Samuti on läbi viidud genoomi sekveneerimisandmete analüüs kliinilise vere näitajatega. See analüüs tõi välja populatsioonipõhise biopanga eelised, mis lisaks rikkalikele genoomiandmetele sisaldab ka väärtuslikku informatsiooni erinevate haiguste ja tunnuste kohta. Uuringus tuvastati olulisi seoseid CEBPA geenivariantide ja basofiilide arvu vahel, kusjuures viimasel on roll mitmete autoimmuunhaiguste sümptomaatikas. Ülegenoomsete assotsiatsiooniuuringute võimsuse suurendamiseks kasutatakse puuduvate geenivariantide ennustamist ehk imputeerimist. Muutmaks just Eesti päritolu isikute andmeanalüüsi tõhusamaks, on kasutatud genoomi sekveneerimisandmeid eestlaste-spetsiifilise imputatsioonipaneeli loomiseks. Seejärel on imputeeritud puuduvaid geenivariante kolmel moel – kasutades nii eestlaste-spetsiifilist kui ka kahte multi-etnilist paneeli. Võrdlustulemused näitasid, et eestlaste-spetsiifilise paneeli kasutamisel õnnestub määrata rohkem parema kvaliteediga geenivariante ning loodud paneeli eelis tuleb eriti esile harvaesinevate variantide puhul.	et
dc.description.abstract	Next-generation sequencing (NGS) technology enables large-scale, routine sequencing in large cohorts. This thesis demonstrated that the analysis of NGS data has a huge potential in several fields, but also requires a massive computational power. Also, with the increase of data volumes, there is an incessant need for the development of computational and statistical methods. Covering the whole spectrum of protein-coding regions in a cost-effective way, exome sequencing opens new opportunities for quick and exact large-scale screenings. In the first part of the thesis we analysed three Estonian families with Mendelian diseases and detected potentially causative gene variants for each case. These projects highlighted that a tight collaboration between data scientists and medical geneticists can lead to findings with considerable impact in the research of rare genetic disorders and have the potential to lead to successful therapies in the future. Population-based biobanks provide numerous opportunities for expanding phenotypic datasets. We used additional blood cell measurements from the electronic medical records and our genome-wide scan detected previously undiscovered association with basophil counts near CEBPA gene, and highlighted their role in the autoimmune regulation. This example opens new dimensions for scanning underlying genetic basis for a variety of traits and diseases. To increase the resolution of genome-wide scans, imputation is routinely implemented to incorporate variants that are not directly genotyped. We had an opportunity to construct an imputation reference panel to Estonians based on genome sequencing data. We showed that the utilization of a population-specific reference panel provided significantly higher imputation confidence for rare variants compared to larger, multi-ethnic panels. In the downstream analysis, we observed a huge gain in gene-based rare variant testing. As one of the main results of this thesis, the Estonian-specific imputation reference panel is created, tested and ready to serve for a long time. This includes data processing in the framework of the ongoing initiative to invite 100,000 Estonians to join the Biobank cohort, with the purpose to develop efficient disease prevention and treatment guides for the implementation of personalized medicine.	en
dc.identifier.isbn	978-9949-77-895-9
dc.identifier.isbn	978-9949-77-896-6 (pdf)
dc.identifier.issn	1024-4212
dc.identifier.uri	http://hdl.handle.net/10062/62721
dc.language.iso	eng	et
dc.relation.ispartofseries	Dissertationes mathematicae Universitatis Tartuensis;125
dc.rights	openAccess	et
dc.rights	Autorile viitamine + Mitteäriline eesmärk + Tuletatud teoste keeld 3.0 Eesti	*
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/ee/	*
dc.subject	DNA analysis	en
dc.subject	nucleotide sequence	en
dc.subject	genetic research	en
dc.subject	statistical methods	en
dc.subject	bioinformatics	en
dc.subject	Estonia	en
dc.subject.other	dissertatsioonid	et
dc.subject.other	ETD	et
dc.subject.other	dissertations	et
dc.subject.other	väitekirjad	et
dc.subject.other	Tartu Ülikool. Eesti geenivaramu	et
dc.subject.other	DNA analüüs	et
dc.subject.other	nukleotiidjärjestus	et
dc.subject.other	geeniuuringud	et
dc.subject.other	statistilised meetodid	et
dc.subject.other	bioinformaatika	et
dc.subject.other	Eesti	et
dc.title	Computational and statistical methods for DNA sequencing data analysis and applications in the Estonian Biobank cohort	en
dc.title.alternative	Arvutuslikud ja statistilised meetodid DNA sekveneerimisandmete analüüsimiseks ja rakendused TÜ Eesti Geenivaramu andmetel	et
dc.type	Thesis	et

Failid

Originaal pakett

Nüüd näidatakse 1 - 1 1

Nimi:: kals_mart.pdf
Suurus:: 1.87 MB
Formaat:: Adobe Portable Document Format
Kirjeldus:

Lae alla

Litsentsi pakett

Nüüd näidatakse 1 - 1 1

Nimi:: license.txt
Suurus:: 1 B
Formaat:: Item-specific license agreed upon to submission
Kirjeldus:

Lae alla

Kollektsioonid

1. TÜ väitekirjad alates 2004. Kaitstud doktoritööd, teadusmagistritööd. Doctoral theses, PhD, MSc, MPhil.