Inferring causality between transcriptome and complex traits

Date

2021-03-22

Journal Title

Journal ISSN

Volume Title

Publisher

Abstract

Haiguste mõistmiseks ja ravimiseks on keskseks eelduseks põhjuslike, haigusprotsessides osalevate geenide väljaselgitamine – selliste geenide poolt kodeeritud valkude tööd saab ravimite abil haigustele pärssivalt ümber korraldada. Põhjuslike seoste leidmisel on peamiseks standardiks laboratoorsed katsed ja kontrollgrupiga kliinilised uuringud, kuid nende läbiviimine on kulukas ja aeganõudev. Käesolevas doktoritöös näitame, et haigusi ja teisi kompleksseid fenotüübilisi tunnuseid põhjuslikult mõjutavaid geene saab märksa efektiivsemalt tuvastada statistiliste meetoditega. Geneetikas on põhjuslik analüüs alles hiljuti hoo sisse saanud seoses rahvuslike biopankade poolt kogutud suurte andmemahtude rakendamisega. Valdkond on uudne ja suure potentsiaaliga, mistõttu on vastav matemaatiline teooria alles kujunemisjärgus ja kiiresti arenev. Pühendame doktoritöös märkimisväärset tähelepanu nii selle teooria süstemaatilisele esitusele kui ka praktilistele edasiarendustele. Põhjusliku statistilise analüüsi alusprintsiipe rakendades töötame välja metoodika põhjuslike geenide tuvastamiseks väikestest valimitest (n ≈ 500), informeerides põletikumarkeri C-reaktiivse valgu funktsiooni immuunvastuses. Domeeniteadmistele tuginedes loome põhjuslike mudelite eelduste suhtes robustse algoritmi, mis võimaldab mistahes haiguse või komplekstunnuse toimemehhanismides olulist rolli omavaid geene avastada hüpoteesivabalt üle terve genoomi. Süvitsi vaatleme ühes haigustega seotud genoomipiirkonnas (16p11.2) leiduvate geenide mõju reproduktiivtervisele, osutades just funktsionaalselt olulistele geenidele. Personaalmeditsiini arenguid silmas pidades uurime ka põhjuslike geenide sõltuvust soost. Samuti hüpotiseerime, kas populaarsed assotsiatsiooniuuringud geenide ja haiguste vahel tuvastavad põhjuslikke geene, haigustest tingitud muutusi geeniekspressioonis või pelgalt juhuslikku müra. Peamised teadustöö tulemused verifitseerime laboris katseliselt.
A prerequisite in understanding and curing disease is the identification of genes active in disease processes – drugs could be developed to target the proteins encoded by such causal genes. The main standard in discovering causal relationships between traits is provided by lab experiments and randomized clinical trials but these can be time-consuming and expensive to undertake. In this dissertation, we show that functionally relevant genes in the development of diseases and other complex traits can be more effectively identified using statistical methods. Causal statistical analysis in genetics has only recently been propelled by taking advantage of the vast amount of data collected by national biobanks. Due to the novelty and projected impact of the field, the corresponding mathematical theory is still evolving and rapidly so. We direct considerable attention to systematically introduce this theory and then further expand on it in practical applications. We apply the principles of causal analysis to develop methodology for identifying causal genes in small samples (n ≈ 500), ascertaining the function of an inflammatory biomarker C-reactive protein in immune response. By utilizing domain knowledge, we create an algorithm – robust to the assumptions of causal models – for hypothesis-free identification of causal genes to arbitrary complex traits over the entire genome. Furthermore, we take an in-depth look into a specific disease-associated genomic region (16p11.2) and are able to pinpoint genes responsible for reproductive health. With respect to the personalized medicine movement, we study whether the causal genes differ between sexes. Finally, we hypothesize whether the popular association studies between gene expression and complex traits identify causal genes, disease-induced changes in gene expression or simply random noise. We validate our primary research results with lab experiments.

Description

Väitekirja elektrooniline versioon ei sisalda publikatsioone

Keywords

diseases, genetic association studies, causal analysis, statistical methods, randomization, bioinformatics

Citation