Statistical enrichment analysis in algorithms for studying gene regulation

Date

2011-07-19

Journal Title

Journal ISSN

Volume Title

Publisher

Abstract

Geeniregulatsioon määrab geeniproduktide tootmise hulga ja ajastuse, võimaldades näiteks hulkrakse organismi identse genoomiga rakkudel olla vägagi erinevad. Geeniregulatsiooni kohta käivate andmete analüüsimiseks on bioinformaatikas laialdast kasutust leidnud statistiline rikastatusanalüüs. Rikastatus on kõige üldisemalt defineerituna olukord, kus millegi kogus on mingist kontrollväärtusest oluliselt suurem. Rikastatuse avastamise teel on võimalik leida seoseid geenide ja muude bioloogiliste objektide ja nähtuste vahel. Näiteks funktsionaalse rikastatuse korral on oodatust suuremale osale mingisse gruppi kuuluvatest geenidest annoteeritud mingi bioloogiline funktsioon, viidates seosele grupi ja funktsiooni vahel. Käesoleva doktoritöö eesmärgiks on edasi arendada ja rakendada statistilise rikastatusanalüüsiga seotud algoritme, mis on loodud geeniregulatsiooni uurimiseks. Esiteks pakub töö välja formaalse rikastatuse definitsiooni, millele vastavalt on töös esitatud mitmed tuntud rikastatusanalüüsi meetodid. Teiseks arendatakse hierarhilise klasterdamise jaoks välja uus kiire ligikaudne algoritm. Seda algoritmi rakendatakse geeniekspressiooni andmete hierarhilist funktsionaalset rikastatusanalüüsi teostavas tarkvaras, mis sobib kasutamiseks geeniregulatsiooni uurimise algfaasis. Kolmandaks arendatakse välja uus rikastatuse tugevuse mõõt, et teostada regulatoorset rikastatusanalüüsi, mis on välja pakutud laiendus motiivide rikastatuse analüüsile. Uut mõõtu rakendatakse kahes hiire embrüonaalsete tüvirakkude geeniregulatsiooni uuringus. Lõpuks pakutakse välja evolutsiooniline DNA alamstringide jaotuse mudel, mille potentsiaalseks rakenduseks on tausta modelleerimine motiivide otsimisel ja motiivide rikastatuse analüüsil.
Gene regulation determines the production rate and timing of gene products, enabling, for instance, the cells of a multicellular organism to be very different despite the identical genomes. Statistical enrichment analysis has been applied widely in bioinformatics to analyze the data about gene regulation. Enrichment is according to the most general definition a situation, where the abundance of something is significantly higher than some reference value. By revealing enrichment it is possible to find associations between genes and other biological entities. For instance, in case of functional enrichment the proportion of genes annotated to some biological function is higher than expected within some group of genes, indicating an association between the group and function. The goal of this dissertation is to enhance and apply algorithms involving or related to statistical enrichment analysis for studying gene regulation. First, a formal statistical definition of enrichment is proposed, complemented by the presentation of several known enrichment analysis methods with respect to the new definition. Second, a fast approximate algorithm is developed for performing hierarchical clustering. This is applied in a software tool for performing hierarchical functional enrichment analysis of gene expression data, suitable as one of the first steps in studying gene regulation. Third, a novel measure of enrichment strength is developed in the context of regulatory enrichment analysis, which is a proposed extension of motif enrichment analysis. The new measure is applied in two biological studies of gene regulation in mouse embryonic stem cells. Finally, an evolutionary DNA substring distribution model is proposed with potential applications in background modelling for motif discovery and motif enrichment analysis.

Description

Väitekirja elektrooniline versioon ei sisalda publikatsioone.

Keywords

geeniregulatsioon, statistiline analüüs, andmeanalüüs, algoritmid, gene regulation, statistical analysis, data analysis, algorithms

Citation