Analysis and visualisation of large scale microarray data

Date

2015-07-06

Journal Title

Journal ISSN

Volume Title

Publisher

Abstract

Viimase paari aastakümne jooksul on genereeritud hulgaliselt suuremahulisi geeniekspressiooni andmestikke. Sellised andmestikud on hinnalised ja neid säilitatakse suurtes andmebaasides nagu näiteks GEO või Arrayexpress. Geenide, valkude, metaboliitide ja ensüümide omavahelised koostoimimised ja reaktsioonid on kokku kogutud ja süstematiseeritud bioloogiliste radade andmebaasidesse nagu KEGG ja Reactome. Suuremahuliste ekspressiooniandmete ja bioloogiliste radade ühildamine võimaldab kirjeldatud protsesse paremini analüüsida ja mõista. Väitekiri kirjeldab KEGGanim tööriista, mis ühildab suuremahulised geeniekspressiooni andmestikud ja KEGG bioloogiliste radade pildid. Tööriist loob interaktiivse animatsiooni üle erinevate eksperimendi tingimuste, võimaldades jälgida ajalist või tingimuslikku ja ruumilist ekspressiooni dünaamikat. Sellised animatsioonid sobivad kasutamiseks konverentsi ettekannetes, veebis või ka publikatsioonides. Suurt hulka avalikke geeniekspressiooni andmestikke on võimalik ära kasutada, et tuvastada uusi vastasmõjusid geenide vahel üle paljude bioloogiliste tingimuste. Selline analüüs võimaldab tuvastada ühiseid regulatoorseid mehhanisme, ühiseid funktsioone või rolle sarnastes bioloogilistes protsessides. Me oleme arendanud metoodika, mis võimaldab teha päringupõhist koos-ekspressiooni analüüsi üle sadade avalike geeniekspressiooni andmestike. Geenide koos-ekspressioon arvutatakse igas andmestikus eraldi ja tulemused koondatakse kokku ühiseks järjestatud nimekirjaks kasutades astakute agregeerimise meetodit. Selline lähenemine teeb võimalikuks hõlpsalt taaskasutada juba olemasolevaid geeniekspressiooni andmestikke ja tuvastada signaale, mida oleks keeruline leida analüüsides üksikuid andmestikke eraldi. Implementeeritud Multi Experiment Matrix (MEM) tööriist võimaldab interaktiivset andmete visualiseerimist ja pakub erinevaid võimalusi leitud tulemuste edasiseks analüüsiks. Arendatud astakute agregeerimise meetodit saab edukalt kasutada ka teistes meta-analüüsides, kus ühildatakse erinevatest allikatest pärit bioloogilisi andmestikke.
Over the last decades large volume of high-throughput expression data has been generated across the globe and collected into large databases such as GEO and Arrayexpress. Information about relations between proteins, genes, metabolites and enzymes have been characterised and systemised in pathway databases such as KEGG and Reactome. By combining high-throughput expression data and pathway information we can understand better depicted cellular processes. In this thesis we describe KEGGanim tool, that combines high- throughput expression data and KEGG pathway images for better interpretation of the experimental results. KEGGanim generates interactive animations across conditions of the high- throughput expression data, allowing to observe both temporal and spacial effect of expression dynamics. Animations created with this tool are suitable to be used in slide presentations, on the web or in publications. The large volume of public data can be used to infer connections between genes based on their expression profile similarity across many biological conditions. This allows to identify shared regulatory mechanisms, common functions and involvement in similar biological processes. We have developed methodology to perform query based co-expression analysis across hundreds of publicly available datasets. Gene co-expression is calculated in each individual dataset and combined into global prioritised gene list by rank aggregation method. This makes it possible to re- use already existing expression data and allows to discover signals that would otherwise be difficult to find from a single dataset. The implemented web tool Multi Experiment Matrix (MEM) allows interactive data visualisation and down-stream analysis such as further characterisation of found gene lists as well as additional information about individual genes and datasets. The proposed rank aggregation method is suitable to be used in other meta-analysis pipelines beside MEM.

Description

Väitekirja elektrooniline versioon ei sisalda publikatsioone.

Keywords

mikrokiibid, geeniekspressioon, suurandmed, andmeanalüüs, visualiseerimine, bioinformaatika, DNA chips, gene expression, big data, data analysis, visualization, bioinformatics

Citation