Methods for re-using public gene expression data

Date

2014-05-15

Journal Title

Journal ISSN

Volume Title

Publisher

Abstract

Avalikud geeniekspressiooni andmebaasid sisaldavad andmeid rohkem kui miljoni bioloogilise proovi kohta, mis on pärit sadadest erinevatest kudedest ja haigustest. Sealjuures iga proovi kohta on teda sisuliselt kõigi geenide avaldumismuster. Nii on tekkinud olukord, kus on võimalik sooritada bioloogilisi uuringuid ilma katseid tegemata, kasutades vaid olemasolevaid andmeid. Andmestike suurus aga esitab mitmeid väljakutseid: korrektne analüüs nõuab spetsiifilisi statistilisi teadmisi, vajalik info on peidetud suure hulga ebavajaliku taha ning analüüs ise on töömahukas. Kõik need põhjused takistavad avalike andmete laiemat kasutuselevõttu. Antud töö eesmärk on muuta geeniekspressiooni andmete taaskasutamist, läbi meetodite ja tööriistade arendamise, efektiivsemaks ja kättesaadavamaks. Üks suuremaid probleeme andmete taaskasutamisel on nende ligipääsetavus. Seetõttu oleme loonud kaks veebikeskkonda, mis võimaldavad sooritada keerukaid analüüse avalikel andmetel kasutajasõbralikul moel. Neist esimene visualiseerib embrüonaalsete tüvirakkide kohta käivaid andmeid, mis pärinevad FunGenES konsortsiumist. Teine aga võimaldab otsida sarnase käitumisega geene üle sadade avalike andmestike. Teostades analüüse üle paljude andmestike tekib paratamatult vajadus saadud tulemusi omavahel ühendada. Selleks lõime algoritmi astakute agregeerimiseks, mis on kohandatud just geeni nimekirjade jaoks. Uurides mitmeid andmestikke korraga, on oluline neist kõigist omada sisulist ülevaadet. Selle hõlbustamiseks oleme välja töötanud visualiseerimismeetodi, mis suudab vähese vaevaga tekitada kompaktseid, kuid informatiivseid ülevaateid geeniekspressiooni andmetest. Tutvustatud meetodid ja tööriistad on loodud praktilisi vajadusi silmas pidades ning kõik nad on leidnud juba ka rakendust erinevates uuringutes.
Public gene expression databases contain data about more than million biological samples, from hundreds of tissues and diseases. In principle, we know the expression pattern for all genes in these samples. Thus, we have a situation, where it is possible to carry out biological studies without performing new experiments. The size of the datasets, however, poses several challenges: appropriate analysis requires specific statistical skills, useful information is well hidden in the datasets and the analysis itself is time consuming. All these reasons prevent the wider usage of public gene expression data. The goal of this thesis is to facilitate re-use of expression data by developing analysis methods and tools. One of the biggest obstacles for re-using expression data is its accessibility. For that reason, we have created two web environments that allow to run complex analysis pipelines on public gene expression data. First of those visualises embryonic stem cell data from FunGenES consortium. The other allows to search for genes with similar behaviour across hundreds of public datasets. By performing analyses over multiple datasets there will be eventually need for integration of the results. For this task we created a rank aggregation algorithm that is specifically designed for lists of genes. When studying multiple datasets it is important to have good overview of their contents. To allow rapid functional characterization of datasets, we have created a visualisation method that can create compact but informative visual summaries of the data. Methods and tools described here, have been created with practical considerations in mind and have already been used in various studies.

Description

Väitekirja elektrooniline versioon ei sisalda publikatsioone.

Keywords

teadusandmed, avaandmed, geeniekspressioon, research data, Open Data, gene expression

Citation