Statistical analysis of multivariate data in bioinformatics

Date

2016-01-29

Journal Title

Journal ISSN

Volume Title

Publisher

Abstract

Valgud on organismide ühed tähtsaimad ehituskivid. Nende kogust ja omavahelisi seoseid uurides on võimalik saada infot organismi seisundi kohta. Tänapäevased seadmed võimaldavad koguda lühikese ajaga palju valkudega seotud andmeid. Nende analüüs on aga suhteliselt keerukas ja on loonud uue teadusharu nimega bioinformaatika. Käesoleva doktoritöö eesmärgiks on kirjeldada mitmemõõtmeliste andmete statistilise analüüsiga seotud probleeme ja nende lahendusi. Näidatakse, kuidas sellised andmed saab esitada maatriksi kujul. Antakse ülevaade andmeallikatest ja analüüsimeetoditest ning näidatakse, kuidas neid saab praktikas kasutada. Kirjeldatakse üleeuroopalist vähiuuringute projekti PREDECT, kus paljud organisatsioonid osalevad vähimudelite täiustamises. Antakse ülevaade metaandmete kogumisest paljudelt partneritelt, samuti veebitööriistadest, mis loodi esmaseks andmeanalüüsiks. Kirjeldatakse uudse rinnavähi mudeliga seotud analüüsi ja koelõikude võrdlust erinevates laboritingimustes. Tutvustatakse vabalt kasutatavat veebitööriista, millega saab teha kirjeldavat andmeanalüüsi. Järgmistes peatükkides kirjeldatakse andmeanalüüsi erinevates uuringutes. Inimese platsentas leiti mitmeid uusi alleelispetsiifilise ekspressiooniga geene. Uuriti atoopilise dermatiidi molekulaarseid mehhanisme, täpsemalt valgu gamma-interferoon mõju sellele haigusele. Leiti mikroRNAsid, mida saab kasutada endometrioosi markeritena, ja loodi klassifitseerija endometrioosihaigete eristamiseks tervetest.
Proteins are one of the most important building blocks of an organism. By investigating the abundance and relations between different proteins, it is possible to get information about the current state of the organism. Modern technologies allow to collect a large amount of data related to proteins in a short period of time. This type of analysis is quite complicated and has created a new field of science called bioinformatics. The aim of the dissertation is to describe problems and solutions related to statistical analysis of multivariate data. It is shown how this type of data can be presented as a matrix. An overview of data sources and analysis methods is given and it is shown how they can be used in practice. A pan-European project PREDECT is described where many organizations are contributing to develop better cancer models. An overview is given about collecting metadata from multiple partners, and about web tools created for initial data analysis. An analysis concerning a novel breast cancer model is described, and a comparison of tissue slices in different cultivation conditions is made. A freely available web tool is introduced which allows to perform exploratory data analysis. Next chapters describe data analysis in various projects. Multiple novel genes were found in the human placenta that have an allele-specific expression. Molecular mechanisms of a disease called atopic dermatitis were examined, more specifically the influence of the protein interferon-gamma. MicroRNAs were found that can be used as markers for a disease called endometriosis, and a classifier was built to differentiate people with endometriosis from healthy people.

Description

Väitekirja elektrooniline versioon ei sisalda publikatsioone.

Keywords

bioinformaatika, mitmemõõtmeline analüüs, juhtumiuuringud, bioinformatics, multivariate analysis, case studies

Citation