Developing a data analysis pipeline for automated protein profiling in immunology

Date

2021-05-24

Journal Title

Journal ISSN

Volume Title

Publisher

Abstract

Valgud on ühed elu kõige olulisemad ehituskivid. Need pisikesed molekulid on vastutavad terve organismi funktsioneerimise eest. Valkude ampluaa on rikkalik, nende ülesannete hulka kuuluvad näiteks nii immuunvastuse algatamine infektsioonide vastu, rakkude igapäevase homöostaasi tagamine kui ka palju muud. Selge on ka see, et selliste keerukate protsesside läbiviimiseks ei piisa ühest valgust, vaid on vaja paljude valkude täpset ja koordineeritud koostööd. Kuid kõik valgud pole võrdselt kasulikud, on valke, mille olemasolu on eluliselt tähtis organismi funktsioneerimiseks, kuid on ka selliseid, mis tekitavad probleeme, eriti normaalsest kõrgemate tasemete korral. Sellest tulenevalt on oluline teada, mis valke ja kui palju mingil hetkel organismi mingis kindlas koes on. Nimelt aitavad sellised teadmised paremini uurida nii haigusmehhanisme kui ka mõista inimeses toimuvaid bioloogilisi protsesse üldiselt. Valk-kiip on üheks selliseks tehnoloogiaks, mis võimaldab uurida valkude tasemeid inimese veres. Täpsemalt, see tehnoloogia võimaldab korraga uurida tuhandeid valke ja seega saab selle tehnoloogia abil genereerida suuri andmestikke. Nende andmete analüüsimine võib osutuda aga üsna keeruliseks ülesandeks. Nimelt puuduvad selleks otstarbeks lihtsalt kasutatavad ja automatiseeritud tööriistad. Me oleme teinud mitmeid teadustöid, mis keskenduvad valk-kiipide andmete analüüsile ning nende uuringute jooksul oleme katsetanud paljusid erinevaid andmeteaduse meetodeid. Samuti on need uuringud olnud tulemuslikud, näiteks oleme tuvastanud ja iseloomustanud valke, mis on APS1 haiguse korral autoimmuunse reaktsiooni sihtmärkideks. Nendest uuringutest kogutud teadmiste põhjal oleme loonud lihtsasti kasutatava veebirakenduse PAWER, mis rakendab erinevaid arvutuslikke meetodeid ning võimaldab kasutajal läbi viia poolautomaatset analüüsi. Käesoleva doktoritöö aluseks olevad uuringud on olnud ka oluliseks lähtekohaks mitmetele teistele haigusmehhanisme uurivatele töödele ning on kaasa aidanud masinõppepõhiste meetodite standardiseerimisele bioloogias.
Proteins are some of the most fundamental building blocks of life. These tiny molecules are responsible for almost all activities carried out in the organism. Different proteins are involved in different pursuits ranging from authorising massive immune responses in a time of struggle with infection to providing daily cell maintenance. Certainly, such complex functions require many protein molecules working together to be performed successfully. But not all proteins are equally useful, as the presence of some proteins is an essential condition for an individual's well-being, the abundance of others can be life-threatening. Hence, accurate information about the number and type of proteins active in the organism at any moment of time is instrumental for understanding human biology and disease mechanisms. Protein microarray is a technology that enables us to obtain accurate estimates of concentration levels of thousands of proteins in human blood in a parallel manner. However, analysing data from protein microarrays can be challenging due to lack of simple to use, automated tools. In a series of studies involving protein microarrays, we have explored and implemented various data science methods for the all-around analysis of protein concentration data. Such methods have helped us to identify and characterise proteins targeted by the autoimmune reaction in patients with the APS1 condition. The keystone of this work is a web-tool PAWER. PAWER implements relevant computational methods and provides a semi-automatic way to analyze protein microarray data online in a drag-and-drop and click-and-play style. The work that laid the foundation of this thesis has been instrumental for a number of subsequent studies of human disease and also inspired a contribution to refining standards for validation of machine learning methods in biology.

Description

Väitekirja elektrooniline versioon ei sisalda publikatsioone

Keywords

immunology, biotehnology, biochips, data analysis, proteins

Citation