Neural networks for analyzing biological data

Date

2020-09-02

Journal Title

Journal ISSN

Volume Title

Publisher

Abstract

Tehisnärvivõrgud viimastel aastatel populaarsust kogunud masinõppe algoritm, mis on võimeline näidete põhjal õppima. Erinevad tehisnärvivõrkude alamtüübid on kasutusel mitmetes arvutiteaduse harudes: konvolutsioonilisi võrke rakendatakse objekti- ja näotuvastuses; rekurrentsed võrgud on efektiivsed kõnetuvastuses ja keeletehnoloogias. Need ei ole aga ainsad võimalikud tehisnärvivõrkude rakendamise valdkonnad - selles doktoritöös näitasime me tehisnärvivõrkude kasulikkust kahe bioloogilise probleemi lahendamisel. Esiteks küsisime, kas ainult DNA jupis sisalduva info põhjal on võimalik ennustada, kas see järjestus pärineb viiruse (ja mitte mõnda muud tüüpi organismi) genoomist. Läbi kahe publikatsiooni tõestasime me, et masinõppe algoritmid on selleks tõesti võimelised. Parima täpsuse saavutas konvolutsiooniline närvivõrk. Loodud lahendus võimaldab viroloogidel tuvastada seni tundmatuid viiruseliike, millel võib olla oluline mõju inimese tervisele. Teine käsitletud bioloogiline andmestik pärineb neuroteadusest. Imetajate hipokampuses esineb nn. koharakke, mis aktiveeruvad vaid juhul, kui loom asub teatud ruumipunktis. Näitasime, et rekurrentsete närvivõrkude abil saab vaid mõnekümne koharaku aktiivsuse põhjal ennustada roti asukohta ligi 10 cm täpsusega. Rekurrentsed võrgud osutusid efektiivsemaks kui neuroteaduses enim levinud Bayesi meetodid. Need võrgud suudavad kasutada rakkude eelnevat aktiivsust kontekstina, mis aitab täpsustada asukoha ennustust. Ka teistes neuroandmestikes võib eelnev ajuaktiivsus peegeldada konteksti, mis sisaldab olulist infot hetkel toimuva kohta. Seega võivad rekurrentsed tehisnärvivõrgud osutuda ajusignaalide mõistmisel ülimalt kasulikuks. Samuti on bioinformaatikas veel hulk andmestikke, kus konvolutsioonilised võrgud võivad osutuda efektiivsemaks kui senised meetodid. Loodame, et käesolev töö julgustab teadlasi tehisnärvivõrke proovima ka oma andmestikel.
Artificial neural networks (ANNs) are a machine learning algorithm that has gained popularity in recent years. Different subtypes of ANNs are used in various fields of computer science. For example, convolutional networks are useful in object and face recognition systems; whereas recurrent neural networks are effective in speech recognition and natural language processing. However, these examples are not the only possible applications of neural nets - in this thesis we demonstrated the benefits of ANNs in analyzing two biological datasets. First, we investigated if based only on the information contained within a DNA snippet it is possible to predict if the snippet originates from a viral genome or not. Through two publications we demonstrated that machine learning algorithms can make this prediction. Convolutional neural networks (CNNs) proved to be the most accurate. The recommendation system created allows virologists to identify yet unknown viral species, which may have important effects on human health. The second biological dataset analyzed originates from neuroscience. In mammalian hippocampus there are so called place cells which activate only if the animal is in a specific location in space. We showed that recurrent neural networks (RNNs) allow to predict the animal’s location with ~10cm precision based on the activity of only a few dozen place cells. RNNs proved to be more effective than the most commonly used Bayesian methods. These networks use the past neuronal activity as a context that helps fine-tune the location predictions. Also in many other neural datasets the prior brain activity might reflect important information about the current behaviour. Hence, RNNs might turn out to be very useful in making sense of brain signals. Similarly, CNNs are likely to prove more efficient than the currently used methods on many other bioinformatics datasets. We hope this thesis encourages more scientists to try neural networks on their own datasets.

Description

Väitekirja elektrooniline versioon ei sisalda publikatsioone

Keywords

artificial neural networks, bioinformatics, neurosciences

Citation