Sirvi Märksõna "bioinformatics" järgi
Nüüd näidatakse 1 - 20 24
- Tulemused lehekülje kohta
- Sorteerimisvalikud
listelement.badge.dso-type Kirje , listelement.badge.access-status Avatud juurdepääs , Analysis and visualisation of large scale microarray data(2015-07-06) Adler, PriitViimase paari aastakümne jooksul on genereeritud hulgaliselt suuremahulisi geeniekspressiooni andmestikke. Sellised andmestikud on hinnalised ja neid säilitatakse suurtes andmebaasides nagu näiteks GEO või Arrayexpress. Geenide, valkude, metaboliitide ja ensüümide omavahelised koostoimimised ja reaktsioonid on kokku kogutud ja süstematiseeritud bioloogiliste radade andmebaasidesse nagu KEGG ja Reactome. Suuremahuliste ekspressiooniandmete ja bioloogiliste radade ühildamine võimaldab kirjeldatud protsesse paremini analüüsida ja mõista. Väitekiri kirjeldab KEGGanim tööriista, mis ühildab suuremahulised geeniekspressiooni andmestikud ja KEGG bioloogiliste radade pildid. Tööriist loob interaktiivse animatsiooni üle erinevate eksperimendi tingimuste, võimaldades jälgida ajalist või tingimuslikku ja ruumilist ekspressiooni dünaamikat. Sellised animatsioonid sobivad kasutamiseks konverentsi ettekannetes, veebis või ka publikatsioonides. Suurt hulka avalikke geeniekspressiooni andmestikke on võimalik ära kasutada, et tuvastada uusi vastasmõjusid geenide vahel üle paljude bioloogiliste tingimuste. Selline analüüs võimaldab tuvastada ühiseid regulatoorseid mehhanisme, ühiseid funktsioone või rolle sarnastes bioloogilistes protsessides. Me oleme arendanud metoodika, mis võimaldab teha päringupõhist koos-ekspressiooni analüüsi üle sadade avalike geeniekspressiooni andmestike. Geenide koos-ekspressioon arvutatakse igas andmestikus eraldi ja tulemused koondatakse kokku ühiseks järjestatud nimekirjaks kasutades astakute agregeerimise meetodit. Selline lähenemine teeb võimalikuks hõlpsalt taaskasutada juba olemasolevaid geeniekspressiooni andmestikke ja tuvastada signaale, mida oleks keeruline leida analüüsides üksikuid andmestikke eraldi. Implementeeritud Multi Experiment Matrix (MEM) tööriist võimaldab interaktiivset andmete visualiseerimist ja pakub erinevaid võimalusi leitud tulemuste edasiseks analüüsiks. Arendatud astakute agregeerimise meetodit saab edukalt kasutada ka teistes meta-analüüsides, kus ühildatakse erinevatest allikatest pärit bioloogilisi andmestikke.listelement.badge.dso-type Kirje , listelement.badge.access-status Avatud juurdepääs , Bioinformatics analysis of various aspects in immunology(2024-04-10) Salumets, Ahto; Peterson, Hedi, juhendaja; Peterson, Pärt, juhendaja; Tartu Ülikool. Loodus- ja täppisteaduste valdkondBioinformaatika on interdistsiplinaarne valdkond, mis on segu nii bioloogiast, statistikast kui ka arvutiteadusest. Antud doktoritöös kasutasime bioinformaatilist analüüsi vastamaks mitmesugustele immunoloogilistele küsimustele. Üks töösse kaasatud artiklitest keskendus erinevate T-raku alatüüpide kirjeldamisele. T-rakud on adaptiivse immuunsüsteemi rakud, mis on olulised nii patogeenide eemaldamisel kui ka immunoloogilise mälu kujunemisel. Meil oli täpsemalt fookuses CD8+ TEMRA rakud, mida on varasemalt seostatud mitmesuguste haigustega. Oma töös kirjeldasime antud rakutüübi seoseid muuhulgas DNA metülatsiooniga, mis on raku fenotüübi kujunemiseks oluline keemiline modifikatsioon. Oma töös identifitseerisime sellised DNA positsioonid, mille metülatsiooni põhjal saime luua CD8+ TEMRA rakkude taset ennustava mudeli, mis võiks olla kasulik inimese tervisliku seisundi hindamisel. Ka teises doktoritöösse kaasatud uuringus keskendusime T-rakkudele, kuid sel korral keskendusime DNA metülatsiooni võrdlemisele konventsionaalsete ja immuunvastust supresseerivate regulatoorsete T-rakkude vahel. Me leidsime tuhandeid positsioone DNA-s, mille puhul olid need rakutüübid erinevad metüleeritud, kuid lisaks sellele leidsime ka erinevuse Graves’i tõve riskilookuses. Kuigi me ei suutnud välja selgitada, kuidas antud regioon võiks osaleda Graves’i haiguse väljakujunemisel, siiski loodame, et meie töö inspireerib teisi välja selgitama, kas antud regioonil on mõju regulatoorsete T-rakkude fenotüübile. Kolmandas artiklis uurisime T-raku arengus olulisi tüümuse säsi epiteelrakke. Meie analüüs vihjas, et antud rakutüüp differentseerub sarnaselt keratinotsüütidega ning selle hilisemad staadiumid võiksid olla olulised tüümuses normaalse põletikulise keskkonna loomisel, mis on T-rakkude arengu jaoks oluline. Kahes viimases töösse kaasatud artiklis andsime oma panuse COVID-19 uurimisse. Meie analüüs näitas, et iseäranis just raske COVID-19 kulg on seotud apoptootiliste signaaliradadega. Lisaks leidsime, et isegi asümptomaatilistel inimestel võib SARS-CoV-2 infektsioon kaasa tuua pikaajalise põletikuliste valkude taseme tõusu.listelement.badge.dso-type Kirje , listelement.badge.access-status Avatud juurdepääs , Bioinformatics approaches in personalised pharmacotherapy(2019-06-27) Tasa, Tõnis; Vilo, Jaak, juhendaja; Milani, Lili, juhendaja; Metsvaht, Tuuli, juhendaja; Tartu Ülikool. Loodus- ja täppisteaduste valdkondKogutavate terviseandmete hulk kasvab kiiresti. Tänu neile andmetele on meditsiinilise ravi pakkumisel võimalik senisest enam arvesse võtta individuaalseid bioloogilisi andmeid. See doktoritöö käsitleb mitmeid personaalses meditsiinis esinevaid probleeme ja näitab, et ravi individualiseerimiseks kasutatavad andmed tulevad väga erinevatest allikatest. Inimestevahelised erinevused teevad ravimite metabolismi ennustamise keerukaks, siiski on ravi käigus kogutavad kontsentratsioonimõõtmised ravimiefekti hindamisel heaks allikaks. Me arendasime välja täppisdoseerimise tööriista, mis võimaldab vankomütsiini ravil vastsündinutele määrata ravi tõhustavat personaalseid doose kasutades selleks nende endi ravi käigus kogutud kontsentratsioone. Suurema osa ravimiteraapiate puhul ei ole võimalik pidevalt ravimi kontsentratsioone koguda. Nende ülejäänud ravimite puhul on heaks informatsiooniallikaks geneetika. Paljude ravimimetabolismiga seotud geneetiliste variantide mõju on piisav, et tingida muutuseid ravi läbiviimisel. Me uurisime geneetika ja ravimite kõrvalmõjude omavahelisi seoseid kasutades rahvastikupõhist lähenemist. See toetus Eesti Geenivaramu geeniandmetele ja teistele laiapõhjalistele terviseandmete registritele. Me leidsime ja valideerisime seose, et CTNNA3 geenis olev geenivariant tõstab oksikaamide ravil olevate inimeste jaoks kõrvalmõjude sagedust. Arvutuslik geneetika toetub kvantitatiivsetele meetoditele, millest kõige levinum on ülegenoomne assotsiatsiooni analüüs (GWAS). Sagedasti kasutatav GWASi järelsamm on aega nõudev GWASist ilmnenud p-väärtuste visuaalne hindamine teiste samas genoomi piirkonnas olevate geneetiliste variantide kontekstis. Selle sammu automatiseerimiseks arendasime me kaks tööriista, Manhattan Harvester ja Cropper, mis võimaldavad automaatselt huvipakkuvaid piirkondi tuvastada ja nende headust hinnata.listelement.badge.dso-type Kirje , listelement.badge.access-status Avatud juurdepääs , Building a catalogue of molecular quantitative trait loci to interpret complex trait associations(2023-10-25) Kerimov, Nurlan; Alasoo, Kaur, juhendaja; Tartu Ülikool. Loodus- ja täppisteaduste valdkondKujutage ette, et olete ruumis, kus on üks laelamp ja sein, mida kaunistavad 100 salapärast lülitit. Nende juhtmed on peidetud ja nende eesmärk jääb mõistatuseks. Otsustate katsetada ja erinevaid lüliteid sisse-välja lülitades süttib järsku lamp. Edasisel erinevate kombinatsioonide katsetamisel märkate lambi heleduse muutumist. Mõne kombinatsiooni puhul põleb lamp eredalt, teiste puhul aga valgustab ruumi hämaralt. Peale mõningast nokitsemist hakkad aru saama, millised lülitite kombinatsioonid lambi heledust kõige enam mõjutavad. Kuid teie lõppeesmärk on lambi heledust täpselt oma äranägemise järgi juhtida. Tundub, et lülitid ise ei tekita elektrivooli. Pigem peavad nad käivitama nähtamatud elektrigeneraatorid. Mõistatus seisneb nüüd konkreetsete lülitite ja konkreetsete generaatorite vaheliste ühenduste väljaselgitamises, mis võimaldavad lambil põleda. Selle metafooriga püüdsin anda lihtsustatud ettekujutuse kvantitatiivse tunnuse lookuste ehk QTL analüüsist. Siin tähistavad lülitid geneetilisi variante, lamp sümboliseerib mõnda inimese mõõdetavat tunnust või haigust, generaatorid tähistavad geene ja ruum tähistab konkreetset rakutüüpi. Selles metafooris tähistab iga QTL konkreetse lüliti mõju ühele või enamale generaatorile. Kuid keerukus ületab kaugelt vaid 100 lülitit. Tegelikult on meil tegemist miljonitega. Ja kuigi lülitid (geneetilised variandid) on igas erinevas ruumis (rakutüüp) identsed, erineb lüliteid generaatoritega (geenidega) ühendav juhtmestike plaan ruumiti oluliselt. Käesolevad doktoritöös olen ma koostöös paljude partneritega loonud ulatusliku QTL-ide andmebaasi, mis hõlmab 127 erinevat inimese rakutüüpi ja kude. Lisaks oleme välja töötanud tööriistad nende QTL-ide paremaks tõlgendamiseks ja visualiseerimiseks. See andmebaas - eQTL Catalogue - on näidanud oma väärtust mitmetes teadusprojektides, parandades meie arusaamist inimese haiguste ja muude tunnuste geneetilistest alustest. Muuhulgas võimaldab meie andmebaasi hästi läbimõeldud ja säilenõtke taristu uute uurimismeetodite ilmnemisel kiiresti algandmeid uuesti analüüsida ja seeläbi kiiresti arenevas genoomiuuringute valdkonnas ajaga kaasas käia.listelement.badge.dso-type Kirje , listelement.badge.access-status Avatud juurdepääs , Computational and statistical methods for DNA sequencing data analysis and applications in the Estonian Biobank cohort(2018-11-27) Kals, Mart; Fischer, Krista, juhendaja; Tartu Ülikool. Loodus- ja täppisteaduste valdkondTänapäeval võimaldavad teise põlvkonna sekveneerimisel (next-generation sequencing, NGS) põhinevad meetodid määrata inimese genoomi järjestusi suurtes kohortides. Seejuures toodetakse väga suuri andmemahtusid, mis tekitavad mitmeid väljakutseid nii informaatika kui statistika valdkonnas. TÜ Eesti Geenivaramu (TÜ EGV) on aastatel 2002-2011 kogunud enam kui 50 000 inimese geeniproovi ja käesoleval aastal lisandub veel 100 000. Praeguseks hetkeks on üle 5 500 geenidoonori DNA-d analüüsitud erinevate NGS meetoditega. Käesolevas doktoritöös on pakutud üldine raamistik TÜ EGV-s toodetud NGS-andmete töötluseks ning lisaks on uuritud, kuidas võimalikult hästi arvestada Eesti päritolu isikute geneetilist eripära. Üheks levinud NGS meetodiks on eksoomi ehk kõigi valku kodeerivate geenipiirkondade sekveneerimine, mis võimaldab efektiivselt leida harvu ja de novo geenivariante ja leiab seetõttu rakendust meditsiinigeneetikas mendeliaarsete haiguste geenimutatsioonide tuvastamisel. Doktoritöö esimeses osas on analüüsitud kolme Eesti perekonna andmeid ja kõigil kolmel juhul kindlaks tehtud potentsiaalne patogeenne mutatsioon, mis lubab tulevikus välja töötada paremaid ravimeetodeid. Samuti on läbi viidud genoomi sekveneerimisandmete analüüs kliinilise vere näitajatega. See analüüs tõi välja populatsioonipõhise biopanga eelised, mis lisaks rikkalikele genoomiandmetele sisaldab ka väärtuslikku informatsiooni erinevate haiguste ja tunnuste kohta. Uuringus tuvastati olulisi seoseid CEBPA geenivariantide ja basofiilide arvu vahel, kusjuures viimasel on roll mitmete autoimmuunhaiguste sümptomaatikas. Ülegenoomsete assotsiatsiooniuuringute võimsuse suurendamiseks kasutatakse puuduvate geenivariantide ennustamist ehk imputeerimist. Muutmaks just Eesti päritolu isikute andmeanalüüsi tõhusamaks, on kasutatud genoomi sekveneerimisandmeid eestlaste-spetsiifilise imputatsioonipaneeli loomiseks. Seejärel on imputeeritud puuduvaid geenivariante kolmel moel – kasutades nii eestlaste-spetsiifilist kui ka kahte multi-etnilist paneeli. Võrdlustulemused näitasid, et eestlaste-spetsiifilise paneeli kasutamisel õnnestub määrata rohkem parema kvaliteediga geenivariante ning loodud paneeli eelis tuleb eriti esile harvaesinevate variantide puhul.listelement.badge.dso-type Kirje , listelement.badge.access-status Avatud juurdepääs , Computational methods for DNA copy number detection(2015-09-16) Palta, PriitDNA koopiaarvu variantideks või muutusteks nimetatakse selliseid erinevusi inimeste geneetilises materjalis, mille puhul mingi DNA lõigu koopiaarv on erinev oodatavast koopiaarvust kaks (üks koopia mingit kindlat DNA järjestust emalt päritud kromosoomil ja üks koopia isalt päritud kromosoomil). DNA koopiate vähenemist nimetatakse deletsiooniks ning vastavaid DNA variante nimetatakse deletsioonideks. DNA koopiate juurdetulemist nimetatakse duplitseerumiseks ning selliseid kahest suurema koopiaarvuga variante vastavalt duplikatsioonideks. Antud doktoritöös uuriti inimese DNA koopiaarvu variante, nende seotust erinevate haigustega ja nende tekkimise ja pärandumise eripärasid. Kasutades DNA mikrokiipe ehk geenikiipe uuriti esmalt kas ja millised DNA koopiaarvu muutused võivad olla seotud vaimse arengu mahajäämusega (VAM-ga). Uurides perekondasid, kus ühel või mitmel liikmel oli diagnoositud VAM, leiti mitmeid juba varem VAM-ga seostatud DNA koopiaarvu muutusi ning lisaks leiti ka mitmeid uusi DNA koopiaarvu variante, mille esinemine võib olla seotud VAM-e väljakujunemisega. Sarnane uuring viidi läbi ka korduva spontaanse raseduse katkemise probleemiga paaride ja naiste puhul. Võrreldes nende patsientide gruppi kuuluvate naiste DNA koopiaarvu muutusi ning nende sagedusi terveid emasid sisaldavate kontroll-grupi indiviidide omadega, leiti statistiliselt ja bioloogiliselt oluline erinevus muutunud koopiaarvuga DNA lõigus, mis sisaldab PDZD2 ja GOLPH3 geene ja kus esinevate duplikatsioonide „omamine“ suurendas naistel märkimisväärselt spontaanse raseduse katkemise ohtu. Doktoritöö viimases osas uuriti Tartu Ülikooli Eesti Geenivaramu ja rahvusvahelise HapMap projekti poolt kogutud tõsiste haigusteta inimestel esinevaid DNA koopiaarvu muutusi ja nende pärandumist perekondades. Selle uuringu üheks huvitavamaks tulemuseks oli deletsioonide alapärandumine vanematelt lastele ehk deletsioone kandvaid DNA regioone esines laste genoomides oluliselt vähem, kui normaalse Mendeliaalse (juhusliku) pärandumise korral oleks oodata võinud. Uurides duplikatsioonide regioone perekondades leiti aga, et kaks kolmandikku duplikatsioonides esinevatest DNA koopiatest ei olnud identsed (üksteise täpsed koopiad), vaid mõnevõrra erinevad, demonstreerides seniajani teadmata olnud alleelse varieeruvuse määra DNA duplikatsioonide regioonides.listelement.badge.dso-type Kirje , listelement.badge.access-status Avatud juurdepääs , Developing a bioinformatics pipeline gDAT to analyse arbuscular mycorrhizal fungal communities using sequence data from different marker regions(2020-07-06) Vasar, Martti; Öpik, Maarja, juhendaja; Young, J. Peter W., juhendaja; Tartu Ülikool. Loodus- ja täppisteaduste valdkondMullas on palju mikroorganisme, ning neil on oluline roll ökosüsteemide toimimisel. Üheks oluliseks mikroorganismide rühmaks on arbuskulaarset mükoriisat (AM) moodustavad seened (krohmseened). AM on seenjuure vorm, mida moodustavad krohmseened enamuse roht- ja puittaimedega, sealhulgas paljude kultuurtaimedega. Mükoriisses kooselus saab peremeestaim seene abil kasvuks vajalikke mineraalaineid ja vett, seen omakorda taimelt fotosünteesil tekkinud süsivesikuid. Lisaks parandavad AM seened taimede toimetulekut stressitingimustega, näiteks veepuuduse ja haigustekitajatega. Antud doktoritöös uuriti AM seente määramise efektiivsust kasutades kolme mikroorganismide määramiseks enim kasutatud genoomset markerpiirkonda (SSU, ITS, LSU) ja erinevate sekveneerimisplatvormide sobivust AM seente määramiseks ökoloogilistest proovidest. Doktoritöö raames valmis graafilise liidesega bioinformaatiline töövahend gDAT (graphical downstream analyse tool), mis aitab ökoloogidel analüüsida suuremahulisi DNA järjestusandmeid. Doktoritöö peamised tulemused ja järeldused on: 1) SSU markerpiirkond on piisavalt varieeruv AM seeneliikide määramiseks. Teisisõnu, selle markeri liigisisene varieeruvus on AM seentel väiksem kui liikidevaheline varieeruvus; 2) uute sekveneerimisplatvormide tulekuga on järjestuste maht proovi kohta mitmekordistunud, kuid liigirikkus proovi kohta püsib sama ja saadud ökoloogiline teave (elurikkuse hinnang) on võrreldav eelmise põlvkonna sekveneerimisplatvormil saaduga. Seega on metoodiliselt optimaalne proovipõhine järjestuste arv saavutatud AM seeneliikide määramiseks ning elurikkuse hindamiseks looduskeskkonnast; 3) lisaks SSU markerpiirkonnale saab arvukamaid AM seeni edukalt määrata ka järjestades koguseenekooslust ITS piirkonna praimersüsteeme kasutades; 4) arendatud bioinformaatiline töövahend gDAT võimaldab kiirelt, tõhusalt teostada AM seente uurimusi pärilikkusaine põhjal. See töövahend on kasutatav ka teiste organismide DNA-põhiseks määramiseks.listelement.badge.dso-type Kirje , listelement.badge.access-status Avatud juurdepääs , Developing and applying bioinformatics tools for gene expression data interpretation(2021-05-19) Kolberg, Liis; Peterson, Hedi, juhendaja; Tartu Ülikool. Loodus- ja täppisteaduste valdkondTänapäeva tehnoloogiad võimaldavad teadlastel korraga mõõta kõikide geenide avaldumise ehk ekspressiooni tasemeid erinevates tingimustes ja inimgruppides. Näiteks mõõdetakse geenide ekspressiooni kasvaja diagnoosiga inimeste vähi- ja normaalses koes. Tulemuseks on mahukad andmestikud kümnete tuhandete geenide ekspressioonitasemetega, kust otsitakse sarnase profiiliga geene, mis võivad olla kaasatud teatud vähitüübi avaldumisse. Selleks kasutatakse erinevaid andmekaeve meetodeid ning statistilisi teste, mis leiavad sarnaselt käituvate geenide grupid. Nende geenigruppide paremaks mõistmiseks koondatakse nende kohta teada olev info ja tuvastatakse sealt ühised kirjeldused. Nii võib leida varem vähem uuritud geenidele uusi funktsioone või uuritava haigusega seotud uusi geene. Sellise analüüsi raames on vaja rakendada mitmeid meetodeid ja teha suurel hulgal statistilisi teste, mille läbi viimiseks loovad bioinformaatikud erinevaid tööriistu. Käesolevas doktoritöös arendasime kahte tööriista, g:Profiler ja funcExplorer, mis aitavad geeniekspressiooni andmeid lihtsalt interpreteerida. g:Profiler leiab geeninimekirjade kirjeldustest olulise ühisosa, funcExplorer grupeerib sarnase profiiliga geenid, võttes arvesse ka g:Profileri leitud kirjeldusi. Muuhulgas esitavad antud tööriistad tulemusi jooniste abil ja interaktiivselt, võimaldades kiirelt hoomata andmete sisu ning jagada saadud tulemusi teistega. Töö teises osas uurisime geenide ekspressiooni mõjutavaid geneetilisi variante. Selleks leidsime funcExploreriga esmalt sarnase ekspressiooniga geenigrupid. Seejärel tuvastasime geneetilised variandid, mis mõjutavad nende geenide avaldumise taset. Lõpuks kasutasime g:Profilerit, et tõlgendada saadud gruppe ja seeläbi ka neid mõjutavaid geneetilisi variante. Tehtud analüüsi käigus leidsime uue seose, mille oluliseks osaks on ekspressiooni mõõtmise aeg ja tingimused ning kinnitasime mitmeid varasemalt leitud tugevaid seoseid geneetiliste variantide ja geeniekspressiooni vahel.listelement.badge.dso-type Kirje , listelement.badge.access-status Avatud juurdepääs , Developing Computational Solutions for Personalized Medicine(2019-06-27) Reisberg, Sulev; Vilo, Jaak, juhendaja; Tartu Ülikool. Loodus- ja täppisteaduste valdkondKuigi meditsiin on alati põhinenud patsiendi ja arsti vahelisel individuaalsel suhtlusel, on viimasel aastakümnel, seoses digitaalsete geeniandmete mahu hüppelise kasvuga, tulnud laiemasse kasutusse mõiste “personaalmeditsiin”, mille sisuks on muuta haiguste ennetus ja ravi senisest efektiivsemaks, võttes muuhulgas arvesse infot iga patsiendi individuaalse geneetilise tausta kohta. Sulev Reisbergi doktoritöö on seotud personaalmeditsiini rakendamisega Eesti tervishoiusüsteemis, kasutades Eesti Geenivaramu geeniandmeid ning käsitledes suuremahuliste arvutustega seotud küsimusi. Polügeensed riskiskoorid on matemaatilised arvutusmudelid, mis isiku geneetilise info põhjal ennustavad, kas tal on madal, keskmine või kõrge geneetiline risk teatud haiguse tekkimiseks. Käesolev doktoritöö on üks esimesi, kus sõnastati probleem, et need mudelid sobivad eelkõige eurooplastele, kuid teisest populatsoonist pärit isikule antud haiguse riskihinnang võib olla väär. Farmakogeneetika on valdkond, mis uurib, millise kiirusega meie kehad omastavad ravimeid. Kuigi vastavat teadmust on juba üsnagi palju, puudus seni selge samm-sammuline otsustusloogika, mis kirjeldaks, kuidas isiku geeniandmetest jõuda konkreetse ravimikoguse soovituseni. Sulev Reisbergi doktoritöö raames loodi tarkvara, mis selle töö ära teeb ning mille abil koostati farmakogeneetilise info raportid 44 tuhandele geenidoonorile. Selgus, et tervelt 99,8% geenidoonoritel esineb niisuguseid geenivariante, mis nõuaksid mõne ravimi puhul koguse kohandamist. Selleks, et personaalmeditsiini lahendused jõuaks kliinilistesse protsessidesse, aga ka uute geenide ja haiguste vaheliste seoste uurimiseks, on tarvis need lahendused integreerida olemasolevate terviseinfosüsteemidega. Doktoritöös ühendati omavahel geeniandmed ja digitaalsed terviseandmed ning viidi läbi nn fenoomiülene assotsiatsiooniuuring. Uuringus vaadeldi, milliste muude haigustega on seotud geenimutatsioonid, mis varasemalt on seostatud astma ja maksahaigustega. Tänaseks on käivitunud riiklik projekt vajaliku IT-infratstruktuuri loomiseks, mis võimaldaks võtta Sulev Reisbergi doktoritöö tulemusi kasutusele igapäevases kliinilises praktikas.listelement.badge.dso-type Kirje , listelement.badge.access-status Avatud juurdepääs , Development of a multi-platform metabarcoding bioinformatics software with an easy-to-use graphical user interface(Tartu Ülikool, 2024) Metsoja, Martin; Anslan, Sten, juhendaja; Tedersoo, Leho, juhendaja; Remm, Maido, juhendaja; Tartu Ülikool. Loodus- ja täppisteaduste valdkond; Tartu Ülikool. Molekulaar- ja rakubioloogia instituutMetabarcoding, a widely adopted technique in molecular ecology, enables the simultaneous identification of organisms from environmental samples. However, the sheer volume of sequencing data generated by metabarcoding, diverse DNA markers and sequencing platforms introduces complexity during downstream bioinformatic processing. Existing bioinformatic tools for metabarcoding data analysis often operate via command line interfaces, involve intricate installation procedures and lack cross-platform compatibility. To address these challenges, we introduce PipeCraft2, a novel software package developed using state-of-the-art tools such as Docker, Electron, and Vue.js. Key features of PipeCraft2 include straightforward installation, cross-platform support, an intuitive graphical user interface, four distinct pipelines, and a range of individual modules.listelement.badge.dso-type Kirje , listelement.badge.access-status Avatud juurdepääs , Estimating Concordance Between Measured and Predicted Genetic Variant Effects on Chromatin Accessibility(Tartu Ülikool, 2023) Kuningas, Kristiina; Alasoo, Kaur, juhendaja; Tartu Ülikool. Loodus- ja täppisteaduste valdkond; Tartu Ülikool. Arvutiteaduse instituutMany GWAS studies have identified genetic variants associated with human traits or diseases. However, understanding the underlying molecular mechanisms of those associations has been challenging. Chromatin accessibility is one of those traits that has been associated with a higher risk for a disease. If chromatin is not accessible, then transcription factors cannot bind to it and gene expression or protein synthesis cannot be initiated. This can lead to an altered risk for some diseases. Therefore, it is essential to study quantitative trait loci that affect chromatin accessibility (caQTLs). One of the approaches to find genetic variants is caQTL mapping. It uses open chromatin data and genotype imputation to find associations between genetic variants and chromatin accessibility. Additional fine-mapping distinguishes the potentially causal variants. In addition, deep learning models predicting genetic variants’ effects on molecular traits have been integrated into the studies to understand even better the biological mechanisms behind the associations between genetic variants and phenotypic traits. However, the predictive accuracy of these models is still unclear. In this thesis, we created five caQTL datasets for five different cell types based on the fine-mapping results. These datasets were then used to validate the performance of a state-of-the-art deep learning model Enformer in predicting genetic variant effects on chromatin accessibility. Although other studies have evaluated Enformer predictions already, then they have done it from gene expression perspective based on measured effects from RNA-seq data. This thesis, however, compares measured genetic variants’ effects on chromatin accessibility from ATAC-seq data to Enformer’s predicted effects. It compares both the effect size but also the direction of it. It provides an initial overview of how Enformer performs on chromatin accessibility. Results showed that Enformer performs pretty well on especially the variants for which it predicts stronger effects. In addition, it provided expected results when the cell type of a measured variant was different from the cell type of the predicted variant, meaning it had more opposite effects than it would have with a similar cell type. On the other hand, it also showed very low near-zero effect scores in many cases when the measured effect was higher.listelement.badge.dso-type Kirje , listelement.badge.access-status Avatud juurdepääs , Exploiting high-throughput data for establishing relationships between genes(2015-05-15) Peterson, HediGeenid määravad ära, millistest RNA ja valgu molekulidest elusorganism koosneb. Ainult geenide tuvastamisest ei piisa, et aru saada kuidas organism toimib, millal ja kuidas erinevad geenide produktid avalduvad ja mida need teevad. Elusorganismi olemuse mõistmiseks ja bioloogiliste protsesside mõjutamiseks on vajalik aru saada geenide ja valkude omavahelistest seostest. Suure läbilaskevõimega tehnoloogiad võimaldavad hõlpsasti mõõta bioloogiliste protsesside erinevaid tahke. See omakorda on toonud kaasa andmemahtude üha kiireneva kasvutrendi ning vajaduse uute meetodite järele, mis aitaks toorandmeid analüüsida, andmeid omavahel kombineerida ning tulemusi visualiseerida. Samuti on kasvanud vajadus arvutuslike meetoditega katsetada, kas olemasolevad andmemudelid kirjeldavad bioloogilist uurimisobjekti piisavalt täpselt. Käesolevas uurimistöös on näidatud erinevaid bioinformaatilisi meetodeid, kuidas suuremahuliste ning eritüübiliste eksperimentaalsete andmete kombineerimist saab rakendada geenidevaheliste seoste leidmiseks. Suuremahulistele andmetele on integreerimise ja omavahel võrreldavaks tegemisega võimalik anda lisaväärtust. Töö käigus koondati kokku ja tehti avalikkusele ligipääsetavaks embrüonaalsete tüvirakkude regulatsiooni käsitlevate publikatsioonide lisafailides avaldatud info ESCDb andmebaasi näol. Neid andmeid kasutades on teadlaskonnal võimalik leida geenide vahelisi seoseid, mida eraldiseisvaid andmeid analüüsides ei ole võimalik välja selgitada. Andmebaasi kogutud info kombineerimisel arvutusliku mudeldamisega õnnestus leida käesoleva töö raames uus regulaator embrüonaalsetes tüvirakkudes — IL11. Lisaks võimaldas erinevate andmetüüpide kombineerimine leida embrüonaalsete tüvirakkude keskse regulaatori — OCT4 geeni alternatiivsed märklaudgeenide moodulid. Kasutades DNA konserveerumisinfot koos regulatoorsete motiivide analüüsiga leiti kolm uut rasvatüvirakkude diferentseerumise regulaatorvalku. Samuti käsitletakse töös automaatset grupeerimis- ja visualiseerimismetoodikat VisHiC, mis aitab esile tõsta huvitavaid geenigruppe, mida teiste meetoditega edasi uurida. Töös on näidatud erinevaid suuremahuliste andmestike integreerimise viise, mis võimaldavad leida selliseid geenidevahelisi seoseid, mida ei oleks võimalik leida kui analüüsiksime üht andmestikku korraga.listelement.badge.dso-type Kirje , listelement.badge.access-status Avatud juurdepääs , Human genome studies with k-mer frequencies(Tartu Ülikooli Kirjastus, 2025-07-11) Puurand, Tarmo; Maido Remm, juhendaja; Kaplinski, Lauris, juhendaja; Tartu Ülikool. Loodus- ja täppisteaduste valdkondInimese genoom on keeruline ja pidevas muutumises – seal toimuvad mutatsioonid kogu aeg. Kuigi genoomi uurimine oli veel 25 aastat tagasi aeglane ja kallis, on tehnoloogia areng toonud kaasa suure läbimurde. Varem kasutati peamiselt DNA mikrokiipe, mis tuvastasid üheaegselt üksikuid muutusi ehk SNP-sid. Tänapäeval saab järjestada terve genoomi ja analüüsida miljardeid andmepunkte korraga. Selles töös kasutati uudset lähenemist, mis põhineb nn k-meride analüüsil. K-merid on lühikesed DNA lõigud (25 tähte), mille esinemissagedust saab arvutada ilma kõigi ühe inimese järjestusi eelnevalt ajakulukalt standardiga võrdlemata. See teeb andmetöötluse kiiremaks ja võimaldab tuvastada ka selliseid muutusi, mida varasemad meetodid ei näinud – eriti korduvates või tehniliselt keerulistes piirkondades. Töö üks olulisemaid uuendusi on Y-kromosoomi põlvnevusgruppide määramine väga väikese DNA koguse põhjal. Kui tavaliselt vajatakse usaldusväärseks analüüsiks 20-kordset kordust üle andmete, siis siin kasutati vähem kui 1% juhuslikku osa genoomist. See oli võimalik tänu korduvatele DNA järjestustele Y-kromosoomis, mida varem peeti analüüsimiseks liiga keeruliseks. Uuringus käsitletud meetod kasutab neid kordusi omamoodi loodusliku "võimendusena", nagu DNA paljundamine laboris. Aja jooksul on need piirkonnad kogunud unikaalseid muutusi, mis aitavad määrata inimese isaliini ehk haplogruppi. See tehnoloogiline lähenemine – k-meride sagedusel põhinev, joondusvaba ja suure ulatusega – avab uusi võimalusi genoomi uurimisel, eriti olukordades, kus andmeid on vähe või kus traditsioonilised meetodid jäävad hätta.listelement.badge.dso-type Kirje , listelement.badge.access-status Avatud juurdepääs , Inferring causality between transcriptome and complex traits(2021-03-22) Lepik, Kaido; Peterson, Hedi, juhendaja; Vilo, Jaak, juhendaja; Tartu Ülikool. Loodus- ja täppisteaduste valdkondHaiguste mõistmiseks ja ravimiseks on keskseks eelduseks põhjuslike, haigusprotsessides osalevate geenide väljaselgitamine – selliste geenide poolt kodeeritud valkude tööd saab ravimite abil haigustele pärssivalt ümber korraldada. Põhjuslike seoste leidmisel on peamiseks standardiks laboratoorsed katsed ja kontrollgrupiga kliinilised uuringud, kuid nende läbiviimine on kulukas ja aeganõudev. Käesolevas doktoritöös näitame, et haigusi ja teisi kompleksseid fenotüübilisi tunnuseid põhjuslikult mõjutavaid geene saab märksa efektiivsemalt tuvastada statistiliste meetoditega. Geneetikas on põhjuslik analüüs alles hiljuti hoo sisse saanud seoses rahvuslike biopankade poolt kogutud suurte andmemahtude rakendamisega. Valdkond on uudne ja suure potentsiaaliga, mistõttu on vastav matemaatiline teooria alles kujunemisjärgus ja kiiresti arenev. Pühendame doktoritöös märkimisväärset tähelepanu nii selle teooria süstemaatilisele esitusele kui ka praktilistele edasiarendustele. Põhjusliku statistilise analüüsi alusprintsiipe rakendades töötame välja metoodika põhjuslike geenide tuvastamiseks väikestest valimitest (n ≈ 500), informeerides põletikumarkeri C-reaktiivse valgu funktsiooni immuunvastuses. Domeeniteadmistele tuginedes loome põhjuslike mudelite eelduste suhtes robustse algoritmi, mis võimaldab mistahes haiguse või komplekstunnuse toimemehhanismides olulist rolli omavaid geene avastada hüpoteesivabalt üle terve genoomi. Süvitsi vaatleme ühes haigustega seotud genoomipiirkonnas (16p11.2) leiduvate geenide mõju reproduktiivtervisele, osutades just funktsionaalselt olulistele geenidele. Personaalmeditsiini arenguid silmas pidades uurime ka põhjuslike geenide sõltuvust soost. Samuti hüpotiseerime, kas populaarsed assotsiatsiooniuuringud geenide ja haiguste vahel tuvastavad põhjuslikke geene, haigustest tingitud muutusi geeniekspressioonis või pelgalt juhuslikku müra. Peamised teadustöö tulemused verifitseerime laboris katseliselt.listelement.badge.dso-type Kirje , listelement.badge.access-status Avatud juurdepääs , Integrating image analysis and quantitative modeling for a holistic view of GPCR ligand binding dynamics(2023-07-17) Laasfeld, Tõnis; Rinken, Ago, juhendaja; Parts, Leopold, juhendaja; Tartu Ülikool. Loodus- ja täppisteaduste valdkondOletatavasti on tulnud kõnekäänd “mõru pilli alla neelama” ravimite kõige tuntumast kõrvaltoimest, mõrust maitsest. Paljudel ravimitel on aga tõsisemad kõrvaltoimed ning tervele hulgale haigustele polegi ravi. Erinevad teadusharud panustavad ravimite väljatöötamisse ja olemasolevate edasiarendamisse. Ravimi ülesanne on muuta retseptorkontrollitud protsesse organismis, et tekiks raviv või sümptomeid leevendav efekt. Üks olulisemaid ravimite märklaudu on G-valk seotud retseptorid. Inimeses on ligi 800 erinevat G-valk seotud retseptorit, mis reguleerivad erinevaid funktsioone nagu nägemine ja südame toimimine. Senini ei ole suudetud retseptorsüsteemide kõiki eripärasid lahti muukida. Doktoritöös arendati välja spektroskoopial ja mikroskoopial põhinevad katsesüsteemid, et jälgida ravimimolekulide retseptoritele seostumist nii lipiidsetes nanoosakestes kui ka elusates rakkudes. Näiteks õnnestus täieliku sisepeegeldusmikroskoobiga jälgida üksikute fluorestseeruvate ravimimolekulide seostumist retseptorile nanoosakeste pinnal. Kuna meetodid toodavad sadade gigabaitide kaupa andmeid, loodi Tarkvara Aparecium, mis koos sügavõppemudelitega suudab sellest andmehulgast olulise info välja sõeluda. Katsesüsteemide abil loodi kineetilised mudeleid, mis suudavad dünaamiliselt kirjeldada ja ennustada ravimainete retseptorile seostumist. Näiteks leiti, et muskariinsed M2 atsetüülkoliini retseptorid paiknevad membraanides enamasti paarikaupa ning pärast ravimimolekuli kinnitumisel ühele retseptorile lukustab teine ravimimolekul esimese kinni. Selle teadmise abil saaks disainida pikema toimeajaga või hoopis uute omadustega ravimeid. Edaspidi võiks mudeleid ja meetodeid kasutades läbi sõeluda suure hulga molekule ja leida need, millel on need huvitavad omadused olemas.listelement.badge.dso-type Kirje , listelement.badge.access-status Avatud juurdepääs , Integration methods for heterogeneous biological data(2019-05-22) Sügis, Elena; Vilo, Jaak, juhendaja; Peterson, Hedi, juhendaja; Tartu Ülikool. Loodus- ja täppisteaduste valdkondTänu tehnoloogiate arengule on bioloogiliste andmete maht viimastel aastatel mitmekordistunud. Need andmed katavad erinevaid bioloogia valdkondi. Piirdudes vaid ühe andmestikuga saab bioloogilisi protsesse või haigusi uurida vaid ühest aspektist korraga. Seetõttu on tekkinud üha suurem vajadus masinõppe meetodite järele, mis aitavad kombineerida eri valdkondade andmeid, et uurida bioloogilisi protsesse tervikuna. Lisaks on nõudlus usaldusväärsete haigusspetsiifiliste andmestike kogude järele, mis võimaldaks vastavaid analüüse efektiivsemalt läbi viia. Käesolev väitekiri kirjeldab, kuidas rakendada masinõppel põhinevaid integratsiooni meetodeid erinevate bioloogiliste küsimuste uurimiseks. Me näitame kuidas integreeritud andmetel põhinev analüüs võimaldab paremini aru saada bioloogilistes protsessidest kolmes valdkonnas: Alzheimeri tõbi, toksikoloogia ja immunoloogia. Alzheimeri tõbi on vanusega seotud neurodegeneratiivne haigus millel puudub efektiivne ravi. Väitekirjas näitame, kuidas integreerida erinevaid Alzheimeri tõve spetsiifilisi andmestikke, et moodustada heterogeenne graafil põhinev Alzheimeri spetsiifiline andmestik HENA. Seejärel demonstreerime süvaõppe meetodi, graafi konvolutsioonilise tehisnärvivõrgu, rakendamist HENA-le, et leida potentsiaalseid haigusega seotuid geene. Teiseks uurisime kroonilist immuunpõletikulist haigust psoriaasi. Selleks kombineerisime patsientide verest ja nahast pärinevad laboratoorsed mõõtmised kliinilise infoga ning integreerisime vastavad analüüside tulemused tuginedes valdkonnaspetsiifilistel teadmistel. Töö viimane osa keskendub toksilisuse testimise strateegiate edasiarendusele. Toksilisuse testimine on protsess, mille käigus hinnatakse, kas uuritavatel kemikaalidel esineb organismile kahjulikke toimeid. See on vajalik näiteks ravimite ohutuse hindamisel. Töös me tuvastasime sarnase toimemehhanismiga toksiliste ühendite rühmad. Lisaks arendasime klassifikatsiooni mudeli, mis võimaldab hinnata uute ühendite toksilisust.listelement.badge.dso-type Kirje , listelement.badge.access-status Avatud juurdepääs , Integrative omics approaches for analyzing endometrial pathologies and cancer classification(Tartu Ülikooli Kirjastus, 2025-10-03) Lawarde, Ankita Sunil; Modhukur, Vijayachitra, juhendaja; Salumets, Andres, juhendaja; Tartu Ülikool. Meditsiiniteaduste valdkondMikroRNA-d (miRNA-d) on väikesed mittekodeerivad RNA molekulid, mis reguleerivad geeniekspressiooni. miRNA-d on olulised vähibioloogias, sest nad mõjutavad rakkude paljunemist, programmeeritud rakusurma (apoptoosi) ja diferentseerumist. Günekoloogilistes vähkkasvajates, nagu munasarja-, emakakaela- ja endomeetriumivähk, toimivad miRNA-d nii onkogeensete kui ka kasvajat pärssivate molekulidena, avaldades mõju haiguse progresseerumisele ja ravi tulemuslikkusele. Tänu oma stabiilsusele kehavedelikes on miRNA-d potentsiaalsed mitteinvasiivsed vähi tuvastamise biomarkerid. Endometrioos on krooniline günekoloogiline haigus, mida iseloomustab emaka limaskesta sarnase koe kasv väljaspool emakat, milles on sarnaselt vähiga toimunud metaboolsed ja hormonaalsed muutused. Need protsessid põhjustavad valu, viljatust ja kõrgenenud vähiriski. Geeniekspressiooni regulatsiooni mõistmine nii vähi kui endometrioosi puhul aitab tuvastada uusi biomarkereid ja ravisihtmärke. Käesolevas uuringus kasutati integreeritud oomika lähenemisi, et uurida miRNA-de rolli vähi algkoe klassifitseerimises ja endometrioosis. Kasutades masinõppe mudeleid ja erinevaid suurandmestikke (vähigenoomi atlas - The Cancer Genome Atlas (TCGA) ja Gene Expression Omnibus (GEO)) , saavutati miRNA-de ekspressioonimustri alusel 14 erineva vähitüübi klassifitseerimisel ligi 99% täpsus. Tulemuste kättesaadavuse lihtsustamiseks töötati välja interaktiivne R Shiny rakendus ExplORRNet, mis võimaldab visualiseerida miRNA-mRNA-lncRNA võrgustikke, teostada staadiumispetsiifilisi analüüse ning uurida tsirkuleerivaid miRNA biomarkereid günekoloogiliste vähkide ja rinnavähi korral. Välja töötatud rakendus toetab ka elulemusanalüüsi ja signaaliradade funktsionaalseid uuringuid, aidates avastada uusi potentsiaalseid biomarkereid. Endometrioosikollete ja endomeetriumi koe üksikraku RNA sekveneerimine võimaldas määrata nende kudede rakulise koostise. Transkriptoomi analüüs tuvastas kollete strooma-, perivaskulaarsetes ja endoteelirakkudes vähirakkudele omase Warburgi efektile sarnase metaboolse ümberkorralduse . Endomeetriumi ja munasarja endometrioomi koe võrdluses ilmnes häiritud menstruaaltsükli sünkroonsus, mis kinnitab, et kolded on molekulaarsel tasemel endomeetriumist erinevad ja seda tuleb biomarkerite otsingutel arvesse võtta.. Kokkuvõttes rõhutab see uuring miRNA-de ekspressioonil põhineva vähi klassifitseerimise diagnostilist potentsiaali ja laiendab arusaama endometrioosi patogeneesist. Bioinformaatika vahendite arendamine edendab andmete tõhusamat analüüsi ning aitab kaasa täppismeditsiini arengule onkoloogias ja reproduktiivmeditsiinis.listelement.badge.dso-type Kirje , listelement.badge.access-status Avatud juurdepääs , K-mer based methods for the identification of bacteria and plasmids(2018-06-14) Roosaare, Märt; Remm, Maido, juhendaja; Tartu Ülikool. Loodus- ja täppisteaduste valdkondMikroorganismid on Maad asustanud juba miljardeid aastaid ning neid leidub peaaegu kõikjal. Isegi meie oleme nendega lahutamatult seotud – baktereid elab nii meie nahal kui ka soolestikus. Osad bakteritest võivad aga olla patogeensed ja põhjustada haigusi. Näiteks oli keskajal suure hulga elanikkonnast tapnud Musta Surma põhjustajaks katkubakter Yersinia pestis. Tänapäeval aitavad meid bakterite vastu antibiootikumid, kuid järjest suurem probleem on antibiootikumiresistentsuse laialdane levik. Sellele aitavad kaasa plasmiidid – bakterites olevad DNA järjestused, mis on bakteri enda kromosoomist eraldiseisvad ning mida bakterid võivad kiirelt üksteisele edasi anda. Käesoleva doktoritöö eesmärgiks oli luua bakterite ja plasmiidide tuvastamiseks meetodid, mis võimaldaksid töötada sekveneerimiskeskuste poolt toodetud toorandmetega. Ülesande lahendamiseks otsustasime kasutada k-meeridel põhinevat analüüsi. K-meer tähistab lühikest DNA juppi pikkusega k nukleotiidi. Pikema DNA järjestuse, näiteks bakterigenoomi, saab jagada lühemateks k-meerideks ning vaadelda seda kui k-meeride kogumit. Sellise lähenemise eeliseks on sõltumatus lugemi pikkusest – kõik lugemid sisaldavad k-meere ning analüüsides k-meeride hulki, on võimalik määrata algse proovi koostis. StrainSeeker on meie töögrupis loodud programm bakteritüvede määramiseks. Me arendasime välja uudse algoritmi, mis näitab proovis esineva bakteri eeldatavat asukohta kasutaja poolt ette antaval fülogeneetilisel puul. Lõime ka visuaalse kasutajaliidesega veebiserveri. Plasmiidide tuvastamiseks eeldasime, et plasmiidide arv bakteri rakus on tavaliselt suurem bakteri kromosoomi omast, seega võiks ka plasmiidi k-meeride keskmine esinemissagedus olla suurem kui bakteri kromosoomi k-meeride puhul. Me testisime oma programmi, mis sai nimeks PlasmidSeeker, nii simuleeritud kui ka reaalsete bakteri täisgenoomi sekveneerimisandmestikega, millede puhul oli teada proovide tegelik koostis. PlasmidSeeker leidis üles kõik proovides olnud plasmiidid ning määras täpselt ka nende koopiaarvu. Kokkuvõttes oleme oma tööga andnud panuse arvutuslikku mikrobioloogiasse, luues uued võimalused bakteriaalsete proovide analüüsiks.listelement.badge.dso-type Kirje , listelement.badge.access-status Avatud juurdepääs , Long-read metabarcoding: from available tools to reference databases(Tartu Ülikooli Kirjastus, 2026-01-26) Hakimzadeh, Ali; Anslan, Sten, juhendaja; Tedersoo, Leho, juhendaja; Tartu Ülikool. Loodus- ja täppisteaduste valdkondTraditsioonilised meetodid, nagu morfoloogia abil liikide määramine koosluste monitooringuks, on sageli aeganõudvad, eriti mikroskoopiliste organismide puhul, mistõttu on mass-triipkoodistamine (metabarcoding) läbi mass-sekveneerimise saanud populaarseks, kiireks ja kulutõhusaks erinevate koosluste tuvastamise meetodiks. Enim kasutatavad tehnoloogiad mass-triipkoodistamise töövoos on nn teise põlvkonna mass-sekveneerimise platvormid. Kuigi need suudavad genereerida miljoneid kõrge täpsusega DNA fragmente, on teise põlvkonna tehnoloogiate poolt sünteesitud järjestused suhteliselt lühikesed, mis võib limiteerida lähedalt suguluses olevate liikide eristamist. Kolmanda põlvkonna mass-sekveneerimise tehnoloogiad suudavad järjestada palju pikemaid DNA lõike, mis hõlmavad terveid geeniregioone, parandades seeläbi taksonoomilise eristamise võimekust. Suhteliselt uudne võimekus toota palju pikemaid liikide määramiseks sobilikke DNA lõike toob aga kaasa ka uusi analüütilisi väljakutseid: paljud olemasolevad bioinformaatika tööriistad on välja töötatud lühikeste järjestuste analüüsiks, pikkade järjestuste jaoks puuduvad põhjalikud referentsandmebaasid ning kimäärsete (mitte-bioloogiliste) järjestuste moodustumine võib pikkade järjestuste sekveneerimiseks genereerimise käigus olla problemaatilisem. Käesolev doktoritöö annab esiteks ülevaate paljudest olemasolevatest bioinformaatika töövoogudest pakkudes praktilist juhtnööri sobivate bioinformaatiliste tööriistade valimiseks lähtuvalt analüüsitavast andmestruktuurist. Teiseks, töötati välja EUKARYOME andmebaas, mis on esimene kureeritud pikkade ribosomaalse RNA markerite referentsandmebaas, hõlmates üle 172000 liigi. Kolmandaks, antud doktoritöö käigus leiti, et olemasolevad kimäärsete DNA järjestuste tuvastamise algoritmid klassifitseerivad paljusi bioloogilisi järjestusi ekslikult kimääridena, ehk valepositiivsete tuvastuste määr on vaikimisi sätetega suur. Parameetrite peenhäälestamine ja sekundaarsed valideerimisstrateegiad aga parandasid analüüside täpsust. Ühiselt, need doktoritöö tulemused ja ressursid edendavad pikkade järjestuste mass-triipkoodistamise töövoogu kui elurikkuse hindamise usaldusväärset tööriista.listelement.badge.dso-type Kirje , listelement.badge.access-status Avatud juurdepääs , Neural networks for analyzing biological data(2020-09-02) Tampuu, Ardi; Zafra, Raul Vicente, juhendaja; Tartu Ülikool. Loodus- ja täppisteaduste valdkondTehisnärvivõrgud viimastel aastatel populaarsust kogunud masinõppe algoritm, mis on võimeline näidete põhjal õppima. Erinevad tehisnärvivõrkude alamtüübid on kasutusel mitmetes arvutiteaduse harudes: konvolutsioonilisi võrke rakendatakse objekti- ja näotuvastuses; rekurrentsed võrgud on efektiivsed kõnetuvastuses ja keeletehnoloogias. Need ei ole aga ainsad võimalikud tehisnärvivõrkude rakendamise valdkonnad - selles doktoritöös näitasime me tehisnärvivõrkude kasulikkust kahe bioloogilise probleemi lahendamisel. Esiteks küsisime, kas ainult DNA jupis sisalduva info põhjal on võimalik ennustada, kas see järjestus pärineb viiruse (ja mitte mõnda muud tüüpi organismi) genoomist. Läbi kahe publikatsiooni tõestasime me, et masinõppe algoritmid on selleks tõesti võimelised. Parima täpsuse saavutas konvolutsiooniline närvivõrk. Loodud lahendus võimaldab viroloogidel tuvastada seni tundmatuid viiruseliike, millel võib olla oluline mõju inimese tervisele. Teine käsitletud bioloogiline andmestik pärineb neuroteadusest. Imetajate hipokampuses esineb nn. koharakke, mis aktiveeruvad vaid juhul, kui loom asub teatud ruumipunktis. Näitasime, et rekurrentsete närvivõrkude abil saab vaid mõnekümne koharaku aktiivsuse põhjal ennustada roti asukohta ligi 10 cm täpsusega. Rekurrentsed võrgud osutusid efektiivsemaks kui neuroteaduses enim levinud Bayesi meetodid. Need võrgud suudavad kasutada rakkude eelnevat aktiivsust kontekstina, mis aitab täpsustada asukoha ennustust. Ka teistes neuroandmestikes võib eelnev ajuaktiivsus peegeldada konteksti, mis sisaldab olulist infot hetkel toimuva kohta. Seega võivad rekurrentsed tehisnärvivõrgud osutuda ajusignaalide mõistmisel ülimalt kasulikuks. Samuti on bioinformaatikas veel hulk andmestikke, kus konvolutsioonilised võrgud võivad osutuda efektiivsemaks kui senised meetodid. Loodame, et käesolev töö julgustab teadlasi tehisnärvivõrke proovima ka oma andmestikel.