K-mer based methods for the identification of bacteria and plasmids

Date

2018-06-14

Journal Title

Journal ISSN

Volume Title

Publisher

Abstract

Mikroorganismid on Maad asustanud juba miljardeid aastaid ning neid leidub peaaegu kõikjal. Isegi meie oleme nendega lahutamatult seotud – baktereid elab nii meie nahal kui ka soolestikus. Osad bakteritest võivad aga olla patogeensed ja põhjustada haigusi. Näiteks oli keskajal suure hulga elanikkonnast tapnud Musta Surma põhjustajaks katkubakter Yersinia pestis. Tänapäeval aitavad meid bakterite vastu antibiootikumid, kuid järjest suurem probleem on antibiootikumiresistentsuse laialdane levik. Sellele aitavad kaasa plasmiidid – bakterites olevad DNA järjestused, mis on bakteri enda kromosoomist eraldiseisvad ning mida bakterid võivad kiirelt üksteisele edasi anda. Käesoleva doktoritöö eesmärgiks oli luua bakterite ja plasmiidide tuvastamiseks meetodid, mis võimaldaksid töötada sekveneerimiskeskuste poolt toodetud toorandmetega. Ülesande lahendamiseks otsustasime kasutada k-meeridel põhinevat analüüsi. K-meer tähistab lühikest DNA juppi pikkusega k nukleotiidi. Pikema DNA järjestuse, näiteks bakterigenoomi, saab jagada lühemateks k-meerideks ning vaadelda seda kui k-meeride kogumit. Sellise lähenemise eeliseks on sõltumatus lugemi pikkusest – kõik lugemid sisaldavad k-meere ning analüüsides k-meeride hulki, on võimalik määrata algse proovi koostis. StrainSeeker on meie töögrupis loodud programm bakteritüvede määramiseks. Me arendasime välja uudse algoritmi, mis näitab proovis esineva bakteri eeldatavat asukohta kasutaja poolt ette antaval fülogeneetilisel puul. Lõime ka visuaalse kasutajaliidesega veebiserveri. Plasmiidide tuvastamiseks eeldasime, et plasmiidide arv bakteri rakus on tavaliselt suurem bakteri kromosoomi omast, seega võiks ka plasmiidi k-meeride keskmine esinemissagedus olla suurem kui bakteri kromosoomi k-meeride puhul. Me testisime oma programmi, mis sai nimeks PlasmidSeeker, nii simuleeritud kui ka reaalsete bakteri täisgenoomi sekveneerimisandmestikega, millede puhul oli teada proovide tegelik koostis. PlasmidSeeker leidis üles kõik proovides olnud plasmiidid ning määras täpselt ka nende koopiaarvu. Kokkuvõttes oleme oma tööga andnud panuse arvutuslikku mikrobioloogiasse, luues uued võimalused bakteriaalsete proovide analüüsiks.
Microbes have roamed Earth for billions of years and can be found almost anywhere. They are present even on our skin and in our gut. However, some bacteria can be pathogenic and cause diseases. For instance, the Black Death, which killed millions during the Middle Ages, was caused by the bacterium Yersinia pestis. Nowadays, antibiotics protect us against the bacterial threat, but a new problem is looming – widespread antibiotic resistance. This is partly facilitated by plasmids – DNA sequences which are separate from the bacterial chromosome and can be readily passed from one bacterium to the other. The general goal of this work was to develop methods for the identification of bacteria and plasmids from raw data produced by sequencing centers. We decided to use k-mer based analysis for this task. K-mer itself is simply a short stretch of DNA with a length of k nucleotides. A long DNA sequence, such as a bacterial genome, can be divided into shorter k-mers and analyzed as a whole. This has the advantage of not being limited by read length – any read contains k-mers and by analyzing these, we can identify the contents of the sample. StrainSeeker is a bacterial identification program developed by our group. We developed a novel algorithm that predicts the location of an isolated bacterium on the user-provided phylogenetic tree. Also, we created a web server with a visual interface for users with limited bioinformatics experience. For plasmid detection, we assumed that the plasmid copy number is usually higher compared to the bacterial chromosome. This means that the average frequency of plasmid k-mers should also be higher than the frequency of chromosomal k-mers. We named the program PlasmidSeeker and tested it with real and simulated bacterial whole genome sequencing samples, in which the real plasmid content was known. PlasmidSeeker detected all plasmids and accurately estimated their copy numbers. With our work, we have made a contribution to the field of computational microbiology and provided novel means for the analysis of bacterial samples.

Description

Väitekirja elektrooniline versioon ei sisalda publikatsioone

Keywords

bacteria, plasmids, DNA tandem repeats, identification, data analysis, bioinformatics

Citation