Uudne meetod SNV genotüüpide määramiseks personaalse genoomi sekveneerimisandmetest

Date

2015

Journal Title

Journal ISSN

Volume Title

Publisher

Abstract

Genoomi variatsioonide uuringud on olulised mitme erineva valdkonna jaoks nagu näiteks personaalne meditsiin, evolutsiooniline analüüs või bakteritüvede tuvastamine. SNV-d, üksiku nukleotiidi variandid, on kõige põhjalikumalt uuritud variatsioonid genoomis ning seostatud mitmete tunnuste ja haigustega. Genoomiuuringud sõltuvad olulisel määral genoomist antud variatsioonide alleeli variantide määramise võimekusest, olemasolevad SNV genotüüpide määramise meetodid on aga võrdlemisi aeglased ja ebausaldusväärsed. Käesoleva magistritöö eesmärk on arendada välja uudne meetod SNV genotüüpide määramiseks kiiresti ning usaldusväärselt, jättes vahele kõige vigaderohkema etapi tavalisest SNV määramise töövoost. Selles töös tutvustati uut, k-meeridel põhinevat lähenemist SNV genotüüpide määramiseks. Arendati välja meetod SNV asukohti katvate unikaalsete k-meeride kasutamiseks antud SNV-de alleeli variantide leidmiseks. Töö käigus loodi programmid etteantud SNV-de jaoks unikaalsete k-meeride leidmiseks ning personaalse genoomi sekveneerimisandmetest genotüübi määramise metoodika testimiseks. Tutvustatud meetodit testiti nii simuleeritud kui reaalsete sekveneerimisandmetega, ühtlasi mõõdeti programmi aja- ja mälukasutust. Tulevaseks tööks toodi välja ka mõned soovitused programmi ajakulu vähendamiseks ning sekveneerimisandmetest määratud genotüüpide arvu suurendamiseks.
The genome variation studies are important for many areas like personal medicine, evolutionary analysis or bacterial strain identification. The single nucleotide variants (SNVs) are the most thoroughly studied variations in the genome, associated with different traits and diseases. Genomic studies depend greatly on the ability of detecting the allele variants of these variations present in personal genome. However, the methods used for calling SNV genotypes from personal sequencing data are not very fast nor reliable. The aim of this master's thesis was to develop a novel method for detecting SNV genotypes fast and reliably with a new approach that allows omitting the often error-prone step of read mapping used in the general variant calling pipelines. A k-mer based approach was introduced in this study for detecting SNV genotypes. A method was developed for using the unique k-mers covering the SNV locations for different allele variants to identify the genotypes of these SNVs. A program was created for compiling a list of unique k-mers for the allele variants of given SNVs and the method was tested using a program for detecting the genotype of these SNVs from the personal genome sequencing data. The method introduced in this study was tested on both simulated and real sequencing data and the memory and time usage was measured. Some recommendations were made for future work to reduce the time usage of the program as well as improving the detection of SNV genotypes.

Description

Keywords

Citation