Implementation and comparison of variant calling in exome sequencing data with clinical applications

Utilize este identificador para referenciar este registo: https://hdl.handle.net/1822/79843

Título:	Implementation and comparison of variant calling in exome sequencing data with clinical applications
Autor(es):	Moreno, Marta Carolina Cabral
Orientador(es):	Ferreira, Pedro G. Rocha, Miguel
Data:	11-Dez-2018
Resumo(s):	Variant calling pipelines have been developed to help identify where and how the nu cleotide bases of a genome sequence differ from its respective reference sequence. Broadly, variant calling pipelines comprise short read aligners, which align reads against a reference genome, and variant callers, which search for variants on the aligned sequences. Differ ent read aligner and variant calling combinations have varying degrees of capability for capturing variants (recall) while reducing the amount of noise they produce (precision). Therefore, in recent years there has been an effort in comparing the performance of variant calling pipelines, although findings are far from concordant. Furthermore, some studies have postulated that the choice of sequencing technology may play a role even when all other conditions—sample, short read aligner, variant caller—remain the same. This study aims to benchmark the performance of several variant calling pipelines on ex ome data sets obtained from two sequencing technologies, Illumina and Ion Torrent. To that end, variants detected in sequences obtained from a well-characterized sample, NA12878, were compared against a set of high-confidence variant calls developed for this sample using recently proposed benchmarking best practices as a basis. This standardized framework for variant calling benchmarking replaces direct variant comparisons and Venn diagrams with more sophisticated methods. We report several in formative and well-defined performance measures (precision, recall, F1 score) and present Precision-Recall curves, which are helpful for assessing pipeline performance in a visual way. Following best practices we evaluate results at the genotype match level, reporting matches only when variants are observed in the same number of alleles. The combined performance of 13 pipelines comprising three short read aligners (Bowtie 2, BWA-MEM, and TMap) and four variant callers (BCFtools, Freebayes, HaplotypeCaller, VarScan 2, and Torrent Variant Caller), was assessed on four sequencing data sets. Our results suggest that globally variant detection appears to be independent of choice of read aligner. Overall, SNP detection performance is good for both technologies, its F1 scores averaging between 87.4% for Illumina and 84.4% for Ion Torrent. BCFtools pipelines offer the best or runner-up results for the two technologies. VarScan 2 also performs similarly well on Illumina data sets. In contrast, for indel detection, performance is very poor for Ion Torrent, with an average of 5.6% F1 score as compared to 63.1% F1 score on Illumina. The low precision levels reflected on the F1 scores reveal that there is still a long way towards improvement of indel detection, a type of variant with high impact in gene inactivation. Pipelines para deteção de variantes têm sido desenvolvidas para identificar diferenças entre sequência genómicas e sequências de referência. Genericamente, as pipelines para deteção de variantes são constituídas por mapeadores, que localizam short rends num genoma de referência, e detetores de variantes, que procuram encontrar variantes nas sequências pre-viamente mapeadas. Diferentes combinações de mapeadores e detetores de variantes pos-suem diferente capacidade na deteção de variantes (recall) e redução de ruído nos resultados (precision). Consequentemente, nos últimos anos tem-se comparado o desempenho destas pipelines, apesar destes achados ainda não serem concordantes. Ademais, alguns estudos postularam que a escolha de tecnologia de sequenciação poderá influenciar os resultados mesmo quando as demais condições amostra, mapeador, detetor de variantes—são iguais. Este estudo tem como objetivo avaliar o desempenho de pipelines para deteção de vari-antes quando aplicadas a conjuntos de dados exómicos sequenciados por duas tecnologias, 'ilumina e lon Torrent. Deste modo, as variantes detetadas em sequências obtidas a partir de uma amostra altamente caracterizada (NAl2878) foram comparadas com as presentes num conjunto de variantes de elevada confiança desenvolvido especificamente para esta amostra com base numa série de recomendações recentemente propostas. A avaliação padronizada de desempenho substitui a comparação direta de variantes e diagramas de Venn por métodos mais sofisticados. Neste trabalho descrevemos medidas estatísticas informativas (precision, rendi, e Fi score) e apresentamos curvas Precision-Recall que permitem visualizar o desemepenho das pipelines. Seguindo as recomendações, os re-sultados são avaliados ao nível do emparelhamento genómico, no qual duas variantes são consideradas iguais apenas se forem observadas no mesmo número de alelos. O desem-penho combinado de 13 pipelines constituídas por três mapeadores (Bowtie z, BWA-MEM, e TMap) e quatro detetores de variantes (BCFtools, Freebayes, HaplotypeCaller, VarScan 2, e Torrent Variant Caller) foi então avaliado em quatro conjuntos de dados de sequenciação. Os nossos resultados sugerem que, no geral, a deteção de variantes é independente da escolha de mapeador. Globalmente, o desempenho na deteção de SNPs é satisfatório para ambas as tecnologias, com Fi scores méddios de 874% para Ilumina e 84.4% para lon Tor-rent. A ferramenta 13CFTools apresenta dos melhores resultados para ambas as tecnologia, e a ferramenta VarScan 2 tem bom desempenho em dados Illumina. Por outro lado, na deteção de indels, o desempenho é muito fraco para lon Torrent, com Fi score médio de 5.6% em oposição a um Fi score médio de 63.1% para ilumina. Os baixos níveis de precision refletidos nos Fi scores revelam que os resultados de deteção de indels, um tipo de variante com elevado impacto na inativação de genes, carecem de grandes melhorias.
Tipo:	Dissertação de mestrado
Descrição:	Dissertação de mestrado em Bioinformatics
URI:	https://hdl.handle.net/1822/79843
Acesso:	Acesso aberto
Aparece nas coleções:	BUM - Dissertações de Mestrado CEB - Dissertações de Mestrado / MSc Dissertations

Ficheiros deste registo:

Ficheiro	Descrição	Tamanho	Formato
Marta Carolina Cabral Moreno.pdf	Dissertação de Mestrado	3,26 MB	Adobe PDF	Ver/Abrir

Ver registo completo Sugerir correção Estatísticas