Please use this identifier to cite or link to this item:
https://hdl.handle.net/1822/27893
Title: | Desenvolvimento de um sistema integrado para o tratamento de dados de sequenciação de próxima geração |
Author(s): | Reis, Marco André Ferreira |
Advisor(s): | Rocha, Miguel Soares, Simão Pedro de Pinho |
Issue date: | 2013 |
Abstract(s): | A sequenciação de próxima geração veio permitir a sequenciação em paralelo de milhões de
pares de bases de DNA / RNA, tendo tido desde o início um grande impacto, ao ponto de se
tornar o método escolhido em projetos de grande escala, em detrimento do método de Sanger.
Entre as principais aplicações desta tecnologia encontram-se a análise em larga escala
da metilação de DNA, o Chip-Seq para análise da interação entre proteínas e DNA ou RNA, e
o mapeamento de rearranjos estruturais. Destacam-se, especialmente, a sequenciação de
novos organismos ou indivíduos, o estudo de polimorfismos de nucleótido único (DNA-Seq) e
a análise de expressão genética (RNA-Seq).
Neste trabalho, foi desenvolvido um sistema onde foram integradas ferramentas necessárias
para estudos de DNA-Seq e RNA-Seq. Inicialmente, foi efetuado um estudo das aplicações
existentes, tendo de seguida sido selecionadas as que se destacaram em parâmetros
como a facilidade de utilização, documentação e possibilidade de integração com as restantes
ferramentas do sistema. O sistema foi desenvolvido utilizando-se as linguagens de programação
Ruby, Java e R, sendo as principais funcionalidades o estudo de polimorfismos, a
assemblagem de novo e a análise de expressão genética a partir de dados de RNA-Seq. Este
permite uma utilização simplificada e semiautomática dos vários programas, sendo acessível
a utilizadores com poucos conhecimentos informáticos.
O sistema foi testado em três casos de estudo: caracterização de duas estirpes de
Mycobacterium Tuberculosis, assemblagem de novo da Pseudomonas str. M1 e o estudo da
expressão genética em amostras de Saccharomyces cerevisiae. Next-generation sequencing has enabled the sequencing of millions of base pairs of DNA and RNA, in parallel. This technology had, from the beginning a great impact to the point of becoming the method of choice for large-scale projects, replacing the Sanger method. Among the many applications of this technology we can include the analysis of DNA methylation, the analysis of the interaction between proteins (Chip-Seq) and DNA or RNA, and the mapping of structural rearrangements. However, the sequencing of new organisms or individuals, the study of single nucleotide polymorphisms (DNA-Seq) and gene expression analysis (RNA-Seq) are the main fields of study with this technology. In this work, a system integrating tools to study DNA-Seq and RNA-Seq data has been developed, starting by studying existing applications. Then, taking into account parameters such as ease of use, documentation and possibility of integration with other system tools, an optimal set of tools has been selected. The system was developed using the Ruby, Java and R programming languages, and its main features are the study of polymorphisms, de novo genomes assemblies and gene expression analysis. The developed system allows a simplified and semiautomatic use of the implemented tools making them accessible to users with limited computer knowledge. The system was tested on three case studies: characterization of two strains of Mycobacterium tuberculosis, de novo assembly of Pseudomonas str. M1 and a study of gene expression in Saccharomyces cerevisiae samples. |
Type: | Master thesis |
Description: | Dissertação de mestrado em Bioinformática |
URI: | https://hdl.handle.net/1822/27893 |
Access: | Open access |
Appears in Collections: | BUM - Dissertações de Mestrado DI - Dissertações de Mestrado |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
eeum_di_dissertacao_pg19067.pdf | 2,13 MB | Adobe PDF | View/Open |