Utilize este identificador para referenciar este registo:
https://hdl.handle.net/1822/56113
Título: | Development of an automated pipeline for meta-omics data analysis |
Autor(es): | Costa, João Carlos Sequeira |
Orientador(es): | Salvador, Andreia Filipa Ferreira Rocha, Miguel |
Data: | 2017 |
Resumo(s): | Knowing what lies around us has been a goal for many decades now, and the new advances in sequencing technologies and in meta-omics approaches have permitted to start answering some of the main questions of microbiology - what is there, and what is it doing?
The exponential growth of omics studies has been answered by the development of
some bioinformatic tools capable of handling Metagenomics (MG) analysis, with a scarce
few integrating such analysis with Metatranscriptomics (MT) or Metaproteomics (MP) studies.
Furthermore, the existing tools for meta-omics analysis are usually not user friendly,
usually limited to command-line usage.
Because of the variety in meta-omics approaches, a standard workflow is not possible,
but some routines exist, which may be implemented in a single tool, thereby facilitating
the work of laboratory professionals. In the framework of this master thesis, a pipeline for
integrative MG and MT data analysis was developed. This pipeline aims to retrieve comprehensive
comparative gene/transcript expression results obtained from different biological
samples. The user can access the data at the end of each step and summaries containing several
parameters of evaluation of the previous step, and final graphical representations, like
Krona plots and Differential Expression (DE) heatmaps. Several quality reports are also
generated. The pipeline was constructed with tools tested and validated for meta-omics
data analysis. Selected tools include FastQC, Trimmomatic and SortMeRNA for preprocessing,
MetaSPAdes and Megahit for assembly, MetaQUAST and Bowtie2 for reporting on
the quality of the assembly, FragGeneScan and DIAMOND for annotation and DeSEQ2 for
DE analysis.
Firstly, the tools were tested separately and then integrated in several python wrappers to
construct the software Meta-Omics Software for Community Analysis (MOSCA). MOSCA
performs preprocessing of MG and MT reads, assembly of the reads, annotation of the
assembled contigs, and a final data analysis.
Real datasets were used to test the capabilities of the tool. Since different types of files
can be obtained along the workflow, it is possible to perform further analyses to obtain
additional information and/or additional data representations, such as metabolic pathway
mapping. O objectivo da microbiologia, e em particular daqueles que se dedicam ao estudo de comunidades microbianas, é descobrir o que compõe as comunidades, e a função de cada microrganismo no seio da comunidade. Graças aos avanços nas técnicas de sequenciação, em particular no desenvolvimento de tecnologias de Next Generation Sequencing, surgiram abordagens de meta-ómicas que têm vindo a ajudar a responder a estas questões. Várias ferramentas foram desenvolvidas para lidar com estas questões, nomeadamente lidando com dados de Metagenómica (MG), e algumas poucas integrando esse tipo de análise com estudos de Metatranscriptómica (MT) e Metaproteómica (MP). Além da escassez de ferramentas bioinformáticas, as que já existem não costumam ser facilmente manipuláveis por utilizadores com pouca experiencia em informática, e estão frequentemente limitadas a uso por linha de comando. Um formato geral para uma ferramenta de análise meta-ómica não é possível devido à grande variedade de aplicações. No entanto, certas aplicações possuem certas rotinas, que são passíveis de serem implementadas numa ferramenta, facilitando assim o trabalho dos profissionais de laboratório. Nesta tese, uma pipeline integrada para análise de dados de MG e MT foi desenvolvida, pretendendo determinar a expressão de genes/transcriptos entre diferentes amostras biológicas. O utilizador tem disponíveis os resultados de cada passo, sumários com vários parâmetros para avaliação do procedimento, e representações gráficas como gráficos Krona e heatmaps de expressão diferencial. Vários relatórios sobre a qualidade dos resultados obtidos também são gerados. A ferramenta foi construída baseada em ferramentas e procedimentos testados e validados com análise de dados de meta-ómica. Essas ferramentas são FastQC, Trimmomatic e SortMeRNA para pré-processamento, Megahit e MetaSPAdes para assemblagem, MetaQUAST e Bowtie2 para controlo da qualidade dos contigs obtidos na assemblagem, FragGeneScan e DIAMOND para anotação e DeSEQ2 para análise de expressão diferencial. As ferramentas foram testadas uma a uma, e depois integradas em diferentes wrappers de python para compôr a Meta-Omics Software for Community Analysis (MOSCA). A MOSCA executa pré-processamento de reads de MG e MT, assemblagem das reads, anotação dos contigs assemblados, e uma análise de dados final Foram usados dados reais para testar as capacidades da MOSCA. Como podem ser obtidos diferentes tipos de ficheiros ao longo da execução da MOSCA, é possível levar a cabo análises posteriores para obter informação adicional e/ou representações de dados adicionais, como mapeamento de vias metabólicas. |
Tipo: | Dissertação de mestrado |
Descrição: | Dissertação de mestrado em Computer Science |
URI: | https://hdl.handle.net/1822/56113 |
Acesso: | Acesso aberto |
Aparece nas coleções: | BUM - Dissertações de Mestrado DI - Dissertações de Mestrado |
Ficheiros deste registo:
Ficheiro | Descrição | Tamanho | Formato | |
---|---|---|---|---|
Joao Carlos Sequeira Costa.pdf | Dissertação de mestrado | 3,05 MB | Adobe PDF | Ver/Abrir |