Utilize este identificador para referenciar este registo:
https://hdl.handle.net/1822/77497
Título: | Identification and characterization of structural variation in the cork oak genome |
Autor(es): | Magalhães, Hugo Carvalho |
Orientador(es): | Rocha, Miguel Ramos, António Marcos Costa do Amaral |
Data: | 2017 |
Resumo(s): | The appearance of high-throughput sequencing technologies revolutionized the study
of genomics. The substantial volumes of data generated by these technologies allow a very
comprehensive characterization of the species genomes and the genomic variation within
individual genomes. This work focused on the identification and characterization of structural
variants (SVs) in the cork oak genome, a class of variants described as genomic rearrangements
that may be involved in several biological processes. There are many types of
SVs, including insertions, deletions, inversions, translocations and duplications.
Cork oak trees are the only commercial source of cork, which is a renewable natural
resource that has many applications, particularly in the production of stoppers and sound
and thermal insulators, among others, due to its unique features. Cork is one of the most
valuable non-wood forest products, putting this species among the most important trees
with commercial relevance in the countries where it is naturally distributed.
The work pipeline followed the common steps used in this type of study, namely the
sample collection, sequencing, data quality evaluation, preprocessing, read mapping to the
reference genome, structural variation calling and, lastly, the identification and characterization
of the SVs. To achieve this final goal of identifying and characterizing SV in the cork
oak genome, several tests were performed, comparing the quality and length thresholds,
for three software applications for SV calling and three sets of mapping parameters.
This present work was the first study performed in cork oak where whole genome
resequencing was used, by the analysis of the whole genome of 30 individuals, which
included 14 trees producers of good quality cork, along with 16 trees that produce cork
with bad quality. This magnitude of genomes is the first step to construct the species
pangenome, which will then be crucial to understand how SV determines the differences in
cork quality, since this is the most important economic trait of these trees. The 93,980 SVs
identified clearly indicated that SV is present in the cork oak genome. O aparecimento de tecnologias de sequenciação de alto rendimento veio revolucionar o estudo da genómica. O volume substancial de dados gerado por estas tecnologias permite uma caracterização muito abrangente dos genomas das espécies e da variação genómica entre genomas individuais. Este trabalho focou-se na identificação e caracterização de vari-antes estruturais (VEs) no genoma do sobreiro, uma classe de variantes descrita como re-arranjos genómicos que podem estar envolvidos em vários processos biológicos. Existem muitos tipos de VEs, incluindo inserções, deleções, inversões, translocações e duplicações. Os sobreiros são a única fonte comercial de cortiça, que é um recurso natural renová-vel com muitas aplicações, particularmente na produção de rolhas, e isoladores sonoros e térmicos, entre outros, devido às suas características únicas. A cortiça é um dos mais valiosos produtos florestais que não a madeira, colocando esta espécie entre as árvores mais importantes com relevância comercial nos países onde esta ocorre naturalmente. A estrutura deste trabalho seguiu os passos habituais usados neste tipo de estudo, nomeadamente a recolha de amostras, sequenciação, avaliação da qualidade dos dados, pré-processamento, mapeamento das rends contra o genoma de referência, a descoberta de variação estrutural e, por último, a identificação e caracterização das VEs. Para alcançar este objetivo final de identificar e caracterizar variação estrutural no genoma do sobreiro, vários testes foram efetuados, comparando valores limiares de qualidade e comprimento, usando três aplicações bioinformáticas de descoberta de VE e três conjuntos de parâmetros de mapeamento. O presente trabalho foi o primeiro realizado em sobreiro onde foi usada a resequenci-ação completa do genoma, com a análise do genoma de 3o indivíduos, os quais incluíam 14 árvores produtoras de cortiça de boa qualidade, junto com 16 outras que produzem cortiça com má qualidade. Esta magnitude de genomas usados é o primeiro passo para construir o pangenoma da espécie, que será depois crucial para perceber como é que a VE determina as diferenças na qualidade da cortiça, visto que este é o traço económico mais importante destas árvores. As 93,980 VEs identificadas indicam claramente que a VE está presente no genoma do sobreiro. |
Tipo: | Dissertação de mestrado |
Descrição: | Dissertação em Bioinformática |
URI: | https://hdl.handle.net/1822/77497 |
Acesso: | Acesso aberto |
Aparece nas coleções: | BUM - Dissertações de Mestrado |
Ficheiros deste registo:
Ficheiro | Descrição | Tamanho | Formato | |
---|---|---|---|---|
Hugo Carvalho Magalhaes.pdf | 2,08 MB | Adobe PDF | Ver/Abrir |