Utilize este identificador para referenciar este registo: https://hdl.handle.net/1822/34722

TítuloPheno-metabolomics: integrative bioinformatics for yeast molecular biotechnology
Outro(s) título(s)Feno-metabolómica: bioinformática integrativa para biotecnologia molecular de leveduras
Autor(es)Duarte, Ricardo Franco
Orientador(es)Schuller, Dorit Elisabeth
Pais, Célia
Martins, Rui C.
Data15-Jul-2014
Resumo(s)Pheno-metabolomics is a bioinformatic field of study related with the establishment of links between metabolic data, genotype and phenotype, generated using high-throughput methods. The knowledge obtained in this field has been a major contribution towards the understanding of the vast genetic diversity of Saccharomyces cerevisiae strains that adapted to different ecological niches and are used for most distinct biotechnological applications. Only a holistic approach covering molecular biology, phenotypic characterisation, analytical chemistry, signal processing and bioinformatics could provide detailed information on the vast and dynamical relationships between genomics, phenomics and metabolomics. The main objectives of this thesis are the exploration of genetic, phenotypic and metabolic diversity of a S. cerevisiae strain collection and the assessment of the available bioinformatic and computational approaches for subsequent data fusion. We have constituted a strain collection comprising 172 S. cerevisiae strains of worldwide geographical origins and technological uses (winemaking – commercial and natural isolates –, brewing, bakery, distillery – sake, cachaça –, laboratorial strains and strains from particular environments – pathogenic, isolates from fruits, soil and oak exudates). Their phenotype was screened by considering 30 physiological traits that are important from an oenological point of view. Growth in the presence of potassium bisulphite, growth at 40 °C and resistance to ethanol were the phenotypes that contributed the most to strain variability, as revealed by principal component analysis (PCA). Mann-Whitney test exposed significant associations between phenotypic results and strains technological group. Naïve Bayesian classifier identified three of the 30 phenotypic tests – growth in iprodion (0.05 mg/mL), cycloheximide (0.1 μg/mL) and potassium bisulphite (150 mg/L) –, that provided more information for the assignment of an isolate to the group of commercial strains. Results show the usefulness of computational approaches to simplify strain selection procedures. For subsequent genetic analysis, the usefulness of interdelta sequence amplification for the characterisation of our strain collection was evaluated. Experiments were carried out in two laboratories, using varying combinations of Taq DNA polymerase and thermal cyclers for the analysis of 12 S. cerevisiae strains. Data were obtained by microfluidic electrophoresis and the reproducibility of the technique was evaluated by non-parametric statistical tests. We showed that the source of Taq DNA polymerase and the technical differences between laboratories had the highest impact on reproducibility. We also concluded that the comparative analysis of interdelta patterns was more reliable and reproducible when fragment sizes were compared and when was based on a smaller fraction of bands with intermediate sizes between 100 and 1000 bp. To obtain most reproducible genetic data, 11 polymorphic microsatellites were then used for the characterisation of the 172 S. cerevisiae strains of our collection. Data were computationally related with the previously obtained results of 30 phenotypic tests. We found 280 alleles, whereas microsatellite ScAAT1 contributed the most to intra-strain variability, together with the alleles 20, 9 and 16, from microsatellites ScAAT4, ScAAT5 and ScAAT6, respectively. Computational models were developed and cross-validated to predict the strain’s technological group from the microsatellite allelic profile. Associations between microsatellites and specific phenotypes were scored using information gain ratio, and significant findings were confirmed by permutation tests and estimation of false discovery rates. The phenotypes associated with higher number of alleles were the capacity to resist to sulphur dioxide and the galactosidase activity. Our results demonstrated the capacity of computational modelling to estimate, from microsatellite allelic combinations, both the phenotype and the belonging of a strain to a certain technological group. The genomic constitution of S. cerevisiae was shaped through the action of multiple independent rounds of domestication and microevolutionary changes for the adaptation to environmental conditions. We evaluated genome variations among four isolates of the commercial winemaking strain S. cerevisiae Zymaflore VL1. These isolates were obtained in vineyards surrounding wineries where this strain was applied during several years, and the experiments were accomplished in comparison to the commercial reference strain. Comparative genome hybridization showed amplification of 14 genes among the recovered isolates that were related with mitosis, meiosis, lysine biosynthesis, galactose and asparagine catabolism. The occurrence of microevolutionary changes was supported by DNA sequencing due to the finding of 1198 SNPs and 113 InDels. Phenotypic screening revealed 14 traits that distinguished the recovered isolates from the reference strain which was unable to grow at 18 °C, but evidenced some growth in the presence of CuSO4 (5mM) and SDS 0.01% (v/v). The metabolite profiles revealed differences in the production of succinic acid, benzene ethanol, 2-methyl-1-butanol and isobutanol. Our approaches were then expanded to include also metabolic analysis. Individual must fermentations were performed with the 172 strains and from the combined data of fiber optics spectroscopy, physiological and molecular results, a sub-group of 24 strains was chosen. High-performance liquid chromatography analysis revealed variable results, with glucose, fructose and acetic acid contributing the most for inter-strain variability. Metabolites relevant to aromatic profiles were determined by gas chromatography-mass spectrometry and PCA showed substantial variance between the amounts of alcohols and esters produced. Partial least squares regression (PLS-R) was used in pairwise comparison approaches to predict strains’ metabolic profiles, using phenotypic and genetic data, and relevant associations were identified for 9 of the 24 metabolites. Data were then projected onto a common system of coordinates, revealing a sub-set of 17 statistical relevant multi-dimensional modules (md-modules), combining sets of most-correlated features of noteworthy biological importance. The combination of PLS-R and md-modules identification revealed to be a successful approach for a better understanding of the S. cerevisiae pheno-metabolome.
A feno-metabolómica é uma área da bioinformática que estuda as relações entre dados metabólicos, genótipo e fenótipo, gerados por métodos de alto débito. O conhecimento obtido neste campo tem dado um grande contributo para a compreensão da vasta diversidade genética entre estirpes de Saccharomyces cerevisiae que estão adaptadas a diferentes nichos ecológicos e que são usadas para distintas aplicações biotecnológicas. Apenas uma abordagem holística englobando biologia molecular, caracterização fenotípica, química analítica, processamento de sinal e bioinformática pode fornecer informação detalhada sobre as vastas e dinâmicas relações entre genómica, fenómica e metabolómica. Os principais objetivos desta tese são a exploração da diversidade genética, fenotípica e metabólica de uma coleção de estirpes de S. cerevisiae e a avaliação das abordagens bioinformáticas e computacionais disponíveis para subsequente fusão de dados. Uma coleção de 172 estirpes de S. cerevisiae foi constituída, contendo isolados de distintas localizações geográficas e usos tecnológicos (vínicas – comerciais e isolados naturais –, cerveja, pão, bebidas destiladas – saké, cachaça –, estirpes de laboratório e estirpes de ambientes particulares – patogénicas, isoladas de frutos, solo e carvalho). O seu fenótipo foi avaliado considerando 30 testes fenotípicos que são importantes de um ponto de vista enológico. Crescimento na presença de bissulfito de potássio, crescimento a 40 °C e resistência ao etanol foram os fenótipos que mais contribuíram para a variabilidade entre estirpes, como revelado pela análise de componentes principais (PCA). O teste Mann-Whitney revelou associações significativas entre os resultados fenotípicos e o grupo tecnológico das estirpes. O classificador naïve Bayesian identificou 3 entre 30 testes fenotípicos – crescimento em iprodiona (0.05 mg/mL), cicloheximida (0.1 μg/mL) e bissulfito de potássio (150 mg/L) –, que contribuíram com mais informação para a atribuição de um isolado ao grupo de estirpes comerciais. Os resultados mostram a utilidade das abordagens computacionais para simplificar métodos de seleção de estirpes. Para a subsequente análise genética, a utilidade da amplificação de sequências interdelta para a caracterização da nossa coleção de estirpes, foi avaliada. As experiências foram realizadas em dois laboratórios, usando combinações diferentes de Taq ADN polimerase e termocicladores para a análise de 12 estirpes de S. cerevisiae. Os dados foram obtidos por eletroforese microfluídica e a reprodutibilidade da técnica foi avaliada usando métodos estatísticos não paramétricos. Mostramos que a origem da Taq ADN polimerase e as diferenças técnicas entre laboratórios apresentaram o maior impacto na reprodutibilidade. Concluiu-se também que a análise comparativa entre padrões de interdelta é mais fiável e reprodutível quando se comparam tamanhos de fragmentos, e quando nos baseamos numa fração mais pequena de bandas com tamanhos intermédios entre 100 e 1000 pares de base. De modo a obter dados genéticos reprodutíveis, 11 microssatélites polimórficos foram usados para a caracterização da nossa coleção de 172 estirpes de S. cerevisiae. Os resultados foram relacionados computacionalmente com os de 30 testes fenotípicos obtidos anteriormente. A caracterização genética identificou 280 alelos, sendo o microssatélite ScAAT1 o que mais contribuiu para a variabilidade entre estirpes, em conjunto com os alelos 20, 9 e 16 dos microssatélites ScAAT4, ScAAT5 e ScAAT6, respetivamente. Foram criados e validados modelos computacionais de modo a prever o grupo tecnológico de uma estirpe a partir do seu perfil alélico de microssatélites. As associações entre microssatélites e fenótipos foram avaliadas usando o rácio information gain ratio, e os resultados significativos foram confirmados por permutações e cálculo da taxa false discovery rate. Os fenótipos associados a um maior número de alelos foram a capacidade de resistir ao dióxido de enxofre e a atividade de galactosidase. Os resultados demonstram a capacidade da modelação computacional para prever, a partir das combinações alélicas, tanto o fenótipo como a atribuição de uma estirpe a um determinado grupo tecnológico. A constituição genómica de S. cerevisiae foi moldada pela ação de várias rondas independentes de domesticação e por alterações microevolutivas, para adaptação a condições ambientais. Avaliamos variações genómicas entre quatro isolados da estirpe vínica comercial S. cerevisiae Zymaflore VL1. Estes isolados foram obtidos em quintas nos arredores de adegas onde esta estirpe foi usada durante vários anos, e as experiências foram realizadas em comparação com a estirpe comercial de referência. Hibridização genómica comparativa mostrou amplificação de 14 genes entre os isolados recuperados da natureza relacionados com mitose, meiose, biossíntese da lisina, galactose e catabolismo da asparagina. A existência de alterações microevolutivas foi fortificada por sequenciação de ADN devido à identificação de 1198 SNPs e 113 inserções/deleções. A avaliação fenotípica revelou 14 características que distinguiram os isolados recuperados da natureza, da estirpe de referência que não cresceu a 18 °C, mas mostrou algum crescimento na presença de CuSO4 (5mM) e SDS 0.01% (v/v). Os perfis metabólicos revelaram diferenças na produção de ácido succínico, benzeno-etanol, 2-metil-1- butanol e isobutanol. A nossa abordagem anterior foi expandida de modo a incluir também análises metabólicas. Fermentações em mosto foram realizadas individualmente com as 172 estirpes, e da análise combinada de dados de espectroscopia de fibra ótica, resultados fisiológicos e moleculares, um subgrupo de 24 estirpes foi escolhido. A análise por HPLC (high-performance liquid chromatography) revelou resultados variáveis em que glucose, frutose e ácido acético contribuíram mais para a variabilidade entre estirpes. Os metabolitos relevantes para os perfis aromáticos foram determinados por GC-MS (gas chromatography-mass spectrometry) e a análise por componentes principais mostrou variância substancial entre as quantidades de álcoois e esteres produzidos. A regressão por mínimos quadrados parciais (PLS-R) foi usada numa abordagem par-a-par para prever o perfil metabólico das estirpes, usando dados fenotípicos e genéticos e identificou associações relevantes com 9 dos 24 metabolitos. Os resultados foram depois projetados num sistema de coordenadas comuns, revelando um subconjunto de 17 módulos multidimensionais com importância estatística (módulos md), que combinam conjuntos de características mais relacionadas e com interesse biológico. A combinação da PLS-R com a identificação de módulos md revelou ser uma abordagem adequada para uma melhor compreensão do feno-metaboloma de S. cerevisiae.
TipoTese de doutoramento
DescriçãoTese de doutoramento em Sciences Biology
URIhttps://hdl.handle.net/1822/34722
AcessoAcesso aberto
Aparece nas coleções:BUM - Teses de Doutoramento
DBio - Teses de Doutoramento/Phd Theses

Ficheiros deste registo:
Ficheiro Descrição TamanhoFormato 
Ricardo Filipe Azevedo Franco Duarte.pdf8,08 MBAdobe PDFVer/Abrir

Partilhe no FacebookPartilhe no TwitterPartilhe no DeliciousPartilhe no LinkedInPartilhe no DiggAdicionar ao Google BookmarksPartilhe no MySpacePartilhe no Orkut
Exporte no formato BibTex mendeley Exporte no formato Endnote Adicione ao seu ORCID