Utilize este identificador para referenciar este registo: https://hdl.handle.net/1822/25455

TítuloDesign principles for controlling gene expression
Autor(es)Guimarães, João Carlos Azevedo Salgado
Orientador(es)Rocha, Miguel
Arkin, Adam
Data26-Jul-2013
Resumo(s)Control of gene expression underlies the majority of cellular processes and, hence, it is of utmost importance to understand how living organisms tailor protein levels precisely at all times. In addition to comprehending how natural systems tune endogenous expression levels, it has recently become critical to develop genetic tools enabling reliable control of gene expression within synthetic circuits for biotechnology purposes. To this end, synthetic biologists seek parts (DNA segments) with diverse functional properties that once assembled together yield predictable behavior. Nonetheless, the design cycle of synthetic genetic circuits remains heavily dependent on multiple rounds of trial-and-error and manual tinkering. One of the main hurdles faced by synthetic biology is the unpredictable behavior resulting from the reuse of genetic elements whose activities vary across changing contexts. Methods are lacking for researchers to affordably coordinate the quantification and analysis of part performance in different environments, as needed to identify, evaluate and improve problematic part types. We demonstrate how the combination of careful experimental designs and appropriate statistical frameworks can be used for quantifying the performance of genetic elements as they are reused in varying contexts. This methodology revealed design flaws of current gene expression platforms leading to unpredictable behavior. It further motivated the engineering of enhanced genetic elements that can reliably express sequence distinct genes across a 1,000-fold observed dynamic range and within twofold relative target expression windows with ~93% reliability. Other than engineering efforts, a better understanding of how natural systems precisely control gene expression is equally important. However, living organisms optimized by evolution are inherently complex and, commonly, difficult to understand. In this case, systems must be analyzed using integrative approaches that consider the multiple factors potentially affecting the observed phenotype. To facilitate in silico analyses of these multi-factorial behaviors, we have developed an extendable software framework, D-Tailor, affording the automated inference of multiple relevant biological signals from plain genomic sequences. The software also implements a design module that allows researchers to generate artificial sequences exploring a wide range of parameters of interest so as to create more robust datasets to support the hypothesis being tested. We further demonstrated the validity of the above-mentioned integrative approach by evaluating more than 100 sequence features impacting translation efficiency across the E. coli genome, and also by exploring the determinants of specificity and functionality of the RNA-IN/OUT antisense RNA regulation system. In summary, the work presented here shows how computational analysis frameworks can be efficiently combined with experimental approaches to get new insights into the design principles of natural and engineered genetic elements controlling gene expression. Such approaches will be essential for the engineering of more robust artificial systems and, ultimately, lead to the full understanding and modeling of natural biological systems.
O controlo da expressão genética sustenta a maioria dos processos celulares. Por conseguinte, é de extrema importância compreender como os organismos vivos produzem, nas concentrações adequadas, cada uma das suas proteínas. Atualmente, para além do interesse em compreender como se modelam os níveis de expressão endógenos, tornou-se crucial, para aplicações biotecnológicas, o desenvolvimento de sistemas que garantam um controlo fidedigno da expressão genética em circuitos sintéticos. Para este fim, a biologia sintética procura criar sequências de ADN (partes), com diversas funções, que exibam o comportamento esperado quando utilizadas em simultâneo. No entanto, o ciclo de design de circuitos genéticos sintéticos continua bastante condicionado pelo constante recurso a múltiplas iterações de tentativa- erro e ajuste manual. Um dos principais obstáculos para a biologia sintética é a incapacidade de prever o comportamento resultante da reutilização de elementos genéticos cujas atividades variam em função do contexto. A escassez de métodos para quantificar e analisar a performance das partes nos diversos contextos limita a identificação, a avaliação e o aperfeiçoamento das partes problemáticas. Neste trabalho, combinamos design de experiências com métodos estatísticos apropriados para quantificar a variação da performance das partes à medida que estas são reutilizadas em diferentes contextos. A metodologia aplicada revelou falhas no design das plataformas de controlo da expressão genética atuais. Este fato motivou a conceção de novos elementos genéticos aperfeiçoados capazes de variar a expressão de genes com sequências distintas até três ordens de magnitude, e obter um determinado nível de expressão, numa janela até duas vezes o valor desejado, com uma probabilidade de 0.93. Para além das soluções de engenharia, é, igualmente importante, a compreensão de como os sistemas naturais efetuam de forma precisa o controlo da expressão genética. Contudo, os organismos vivos otimizados pela evolução são inerentemente complexos e, comumente, de difícil compreensão. Nestes sistemas torna-se impreterível a realização de análises integradas que considerem os múltiplos fatores que afetam o fenótipo em estudo. Para facilitar as análises in silico de comportamentos definidos por vários fatores, desenvolvemos uma plataforma de software extensível capaz de realizar a inferência automática de múltiplos sinais biológicos relevantes a partir de sequências genómicas. O software desenvolvido implementa ainda um módulo de design onde os investigadores podem gerar sequências artificiais que exploram uma grande variedade de parâmetros de interesse, criando assim conjuntos de dados mais robustos para a verificação da hipótese científica a ser testada. A análise integrada, acima descrita, foi usada para avaliar mais de 100 variáveis capazes de influenciar a eficiência da tradução na E. coli, e ainda para identificar os determinantes de especificidade e funcionalidade de um sistema de regulação da expressão genética por ARN. Resumidamente, o trabalho apresentado demonstra como as análises computacionais podem ser combinadas com abordagens experimentais para elucidar os princípios de design de elementos genéticos, naturais e artificiais, que controlam a expressão genética. Tais abordagens serão essenciais para a engenharia de sistemas artificiais mais robustos e, futuramente, capazes de proporcionar a compreensão e a simulação de sistemas biológicos naturais.
TipoTese de doutoramento
DescriçãoTese de doutoramento em Informática
URIhttps://hdl.handle.net/1822/25455
AcessoAcesso aberto
Aparece nas coleções:BUM - Teses de Doutoramento
DI/CCTC - Teses de Doutoramento (phd thesis)

Ficheiros deste registo:
Ficheiro Descrição TamanhoFormato 
João Carlos Azevedo Salgado Guimarães.pdf16,84 MBAdobe PDFVer/Abrir

Partilhe no FacebookPartilhe no TwitterPartilhe no DeliciousPartilhe no LinkedInPartilhe no DiggAdicionar ao Google BookmarksPartilhe no MySpacePartilhe no Orkut
Exporte no formato BibTex mendeley Exporte no formato Endnote Adicione ao seu ORCID