Utilize este identificador para referenciar este registo:
https://hdl.handle.net/1822/25455
Título: | Design principles for controlling gene expression |
Autor(es): | Guimarães, João Carlos Azevedo Salgado |
Orientador(es): | Rocha, Miguel Arkin, Adam |
Data: | 26-Jul-2013 |
Resumo(s): | Control of gene expression underlies the majority of cellular processes and, hence, it
is of utmost importance to understand how living organisms tailor protein levels
precisely at all times. In addition to comprehending how natural systems tune endogenous
expression levels, it has recently become critical to develop genetic tools
enabling reliable control of gene expression within synthetic circuits for biotechnology
purposes. To this end, synthetic biologists seek parts (DNA segments) with diverse
functional properties that once assembled together yield predictable behavior.
Nonetheless, the design cycle of synthetic genetic circuits remains heavily dependent
on multiple rounds of trial-and-error and manual tinkering.
One of the main hurdles faced by synthetic biology is the unpredictable behavior
resulting from the reuse of genetic elements whose activities vary across changing
contexts. Methods are lacking for researchers to affordably coordinate the quantification
and analysis of part performance in different environments, as needed to
identify, evaluate and improve problematic part types. We demonstrate how the
combination of careful experimental designs and appropriate statistical frameworks
can be used for quantifying the performance of genetic elements as they are reused
in varying contexts. This methodology revealed design flaws of current gene expression
platforms leading to unpredictable behavior. It further motivated the engineering
of enhanced genetic elements that can reliably express sequence distinct genes
across a 1,000-fold observed dynamic range and within twofold relative target expression
windows with ~93% reliability.
Other than engineering efforts, a better understanding of how natural systems
precisely control gene expression is equally important. However, living organisms optimized by evolution are inherently complex and, commonly, difficult to understand.
In this case, systems must be analyzed using integrative approaches that
consider the multiple factors potentially affecting the observed phenotype.
To facilitate in silico analyses of these multi-factorial behaviors, we have developed
an extendable software framework, D-Tailor, affording the automated inference
of multiple relevant biological signals from plain genomic sequences. The software
also implements a design module that allows researchers to generate artificial
sequences exploring a wide range of parameters of interest so as to create more robust
datasets to support the hypothesis being tested. We further demonstrated the
validity of the above-mentioned integrative approach by evaluating more than 100
sequence features impacting translation efficiency across the E. coli genome, and
also by exploring the determinants of specificity and functionality of the
RNA-IN/OUT antisense RNA regulation system.
In summary, the work presented here shows how computational analysis frameworks
can be efficiently combined with experimental approaches to get new insights
into the design principles of natural and engineered genetic elements controlling
gene expression. Such approaches will be essential for the engineering of more robust
artificial systems and, ultimately, lead to the full understanding and modeling
of natural biological systems. O controlo da expressão genética sustenta a maioria dos processos celulares. Por conseguinte, é de extrema importância compreender como os organismos vivos produzem, nas concentrações adequadas, cada uma das suas proteínas. Atualmente, para além do interesse em compreender como se modelam os níveis de expressão endógenos, tornou-se crucial, para aplicações biotecnológicas, o desenvolvimento de sistemas que garantam um controlo fidedigno da expressão genética em circuitos sintéticos. Para este fim, a biologia sintética procura criar sequências de ADN (partes), com diversas funções, que exibam o comportamento esperado quando utilizadas em simultâneo. No entanto, o ciclo de design de circuitos genéticos sintéticos continua bastante condicionado pelo constante recurso a múltiplas iterações de tentativa- erro e ajuste manual. Um dos principais obstáculos para a biologia sintética é a incapacidade de prever o comportamento resultante da reutilização de elementos genéticos cujas atividades variam em função do contexto. A escassez de métodos para quantificar e analisar a performance das partes nos diversos contextos limita a identificação, a avaliação e o aperfeiçoamento das partes problemáticas. Neste trabalho, combinamos design de experiências com métodos estatísticos apropriados para quantificar a variação da performance das partes à medida que estas são reutilizadas em diferentes contextos. A metodologia aplicada revelou falhas no design das plataformas de controlo da expressão genética atuais. Este fato motivou a conceção de novos elementos genéticos aperfeiçoados capazes de variar a expressão de genes com sequências distintas até três ordens de magnitude, e obter um determinado nível de expressão, numa janela até duas vezes o valor desejado, com uma probabilidade de 0.93. Para além das soluções de engenharia, é, igualmente importante, a compreensão de como os sistemas naturais efetuam de forma precisa o controlo da expressão genética. Contudo, os organismos vivos otimizados pela evolução são inerentemente complexos e, comumente, de difícil compreensão. Nestes sistemas torna-se impreterível a realização de análises integradas que considerem os múltiplos fatores que afetam o fenótipo em estudo. Para facilitar as análises in silico de comportamentos definidos por vários fatores, desenvolvemos uma plataforma de software extensível capaz de realizar a inferência automática de múltiplos sinais biológicos relevantes a partir de sequências genómicas. O software desenvolvido implementa ainda um módulo de design onde os investigadores podem gerar sequências artificiais que exploram uma grande variedade de parâmetros de interesse, criando assim conjuntos de dados mais robustos para a verificação da hipótese científica a ser testada. A análise integrada, acima descrita, foi usada para avaliar mais de 100 variáveis capazes de influenciar a eficiência da tradução na E. coli, e ainda para identificar os determinantes de especificidade e funcionalidade de um sistema de regulação da expressão genética por ARN. Resumidamente, o trabalho apresentado demonstra como as análises computacionais podem ser combinadas com abordagens experimentais para elucidar os princípios de design de elementos genéticos, naturais e artificiais, que controlam a expressão genética. Tais abordagens serão essenciais para a engenharia de sistemas artificiais mais robustos e, futuramente, capazes de proporcionar a compreensão e a simulação de sistemas biológicos naturais. |
Tipo: | Tese de doutoramento |
Descrição: | Tese de doutoramento em Informática |
URI: | https://hdl.handle.net/1822/25455 |
Acesso: | Acesso aberto |
Aparece nas coleções: | DI/CCTC - Teses de Doutoramento (phd thesis) |
Ficheiros deste registo:
Ficheiro | Descrição | Tamanho | Formato | |
---|---|---|---|---|
João Carlos Azevedo Salgado Guimarães.pdf | 16,84 MB | Adobe PDF | Ver/Abrir |