Utilize este identificador para referenciar este registo: https://hdl.handle.net/1822/86810

TítuloDeep learning generative models for novel enzyme design
Autor(es)Martins, Miguel
Orientador(es)Rocha, Miguel
Pereira, Vítor
Palavras-chaveDeep learning
Generative models
Protein design
Evolutionary algorithms
Novel proteins
Algoritmos evolucionários
Design proteico
Modelos generativos
Desenho de novas proteínas
Data24-Mar-2022
Resumo(s)Recent endeavours over the past few years have been applying generative Deep Learning (DL) models to generate novel proteins using an array of different approaches. Such initiatives represent a specially important development towards major contributions to the field of protein engineering. To contribute to this, various DL architectures can be applied to the different datasets to generate proteins with a particular set of properties. The field of DL applied to the generation of novel molecules has been presenting results that encourage further research on this subject. An increasing number of novel, computationally generated, molecules being synthesized with successful results creates grounds for stimulation of new endeavours and diversification of the current applications. The goal of the work presented in this dissertation is to apply different generative DL architectures to the design of novel protein sequences for a targeted set of optimized properties. The developed framework, termed GenProtEA, stands as the main contribution of this work. The framework envisages the implementation of generative DL architectures for the design of novel proteins and leverages the use sampling techniques and Evolutionary Computation to steer the generative process towards a specific set of properties. Evolutionary Algorithms (EAs) can be applied both to single and multi-objective optimization problems which in itself presents an added advantage. The optimization problems were designed considering the literature concerning protein design. The problems ranged from a simple maximization of the average hydrophobicity of the protein sequence to more complex problems such as minimizing two sets of events in a sequence or maximizing a probability of a protein being generated by a defined profile Hidden Markov Model (HMM). The results of the proposed case studies and the respective analysis accompany the framework in this endeavour. Two different generative DL architectures were deployed, trained, and evaluated, using loss and accuracy metrics to perform the analysis.: a Generative Adversarial Network (GAN) and a Variational Autoencoder (VAE). For the GAN architecture, new proteins are sampled varying the latent seed used in the generative process and then selecting the best candidates for each of the case studies. Besides following a same sampling approach to obtain new protein designs, the VAE latent space is explored using EAs. The results of this work show that the use of EAs in the optimization, steering the generative process, can produce the best results, allowing for more variability in the experiments designed and resulting in a much greater set of possibly functional novel proteins.
Ao longo dos últimos anos têm sido desenvolvidas várias iniciativas para aplicar modelos generativos de DL para gerar novas proteínas, usando uma variedade de abordagens. Estas iniciativas representam um desenvolvimento bastante importante especialmente no campo da engenharia proteica. Para formular essa contribuição, vários modelos de DL podem ser aplicados, usando diferentes conjuntos de dados com o objetivo de gerar proteínas com um determinado conjunto de propriedades. A vertente de aplicação de modelos generativos de DL a geração de novas moléculas tem apresentado resultados que incentivem ao aprofundamento de trabalhos de investigação relacionados com este tópico. O número crescente de novas moléculas geradas computacionalmente bem como a subsequente bem-sucedida sintetização, estimulam uma diversificação das abordagens atuais. O objetivo do trabalho apresentado nesta dissertação consiste em aplicar diferentes modelos generativos de DL para a geração de novas proteínas com um conjunto optimizado de propriedades específicas. O framework desenvolvido, denominado de GenProtEA, é apresentado como a principal contribuição deste trabalho. Esta framework tenciona acomodar a implementação de modelos generativos de DL para a formação de novas proteínas, beneficiando do uso de computação evolutiva para guiar o processo de generativo de acordo com o conjunto específico de propriedades desejado. Os algoritmos evolucionários são aplicados em problemas de otimização com um só ou vários objetivos, que por si só representa uma vantagem adicional. Os problemas de otimização foram estabelecidos de acordo com apresentado na literatura referente ao design de proteínas. Esses problemas variaram de uma simples maximização da hidrofobicidade média da sequência proteica para problemas mais complexos, como minimizar a ocorrência de dois conjuntos de eventos numa sequência ou maximizar a probabilidade de uma proteína ser gerada por um perfil de HMM. 0s resultados obtidos nos casos de estudo propostos, bem como as respetivas análises, acompanham a framework desenvolvida neste trabalho. Foram implementados, treinados e avaliados dois modelos generativos diferentes, usando métricas de perda e precisão na avaliação: uma GAN e uma VAE. Para o modelo referente à GAN, novas proteínas são amostradas variando a Iatent seed no processo generativo selecionando as melhores amostras para o conjunto de casos de estudo implementados. Além de aplicar esta mesma abordagem com a VAE, os espaço latente da VAE foi explorado usando Eas. Os resultados deste trabalho mostram que o uso de EAs na otimização, guiando o processo generativo para um objetivo específico, pode produzir melhores resultados e permite uma major variabilidade de casos de estudo para possível avaliação. Este método apresenta ainda um conjunto muito maior de proteínas possivelmente funcionais.
TipoDissertação de mestrado
DescriçãoDissertação de mestrado em Bioinformática
URIhttps://hdl.handle.net/1822/86810
AcessoAcesso aberto
Aparece nas coleções:BUM - Dissertações de Mestrado
DI - Dissertações de Mestrado
CEB - Dissertações de Mestrado / MSc Dissertations

Ficheiros deste registo:
Ficheiro Descrição TamanhoFormato 
Miguel Martins.pdfDissertação de Mestrado25,94 MBAdobe PDFVer/Abrir

Este trabalho está licenciado sob uma Licença Creative Commons Creative Commons

Partilhe no FacebookPartilhe no TwitterPartilhe no DeliciousPartilhe no LinkedInPartilhe no DiggAdicionar ao Google BookmarksPartilhe no MySpacePartilhe no Orkut
Exporte no formato BibTex mendeley Exporte no formato Endnote Adicione ao seu ORCID