Development of deep learning-based tools for the design of new compounds with desired biological activities

Utilize este identificador para referenciar este registo: https://hdl.handle.net/1822/81330

Título:	Development of deep learning-based tools for the design of new compounds with desired biological activities
Autor(es):	Sousa, Tiago Filipe Escairo
Orientador(es):	Rocha, Miguel Pereira, Vítor Manuel Sá
Palavras-chave:	Deep Learning Generative models Molecular design Multi-objective evolutionary algorithms Novel sweeteners Algoritmos evolucionários multi-objectivo Desenho molecular Modelos generativos Novos adoçantes
Data:	21-Abr-2021
Resumo(s):	In the last few years, de novo molecular design has increasingly been using generative models, from the emergent field of Deep Learning (DL), to propose novel compounds that are likely to possess desired properties/activities, in areas such as drug discovery, materials sciences or biotechnology. A panoply of deep generative models, such as Recurrent Neural Networks, Variational Autoencoders, Adversarial Autoencoders and Generative Adversarial Networks, can be trained on existing datasets, and provide for the generation of novel compounds, typically with similar properties of interest. Additionally, different optimization strategies, including transfer learning, Bayesian optimization, reinforcement learning, and conditional generation, can be used to direct the generation process towards desired aims, regarding their biological activities, synthesis processes or chemical features. Various instances of experimental validation of these emerging methods have surfaced, with de novo generated molecules being synthesized and proving successful in in vitro, and even in vivo, assays. These successful practical realizations encourage further research into this blooming field. This dissertation aims to explore the application of generative DL to the de novo molecular design, with a focus on the targeted generation of new compounds. Two frameworks were developed to support this endeavor and stand as the main contributions of this work. The first, termed DeepMolGen, standardizes the implementation and usage of various generative DL architectures for molecular design. The second, termed EAMO, employs multi-objective evolutionary algorithms to navigate the latent space of autoencoder based models, optimizing the generation of molecules with desired characteristics. These frameworks were accompanied with a systematic and critical review on deep generative models, the related optimization methods for targeted compound design, and their applications. Four state-of-the-art architectures were implemented, trained and evaluated under the DeepMolGen framework using a standard dataset and common metrics such as validity, uniqueness, novelty and the MOSES benchmark. The results showed that DeepMolGen was capable of performing the intended tasks and that most of the implemented models performed on par with their publications. Similarly, four case studies from the literature were optimized with EAMO and the results compared to previous works. These experiments showed that EAMO could control abstract chemical properties and is competitive with other state-of-the-art methods. Lastly, the three best performing models were combined with transfer learning and EAMO within a pipeline for the generation of sweeteners. The resulting set of 102 promising molecules was reviewed by expert chemists and the pipeline improved with their feedback. A second set of 99 compounds was then generated and the preliminary observations pointed to significantly improved results. Ao longo dos últimos anos, a criação de moléculas de novo tem vindo cada vez mais a utilizar modelos generativos, da área do Deep Learning (DL), para propor compostos com propriedades/atividades de interesse em áreas como descoberta de fármacos, ciências dos materiais ou biotecnologia. Uma panó plia de modelos DL, que incluem arquiteturas como Recurrent Neural Networks, Variational Autoencoders, Adversarial Autoencoders e Generative Adversarial Networks, podem ser treinados com conjuntos de da dos existentes permitindo a geração de novos compostos, tipicamente com propriedades de interesse semelhantes. Adicionalmente, várias estratégias de otimização, incluindo transfer learning, otimização Bayesiana, aprendizagem por reforço e geração condicionada, podem ser utilizadas para guiar o pro cesso de geração em direção a propriedades de interesse como atividade biológica, processo de síntese ou características químicas. Têm surgido ainda vários exemplos de validação experimental destes méto dos, nos quais moléculas geradas de novo são sintetizadas e demonstram sucesso em ensaios in vitro e in vivo. Estes sucessos práticos encorajam investigações adicionais nesta área emergente. A presente dissertação pretende explorar a aplicação de DL generativo para o desenho de moléculas de novo, com um foco na geração direcionada de novos compostos. Duas frameworks foram desenvolvidas para este propósito e constituem as principais contribuições deste trabalho. A primeira, DeepMolGen, padroniza a implementação e utilização de variadas arquiteturas de DL para o desenho molecular. A segunda, EAMO, aplica algoritmos evolucionários para navegar o espaço latente de modelos baseados em autoencoders, otimizando a geração de moléculas com características pretendidas. Estas frameworks foram acompanhadas de uma revisão sistemática sobre modelos generativos de DL, métodos de otimiza ção para a geração direcionada de compostos, e as suas respetivas aplicações. Quatro arquiteturas do estado-da-arte foram implementadas, treinadas e avaliadas com o DeepMolGen, usando um conjunto de dados standard e métricas comuns como validade, unicidade, novidade e o conjunto de testes MOSES. Os resultados mostraram que o DeepMolGen conseguiu realizar as tarefas pretendidas e que a maioria dos modelos comportaram-se de forma semelhante às respetivas publicações. De forma semelhante, quatro casos de estudo da literatura foram otimizados com o EAMO e os resulta comparados com publicações prévias. Estas experiências mostraram que o EAMO é capaz de controlar propriedades químicas abstratas e que é competitivo com outras abordagens do estado-da-arte. Por fim, os três melhores modelos foram combinados com transfer learning e o EAMO para abordar a geração de compostos adoçantes. O conjunto de 102 moléculas resultante foi revisto por especialistas em química e a metodologia melhorada com os comentários. Um segundo conjunto de 99 compostos foi então gerado e os comentários preliminares apontaram para uma melhoria significativa dos resultados.
Tipo:	Dissertação de mestrado
Descrição:	Dissertação de mestrado em Bioinformática (especialização em Tecnologias da Informação)
URI:	https://hdl.handle.net/1822/81330
Acesso:	Acesso aberto
Aparece nas coleções:	BUM - Dissertações de Mestrado DI - Dissertações de Mestrado CEB - Dissertações de Mestrado / MSc Dissertations