Utilize este identificador para referenciar este registo:
https://hdl.handle.net/1822/81330
Título: | Development of deep learning-based tools for the design of new compounds with desired biological activities |
Autor(es): | Sousa, Tiago Filipe Escairo |
Orientador(es): | Rocha, Miguel Pereira, Vítor Manuel Sá |
Palavras-chave: | Deep Learning Generative models Molecular design Multi-objective evolutionary algorithms Novel sweeteners Algoritmos evolucionários multi-objectivo Desenho molecular Modelos generativos Novos adoçantes |
Data: | 21-Abr-2021 |
Resumo(s): | In the last few years, de novo molecular design has increasingly been using generative models, from the
emergent field of Deep Learning (DL), to propose novel compounds that are likely to possess desired
properties/activities, in areas such as drug discovery, materials sciences or biotechnology. A panoply
of deep generative models, such as Recurrent Neural Networks, Variational Autoencoders, Adversarial
Autoencoders and Generative Adversarial Networks, can be trained on existing datasets, and provide for
the generation of novel compounds, typically with similar properties of interest. Additionally, different
optimization strategies, including transfer learning, Bayesian optimization, reinforcement learning, and
conditional generation, can be used to direct the generation process towards desired aims, regarding their
biological activities, synthesis processes or chemical features. Various instances of experimental validation
of these emerging methods have surfaced, with de novo generated molecules being synthesized and
proving successful in in vitro, and even in vivo, assays. These successful practical realizations encourage
further research into this blooming field.
This dissertation aims to explore the application of generative DL to the de novo molecular design, with
a focus on the targeted generation of new compounds. Two frameworks were developed to support this
endeavor and stand as the main contributions of this work. The first, termed DeepMolGen, standardizes
the implementation and usage of various generative DL architectures for molecular design. The second,
termed EAMO, employs multi-objective evolutionary algorithms to navigate the latent space of autoencoder
based models, optimizing the generation of molecules with desired characteristics. These frameworks were
accompanied with a systematic and critical review on deep generative models, the related optimization
methods for targeted compound design, and their applications.
Four state-of-the-art architectures were implemented, trained and evaluated under the DeepMolGen
framework using a standard dataset and common metrics such as validity, uniqueness, novelty and the
MOSES benchmark. The results showed that DeepMolGen was capable of performing the intended tasks
and that most of the implemented models performed on par with their publications. Similarly, four case
studies from the literature were optimized with EAMO and the results compared to previous works. These
experiments showed that EAMO could control abstract chemical properties and is competitive with other
state-of-the-art methods. Lastly, the three best performing models were combined with transfer learning
and EAMO within a pipeline for the generation of sweeteners. The resulting set of 102 promising molecules
was reviewed by expert chemists and the pipeline improved with their feedback. A second set of 99
compounds was then generated and the preliminary observations pointed to significantly improved results. Ao longo dos últimos anos, a criação de moléculas de novo tem vindo cada vez mais a utilizar modelos generativos, da área do Deep Learning (DL), para propor compostos com propriedades/atividades de interesse em áreas como descoberta de fármacos, ciências dos materiais ou biotecnologia. Uma panó plia de modelos DL, que incluem arquiteturas como Recurrent Neural Networks, Variational Autoencoders, Adversarial Autoencoders e Generative Adversarial Networks, podem ser treinados com conjuntos de da dos existentes permitindo a geração de novos compostos, tipicamente com propriedades de interesse semelhantes. Adicionalmente, várias estratégias de otimização, incluindo transfer learning, otimização Bayesiana, aprendizagem por reforço e geração condicionada, podem ser utilizadas para guiar o pro cesso de geração em direção a propriedades de interesse como atividade biológica, processo de síntese ou características químicas. Têm surgido ainda vários exemplos de validação experimental destes méto dos, nos quais moléculas geradas de novo são sintetizadas e demonstram sucesso em ensaios in vitro e in vivo. Estes sucessos práticos encorajam investigações adicionais nesta área emergente. A presente dissertação pretende explorar a aplicação de DL generativo para o desenho de moléculas de novo, com um foco na geração direcionada de novos compostos. Duas frameworks foram desenvolvidas para este propósito e constituem as principais contribuições deste trabalho. A primeira, DeepMolGen, padroniza a implementação e utilização de variadas arquiteturas de DL para o desenho molecular. A segunda, EAMO, aplica algoritmos evolucionários para navegar o espaço latente de modelos baseados em autoencoders, otimizando a geração de moléculas com características pretendidas. Estas frameworks foram acompanhadas de uma revisão sistemática sobre modelos generativos de DL, métodos de otimiza ção para a geração direcionada de compostos, e as suas respetivas aplicações. Quatro arquiteturas do estado-da-arte foram implementadas, treinadas e avaliadas com o DeepMolGen, usando um conjunto de dados standard e métricas comuns como validade, unicidade, novidade e o conjunto de testes MOSES. Os resultados mostraram que o DeepMolGen conseguiu realizar as tarefas pretendidas e que a maioria dos modelos comportaram-se de forma semelhante às respetivas publicações. De forma semelhante, quatro casos de estudo da literatura foram otimizados com o EAMO e os resulta comparados com publicações prévias. Estas experiências mostraram que o EAMO é capaz de controlar propriedades químicas abstratas e que é competitivo com outras abordagens do estado-da-arte. Por fim, os três melhores modelos foram combinados com transfer learning e o EAMO para abordar a geração de compostos adoçantes. O conjunto de 102 moléculas resultante foi revisto por especialistas em química e a metodologia melhorada com os comentários. Um segundo conjunto de 99 compostos foi então gerado e os comentários preliminares apontaram para uma melhoria significativa dos resultados. |
Tipo: | Dissertação de mestrado |
Descrição: | Dissertação de mestrado em Bioinformática (especialização em Tecnologias da Informação) |
URI: | https://hdl.handle.net/1822/81330 |
Acesso: | Acesso aberto |
Aparece nas coleções: | BUM - Dissertações de Mestrado DI - Dissertações de Mestrado |
Ficheiros deste registo:
Ficheiro | Descrição | Tamanho | Formato | |
---|---|---|---|---|
Tiago Filipe Escairo Sousa.pdf | 19,18 MB | Adobe PDF | Ver/Abrir |
Este trabalho está licenciado sob uma Licença Creative Commons