Developing deep learnig methods to predict phenotypes and clinical outcomes from transcriptomics data

Please use this identifier to cite or link to this item: https://hdl.handle.net/1822/86731

Title:	Developing deep learnig methods to predict phenotypes and clinical outcomes from transcriptomics data
Author(s):	Vieira, Maria Fernanda Silva
Advisor(s):	Rocha, Miguel Ferreira, Pedro G.
Keywords:	Deep learning Machine learning Personalized medicine Transcriptomics Aprendizagem máquina Aprendizagem profunda Medicina personalizada Transcriptómica
Issue date:	24-Mar-2022
Abstract(s):	Personalized medicine is a constantly growing area. Important goals of this field are early diagnosis and the discovery of new personalized treatments. Gene expression data play a key role at this level, as variations in these data can often offer explanations for some phenotypes. To this end, Machine Learning (ML) models capable of predicting biologically relevant information, have been widely used. Deep Learning (DL) is a branch of ML that has become popular over the past few years. The increasing amounts of data that have been generated, and the growing use of this type of models in biomedical areas, have been accelerating the analysis of biological processes associated with cancer and other complex diseases. In this work, we focused on developing a framework that allows to create and evaluate distinct work-flows for the application of a variety of machine and deep learning models, working over gene expression data, including different options regarding data preprocessing pipelines, distinct ML and DL models, including traditional ML models, Dense Neural Networks, Convolutional Neural Networks and Variational Autoencoders. The framework has been validated using different case studies, where the data sources were two of the main repositories of gene expression data (TCGA and GTEx). The goal of each case study was to predict important variables for clinical application. A variety of models were developed and evaluated for each case study, generally with competitive performance. For the first case study, the task was to predict the type of cancer from TCGA data, and the best performing DL model was a dense neural network, being outperformed by a logistic regression model. In the second case, where the task was to predict the hypoxia score, the best DL model was a two dimensional convolutional neural network (2D CNN), being outperformed by the LightGBM model. As for the third case study, where the objective was to predict the aneuploidy score, the best model was an one dimensional convolutional neural network (1D CNN). For the fourth case, where the task was to predict body mass index, the best model was again a 1D CNN. Finally, in the fifth case study, where the main goal was to predict gene expression for a set of genes based on landmark genes, the best DL model was found by an 1D CNN, still slightly outperformed by linear regression. Some of the DL models developed in this work show promising results. However, these need to be improved in the future as they are not clinically applicable at this time. This framework can be reused for new problems and can be easily expanded. A medicina personalizada é uma área em constante crescimento. Um dos objectivos importantes deste campo são o diagnóstico precoce e a descoberta de novos tratamentos personalizados. Os dados de expressão genética desempenham um papel fundamental a este nível, pois variações nestes dados podem muitas vezes oferecer explicações para alguns fenótipos. Para este fim, modelos Machine Learning (ML) capazes de prever informação biologicamente relevante, tem sido amplamente utilizados. O Deep Learning (DL) é um ramo do ML que se tornou popular ao longo dos últimos anos. A quantidade crescente de dados que tem sido gerada, e a crescente utilização deste tipo de modelos em áreas biomédicas, têm vindo a acelerar a análise dos processos biológicos associados ao cancro e a outras doenças complexas. Neste trabalho, concentrámo-nos em desenvolver uma framework que permita criar e avaliar workflows distintos para a aplicação de uma variedade de modelos de machine e deep learning, trabalhando sobre dados de expressão genética, incluindo diferentes opções relativas a pipelines de pré-processamento de dados, modelos distintos ML e DL, incluindo modelos tradicionais ML, Dense Neural Networks, Convolutional Neural Networks e Variational Autoencoders. A framework foi validada utilizando diferentes casos de estudo, em que as fontes de dados foram dois dos principais repositórios de dados de expressão genética (TCGA e GTEx). O objectivo de cada caso de estudo foi a previsão de variáveis relevantes para aplicação clínica. Foi desenvolvida e avaliada uma variedade de modelos para cada caso de estudo, geralmente com desempenho competitivo. Para o primeiro caso de estudo, a tarefa era prever o tipo de cancro a partir dos dados TCGA, e o modelo com melhor desempenho DL foi uma dense neural network, sendo superado por um modelo de regressão logística. No segundo case, onde a tarefa era prever a pontuação de hipoxia, o melhor modelo DL era uma convolutional neural network bidimensional (2D CNN), sendo superado pelo modelo LightGBM. Quanto ao terceiro caso de estudo, em que o objectivo era prever a pontuação de aneuploidia, o melhor modelo era uma convolutional neural network unidimensional (10 CNN). No quarto caso, onde a tarefa era prever o índice de massa corporal, o melhor modelo foi novamente uma 1D CNN. Finalmente, no quinto caso de estudo, onde o objectivo principal era prever a expressão genética para um conjunto de genes baseados em genes de referência, o melhor modelo DL foi encontrado por uma 1D CNN, ainda que ligeiramente ultrapassado por um modelo de regressão linear. Alguns dos modelos DL desenvolvidos neste trabalho mostram resultados promissores. No entanto, estes precisam de ser melhorados no futuro, uma vez que não são clinicamente aplicáveis neste momento. Esta framework pode ser reutilizado para novos problemas e pode facilmente ser expandida.
Type:	Master thesis
Description:	Dissertação de mestrado em Bioinformatics
URI:	https://hdl.handle.net/1822/86731
Access:	Open access
Appears in Collections:	BUM - Dissertações de Mestrado DI - Dissertações de Mestrado CEB - Dissertações de Mestrado / MSc Dissertations