Utilize este identificador para referenciar este registo: https://hdl.handle.net/1822/78318

TítuloMulti-view learning for multiomics data integration for the study of plants
Autor(es)Faria, Maria Inês Alves
Orientador(es)Dias, Oscar
Palavras-chaveMultiomics integration
V. vinifera
Concatenation-based
Transformation-based
Model-based
Machine learning
Integração multiómica
Integração baseada em concatenação
Integração baseada em transformação
Integração baseada em modelos
Aprendizagem máquina
Data2022
Resumo(s)Plants are indispensable for human life and have a significant impact on the economy. Their growth and survival are linked to their metabolism, and its study is important to understand certain mechanisms and responses to different environmental stresses. To enhance plant Genome-Scale Metabolic models, that are used in systems biology to study metabolism, several methods were created to integrate gene expression within the models, resulting in more realistic flux predictions. Therefore, the integration of multiple omics is essential to identify complex biological relationships that may become evident only through the combination of multiple omics data. However, the different sizes, formats and scales of the data being integrated, as well as the different complexities, noisiness, contents, and levels of agreement hinder this task. Hence, in this work, a pipeline was developed, including Machine Learning (ML) methods to integrate different omics data and extract knowledge on plant behaviour under different environmental conditions. Three different multiomics integration approaches were studied: concatenation-based integration (CBI), transformation-based integration (TBI) and model-based integration (MBI). The models inspected for CBI were DIABLO, SMSPL, Stacked Generalisation, Lasso Regression, Support Vector Machine, Random Forest and Artificial Neural Networks. For TBI, we analyzed SNFtool, Graph-Composite Association Network and Kernel-Relevance Vector Machine. Regarding the MBI, we created an ensemble classifier. All models were tested and cross-validation was executed. The models were created and validated using two different datasets of Vitis vinifera and Arabidopsis thaliana, for Case Study I and II, respectively. CBI was the most studied strategy, with several models available and easy implementation. DIABLO offered innovative plots to visualize the data correlations, provided the most relevant features to predict the outcome, had a good performance, but takes a considerable running time. SMSPL thanks to its novel strategy offered good performance and the most important features. For the TBI, the SNFtool was the single method capable of identifying the most relevant features, but all were very efficient models and easy to implement. Lastly, MBI was the approach with fewer methods available and harder to implement. Soft voting obtained better results compared to hard voting and obtaining the most relevant features was a difficult task. The pipeline was successfully created and can be identified in the open-source framework https://insilicoplants.pt/, or the GitHub repository https://GitHub.com/InesFaria-UM/Master_Thesis.git.
As plantas são indispensáveis à vida humana e têm um impacto significativo na economia. O seu crescimento e sobrevivência estão ligados ao seu metabolismo, cujo estudo é importante para compreender certos mecanismos e respostas metabólicas a diferentes stresses ambientais. A biologia de Sistemas dedica-se a este estudo usando modelos metabólicos à escala genómica (GSM). Para aprimorar os modelos GSM de plantas, vários estudos foram criados para integrar expressão genética nos modelos metabólicos, de modo a obter previsões mais realistas. Desta forma, é fundamental integrar múltiplos dados ómicos para identificar relações biológicas complexas que, até ao momento, não são evidentes. Contudo, os diferentes tamanhos, formatos e escalas dos dados a ser integrados, bem como as diferentes complexidades, barulhos, conteúdos e níveis de concordância dificultam esta tarefa. Assim, neste trabalho, foi concebida uma pipeline usando métodos de aprendizagem máquina, a fim de integrar diferentes dados ómicos e extrair conhecimento em relação ao comportamento da planta sob diferentes condições ambientais. Três diferentes abordagens de integração multiómica foram estudadas: integração baseada em concatenação (CBI), integração baseada em transformação (TBI) e integração baseada em modelos (MBI). Os métodos discutidos para CBI foram DIABLO, SMSPL, Stack Generalisation, Lasso Regression, Support Vector Machine, Random Forest e Artificial Neural Networks. Em relação a TBI, analisamos o SNFtool, Graph-Composite Association Network e Kernel-Relevance Vector Machine, e para o MBI, criamos um ensemble classifier. Todos os modelos foram testados e submetidos a validação cruzada. Os modelos foram validados usando dois conjuntos de dados diferentes de Vitis vinifera e Arabidopsis thaliana, como caso de estudo I e II. A CBI foi a estratégia mais estudada, com diversos modelos disponíveis e de fácil implementação. O método DIABLO, apesar de ter um maior tempo de execução, ofereceu formas inovadoras de visualizar as correlações dos dados e as variáveis mais relevantes para prever o resultado, garantindo um bom desempenho. Já o SMSPL obteve um bom desempenho e indicou as features mais importantes. Na TBI, o SNFtool foi o único método capaz de identificar as variáveis mais relevantes. No entanto, todos os métodos TBI foram eficientes e de fácil implementação. Por fim, a MBI foi a abordagem com menos métodos disponíveis e mais desafiante de implementar. A votação soft obteve melhores resultados em comparação com a votação hard, porém, as variáveis mais relevantes foram difíceis de obter. A pipeline foi criada com sucesso e pode ser encontrada na "open-source framework" https://insilicoplants.pt/, ou no repositório GitHub https://GitHub.com/InesFaria-UM/Master_Thesis.git.
TipoDissertação de mestrado
DescriçãoDissertação de mestrado em Bioinformatics
URIhttps://hdl.handle.net/1822/78318
AcessoAcesso aberto
Aparece nas coleções:BUM - Dissertações de Mestrado

Ficheiros deste registo:
Ficheiro Descrição TamanhoFormato 
Maria-Inês-Alves-Faria-dissertação.pdf33,26 MBAdobe PDFVer/Abrir

Este trabalho está licenciado sob uma Licença Creative Commons Creative Commons

Partilhe no FacebookPartilhe no TwitterPartilhe no DeliciousPartilhe no LinkedInPartilhe no DiggAdicionar ao Google BookmarksPartilhe no MySpacePartilhe no Orkut
Exporte no formato BibTex mendeley Exporte no formato Endnote Adicione ao seu ORCID