Utilize este identificador para referenciar este registo:
https://hdl.handle.net/1822/79793
Título: | A text mining based approach for biomarker discovery |
Autor(es): | Santiago, André Miguel Portugal Abrantes Cruzeiro |
Orientador(es): | Rocha, Miguel Arrais, Joel P. |
Data: | 23-Nov-2018 |
Resumo(s): | Biomarkers have long been heralded as potential motivators for the emergence of new
treatment and diagnostic procedures for disease conditions. However, for many years, the
biomarker discovery process could only be achieved through experimental means, serving
as a deterrent for their increase in popularity as the usually large number of candidates
resulted in a costly and time-consuming discovery process. The increase in computational
capabilities has led to a change in the paradigm of biomarker discovery, migrating from the
clinical laboratory to in silico environments.
Furthermore, text mining, the act of automatically extracting information from text through
computational means, has seen a rise in popularity in the biomedical fields. The number of
studies and clinical trials in these fields has greatly increased in the past years, making the
task of manually examining and annotating these, at the very least, incredibly cumbersome.
Adding to this, even though the development of efficient and thorough natural language
processing is still an on-going process, the potential for the discovery of common reported
and hidden behaviours in the scientific literature is too high to be ignored. Several tools,
technologies, pipelines and frameworks already exist capable of, at least, giving a glimpse
on how the analysis of the available pile of scientific literature can pave the way for the
development of novel medical techniques that might help in the prevention, diagnostic and
treatment of diseases.
As such, a novel approach is presented in this work for achieving biomarker discov ery, one that integrates both gene-disease associations extracted from current biomedical
literature and RNA-Seq gene expression data in an L1-regularization mixed-integer linear
programming model for identifying potential biomarkers, potentially providing an optimal
and robust genetic signature for disease diagnostic and helping identify novel biomarker
candidates. This analysis was carried out on five publicly available RNA-Seq datasets ob tained from the Genomic Data Commons Data Portal, related to breast, colon, lung and
prostate cancer, and head and neck squamous cell carcinoma. Hyperparameter optimiza tion was also performed for this approach, and the performance of the optimal set of pa rameters was compared against other machine learning methods. Os biomarcadores há muito que são considerados como os motivadores principais para o desenvolvimento de novos procedimentos de diagnóstico e tratamento de doenças. No entanto, ate há relativamente pouco tempo, o processo de descoberta de biomarcadores estava dependente de métodos experimentais, sendo este um elemento dissuasor da sua aplicação e estudo em massa dado que o número elevado de candidatos implicava um processo de averiguação extremamente dispendioso e demorado. O grande aumento do poder computacional nas últimas décadas veio contrariar esta tendência, levando a migração do processo de descoberta de biomarcadores do laboratório para o ambiente in silico. Para além disso, a aplicação de processos de mineração de textos, que consistem na extração de informação de documentos através de meios computacionais, tem visto um aumento da sua popularidade na comunidade biomédica devido ao aumento exponencial do número de estudos e ensaios clínicos nesta área, tornando todo o processo de analise e anotação manual destes bastante laborioso. A adicionar a isto, apesar do desenvolvimento de métodos eficientes capazes de processar linguagem natural na sua plenitude seja um processo que ainda esteja a decorrer, o potencial para a descoberta de comportamentos reportados e escondidos na literatura e demasiado elevado para ser ignorado. Já existem diversas ferramentas e tecnologias capazes de, pelo menos, dar uma indicação de como a análise da literatura científica disponível pode abrir o caminho para o desenvolvimento de novas técnicas e procedimentos médicos que poder ao auxiliar na prevenção, diagnóstico e tratamento de doenças. Como tal, e apresentado neste trabalho um novo método para realizar a descoberta de biomarcadores, que considera simultaneamente associações entre genes e doenças, já extraídas da literatura biomédica e dados de expressão de genes RNA-Seq num modelo de otimização linear com regularização L1 com variáveis contínuas e inteiras (MILP) para identificar possíveis biomarcadores, sendo capaz potencialmente de providenciar assinaturas genéticas ótimas e robustas para o diagnostico de doenças e ajudar a identificar novos candidatos a biomarcador. Esta análise foi levada a cabo em cinco conjuntos de dados RNA-Seq obtidos através do Portal de Dados do Genomic Data Commons (GDC) relacionados com os cancros da mama, colon, pulmão, próstata, e carcinoma escamoso da cabeça e pescoço. Realizou-se também uma otimização dos hiperparâmetros deste método, e o desempenho do conjunto ideal de parâmetros foi comparado com o de outros métodos de aprendizagem máquina. |
Tipo: | Dissertação de mestrado |
Descrição: | Dissertação de mestrado em Bioinformática |
URI: | https://hdl.handle.net/1822/79793 |
Acesso: | Acesso aberto |
Aparece nas coleções: | BUM - Dissertações de Mestrado |
Ficheiros deste registo:
Ficheiro | Descrição | Tamanho | Formato | |
---|---|---|---|---|
Andre Miguel Portugal Abrantes Cruzeiro Santiago.pdf | Dissertação de Mestrado | 1,23 MB | Adobe PDF | Ver/Abrir |