Probabilistic logic programming for cancer genomics

Utilize este identificador para referenciar este registo: https://hdl.handle.net/1822/79792

Título:	Probabilistic logic programming for cancer genomics
Autor(es):	Fernandes, João Pedro Alves
Orientador(es):	Ferreira, Pedro G. Mendes, Rui
Palavras-chave:	Cancer genomics Exploration Problog Stomach cancer TCGA Data processing Estudos genómicos Exploração Cancro do Estômago Processamento de dados
Data:	14-Dez-2018
Resumo(s):	Over the past years, research on cancer genomics has been boosted by the advances in high throughput sequencing technologies. The Cancer Genome Atlas (TCGA) project is an effort to map the genomic alterations possibly associated with specific types of tumours and aims to improve the prevention, diagnosis and treatment of cancer. The generation of large and heterogeneous datasets, as a result of TCGA and other similar projects, creates the need to use advanced bioinformatics and computational tools for the analysis of cancer genomic data. Despite different bioinformatics frameworks have been established in order to explore and perform comprehensive analysis of cancer datasets, the area of logic and probabilistic logic programming has not been sufficiently explored in the analysis of cancer data. The main goal of this thesis was to explore Problog – a probabilistic logic programming (PLP) language – to encode interactions on heterogeneous cancer genomics datasets that may lead to new insights. To accomplish this objective, our work consisted in the elaboration of a python program and a Problog framework. The used datasets involved stomach cancer genomic data. The python program – ProceOmics – aimed to process and format cancer genomic data so it could be used by Problog programs. The Problog framework – Problog Knowledge Base (KB) – intended to codify the data previously processed by ProceOmics. To evaluate the consistency of the developed framework and explore possible relations between the different types of genomic data, queries were formulated to the Problog KB. Thus, this thesis provides a tool that establishes a link between the genomic data contained in public databases with probabilistic logic programs. We hope this work may help to overcome future efforts to use PLP on genomic data analysis. Ao longo dos últimos anos, devido aos avanços significativos nas áreas tecnológicas responsáveis pelo estudo do genoma humano, o estudo dos dados genómicos associados a casos de ocorrência de cancro tem crescido exponencialmente. The Cancer Genome Atlas (TCGA), é um projeto que consiste no mapeamento de mudanças a nível genómico que possam estar associadas com algum tipo específico de cancro e que, por sua vez, possam fornecer alternativas mais avançadas de prevenção, prognóstico e tratamento relativamente àquelas já existentes. No entanto, a geração de inúmeros e extensivos datasets tem, consequentemente, vindo a aumentar. Apesar de já existir um número significativo de ferramentas e metodologias bioinformáticas que têm como objetivo explorar e realizar análises sobre os diferentes datasets relativos a variados tipos de cancro, a área da programação lógica, bem como da programação lógica probabilística, não têm sido frequentemente exploradas de modo a alcançar esse mesmo objetivo. Posto isto, o objetivo principal desta tese consistiu na exploração de uma extensão probabilística de uma linguagem lógica – Problog – de modo a codificar e explorar interações complexas entre diferentes datasets, visando ainda a descoberta de novas relações entre eles. De modo a alcançar este objetivo, o trabalho desenvolvido consistiu na elaboração de um programa em python e de uma framework em Problog. Todos os dados utilizados nas análises realizadas nesta tese são relativos à genómica do cancro do estômago. O programa em python – ProceOmics – teve como objetivo processar e formatar dados genómicos de cancro de modo a ser possível codificar esses mesmos dados em programas Problog. Por sua vez, a framework em Problog – Problog KB – foi criada com o intuito de codificar os dados previamente processados pelo programa. De modo a avaliar a consistência da framework desenvolvida e explorar possíveis relações entre os diferentes tipos de dados genómicos, foram colocadas queries à Problog KB. Assim sendo, esta tese forneceu uma ferramenta que estabelece uma ligação entre os dados genómicos, contidos em base dados públicas, e programas lógico probabilísticos. Esta ligação poderá ajudar a ultrapassar os poucos esforços aplicados na utilização deste tipo de linguagem para estudar dados genómicos.
Tipo:	Dissertação de mestrado
Descrição:	Dissertação de mestrado em Bioinformática
URI:	https://hdl.handle.net/1822/79792
Acesso:	Acesso aberto
Aparece nas coleções:	BUM - Dissertações de Mestrado DI - Dissertações de Mestrado

Ficheiros deste registo:

Ficheiro	Descrição	Tamanho	Formato
Joao Pedro Alves Fernandes.pdf	Dissertação de Mestrado	5,06 MB	Adobe PDF	Ver/Abrir

Ver registo completo Sugerir correção Estatísticas