Utilize este identificador para referenciar este registo: https://hdl.handle.net/1822/79792

TítuloProbabilistic logic programming for cancer genomics
Autor(es)Fernandes, João Pedro Alves
Orientador(es)Ferreira, Pedro G.
Mendes, Rui
Palavras-chaveCancer genomics
Exploration
Problog
Stomach cancer
TCGA
Data processing
Estudos genómicos
Exploração
Cancro do Estômago
Processamento de dados
Data14-Dez-2018
Resumo(s)Over the past years, research on cancer genomics has been boosted by the advances in high throughput sequencing technologies. The Cancer Genome Atlas (TCGA) project is an effort to map the genomic alterations possibly associated with specific types of tumours and aims to improve the prevention, diagnosis and treatment of cancer. The generation of large and heterogeneous datasets, as a result of TCGA and other similar projects, creates the need to use advanced bioinformatics and computational tools for the analysis of cancer genomic data. Despite different bioinformatics frameworks have been established in order to explore and perform comprehensive analysis of cancer datasets, the area of logic and probabilistic logic programming has not been sufficiently explored in the analysis of cancer data. The main goal of this thesis was to explore Problog – a probabilistic logic programming (PLP) language – to encode interactions on heterogeneous cancer genomics datasets that may lead to new insights. To accomplish this objective, our work consisted in the elaboration of a python program and a Problog framework. The used datasets involved stomach cancer genomic data. The python program – ProceOmics – aimed to process and format cancer genomic data so it could be used by Problog programs. The Problog framework – Problog Knowledge Base (KB) – intended to codify the data previously processed by ProceOmics. To evaluate the consistency of the developed framework and explore possible relations between the different types of genomic data, queries were formulated to the Problog KB. Thus, this thesis provides a tool that establishes a link between the genomic data contained in public databases with probabilistic logic programs. We hope this work may help to overcome future efforts to use PLP on genomic data analysis.
Ao longo dos últimos anos, devido aos avanços significativos nas áreas tecnológicas responsáveis pelo estudo do genoma humano, o estudo dos dados genómicos associados a casos de ocorrência de cancro tem crescido exponencialmente. The Cancer Genome Atlas (TCGA), é um projeto que consiste no mapeamento de mudanças a nível genómico que possam estar associadas com algum tipo específico de cancro e que, por sua vez, possam fornecer alternativas mais avançadas de prevenção, prognóstico e tratamento relativamente àquelas já existentes. No entanto, a geração de inúmeros e extensivos datasets tem, consequentemente, vindo a aumentar. Apesar de já existir um número significativo de ferramentas e metodologias bioinformáticas que têm como objetivo explorar e realizar análises sobre os diferentes datasets relativos a variados tipos de cancro, a área da programação lógica, bem como da programação lógica probabilística, não têm sido frequentemente exploradas de modo a alcançar esse mesmo objetivo. Posto isto, o objetivo principal desta tese consistiu na exploração de uma extensão probabilística de uma linguagem lógica – Problog – de modo a codificar e explorar interações complexas entre diferentes datasets, visando ainda a descoberta de novas relações entre eles. De modo a alcançar este objetivo, o trabalho desenvolvido consistiu na elaboração de um programa em python e de uma framework em Problog. Todos os dados utilizados nas análises realizadas nesta tese são relativos à genómica do cancro do estômago. O programa em python – ProceOmics – teve como objetivo processar e formatar dados genómicos de cancro de modo a ser possível codificar esses mesmos dados em programas Problog. Por sua vez, a framework em Problog – Problog KB – foi criada com o intuito de codificar os dados previamente processados pelo programa. De modo a avaliar a consistência da framework desenvolvida e explorar possíveis relações entre os diferentes tipos de dados genómicos, foram colocadas queries à Problog KB. Assim sendo, esta tese forneceu uma ferramenta que estabelece uma ligação entre os dados genómicos, contidos em base dados públicas, e programas lógico probabilísticos. Esta ligação poderá ajudar a ultrapassar os poucos esforços aplicados na utilização deste tipo de linguagem para estudar dados genómicos.
TipoDissertação de mestrado
DescriçãoDissertação de mestrado em Bioinformática
URIhttps://hdl.handle.net/1822/79792
AcessoAcesso aberto
Aparece nas coleções:BUM - Dissertações de Mestrado
DI - Dissertações de Mestrado

Ficheiros deste registo:
Ficheiro Descrição TamanhoFormato 
Joao Pedro Alves Fernandes.pdfDissertação de Mestrado5,06 MBAdobe PDFVer/Abrir

Partilhe no FacebookPartilhe no TwitterPartilhe no DeliciousPartilhe no LinkedInPartilhe no DiggAdicionar ao Google BookmarksPartilhe no MySpacePartilhe no Orkut
Exporte no formato BibTex mendeley Exporte no formato Endnote Adicione ao seu ORCID