Please use this identifier to cite or link to this item: http://hdl.handle.net/1822/47441

TitleDevelopment of text mining tools for information retrieval and extraction from patents
Other titlesDesenvolvimento de ferramentas de mineração de texto para obtenção e extração de informação de patentes
Author(s)Alves, Tiago Alexandre Pinto
Advisor(s)Rocha, Miguel
Costa, Hugo Samuel Oliveira
KeywordsBiomedical text mining
Patents
Information retrieval task
Optical character recognition
@note2
Mineração de textos biomédicos
Patentes
Obtenção de informação
Reconhecimento ótico de caracteres
Issue date2016
Abstract(s)Biomedical literature is composed of a large and ever increasing number of publications, written in natural language. Patents are a relevant fraction of these publications, considered important sources of information due to all the curated information available in the documents, from the granting process. Although being real technological libraries, their unstructured data turns the search of information within these documents a challenging task. Biomedical text mining is a scientific field that explores this task, creating methodologies to search and structure the information in the biomedical literature. Information retrieval is one of the biomedical text mining tasks, in which the relevant information is obtained from an extensive collection of documents using several text retrieval methodologies. Getting all the information available on a patent document requires the download of the respective PDF document, that is then converted into a machine-readable text by technologies as Optical Character Recognition (OCR). In this project, an information retrieval, and a PDF to text conversion system were developed building a “patent pipeline” which was integrated into @note2, an open-source computational framework for biomedical text mining. The patent pipeline can be disintegrated into four different tasks: the patent search, the retrieval of patent metadata, the retrieval of their PDF files, and the extraction of all the information from these documents. A set of patents from the BioCreative V CHEMDNER task was used to test the developed pipeline, evaluating the framework performance and the real capacity to retrieve the requested patents and extract their unstructured information. The results were promising, bringing to the scientific community the published patent information and allowing the posterior implementation of other biomedical text mining processes over these documents.
A literatura biomédica é constituída por um número alargado e em crescimento de publicações escritas em linguagem natural. As patentes, uma fração integrante das referidas publicações, têm vindo a ser consideradas importantes fontes de informação, uma vez que possuem informação curada resultante do seu processo de atribuição. Apesar de serem consideradas verdadeiras bibliotecas tecnológicas, a sua informação não estruturada transforma a procura de informação nesses textos uma tarefa deveras desafiante. A mineração de textos biomédicos é um campo científico que explora esta tarefa, criando metodologias para a pesquisa de informação estruturada em literatura biomédica. A obtenção de informação é uma tarefa integrante do processo de mineração de textos biomédicos, na qual a informação relevante é obtida de uma extensa coleção de documentos usando diversas metodologias. O processo de obtenção de toda a informação contida numa patente requer o download do respetivo ficheiro PDF que posteriormente é convertido em texto passível de ser lido por máquinas recorrendo a tecnologias de processamento tais como o reconhecimento ótico de carateres (OCR). Neste projeto, um sistema de obtenção de informação e um sistema de conversão de PDF em texto foram desenvolvidos dando origem a uma ferramenta de tratamento de patentes que foi integrada no @note2, uma plataforma computacional de código aberto usada para a mineração de textos biomédicos. A pipeline elaborada pode ser desintegrada em quatro diferentes funções: pesquisa de patentes, obtenção de meta-informação das mesmas, obtenção dos seus ficheiros em formato PDF e a extração de todo o texto desses documentos. Um conjunto de patentes do desafio BioCreative V CHEMDNER foi usado para testar a ferramenta desenvolvida, avaliando o seu desempenho e a sua real capacidade de obtenção das patentes e todo o processo de extração de informação das mesmas. Os resultados são promissores, aproximando a comunidade científica da informação disponibilizada nas patentes publicadas, permitindo a posterior implementação de outros processos da mineração de textos biomédicos a esses documentos.
TypemasterThesis
DescriptionDissertação de mestrado em Bioinformática
URIhttp://hdl.handle.net/1822/47441
AccessopenAccess
Appears in Collections:DI - Dissertações de Mestrado
CEB - Dissertações de Mestrado / MSc Dissertations
BUM - Dissertações de Mestrado

Files in This Item:
File Description SizeFormat 
Tiago Alexandre Pinto Alves.pdf3,64 MBAdobe PDFView/Open

Partilhe no FacebookPartilhe no TwitterPartilhe no DeliciousPartilhe no LinkedInPartilhe no DiggAdicionar ao Google BookmarksPartilhe no MySpacePartilhe no Orkut
Exporte no formato BibTex mendeley Exporte no formato Endnote Adicione ao seu Currículo DeGóis