Utilize este identificador para referenciar este registo:
https://hdl.handle.net/1822/80969
Título: | Extração automática de documentos médicos da web para análise textual |
Autor(es): | Gomes, Inês Fraga |
Orientador(es): | Alves, Victor Braga, Martinho Gonçalves Antunes |
Data: | 3-Jan-2020 |
Resumo(s): | A literatura científica na biomedicina é um elemento fundamental no processo de obtenção de
conhecimento, uma vez que é a maior e mais confiável fonte de informação. Com os avanços
tecnológicos e o aumento da competição profissional, o volume e diversidade de documentos médicos
científicos tem vindo a aumentar consideravelmente, impedindo que os investigadores acompanhem o
crescimento da bibliografia. Para contornar esta situação e reduzir o tempo gasto pelos profissionais na
extração dos dados e na revisão da literatura, surgiram os conceitos de Web Crawling, Web Scraping e
Processamento de Linguagem Natural, que permitem, respetivamente, a procura, extração e
processamento automático de grandes quantidades de texto, abrangendo uma maior gama de
documentos científicos do que os normalmente analisados de forma manual.
O trabalho desenvolvido para a presente dissertação teve como foco principal o rastreamento e recolha
de documentos científicos completos, do campo da biomedicina. Como a maioria dos repositórios da
web não disponibiliza, gratuitamente, a totalidade de um documento, mas sim apenas o resumo da
publicação, foi importante a seleção de uma base de dados adequada. Por este motivo, as páginas web
alvo de rastreamento foram restringidas ao domínio dos repositórios da editora BioMed Central, que
disponibilizam por completo, milhares de documentos científicos na área da biomedicina.
A arquitetura do sistema desenvolvido divide-se em duas partes principais: fase online e a fase offline. A
primeira inclui a procura e extração dos URLs das páginas candidatas a serem extraídas, a recolha dos
campos de texto pretendidos e o seu armazenamento numa base de dados. A segunda fase consiste no
tratamento e limpeza dos documentos recolhidos, deixando-os num formato estruturado e válido para
ser utilizado como entrada de qualquer sistema de análise de texto. Para a concretização da primeira
parte, foram utilizadas a framework Scrapy, como base para a construção do scraper, e a base de dados
de documentos MongoDB, para o armazenamento das publicações científicas recolhidas. Na segunda
etapa do processo, ou seja, na aplicação de técnicas de limpeza e padronização dos dados, foram
aproveitadas algumas das inúmeras bibliotecas e funcionalidades que a linguagem Python oferece.
Para demonstrar o funcionamento do sistema de extração e tratamento de documentos da área médica,
foi estudado o caso prático de recolha de publicações científicas relacionadas com Transtornos Obsessivo
Compulsivos. Como resultado de todo o procedimento, foi obtida uma base de dados com quatro
coleções de documentos com diferentes níveis de processamento. The scientific literature in biomedicine is a fundamental element in the process of obtaining knowledge, since it is the largest and most reliable source of information. With technological advances and increasing professional competition, the volume and diversity of scientific medical documents increased considerably, preventing researchers from keeping up with the growth of bibliography. To circumvent this situation and reduce the time spent by professionals in data extraction and literature review, the concepts of web crawling, web scraping and natural language processing have emerged, which allow, respectively, the search, extraction and automatic processing of large text, covering a wider range of scientific documents than those normally handled. The work developed for the present dissertation focused on the crawling and collection of complete scientific documents from the field of biomedicine. As most web repositories do not provide the entire document for free, but only the abstract of the publication, it was important to select an appropriate database. For this reason, the crawled web pages have been restricted to the domain of BioMed Central repositories, which provide thousands of scientific papers in the field of biomedicine. The system architecture in question is divided into two main parts: the online phase and the offline phase. The first one includes searching and extracting the URLs of the candidate pages to be extracted, collecting the desired text fields and storing them in a database. The second phase is the handling and cleaning of the collected documents, leaving them in a structured and valid format to be used as input to any text analysis system. For the realization of the first part, it was used the Scrapy framework as the basis for the construction of the scraper and the MongoDB document database for storing the collected scientific publications. In the second step of the process, that is, for the application of data cleaning and standardization techniques, some of the numerous libraries and functionalities that the Python language offers are taken advantage of. In order to demonstrate the operation of the document extraction system, the practical case of collecting scientific publications related to Obsessive Compulsive Disorders was studied. As a result of the entire procedure, a database with four document collections with different processing levels was obtained. |
Tipo: | Dissertação de mestrado |
Descrição: | Dissertação de mestrado integrado em Engenharia Biomédica (especialização em Informática Médica) |
URI: | https://hdl.handle.net/1822/80969 |
Acesso: | Acesso aberto |
Aparece nas coleções: | BUM - Dissertações de Mestrado DI - Dissertações de Mestrado |
Ficheiros deste registo:
Ficheiro | Descrição | Tamanho | Formato | |
---|---|---|---|---|
Ines Fraga Gomes.pdf | 2,22 MB | Adobe PDF | Ver/Abrir |
Este trabalho está licenciado sob uma Licença Creative Commons