Utilize este identificador para referenciar este registo:
https://hdl.handle.net/1822/41879
Título: | Data mining na caracterização geo-espacial e previsão da incidência de pneumonia em Portugal |
Outro(s) título(s): | Data mining in geo-spatial characterization and predicting pneumonia incidence in Portugal |
Autor(es): | Silva, Rui Flávio Gonçalves da |
Orientador(es): | Santos, Maribel Yasmina |
Palavras-chave: | Data mining espacial Pneumonia Clustering espacial F-SNN Time-series forecasting Data mining space Spatial clustering |
Data: | 2016 |
Resumo(s): | O número de portugueses afetados por doenças que atacam o sistema respiratório tem vindo a
aumentar de ano para ano. No caso da Pneumonia, esta encontra-se fortemente presente em
Portugal, apresentando uma elevada taxa de incidência. A Pneumonia é a terceira principal doença
responsável por vítimas mortais em Portugal, colocando Portugal em terceiro lugar nos países com
maior número de mortes por Pneumonia na União Europeia. Como referido, esta situação tem vindo
a piorar com o passar dos anos, levando à necessidade de encontrar formas de prevenir esta doença.
Deste modo, a Fundação Portuguesa do Pulmão tem vindo a promover vários estudos que permitam
caracterizar a incidência desta doença na população. Um dos estudos passou pela criação de um
sistema de Business Intelligence suportado por um Data Warehouse que intrega dados com a
incidência da doença e dados demográficos recolhidos nos censos de 2011, entre outros.
Após a criação deste Data Warehouse e a caraterização geral da doença em Portugal, existiu a
necessidade de continuar o estudo através da aplicação de Data Mining aos dados. Com a aplicação
de Data Mining nos dados pretende-se, por um lado, realizar uma caracterização geo-espacial da
doença utilizando uma abordagem de clustering geo-espacial e, por outro lado prever a incidência
futura da mesma tendo em conta a evolução da Pneumonia em Portugal ao longo de uma década.
Tendo em conta os dados disponíveis, foram criados três datasets com os dados referentes aos
casos de pneumonia. O primeiro com os registos que apresentassem coordenadas geográficas para
permitir a localização dos casos de doença no espaço. Um segundo dataset com todos os registos
de indivíduos que pelo menos apresentassem uma outra patologia associada à Pneumonia. E um
terceiro com todos os registos. Sobre estes datasets foram utilizadas duas técnicas de Data Mining,
o clustering espacial e time-series forecasting. Na componente de clustering espacial foi utilizada a
abordagem F-SNN (Fast-Shared Nearest Neighbor), para a criação dos clusters sobre os dois
datasets, de modo a caracterizar a incidência da Pneumonia em Portugal. Os modelos identificados
nesta componente foram avaliados com o auxílio de uma métrica de qualidade. Na componente de
time-series forecasting foi utilizado apenas o terceiro dataset para a previsão de casos de Pneumonia
e vítimas mortais. Aqui os modelos foram avaliados atendendo à precisão dos mesmos. Por fim, os
modelos de cada componente foram comparados e analisados de forma a caracterizar e prever a
doença em Portugal. The Portuguese number affected by diseases that attack the respiratory system has been increasing from year to year. In the case of pneumonia, it is strongly present in Portugal, with a high incidence rate. Pneumonia is the third leading disease responsible for deaths in Portugal, putting Portugal in third place in countries with the highest number of deaths by pneumonia in the European Union. This situation has worsened over the years, leading to the need to find ways to prevent this disease. Thus, the Portuguese Lung Foundation has promoted various studies to characterize the incidence of this disease in the population. One study went through the creation of a Business Intelligence system supported by a Data Warehouse that integrates data about the disease incidence and demographic data collected in the 2011 census, among others. After the creation of the Data Warehouse and the general characterization of the disease in Portugal, there was the need to continue the study by applying data mining to the data. With the application of data mining to the data is intended, on one hand, to do a geo-spatial characterization of the disease using a geo-spatial clustering approach, and, secondly, to predict the future incidence of the disease taking into account the evolution of Pneumonia in Portugal over a decade. Given the available data, three datasets were created with data on the cases of pneumonia. The first with the records that include the geographic coordinates, locating the cases of disease in space. A second dataset derived from the first, but with the records of individuals who presented at least another pathology associated with pneumonia. And the third dataset with all the records. On these three datasets Data Mining techniques were used, spatial clustering and time-series forecasting. In the spatial clustering component, the F-SNN (Fast-Shared Nearest Neighbor) approach allowed the creation of clusters on the two datasets to characterize the incidence of pneumonia in Portugal. The identified models were evaluated with the use of a quality metric. In the time-series forecasting, the third dataset was used for predicting cases of pneumonia and fatalities. These models were assessed with an accuracy metric. All the obtained models were compared and analyzed to characterize and predict the disease in Portugal. |
Tipo: | Dissertação de mestrado |
Descrição: | Dissertação de mestrado integrado em Engenharia e Gestão de Sistemas de Informação |
URI: | https://hdl.handle.net/1822/41879 |
Acesso: | Acesso aberto |
Aparece nas coleções: | BUM - Dissertações de Mestrado DSI - Engenharia e Gestão de Sistemas de Informação |
Ficheiros deste registo:
Ficheiro | Descrição | Tamanho | Formato | |
---|---|---|---|---|
Dissertação_a61589_Rui Flávio Gonçalves da Silva_2016.pdf | 3,19 MB | Adobe PDF | Ver/Abrir |