Utilize este identificador para referenciar este registo: https://hdl.handle.net/1822/41879

TítuloData mining na caracterização geo-espacial e previsão da incidência de pneumonia em Portugal
Outro(s) título(s)Data mining in geo-spatial characterization and predicting pneumonia incidence in Portugal
Autor(es)Silva, Rui Flávio Gonçalves da
Orientador(es)Santos, Maribel Yasmina
Palavras-chaveData mining espacial
Pneumonia
Clustering espacial
F-SNN
Time-series forecasting
Data mining space
Spatial clustering
Data2016
Resumo(s)O número de portugueses afetados por doenças que atacam o sistema respiratório tem vindo a aumentar de ano para ano. No caso da Pneumonia, esta encontra-se fortemente presente em Portugal, apresentando uma elevada taxa de incidência. A Pneumonia é a terceira principal doença responsável por vítimas mortais em Portugal, colocando Portugal em terceiro lugar nos países com maior número de mortes por Pneumonia na União Europeia. Como referido, esta situação tem vindo a piorar com o passar dos anos, levando à necessidade de encontrar formas de prevenir esta doença. Deste modo, a Fundação Portuguesa do Pulmão tem vindo a promover vários estudos que permitam caracterizar a incidência desta doença na população. Um dos estudos passou pela criação de um sistema de Business Intelligence suportado por um Data Warehouse que intrega dados com a incidência da doença e dados demográficos recolhidos nos censos de 2011, entre outros. Após a criação deste Data Warehouse e a caraterização geral da doença em Portugal, existiu a necessidade de continuar o estudo através da aplicação de Data Mining aos dados. Com a aplicação de Data Mining nos dados pretende-se, por um lado, realizar uma caracterização geo-espacial da doença utilizando uma abordagem de clustering geo-espacial e, por outro lado prever a incidência futura da mesma tendo em conta a evolução da Pneumonia em Portugal ao longo de uma década. Tendo em conta os dados disponíveis, foram criados três datasets com os dados referentes aos casos de pneumonia. O primeiro com os registos que apresentassem coordenadas geográficas para permitir a localização dos casos de doença no espaço. Um segundo dataset com todos os registos de indivíduos que pelo menos apresentassem uma outra patologia associada à Pneumonia. E um terceiro com todos os registos. Sobre estes datasets foram utilizadas duas técnicas de Data Mining, o clustering espacial e time-series forecasting. Na componente de clustering espacial foi utilizada a abordagem F-SNN (Fast-Shared Nearest Neighbor), para a criação dos clusters sobre os dois datasets, de modo a caracterizar a incidência da Pneumonia em Portugal. Os modelos identificados nesta componente foram avaliados com o auxílio de uma métrica de qualidade. Na componente de time-series forecasting foi utilizado apenas o terceiro dataset para a previsão de casos de Pneumonia e vítimas mortais. Aqui os modelos foram avaliados atendendo à precisão dos mesmos. Por fim, os modelos de cada componente foram comparados e analisados de forma a caracterizar e prever a doença em Portugal.
The Portuguese number affected by diseases that attack the respiratory system has been increasing from year to year. In the case of pneumonia, it is strongly present in Portugal, with a high incidence rate. Pneumonia is the third leading disease responsible for deaths in Portugal, putting Portugal in third place in countries with the highest number of deaths by pneumonia in the European Union. This situation has worsened over the years, leading to the need to find ways to prevent this disease. Thus, the Portuguese Lung Foundation has promoted various studies to characterize the incidence of this disease in the population. One study went through the creation of a Business Intelligence system supported by a Data Warehouse that integrates data about the disease incidence and demographic data collected in the 2011 census, among others. After the creation of the Data Warehouse and the general characterization of the disease in Portugal, there was the need to continue the study by applying data mining to the data. With the application of data mining to the data is intended, on one hand, to do a geo-spatial characterization of the disease using a geo-spatial clustering approach, and, secondly, to predict the future incidence of the disease taking into account the evolution of Pneumonia in Portugal over a decade. Given the available data, three datasets were created with data on the cases of pneumonia. The first with the records that include the geographic coordinates, locating the cases of disease in space. A second dataset derived from the first, but with the records of individuals who presented at least another pathology associated with pneumonia. And the third dataset with all the records. On these three datasets Data Mining techniques were used, spatial clustering and time-series forecasting. In the spatial clustering component, the F-SNN (Fast-Shared Nearest Neighbor) approach allowed the creation of clusters on the two datasets to characterize the incidence of pneumonia in Portugal. The identified models were evaluated with the use of a quality metric. In the time-series forecasting, the third dataset was used for predicting cases of pneumonia and fatalities. These models were assessed with an accuracy metric. All the obtained models were compared and analyzed to characterize and predict the disease in Portugal.
TipoDissertação de mestrado
DescriçãoDissertação de mestrado integrado em Engenharia e Gestão de Sistemas de Informação
URIhttps://hdl.handle.net/1822/41879
AcessoAcesso aberto
Aparece nas coleções:BUM - Dissertações de Mestrado
DSI - Engenharia e Gestão de Sistemas de Informação

Ficheiros deste registo:
Ficheiro Descrição TamanhoFormato 
Dissertação_a61589_Rui Flávio Gonçalves da Silva_2016.pdf3,19 MBAdobe PDFVer/Abrir

Partilhe no FacebookPartilhe no TwitterPartilhe no DeliciousPartilhe no LinkedInPartilhe no DiggAdicionar ao Google BookmarksPartilhe no MySpacePartilhe no Orkut
Exporte no formato BibTex mendeley Exporte no formato Endnote Adicione ao seu ORCID