Utilize este identificador para referenciar este registo:
https://hdl.handle.net/1822/27636
Título: | Input parameters self-tuning on the SNN algorithm (Shared Nearest Neighbour) |
Autor(es): | Moreira, José Guilherme da Cruz |
Orientador(es): | Santos, Maribel Yasmina |
Palavras-chave: | Density-based clustering SNN Shared nearest neighbor Input parameters tuning Agrupamento baseado em densidade Ajuste dos parâmetros de entrada |
Data: | 2013 |
Resumo(s): | Recent technological developments have lead to a ever increasing rate in data collection. Organisations are facing several challenges when they try to analyse this vast amount of data with the aim of extracting useful information. This analytical capacity needs to be enhanced with tools capable of dealing with big data sets without making the analytical process a difficult task. Clustering is usually used, as this technique does not require any a priori knowledge about the data. However, clustering algorithms usually require one or more input parameters that influence the clustering process and the results that can be obtained.
This work analyses the relation between the three input parameters of the SNN (Shared Nearest
Neighbour) algorithm through extensive brute-force executions and finds some strong relations
between them. These findings help to propose an heuristic suitable for the identification and suggestion of the SNN input parameters. The proposed heuristic is validated using different data sets that the ones used for the heuristic development.
The solution is very useful because it allows the user to avoid a considerable time spent on trial and
error executions. It suggests the user an initial quality clustering result, that while not definitive, it is a good starting point for the clustering analysis. Os recentes avanços tecnológicos têm levado a um ritmo cada vez maior na recolha de dados. As organizações enfrentam diversos desafios quando tentam analisar essa imensa quantidade de dados, com o objetivo de extrair informação útil. Esta capacidade analítica precisa de ser melhorada com ferramentas capazes de lidar com grandes conjuntos de dados, sem que isto transforme o processo de análise, numa tarefa difícil. O agrupamento (clustering), é normalmente utilizado, tratando-se de uma técnica que não requer conhecimento, a priori, sobre os dados. No entanto, os algoritmos de agrupamento, normalmente requerem um ou mais parâmetros de entrada que influenciam o processo de agrupamento e os resultados que podem ser obtidos. ' Este trabalho, analisa a relação entre os três parâmetros de entrada do algoritmo SNN (Shared Nearest Neighbour) através de execuções de força-bruta e encontra algumas relações fortes entre eles. Estes resultados ajudam a propor uma heurística adequada para a identificação e sugestão dos parâmetros de entrada do algoritmo SNN. A heurística proposta é então validada utilizado conjuntos de dados diferentes daqueles que foram utilizados para o desenvolvimento da heurística. A solução encontrada é de grande utilidade, pois permite ao utilizador evitar consumir uma quantidade considerável de tempo em execuções recorrendo à tentativa e erro. A heurística sugere ao utilizador um resultado de agrupamento inicial com qualidade, que embora não definitivo, é um bom ponto de partida para a análise do agrupamento. |
Tipo: | Dissertação de mestrado |
Descrição: | Dissertação de mestrado em Engenharia e Gestão de Sistemas de Informação |
URI: | https://hdl.handle.net/1822/27636 |
Acesso: | Acesso aberto |
Aparece nas coleções: | BUM - Dissertações de Mestrado DSI - Engenharia e Gestão de Sistemas de Informação |
Ficheiros deste registo:
Ficheiro | Descrição | Tamanho | Formato | |
---|---|---|---|---|
Tese_José Guilherme da Cruz Moreira_2013.pdf | 7,41 MB | Adobe PDF | Ver/Abrir |