Utilize este identificador para referenciar este registo:
https://hdl.handle.net/1822/65481
Título: | Estudo e construção de árvores de decisão: aplicação ao ensino |
Autor(es): | Suquina, Paulina Da Silva Orlando |
Orientador(es): | Clain, Stéphane |
Palavras-chave: | Árvore de decisão Poda Pré-poda Classificação Matriz de Confusão Decision tree Pruning Pre-pruning Classification Confusion matrices |
Data: | 2019 |
Resumo(s): | As árvores de decisão são ferramentas muito utilizadas em áreas como as de Extração de Conhecimento
de Dados (ECD), devido à eficiência que elas possuem em produzir classificadores.
As mesmas são vantajosas devido à sua capacidade em dividir um espaço de exemplos em subespaços,
e ajustar cada subespaço recorrendo a diferentes modelos de classificação. Este
trabalho pretende fazer um estudo relativamente à construção de árvores de decisão utilizando
diferentes técnicas de pré-poda, que têm como finalidade melhorar a qualidade de um classificador.
Assim, com a utilização de uma Base de Dados (BD) real ligada à área do ensino,
referente a escola secundaria Conde de Monsaraz, à qual pertence ao agrupamento vertical de
Escolas de Reguengos de Monsaraz, são feitas várias experiências com diferentes critérios de
paragem, obtendo como resultado duas Matrizes de Confusão (MC) referentes aos dados de
treino e de teste.
Assim, a utilização de indicadores como o Recall e a Especificity, que são adequados ao problema
em causa, possibilitam a quantificação do erro do classificador. No final das experiências
obtém-se um gráfico que corresponde ao valor do indicador vs o critério de paragem utilizado.
Desta forma, o resultado deste gráfico são duas curvas, uma associada aos dados de treino e
outra associada aos dados de teste. Decision trees are widely used as inference tools in areas such as Data Extraction, due to their efficiency in producing classifiers. Their ability to partition the attribute space into subspaces labeled with class values. This work aims at studing the construction of decision trees using different pruning techniques to improve the quality and the efficiency of a classifier. We shall apply the methodology to real Databases connected to the teaching area, namely the secondary school Conde de Monsaraz. Several experiments were carried out with different stopping criteria, to provide two Confusion Matrices (for the training and test dataset) that enable the accuracy of the method. More specifically, indicators such as Recall and Especificity are appropriate to our real problem for quantifying the classifier error. At the end of the experiments, a figure displays the correspondance of the indicator vs. the stopping criterion threshold and provide two curves that give a prediction of the most effective decision tree. |
Tipo: | Dissertação de mestrado |
Descrição: | Dissertação de mestrado em Matemática e Computação |
URI: | https://hdl.handle.net/1822/65481 |
Acesso: | Acesso aberto |
Aparece nas coleções: | BUM - Dissertações de Mestrado DMA - Dissertações de mestrado |
Ficheiros deste registo:
Ficheiro | Descrição | Tamanho | Formato | |
---|---|---|---|---|
Dissertacao+35020.pdf | 3,4 MB | Adobe PDF | Ver/Abrir |
Este trabalho está licenciado sob uma Licença Creative Commons