Utilize este identificador para referenciar este registo: https://hdl.handle.net/1822/84079

Registo completo
Campo DCValorIdioma
dc.contributor.advisorNovais, Paulopor
dc.contributor.advisorFernandes, B.por
dc.contributor.authorMachado, Pedro Filipe Costapor
dc.date.accessioned2023-04-20T14:51:32Z-
dc.date.available2023-04-20T14:51:32Z-
dc.date.issued2022-
dc.date.submitted2022-
dc.identifier.urihttps://hdl.handle.net/1822/84079-
dc.descriptionDissertação de mestrado em Informatics Engineeringpor
dc.description.abstractImbalanced learning and small-sized datasets are present in Machine Learning problems, even with the increased data availability provided by recent developments. The performance of learning algorithms in the presence of unbalanced data and significant class distribution skews is known as the imbalanced learning problem. The models’ performance on such problems can drastically decrease for certain classes with an uneven distribution, because the models do not learn the distributive features of the data and present accuracy too favorable for a specific set of classes of data. This can have negative consequences when talking about cancer detection, for example, since the model may identify poorly unhealthy patients. Hence, Data Augmentation techniques are usually conceived to evaluate how models would behave in nondata- scarce environments, generating synthetic data similar to real data. By applying those techniques, the amount of available data can be increased, balancing the class distributions. However, there is no standardized Data Augmentation process that can be applied to every domain of tabular data. Therefore, this dissertation aims to identify which characteristics of a dataset provide a better performance when synthesizing samples by a data augmentation technique in a tabular data environment. Moreover, if the data augmentation algorithm synthesizes more real samples, it is expected to increase the classifier’s performance as well. Our results demonstrate that datasets whose features are mainly categorical have an associated difficulty in increasing the classifier results by adding new samples. Furthermore, the technique that adapted best to those kinds of datasets was the more classical one, SMOTE. As for the datasets with more continuous features, the variations of Variational Autoencoder, principally the VAE with K-means and decay, as well as GAN, demonstrated an increased capability when augmenting those kinds of datasets. This dissertation demonstrated that more categorical datasets could achieve better performance by including 25% synthetic samples, whereas continuous datasets could only do so by including minority samples.por
dc.description.abstractO desbalanceamento dos dados, juntamente com datasets de tamanho reduzido, estão presentes em muitos problemas de Machine Learning, apesar do aumento de recolha de dados atuais por consequência do desenvolvimento tecnológico. O desbalanceamento de dados é definido por uma diferença significativa na distribuição das suas classes dentro de um conjunto de dados. Desta forma, a performance de um modelo pode diminuir drasticamente para certas classes com uma quantidade inferior de instâncias. Isto deve-se ao modelo não aprender a distribuição dos atributos dos dados e apresenta uma performance demasiado focada na classe em maioria. Este fenómeno compromete a performance dos modelos em problemas como por exemplo deteção de cancro em pacientes, uma vez que o modelo identifica poucos pacientes não saudáveis. Assim, as técnicas de Data Augmentation podem colmatar este problema ao gerarem dados sintéticos similares aos reais, podendo simular um ambiente de aprendizagem sem escassez de dados para os modelos. Com a aplicação destas técnicas, o número de dados disponíveis aumenta pelo que se consegue obter distribuições de classes mais equilibradas. Contudo, não existe uma técnica comum de Data Augmentation que possa ser aplicada em qualquer domínio com bons resultados. Desta forma, com esta dissertação pretende-se identificar quais características de um certo tipo de dataset beneficiam as diferentes técnicas para uma melhor performance na criação de dados sintéticos e, consequentemente, uma melhor performance dos modelos de Machine Learning. Os resultados obtidos nesta dissertação demonstram que a adição de dados sintéticos a datasets, cujos atributos sejam na sua maioria categóricos, está associada a uma acrescida dificuldade em melhorar a performance dos classificadores. No entanto, a técnica que melhor se adaptava a estas características foi o SMOTE, uma das técnicas mais clássicas de Data Augmentation. Por outro lado, as variações do Variational Autoencoder, nomeadamente a que conjuga um decaimento na loss e o uso de K-means, e a GAN geraram dados sintéticos capazes de melhorar a performance dos classificadores. Para além disto, esta dissertação comprovou que a adição de mais 25% de dados sintéticos a um dataset maioritariamente categórico permitiria melhores resultados, enquanto num dataset com maior presença de atributos contínuos era beneficiada pela adição de apenas instâncias minoritárias.por
dc.language.isoengpor
dc.rightsopenAccesspor
dc.subjectData augmentationpor
dc.subjectImbalanced datapor
dc.subjectMachine learningpor
dc.subjectDados desbalanceadospor
dc.titleConception and evaluation of data augmentation techniques for tabular datapor
dc.title.alternativeConcepção e avaliação de técnicas de data augmentation para dados tabularespor
dc.typemasterThesiseng
dc.identifier.tid203253353por
thesis.degree.grantorUniversidade do Minhopor
sdum.degree.grade19 valorespor
sdum.uoeiEscola de Engenhariapor
dc.subject.fosEngenharia e Tecnologia::Outras Engenharias e Tecnologiaspor
Aparece nas coleções:BUM - Dissertações de Mestrado

Ficheiros deste registo:
Ficheiro Descrição TamanhoFormato 
Pedro-Filipe-Costa-Machado-dissertação-final.pdf2,44 MBAdobe PDFVer/Abrir

Partilhe no FacebookPartilhe no TwitterPartilhe no DeliciousPartilhe no LinkedInPartilhe no DiggAdicionar ao Google BookmarksPartilhe no MySpacePartilhe no Orkut
Exporte no formato BibTex mendeley Exporte no formato Endnote Adicione ao seu ORCID