A machine learning approach to The Big Five Personality Test

Utilize este identificador para referenciar este registo: https://hdl.handle.net/1822/80091

Título:	A machine learning approach to The Big Five Personality Test
Autor(es):	Perdigão, Miguel Campos Calafate Carneiro
Orientador(es):	Analide, Cesar Fernandes, B.
Palavras-chave:	Big five Data augmentation Data science Machine learning
Data:	30-Dez-2019
Resumo(s):	One of the most accurate personality assessments available is the Goldberg’s ’The Big Five Personality Test’, which measures the five OCEAN dimensions: Openness, Conscientiousness, Extraversion, Agreeableness and Neuroticism. This assessment is performed by presenting a total of forty adjectives requesting the subject to rate each word using a scale of 1 to 9 indicating whether it accurately (9) describes herself or not (1). Nonetheless, scientific research has shown that this test may, accurately, suggest personality traits such as aggressive reactions, work performance, fitness on specific expertise areas and also mental illnesses. However, one big disadvantage of this test, it simply takes too much time to perform, which can result on undesirable measurements. Indeed, several developments have been done in order to reduce the required effort to perform this test, an example is The Mini Marker Test by Saucier. This study aims to propose a viable shorter alternative to this by applying machine learning techniques, i.e., although measurement precision may be reduced, is it possible to build a much shorter version losing as little precision as possible by just requiring the subject to select the adjectives that characterise him the most? For this study, it was developed a platform to collect data, requesting both the subject to rate each adjective but also to select those he most identifies with. With this, the available data contains both ratings and the selections of the words that most characterise the subject. Three different machine learning architectures are developed and tested. Both regression and classification approaches are considered. The main input for these architectures are the words selected by each evaluated subject. Data collected by this work showed to be insufficient, requiring the use of data augmentation techniques. For this, different versions are proposed, one including the use of frequent itemset mining techniques. The proposed machine learning architectures shown a very high precision, with an RMSE of around 7%. The results show the proposed solutions to be able to perform a shorter version of this test with a minimum precision loss. It was also possible to define a list of common sets of selected words. Further research can be performed mainly on two different streamlines, i.e., strength the data collection process and develop an even shorter version of this test. Uma das avaliações de personalidade mais precisas foi criada por Goldberg, chamada 'The Big Five Personality Test', que mede um total de cinco dimensões denominadas de OCEAN: Openness, Conscientiousness, Extraversion, Agreeableness and Neuroticism. A avaliaçao em causa é realizada apresentando um total de quarenta adjetivos a um individuo solici-tando lhe que classifique cada uma das palavras usando uma escala de a a 9, indicando se esta o descreve de forma exata (9) ou não (1). Assim sendo, estudos científicos sugerem que este teste poderá, de forma precisa, indicar outros traços da personalidade, tais como reações agressivas, desempenho no trabalho, aptidão para áreas de especialidade e doenças mentais. No entanto, uma grande desvantagem deste teste, é que este pode ser demasiado extenso e demorado, podendo gerar resultados indesejados. Na verdade, múltiplos desenvolvimentos foram feitos de modo a reduzir o esforço necessário para a realização do mesmo. Este estudo pretende assim propor uma alternativa mais curta e viável aplicando técnicas de machine learning, isto é, apesar da precisão dos resultados poder ser degradada, é possível construir uma versão muito mais curta com o mínimo possível de degradação da qualidade dos resultados apenas solicitando ao sujeito que este selecione os adjetivos que melhor o caracterizam? Para este estudo, foi desenvolvida uma plataforma para recolha de dados, solicitando ao individuo tanto para classificar cada adjetivo, usando a escala, como também para selecionar aqueles com que este mais se identifica. Assim, os dados disponíveis contém tanto as escalas como a seleção das palavras que mais caracterizam cada um dos sujeitos. Três diferentes arquiteturas de machine learning são desenvolvidas e testadas. Tanto abordagens de regressão como classificação são consideradas. O principal input para estas arquiteturas é a seleção de cada uma das palavras por parte dos sujeitos avaliados. Os dados recolhidos durante este estudo demonstraram ser insuficientes, exigindo o uso de técnicas de data augmentation. Nesse sentido, diferentes versões são propostas, sendo que uma delas incluí o uso de técnicas de frequent itemset mining. As arquiteturas de machine learning propostas apresentaram uma precisão bastante elevada nos resultados, com um RMSE de cerca de 7%. Os resultados obtidos mostram que as soluções propostas são capazes de gerar uma versão reduzida do teste em causa com uma degradação mínima dos resultados. Foi também possível definir uma lista de conjuntos frequentes de palavras selecionadas. Desenvolvimentos futuros podem ser feitos em duas direções distintas, isto é, melhorar o processo de recolha de dados ou desenvolver uma versão ainda mais reduzida deste teste.
Tipo:	Dissertação de mestrado
Descrição:	Dissertação de mestrado em Engenharia Informática
URI:	https://hdl.handle.net/1822/80091
Acesso:	Acesso aberto
Aparece nas coleções:	BUM - Dissertações de Mestrado DI - Dissertações de Mestrado