Development of tools for sentiment analysis in the portuguese language

Utilize este identificador para referenciar este registo: https://hdl.handle.net/1822/84073

Título:	Development of tools for sentiment analysis in the portuguese language
Autor(es):	Gonçalves, Jorge Miguel da Silva Brandão
Orientador(es):	Rocha, Miguel Pereira, Vítor
Palavras-chave:	Deep learning Machine learning Text mining Sentiment analysis
Data:	19-Dez-2022
Resumo(s):	A Análise de Sentimentos é uma das áreas mais importantes na ciência da computação, nomeadamente no Processamento da Linguagem Natural. As suas aplicações vão desde a análise de produtos até à contenção do cyberbullying. A importância da análise dos sentimentos é inigualável, mas quando se trata de línguas menos faladas, o campo parece ficar para trás. Neste contexto, Omnium AI propôs uma dissertação onde exploramos a Análise de Sentimentos para a Língua Portuguesa, com a intenção de criar uma nova ferramenta computacional. Esta dissertação vai examinar o campo da análise de sentimentos e o desenvolvimento do package Omnia. Este package é composto por ferramentas para a leitura de dados, o seu processamento e a criação de modelos Machine Learning (ML) e Deep Learning (DL) a partir dos dados lidos. Em específico, vamos concentrarnos no desenvolvimento do package Omnia Text Mining, com objectivo de criar ferramentas de pré-processamento e modelos de ML e DL para a análise de sentimentos para a língua portuguesa. Esta dissertação vai criar uma abordagem para lidar com problemas de análise de sentimentos composta por um processo de recolha de dados, seguido de um passo de pré-processamento e acabando com o desenvolvimento de modelos de ML e DL. Esta abordagem será aplicada ao tópico do Covid-19. Após serem criados os modelos para os datasets relativos ao Covid, avaliamos os resultados para as diferentes combinações de métodos de pré-processamento e modelos onde apuramos que as Long Short Term Memory (LSTM)s e o HFAutoModel com o embedding Bert foram os melhores modelos. No geral, os modelos de DL e Autogluon obtiveram melhores resultados que os modelos de ML. Nos métodos de pré-processamento visualizamos que não existe uma Pipeline geral que possa ser utilizada para todos os casos. No final, iremos discutir as conclusões que podemos retirar desta dissertação juntamente com uma secção de trabalho futuro, onde exploraremos os próximos passos possíveis para este projecto. Sentiment Analysis is one of the most important areas in computer science, namely in Natural Language Processing. Its applications range from product reviews to cyberbullying containment. The importance of sentiment analysis is unprecedented, but when it comes to lesser-used languages, the field seems to be lagging behind. In this context, Omnium AI proposed a dissertation where we explore Sentiment Analysis for the Portuguese Language with the aim of creating a new computational tool. This dissertation is going to delve into the sentiment analysis field and the development of the Omnia package. This package is composed of tools for reading datasets, processing them and creating ML and DL models from the data read. Specifically, we will focus on developing the Omnia Text Mining package, with aim of creating pre-processing tools and models for Sentiment Analysis (SA) in the Portuguese Language. This dissertation creates an approach to tackle SA problems that involve a data gathering step followed by a pre-processing step and finishing with a model step where we develop different ML and DL models. This approach will be applied to a Covid-19 topic. From this approach, we obtained two datasets, from which we created ML, DL and Autogluon models. After creating the models we evaluated the results from the different combinations of pre-processing methods (Pipelines) and ML and DL models where we ascertained that LSTMs and HFAutoModel with a Bert embedding were the best models for the datasets we used. In general, DL and Autogluon models gave us better results than ML. For the pre-processing Pipelines, we were able to visualise that there is no one Pipeline fits all solution, each model had different Pipelines working better. Lastly, we will discuss the conclusions we can take from this work along with a future work section, where we explore the possible next steps for this project.
Tipo:	Dissertação de mestrado
Descrição:	Dissertação de mestrado em Informatics Engineering
URI:	https://hdl.handle.net/1822/84073
Acesso:	Acesso aberto
Aparece nas coleções:	BUM - Dissertações de Mestrado DI - Dissertações de Mestrado CEB - Dissertações de Mestrado / MSc Dissertations