Please use this identifier to cite or link to this item:
https://hdl.handle.net/1822/64643
Title: | Análise de sentimentos em conteúdos textuais |
Other titles: | Text sentiment analysis |
Author(s): | Lopes, João Miguel Ferreira |
Advisor(s): | Belo, Orlando Ferreira, Pedro Gabriel Dias |
Issue date: | 2018 |
Abstract(s): | A grande quantidade de dados que é gerada diariamente em empresas ou por pessoas em
termos individuais despertou a atenção de algumas entidades que viram o grande interesse e
potencial da exploração dessa informação. O desenvolvimento de soluções orientadas para esse
tipo de exploração começou, assim, a ser incentivado de forma muito dinâmica. Na maioria dos
casos, essa exploração tem como objetivo alimentar sistemas de profiling, que posteriormente
tentam estabelecer algum tipo de padrão comportamental através da utilização de uma ou
mais técnicas de análise de dados.
A análise de sentimentos presentes em textos é uma das áreas de análise de dados que também
tem despertado muito interesse nos últimos anos, tendo sido gradualmente aplicada sobre
uma gama de problemas muito diversificada para determinar, por exemplo, como é que um
dado produto está a ser aceite pelas pessoas. Contudo, embora existam já vários modelos
desenvolvidos para este tipo de análise, a sua precisão ainda é muito questionada, em parte
devido às dificuldades que existem na realização deste tipo de análise, na qual, de certa forma,
é necessário que a linguagem escrita seja compreendida de forma natural por um dado conjunto
de algoritmos.
Neste trabalho de dissertação explorámos esta vertente de análise de dados, com particular
ênfase na análise de sentimentos em conteúdos textuais. Foi aplicado um conjunto de transformações
responsáveis pelo pré-processamento e transformação dos dados para um formato
apropriado para serem utilizados pelos modelos. Ao longo da construção do pré-processamento
foi, ainda, demonstrada a importância desta fase, para qualquer problema de análise de dados,
que sem ela não é possível compreender o problema de análise o que frequentemente leva a
que os resultados obtidos não sejam os melhores possíveis. Após o pré-processamento dos
dados, foram desenvolvidos três modelos de análise de sentimentos em textos: modelo supervisionado
de aprendizagem automática, modelo baseado em dicionários de sentimentos e modelo
híbrido. Qualquer um dos modelos faz uso de técnicas de análise de textos de modo a serem
reconhecidos sentimentos e respetivas polaridades, aspetos a que os sentimentos se referem, entre outros. Dos três modelos desenvolvidos, o modelo híbrido foi o que obteve melhores
resultados, com uma percentagem de classificações incorretas aproximadamente igual a 6% do
total dos dados de teste. The huge amount of data that is generated on a daily basis by companies and individuals has raised the interest of entities that saw the oportunities in exploiting that information. Soon, the development of data analysis solutions started to emerge rapidly and dynamically. In most cases, these forms of exploiting data are used by profiling systems, as a way of feeding them relevant data, in order to establish some behavioral pattern. Sentiment analysis in texts is a field of data analysis which has raised much interest in recent years, having been gradually applied over a wide range of problems in order to determine, for example, how a given product is being accepted by people. However, although there are already several models developed for this type of text analysis, their accuracy is still much questioned, in some way due to the difficulties that exist in the accomplishment of this type of analysis in which, in a certain way, it is necessary that written language can be understood, in a natural way, by a given set of algorithms. In this dissertation this aspect of data analysis will be explored. It is created a set of transformations that are applied to the data, which is in textual format, representative of the pre-processing to be applied in order to transform the data into an appropriate format to be processed by the models. Throughout the preprocessing construction it is also demonstrated the importance of this phase, for any data analysis problem, that without it, it is not possible to understand the analysis problem and the results obtained are not the best possible. Once the data is pre-processed, it is formed a set of models that use techniques of text analysis with the aim of recognizing feelings in it. These models can be summarized to three main ones: supervised model of machine learning, model based on dictionaries and a hybrid model. In any of the models it is sought to extract the maximum possible amount of information, besides the recognition of feelings and its polarity, as recognition of the aspects to which the feelings refer, among others. Of the three models developed, the hybrid model was the one that obtained the best results, with a percentage of incorrect classifications approximately equal to 6% of the total of the test data. |
Type: | Master thesis |
Description: | Dissertação de mestrado em Engenharia Informática |
URI: | https://hdl.handle.net/1822/64643 |
Access: | Open access |
Appears in Collections: | BUM - Dissertações de Mestrado DI - Dissertações de Mestrado |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
João-Miguel-Ferreira-Lopes-dissertação.pdf | 12,89 MB | Adobe PDF | View/Open |