Twitter Observatory: developing tools to recover and classify information for the social network Twitter

Utilize este identificador para referenciar este registo: https://hdl.handle.net/1822/84069

Registo completo

Campo DC	Valor	Idioma
dc.contributor.advisor	Rocha, Miguel	por
dc.contributor.advisor	Pereira, Vítor	por
dc.contributor.author	Elias, Constança Machado Aires Lobo	por
dc.date.accessioned	2023-04-20T13:40:40Z	-
dc.date.available	2023-04-20T13:40:40Z	-
dc.date.issued	2022-12-19	-
dc.date.submitted	2022-10	-
dc.identifier.uri	https://hdl.handle.net/1822/84069	-
dc.description	Dissertação de mestrado em Informatics Engineering	por
dc.description.abstract	As redes sociais tornaram-se na nova forma de comunicar e, consequentemente, uma importante fonte de informação. Mais concretamente, o Twitter, desde a sua criação, tornou-se numa das redes sociais mais utilizadas. Esta popularidade permitiu um aumento do número de investigações na área de Text Mining usando o Twitter para diferentes aplicações, como saúde e política. Nesta área, a classificação de documentos tem sido aplicada a vários dados, nomeadamente tweets, para analisar tendências, entender o comportamento humano e prever determinados eventos. No entanto, nem sempre é possível ter os datasets desejados para efectuar essa classificação e análise. Para resolver o problema encontrado, esta dissertação, proposta pela OmniumAI, pretende explorar as abordagens já existentes para a extração e classificação de dados do Twitter, focando-se principalmente na língua portuguesa. Para isso, foi desenvolvida uma API capaz de extrair tweets de acordo com um determinado tópico de interesse, e criar datasets classificados automaticamente com labels de relevância. Foi ainda desenvolvida uma pipeline de classificação de tweets com base nas abordagens de Deep Learning encontradas no Estado de Arte para a classificação de documentos. O produto final consiste numa framework, Twitter Observatory, que permite aos utilizadores criar datasets de acordo com um determinado tópico de interesse e analisar esses mesmos datasets. Para testar a framework desenvolvida, foram selecionados dois casos de estudo: COVID-19 e a Invasão Russa da Ucrânia em 2022. Relativamente a estes dois tópicos, dois datasets foram extraídos e classificados de acordo com a relevância dos tweets, contendo, respetivamente, 2,268,575 e 219,887 tweets em português. Foi feita uma análise exploratória destes dados e os resultados de classificação usando modelos de Deep Learning foram apresentados. Para validar esses resultados, foi utilizado o dataset existente CrisisLex, traduzido para português.	por
dc.description.abstract	Social media have become the new form of communication and, therefore, an important source of information. More specifically, Twitter, since its foundation, became one of the most used social media platforms. Its popularity enabled the creation of an enormous amount of content, and a lot of research has been done using Twitter in different areas, such as health and politics. In the text mining field, document classification has been applied to Twitter to analyse trends, human behaviour or predict some events. However, it is not always possible to have the desired datasets to perform the classification and analysis. To solve the problem described, this dissertation, proposed by OmniumAI, aims to explore existing approaches to extract and classify Twitter data, in particular regarding the Portuguese Language. For that, it was developed an API capable of extracting tweets according to a given topic of interest, and creating datasets automatically classified with relevance labels. A classification pipeline of tweets was also devel oped based on the Deep Learning approaches found in the State of the Art for document classification. The final product consists of a framework, Twitter Observatory, that allows users to create datasets according to a particular topic of interest and analyse those datasets. To test the developed framework, two case studies were selected: COVID-19 and the Russian Invasion of Ukraine in 2022. Regarding these two topics, two datasets were extracted and automatically labelled according to the relevance of the tweets, containing, respectively, 2,268,575 and 219,887 tweets in Portuguese. An exploratory analysis of this data was performed and the classification results using Deep Learning models were presented. To validate those results, it was used an existing dataset, the CrisisLex dataset, translated into Portuguese.	por
dc.language.iso	eng	por
dc.rights	openAccess	por
dc.rights.uri	http://creativecommons.org/licenses/by-nc-sa/4.0/	por
dc.subject	Twitter	por
dc.subject	Classificação de documentos	por
dc.subject	Deep Learning	por
dc.subject	Língua portuguesa	por
dc.subject	Document classification	por
dc.subject	Portuguese language	por
dc.title	Twitter Observatory: developing tools to recover and classify information for the social network Twitter	por
dc.title.alternative	Twitter Observatory: desenvolvimento de ferramentas para recolha e classificação de informação da rede social Twitter	por
dc.type	masterThesis	eng
dc.identifier.tid	203252306	por
thesis.degree.grantor	Universidade do Minho	por
sdum.degree.grade	18 valores	por
sdum.uoei	Escola de Engenharia	por
Aparece nas coleções:	BUM - Dissertações de Mestrado DI - Dissertações de Mestrado CEB - Dissertações de Mestrado / MSc Dissertations