Please use this identifier to cite or link to this item: https://hdl.handle.net/1822/84069

Full metadata record
DC FieldValueLanguage
dc.contributor.advisorRocha, Miguelpor
dc.contributor.advisorPereira, Vítorpor
dc.contributor.authorElias, Constança Machado Aires Lobopor
dc.date.accessioned2023-04-20T13:40:40Z-
dc.date.available2023-04-20T13:40:40Z-
dc.date.issued2022-12-19-
dc.date.submitted2022-10-
dc.identifier.urihttps://hdl.handle.net/1822/84069-
dc.descriptionDissertação de mestrado em Informatics Engineeringpor
dc.description.abstractAs redes sociais tornaram-se na nova forma de comunicar e, consequentemente, uma importante fonte de informação. Mais concretamente, o Twitter, desde a sua criação, tornou-se numa das redes sociais mais utilizadas. Esta popularidade permitiu um aumento do número de investigações na área de Text Mining usando o Twitter para diferentes aplicações, como saúde e política. Nesta área, a classificação de documentos tem sido aplicada a vários dados, nomeadamente tweets, para analisar tendências, entender o comportamento humano e prever determinados eventos. No entanto, nem sempre é possível ter os datasets desejados para efectuar essa classificação e análise. Para resolver o problema encontrado, esta dissertação, proposta pela OmniumAI, pretende explorar as abordagens já existentes para a extração e classificação de dados do Twitter, focando-se principalmente na língua portuguesa. Para isso, foi desenvolvida uma API capaz de extrair tweets de acordo com um determinado tópico de interesse, e criar datasets classificados automaticamente com labels de relevância. Foi ainda desenvolvida uma pipeline de classificação de tweets com base nas abordagens de Deep Learning encontradas no Estado de Arte para a classificação de documentos. O produto final consiste numa framework, Twitter Observatory, que permite aos utilizadores criar datasets de acordo com um determinado tópico de interesse e analisar esses mesmos datasets. Para testar a framework desenvolvida, foram selecionados dois casos de estudo: COVID-19 e a Invasão Russa da Ucrânia em 2022. Relativamente a estes dois tópicos, dois datasets foram extraídos e classificados de acordo com a relevância dos tweets, contendo, respetivamente, 2,268,575 e 219,887 tweets em português. Foi feita uma análise exploratória destes dados e os resultados de classificação usando modelos de Deep Learning foram apresentados. Para validar esses resultados, foi utilizado o dataset existente CrisisLex, traduzido para português.por
dc.description.abstractSocial media have become the new form of communication and, therefore, an important source of information. More specifically, Twitter, since its foundation, became one of the most used social media platforms. Its popularity enabled the creation of an enormous amount of content, and a lot of research has been done using Twitter in different areas, such as health and politics. In the text mining field, document classification has been applied to Twitter to analyse trends, human behaviour or predict some events. However, it is not always possible to have the desired datasets to perform the classification and analysis. To solve the problem described, this dissertation, proposed by OmniumAI, aims to explore existing approaches to extract and classify Twitter data, in particular regarding the Portuguese Language. For that, it was developed an API capable of extracting tweets according to a given topic of interest, and creating datasets automatically classified with relevance labels. A classification pipeline of tweets was also devel oped based on the Deep Learning approaches found in the State of the Art for document classification. The final product consists of a framework, Twitter Observatory, that allows users to create datasets according to a particular topic of interest and analyse those datasets. To test the developed framework, two case studies were selected: COVID-19 and the Russian Invasion of Ukraine in 2022. Regarding these two topics, two datasets were extracted and automatically labelled according to the relevance of the tweets, containing, respectively, 2,268,575 and 219,887 tweets in Portuguese. An exploratory analysis of this data was performed and the classification results using Deep Learning models were presented. To validate those results, it was used an existing dataset, the CrisisLex dataset, translated into Portuguese.por
dc.language.isoengpor
dc.rightsopenAccesspor
dc.rights.urihttp://creativecommons.org/licenses/by-nc-sa/4.0/por
dc.subjectTwitterpor
dc.subjectClassificação de documentospor
dc.subjectDeep Learningpor
dc.subjectLíngua portuguesapor
dc.subjectDocument classificationpor
dc.subjectPortuguese languagepor
dc.titleTwitter Observatory: developing tools to recover and classify information for the social network Twitterpor
dc.title.alternativeTwitter Observatory: desenvolvimento de ferramentas para recolha e classificação de informação da rede social Twitterpor
dc.typemasterThesiseng
dc.identifier.tid203252306por
thesis.degree.grantorUniversidade do Minhopor
sdum.degree.grade18 valorespor
sdum.uoeiEscola de Engenhariapor
Appears in Collections:BUM - Dissertações de Mestrado
DI - Dissertações de Mestrado
CEB - Dissertações de Mestrado / MSc Dissertations

Files in This Item:
File Description SizeFormat 
Constanca Machado Aires Lobo Elias.pdf2,1 MBAdobe PDFView/Open

This item is licensed under a Creative Commons License Creative Commons

Partilhe no FacebookPartilhe no TwitterPartilhe no DeliciousPartilhe no LinkedInPartilhe no DiggAdicionar ao Google BookmarksPartilhe no MySpacePartilhe no Orkut
Exporte no formato BibTex mendeley Exporte no formato Endnote Adicione ao seu ORCID