Utilize este identificador para referenciar este registo:
https://hdl.handle.net/1822/53679
Título: | Big Data Warehousing em tempo real: da recolha ao processamento de dados |
Outro(s) título(s): | Real-time Big Data Warehousing: from collection to data processing |
Autor(es): | Lima, Francisca Leitão Gonçalves do Vale |
Orientador(es): | Santos, Maribel Yasmina |
Palavras-chave: | Big data Big data warehouse Real-time Hadoop Hive |
Data: | 2017 |
Resumo(s): | A evolução tecnológica dos últimos anos tem captado o interesse das organizações na análise
de dados, na extração de informação das grandes quantidades de dados geradas, surgindo o interesse
em Business Intelligence e associado a este a componente de Big Data. Big Data veio assim revolucionar
as tecnologias e técnicas tradicionais pela capacidade de lidar com o volume, velocidade e variedade dos
dados. A utilização de Data Warehouses, em contexto de Big Data, os Big Data Warehouses, aumentam
as perspetivas de obter os dados de forma rápida e atualizada, potenciando o acesso aos dados em
tempo real. Assim, com a introdução de tecnologias em tempo real é possível capturar a mudança nos
dados e obter uma análise com dados atualizados, cada vez mais importante na tomada de decisão.
Nesta dissertação pretende-se compreender o papel dos diversos componentes e tecnologias na
concretização de Big Data Warehouses, um conjunto de considerações para a implementação de Big
Data Warehouses, pelo que são explorados os requisitos de tempo real para a concretização e avaliação
de uma arquitetura para o processamento de dados. Vários trabalhos têm sido propostos na procura de
soluções que permitam o fluxo de dados em tempo real, contudo esta dissertação distingue-se por
permitir que a recolha, o processamento, o armazenamento e a análise de dados, tanto recolhidos em
tempo real como armazenados numa componente histórica, possam ser feitos em poucos segundos
recorrendo a um conjunto de tecnologias aqui testadas e validadas. Assim, neste trabalho é estudado o
desempenho dos componentes que permitem a concretização do tempo real desejado, com dados em
tempo real e históricos, os quais são concretizados num caso de demonstração que permite evidenciar
as vantagens e desvantagens de cada tecnologia. Com dados do Twitter a fluir em tempo real, o
comportamento das várias tecnologias em cenários distintos é avaliado de forma a estabelecer um
conjunto de boas práticas que vão desde a recolha de dados com Kafka, o processamento de dados com
Spark Streaming, ao armazenamento de dados com Hive e/ou Cassandra, sendo efetuadas consultas
recorrendo ao Presto. O trabalho realizado permite analisar o comportamento do Kafka neste contexto,
o desempenho do Spark Streaming com diferentes durações de pacotes de dados, o desempenho do
Hive no armazenamento de dados em tempo real e no armazenamento de dados históricos, e do
Cassandra no armazenamento de dados em tempo real. A análise dos resultados obtidos permite a uma
organização compreender o papel de cada componente e tecnologia numa arquitetura para a
concretização de Big Data Warehouses, sendo possível realizar consultas de dados que integram dados
atuais, a fluir em tempo real, com dados históricos. The technological evolution of the last years has called the attention of organizations for the analysis of data, with the aim of extracting information from the large volumes of generated data, increasing the interest in Business Intelligence and, more specifically, in Big Data. Big Data has revolutionized the traditional technologies and techniques with the ability to handle the volume, velocity and variety of data. The use of Data Warehouses, in the context of Big Data, the Big Data Warehouses, increases the ability to get faster access to updated data, enhancing data analytics in real-time. Thus, the introduction of real-time technologies allows capturing changes in data and provides analyses with updated data, a factor that is increasingly important in decision making. In this dissertation, the role of the components and technologies is explored and a set of considerations is established for the implementation of Big Data Warehouses, thus exploring the real-time requirements for the concretization and evaluation of an architecture for data processing. Related works have been proposed mainly enhancing data flowing in real-time. However, this dissertation is innovative by allowing the collection, processing, storage and analysis of data, a workflow that can be done in only a few seconds using a set of technologies tested and validated in this work. Thus, in this work the performance of the components that allow the concretization of the aimed real-time, processing real-time and historical data, are studied. A demonstration case shows the advantages and disadvantages of each technology. With Twitter data flowing in real-time, the technologies performance in distinct scenarios is evaluated establishing a set of best practices that use data collection with Kafka, data processing with Spark Streaming, data storage with Hive and/or Cassandra, being data queried by Presto. The work carried out allows the analysis of the performance of Kafka in this context, the performance of Spark Streaming with different microbatches, the performance of Hive in real-time data storage and in historical data storage, and Cassandra in real-time data storage. The analysis of the results allows an organization to understand the role of each component and technology in an architecture for the implementation of Big Data Warehouses, being possible to perform data analytics that integrates current data, flowing in real-time, with historical data. |
Tipo: | Dissertação de mestrado |
Descrição: | Dissertação de mestrado integrado em Engenharia e Gestão de Sistemas de Informação |
URI: | https://hdl.handle.net/1822/53679 |
Acesso: | Acesso aberto |
Aparece nas coleções: | BUM - Dissertações de Mestrado DSI - Engenharia e Gestão de Sistemas de Informação |
Ficheiros deste registo:
Ficheiro | Descrição | Tamanho | Formato | |
---|---|---|---|---|
Francisca Leitão Gonçalves do Vale Lima.pdf | 3,33 MB | Adobe PDF | Ver/Abrir |