Data warehousing em contexto big data: dos conceitos à implementação

Utilize este identificador para referenciar este registo: https://hdl.handle.net/1822/46399

Título:	Data warehousing em contexto big data: dos conceitos à implementação
Autor(es):	Martinho, Bruno Augusto Ferreira
Orientador(es):	Santos, Maribel Yasmina
Palavras-chave:	Big data Data warehouse NoSQL Hadoop Hive Impala
Data:	1-Ago-2016
Resumo(s):	Com o aparecimento do termo Big Data, muitos temas surgem neste contexto e o Data Warehousing é um deles. A forma de desenvolvimento de um Data Warehouse tradicional, e as tecnologias que são utilizadas para o efeito, podem não suportar as grandes quantidades de dados que são geradas nos dias de hoje pelas organizações. As organizações precisam de mais informação e com mais qualidade, de forma a desenvolverem os seus processos de trabalho para terem mais êxito no mercado, que cada vez é mais exigente. Assim, a principal finalidade deste trabalho é propor uma arquitetura para Data Warehousing em contexto Big Data, utilizando um modelo de dados no Hive e um Data Warehouse tradicional como fonte de dados. Como as organizações tem os seus Data Warehouses com muitos dados e essas ferramentas já tem dificuldade em processar esses mesmos dados, este trabalho também pretende propor uma forma de migrar os dados de um Data Warehouse tradicional para um Data Warehouse em contexto de Big Data. Neste trabalho, foi elaborado um enquadramento conceptual de Big Data e Data Warehousing, incluindo termos e conceitos associados a estes, as suas características, processamento de dados, NoSQL, bases de dados In-Memory, entre outros. Além disso, foi realizada uma análise de arquiteturas de Data Warehousing em contexto Big Data já existentes, para perceber o que já existe em relação a este tema. É também apresentado um enquadramento tecnológico, com vista a descrever algumas das tecnologias que têm um papel relevante na proposta da arquitetura, com especial atenção para o ecossistema do Hadoop, e os componentes Hive e Impala. Após a realização do estado da arte e retiradas algumas conclusões, propõe-se uma arquitetura que permite de uma forma flexível construir um Data Warehouse em contexto Big Data, onde a arquitetura é constituída por um conjunto de fluxos de dados e componentes tecnológicos. Antes de desenvolver a arquitetura, foram realizados testes aos tempos de processamento do Hive e do Impala, para perceber como estas tecnologias se poderiam integrar, com o Hive a desempenhar o papel de Data Warehouse e o Impala com o papel de motor de pesquisas para a análise e visualização dos dados. Depois da proposta da arquitetura, foi realizado um trabalho de experimentação que fez uso do ecossistema do Hadoop e do Talend para implementar a arquitetura. A arquitetura foi implementada e validada com sucesso em todos os níveis, desde os componentes escolhidos, os tempos de processamento, a implementação dos fluxos de ETL/ELT e do modelo de dados utilizado no Hive. With the emergence of the Big Data term, many issues arise in this context and Data Warehousing is one of those issues. The way traditional Data Warehouses and technologies are used for this purpose may not support the large amounts of data that are generated by today organizations. Organizations need more information and better quality in that information in order to develop their work processes and be more successful in the market, which is increasingly demanding. The main purpose of this work is to propose an architecture for Data Warehousing in Big Data contexts with Hive as the Data Warehouse repository and a traditional Data Warehouse as data source. As organizations have their data warehouses with lots of data and these tools already have difficulty processing such data, this paper also aims to propose a way to migrate data from a traditional Data Warehouse for a Data Warehouse in the context of Big Data. In this work, a literature review of Big Data and Data Warehousing was developed, including its characteristics and concepts such as, data processing, NoSQL, and In-Memory databases, among others. In addition, an analysis of data models for Data Warehousing in Big Data was performed, considering several available approaches. A technological overview is also presented, in order to describe some of the technologies that may play an important role in the design and validation of the proposed architecture, giving this work special attention to the ecosystem of Hadoop, and the Impala and Hive components. After the completion and analysis of the state of the art, it is proposed an architecture that provides a general overview of the way to build a Data Warehouse in the context Big Data, where the architecture is composed of a set of data flows and technology components. Before implementing the architecture, a benchmark was conducted to verify the processing times of Hive and Impala, an important step to understand how these technologies could be integrated and fit into the architecture, where Hive plays the role of a Data Warehouse and Impala is the driving force for the analysis and visualization of data. After the proposal of the architecture, it was implemented using tools like the Hadoop ecosystem and Talend. The architecture was succesfully implemented and validated at all levels, from the architecture itself to the chosen components, processing times, implementation of the flows ETL / ELT and data models used in Hive.
Tipo:	Dissertação de mestrado
Descrição:	Dissertação de mestrado integrado em Engenharia e Gestão de Sistemas de Informação
URI:	https://hdl.handle.net/1822/46399
Acesso:	Acesso restrito UMinho
Aparece nas coleções:	BUM - Dissertações de Mestrado DSI - Engenharia e Gestão de Sistemas de Informação

Ficheiros deste registo:

Ficheiro	Descrição	Tamanho	Formato
Dissertação_Bruno+Augusto+Ferreira+Martinho_2016.pdf Acesso restrito!	Tese	6,11 MB	Adobe PDF	Ver/Abrir

Ver registo completo Sugerir correção Estatísticas