Please use this identifier to cite or link to this item: http://hdl.handle.net/1822/65253

TitleAdvancing the design and implementation of Big Data Warehousing Systems
Author(s)Costa, Carlos Filipe Machado da Silva
Advisor(s)Santos, Maribel Yasmina
KeywordsBig Data
Big Data Warehouse
Data Engineering
Data Science
Engenharia de Dados
Ciência de Dados
Issue date11-Apr-2019
Abstract(s)Current Information Technology advancements have led organizations to pursue high business value and competitive advantages through the collection, storage, processing, and analysis of vast amounts of heterogonous data, generated at ever-growing rates. Since a Data Warehouse (DW) is one of the most remarkable and fundamental enterprise data assets, nowadays, a current research trend is the concept of Big Data Warehouse (BDW), characterizing real-time, scalable, and high-performance systems with flexible storage based on commodity hardware, which can overcome the limitations of traditional DWs to assure mixed and complex Big Data analytics workloads. The state-of-the-art in Big Data Warehousing (BDWing) reflects the young age of the concept, as well as the ambiguity and lack of integrated approaches for designing and implementing these systems. Fulfilling this gap is of major relevance, reason why this work proposes an approach composed of several models and methods for the design and implementation of BDWs, focusing on the logical components, data flows, technological infrastructure, data modeling, and data Collection, Preparation, and Enrichment (CPE). To demonstrate the usefulness, effectiveness, and efficiency of the proposed approach, this work considers four demonstration cases: 1) the application of the proposed data modeling method in several potential real-world applications, including retail, manufacturing, finance, software development, sensor-based systems, and worldwide news and events; 2) the application of the CPE method to process batch and streaming data arriving at the BDW from several source systems; 3) a custom-made extension of the Star Schema Benchmark (SSB), named the SSB+, in which several workloads were developed to benchmark a BDW implemented using the proposed approach, comparing its performance against a traditional dimensional DW; 4) a real-world instantiation based on the development of a BDWing system in the context of smart cities. The results of this research work reveal that the approach can be applied and generalized to support several application contexts, providing adequate and flexible data models that can reduce the implementation time between data collection and data analysis. Moreover, the proposed approach frequently presents faster query execution times and more efficient resource usage than a traditional dimensional modeling approach. Consequently, the proposed approach is able to provide general models and methods that can be used to design and implement BDWs, advancing the state-of-the-art based on a systematic approach rather than an ad hoc and use case driven one, which is seen as a valuable contribution to the technical and scientific community related to this research topic.
Os avanços atuais das Tecnologias da Informação têm levado as organizações a procurar um elevado valor do negócio e vantagens competitivas através da recolha, armazenamento, processamento, e análise de vastas quantidades de dados heterogéneos, gerados a velocidades cada vez maiores. Dado que um DW é um artefacto de dados fundamental nas organizações, uma linha de investigação atual é o conceito de BDW, caracterizando sistemas em tempo-real, escaláveis, de elevado desempenho, com armazenamento flexível, e baseados em commodity hardware, sendo capazes de ultrapassar as limitações dos DWs tradicionais de forma a assegurar uma variedade de tarefas complexas de Big Data analytics. O estado da arte em BDWing reflete o facto de ser um conceito emergente, bem como a ambiguidade e falta de abordagens integradas para a conceção e implementação destes sistemas. Preencher esta lacuna é significativamente relevante, razão pela qual este trabalho propõe uma abordagem composta por modelos e métodos para conceber e implementar BDWs, focando-se nos componentes lógicos, fluxos de dados, infraestrutura tecnológica, modelação de dados, e na recolha, preparação, e enriquecimento dos dados. Para demonstrar a utilidade, eficácia, e eficiência da solução proposta, este trabalho considera quatro casos de demonstração: 1) a aplicação do método proposto para a modelação de dados em várias potenciais aplicações do mundo-real, incluindo retalho, produção, finanças, desenvolvimento de software, sistemas baseados em sensores, e notícias e eventos a nível mundial; 2) a aplicação do método para recolher, preparar e enriquecer dados (batch e streaming ) provenientes de vários sistemas-fonte; 3) uma extensão do SSB desenvolvida à medida (SSB+), na qual várias workloads foram executadas de modo a avaliar o desempenho de um BDW implementado usando a abordagem proposta, comparando-o com um DW dimensional tradicional; 4) uma instância do mundo-real baseada no desenvolvimento de um sistema de BDWing no contexto de smart cities. Os resultados deste trabalho revelam que a abordagem pode ser aplicada e generalizada para suportar vários contextos de aplicação, disponibilizando modelos de dados adequados e flexíveis que conseguem reduzir o tempo de implementação entre a recolha de dados e a análise de dados. Além disso, a abordagem apresenta frequentemente tempos mais rápidos na execução de queries e um uso de recursos mais eficiente do que uma abordagem dimensional tradicional. Consequentemente, a abordagem proposta pode ser usada para a conceção e implementação de BDWs seguindo uma abordagem sistémica, em vez de uma abordagem ad hoc e use case driven, o que é visto como um contributo valioso para a comunidade técnico-científica relacionada com este tópico.
TypeDoctoral thesis
DescriptionDoctoral Thesis (Information Systems and Technologies)
URIhttp://hdl.handle.net/1822/65253
AccessEmbargoed access (3 Years)
Appears in Collections:BUM - Teses de Doutoramento
CAlg - Teses de doutoramento/PhD theses

Files in This Item:
File Description SizeFormat 
PhD_Carlos Filipe Machado da Silva Costa.pdf
  Until 2022-04-11
37,4 MBAdobe PDFView/Open

This item is licensed under a Creative Commons License Creative Commons

Partilhe no FacebookPartilhe no TwitterPartilhe no DeliciousPartilhe no LinkedInPartilhe no DiggAdicionar ao Google BookmarksPartilhe no MySpacePartilhe no Orkut
Exporte no formato BibTex mendeley Exporte no formato Endnote Adicione ao seu ORCID