Utilize este identificador para referenciar este registo:
https://hdl.handle.net/1822/65253
Título: | Advancing the design and implementation of Big Data Warehousing Systems |
Autor(es): | Costa, Carlos Filipe Machado da Silva |
Orientador(es): | Santos, Maribel Yasmina |
Palavras-chave: | Big Data Big Data Warehouse Data Engineering Data Science Engenharia de Dados Ciência de Dados |
Data: | 11-Abr-2019 |
Resumo(s): | Current Information Technology advancements have led organizations to pursue high business value and
competitive advantages through the collection, storage, processing, and analysis of vast amounts of
heterogonous data, generated at ever-growing rates. Since a Data Warehouse (DW) is one of the most
remarkable and fundamental enterprise data assets, nowadays, a current research trend is the concept of Big
Data Warehouse (BDW), characterizing real-time, scalable, and high-performance systems with flexible storage
based on commodity hardware, which can overcome the limitations of traditional DWs to assure mixed and
complex Big Data analytics workloads. The state-of-the-art in Big Data Warehousing (BDWing) reflects the young
age of the concept, as well as the ambiguity and lack of integrated approaches for designing and implementing
these systems. Fulfilling this gap is of major relevance, reason why this work proposes an approach composed
of several models and methods for the design and implementation of BDWs, focusing on the logical
components, data flows, technological infrastructure, data modeling, and data Collection, Preparation, and
Enrichment (CPE). To demonstrate the usefulness, effectiveness, and efficiency of the proposed approach, this
work considers four demonstration cases: 1) the application of the proposed data modeling method in several
potential real-world applications, including retail, manufacturing, finance, software development, sensor-based
systems, and worldwide news and events; 2) the application of the CPE method to process batch and streaming
data arriving at the BDW from several source systems; 3) a custom-made extension of the Star Schema
Benchmark (SSB), named the SSB+, in which several workloads were developed to benchmark a BDW
implemented using the proposed approach, comparing its performance against a traditional dimensional DW;
4) a real-world instantiation based on the development of a BDWing system in the context of smart cities. The
results of this research work reveal that the approach can be applied and generalized to support several
application contexts, providing adequate and flexible data models that can reduce the implementation time
between data collection and data analysis. Moreover, the proposed approach frequently presents faster query
execution times and more efficient resource usage than a traditional dimensional modeling approach.
Consequently, the proposed approach is able to provide general models and methods that can be used to
design and implement BDWs, advancing the state-of-the-art based on a systematic approach rather than an
ad hoc and use case driven one, which is seen as a valuable contribution to the technical and scientific
community related to this research topic. Os avanços atuais das Tecnologias da Informação têm levado as organizações a procurar um elevado valor do negócio e vantagens competitivas através da recolha, armazenamento, processamento, e análise de vastas quantidades de dados heterogéneos, gerados a velocidades cada vez maiores. Dado que um DW é um artefacto de dados fundamental nas organizações, uma linha de investigação atual é o conceito de BDW, caracterizando sistemas em tempo-real, escaláveis, de elevado desempenho, com armazenamento flexível, e baseados em commodity hardware, sendo capazes de ultrapassar as limitações dos DWs tradicionais de forma a assegurar uma variedade de tarefas complexas de Big Data analytics. O estado da arte em BDWing reflete o facto de ser um conceito emergente, bem como a ambiguidade e falta de abordagens integradas para a conceção e implementação destes sistemas. Preencher esta lacuna é significativamente relevante, razão pela qual este trabalho propõe uma abordagem composta por modelos e métodos para conceber e implementar BDWs, focando-se nos componentes lógicos, fluxos de dados, infraestrutura tecnológica, modelação de dados, e na recolha, preparação, e enriquecimento dos dados. Para demonstrar a utilidade, eficácia, e eficiência da solução proposta, este trabalho considera quatro casos de demonstração: 1) a aplicação do método proposto para a modelação de dados em várias potenciais aplicações do mundo-real, incluindo retalho, produção, finanças, desenvolvimento de software, sistemas baseados em sensores, e notícias e eventos a nível mundial; 2) a aplicação do método para recolher, preparar e enriquecer dados (batch e streaming ) provenientes de vários sistemas-fonte; 3) uma extensão do SSB desenvolvida à medida (SSB+), na qual várias workloads foram executadas de modo a avaliar o desempenho de um BDW implementado usando a abordagem proposta, comparando-o com um DW dimensional tradicional; 4) uma instância do mundo-real baseada no desenvolvimento de um sistema de BDWing no contexto de smart cities. Os resultados deste trabalho revelam que a abordagem pode ser aplicada e generalizada para suportar vários contextos de aplicação, disponibilizando modelos de dados adequados e flexíveis que conseguem reduzir o tempo de implementação entre a recolha de dados e a análise de dados. Além disso, a abordagem apresenta frequentemente tempos mais rápidos na execução de queries e um uso de recursos mais eficiente do que uma abordagem dimensional tradicional. Consequentemente, a abordagem proposta pode ser usada para a conceção e implementação de BDWs seguindo uma abordagem sistémica, em vez de uma abordagem ad hoc e use case driven, o que é visto como um contributo valioso para a comunidade técnico-científica relacionada com este tópico. |
Tipo: | Tese de doutoramento |
Descrição: | Doctoral Thesis (Information Systems and Technologies) |
URI: | https://hdl.handle.net/1822/65253 |
Acesso: | Acesso aberto |
Aparece nas coleções: |
Ficheiros deste registo:
Ficheiro | Descrição | Tamanho | Formato | |
---|---|---|---|---|
PhD_Carlos Filipe Machado da Silva Costa.pdf | 37,4 MB | Adobe PDF | Ver/Abrir |
Este trabalho está licenciado sob uma Licença Creative Commons