Please use this identifier to cite or link to this item: http://hdl.handle.net/1822/59393

TitleProcessamento analítico de dados em contextos de Big Data com o Druid
Author(s)Correia, José Manuel da Silva
Advisor(s)Santos, Maribel Yasmina
KeywordsBig data
Big data warehouse
Druid
OLAP
Real-time
Issue date2018
Abstract(s)Ao longo dos últimos anos tem-se assistido a um crescimento enorme na utilização de dispositivos como por exemplo smartphones, tablets e sensores. Esta tendência, aliada ao facto de se guardarem praticamente todas as interações com as aplicações e serviços disponíveis no mundo, origina a geração de vastas quantidades de dados diariamente, a grande velocidade e provenientes de diversas fontes. Simultaneamente, a pressão causada pelo ambiente intensamente competitivo, no qual as organizações estão inseridas também tem vindo a crescer, obrigando-as a fazer cada vez mais e melhor com cada vez menos recursos à sua disposição. Posto isto, urge que as organizações tirem o melhor partido possível das tecnologias à disposição, a fim de melhorar a sua produtividade, eficiência e tomada de decisão. Assim, importa-lhes perceber os contextos para os quais a utilização singular das tecnologias tradicionais já não é adequada, sendo necessário alicerçar os seus processos em tecnologias Big Data ou na combinação destas com as tecnologias tradicionais. O tradicional Data Warehouse (DW) é um exemplo da inadequação das tecnologias tradicionais para lidar com características como o volume, velocidade e variedade comummente associadas ao Big Data, o que obriga as organizações a optar por outras estratégias para ter uma visão central da sua informação. Essas estratégias passam por dotar os DW com as tecnologias Big Data, originando-se um Big Data Warehouse (BDW), que tem objetivos semelhantes ao DW e que é capaz de suprimir as suas limitações. Além disto, as organizações necessitam não só de analisar dados históricos, mas também dados em Real-Time, integrados num único repositório denominado por Real-Time Big Data Warehouse (RTBDW). Uma decisão em tempo útil, em contexto militar, por exemplo, pode salvar a vida de milhares de pessoas. Nesta dissertação, enquadrada num projeto de investigação em colaboração entre a Bosch e a Universidade do Minho, explora-se e avalia-se o Druid no processamento analítico de vastas quantidades de dados, aplicando-se diferentes estratégias de modelação, segment granularity, query granularity e hashed partitions, a fim de perceber se estas propriedades influenciam o desempenho e o espaço necessário de armazenamento. Para efetuar os diferentes testes de desempenho é utilizado o Star Schema Benchmark. Os resultados demonstram que a aplicação destas propriedades pode otimizar o desempenho, sendo que os cenários em que se utilizam partições, normalmente, alcançam menores tempos no processamento das queries avaliadas. É ainda proposta uma arquitetura de RTBDW funcional, em torno do Druid, validada recorrendo a um caso de demonstração.
Over the last few years we have witnessed to a tremendous increase in the use of devices, such as smartphones, tablets and sensors. This trend coupled with the fact that we save most of the interactions with applications or services available in the world, leads to the generation of vast amounts of data on a daily basis, at a high velocity and from different sources. Simultaneously, the pressure caused by the intensively competitive environment, in which organization are operating has also being growing, forcing them to do more and better with fewer resources at their disposal. Thus, it’s imperative that organizations make the best use of available technologies, in order to improve their productivity, efficiency and decision making. Therefore, they need to be aware of the contexts, in which the use of traditional technology is no longer appropriate and when it is necessary to support their processes in Big Data technologies or in a combination of these with traditional technologies. Traditional Data Warehouse (DW) is an example of the inadequacy of traditional technologies to handle characteristics such as volume, velocity and variety, commonly associated to Big Data, forcing organizations to choose other strategies to have a central view of their information. These strategies consist of equipping the DW with Big Data technologies, resulting in a Big Data Warehouse (BDW), which has similar goals to DW and that can suppress its limitations. In addition, organizations need to analyze not only historical data, but also real-time data, integrated into a single repository named Real-Time Big Data Warehouse (RTBDW). A timely decision, in a military context, can save thousands of people lives. In this master’s thesis, which emerges in the context of a collaborative research project between Bosch and University of Minho, explores and evaluates the analytical processing of vast amounts of data in Druid, applying different strategies of data modelling, segment granularity, query granularity and hashed partitions, to verify the impact that these properties have in terms of performance and space required to store the data. To perform the several performance tests, the well-known Star Schema Benchmark is used. The obtained results show that the application of these properties can optimize the performance, and the scenarios in which partitions are used, usually achieve better processing times in the evaluated queries. It is also proposed a functional RTBDW architecture, around Druid, validated using a demonstration case.
TypeMaster thesis
DescriptionDissertação de mestrado integrado em Engenharia e Gestão de Sistemas de Informação
URIhttp://hdl.handle.net/1822/59393
AccessOpen access
Appears in Collections:BUM - Dissertações de Mestrado Integrado
DSI - Engenharia e Gestão de Sistemas de Informação

Files in This Item:
File Description SizeFormat 
DissertacaoJoseCorreia_a71863_versaoFinal_com_capa.pdf10,35 MBAdobe PDFView/Open

Partilhe no FacebookPartilhe no TwitterPartilhe no DeliciousPartilhe no LinkedInPartilhe no DiggAdicionar ao Google BookmarksPartilhe no MySpacePartilhe no Orkut
Exporte no formato BibTex mendeley Exporte no formato Endnote Adicione ao seu ORCID