Utilize este identificador para referenciar este registo: https://hdl.handle.net/1822/82799

TítuloHyLake: atualização de lagos de dados com granularidade fina
Outro(s) título(s)HyLake: fine granularity updates to data lakes
Autor(es)Teixeira, Nelson José Dias
Orientador(es)Pereira, José
Coelho, Fábio André Castanheira Luís
Palavras-chaveLagos de dados
Transações
Processamento híbrido transacional-analítico
Bases de dados
Sistemas distribuídos
Data lakes
Transactions
HTAP (Hybrid Transactional Analytical Processing)
Databases
Distributed systems
Data3-Dez-2021
Resumo(s)Os lagos de dados, também conhecidos por data lakes, suportam a recolha de grandes quantidades de informação em ficheiros imutáveis para processamento analítico. No entanto, tem surgido a necessidade de modificar e atualizar esta informação de forma fiável, seja porque os dados são recebidos de forma incremental (por exemplo, de sensores e outras fontes de eventos) ou para eliminar os mesmos (por exemplo, devido ao RGPD (Regulamento Geral sobre a Proteção de Dados)). As soluções atuais para o fazer não são no entanto ideais: o armazenamento em SGBD (Sistema de Gestão de Bases de Dados) NoSQL (Not only SQL) tem um grande impacto no desempenho analítico, enquanto que sistemas baseados em ficheiros, como o Delta Lake, permitem apenas atualizações de granularidade grossa. Neste trabalho aborda-se este problema propondo uma solução híbrida que combina o armazena mento de longo prazo em ficheiros com um armazenamento transitório num SGBD NoSQL de forma a obter as vantagens de ambos os sistemas. Para o efeito, é implementado uma prova de conceito usando Spark, com ficheiros Parquet, e MongoDB. Assim, com a introdução deste sistema pretende-se possibi litar a execução de transações frequentes e de granularidade fina para suportar uma carga de trabalho OLTP (Online Transaction Processing). Os resultados experimentais obtidos confirmam que esta proposta obtém desempenho analítico e transacional comparável a cada um dos sistemas isolados.
Data lakes support the collection of large amounts of information in immutable files for analytical processing. However, there has been a need to reliably modify and update this information, either because data is received incrementally (for example, from sensors and other event sources) or to eliminate them (for example, due to GDPR (General Data Protection Regulation)). Current solutions for doing this aren’t ideal: storage in NoSQL (Not only SQL) DBMS (Database Management System) has a big impact on analytical performance, while file-based systems, such as Delta Lake, only allow coarse-grained updates. This work addresses this problem by proposing a hybrid solution that combines long-term file storage with transient storage in a NoSQL DBMS in order to obtain the advantages of both systems. For this purpose, a proof of concept is implemented using Spark, with Parquet files, and MongoDB. Thus, with the introduction of this system, it’s intended to enable the execution of frequent and fine-grained transactions to support an OLTP (Online Transaction Processing) workload. The experimental results obtained confirm that this proposal obtains analytical and transactional performance comparable to each of the isolated systems.
TipoDissertação de mestrado
DescriçãoDissertação de mestrado em Engenharia Informática
URIhttps://hdl.handle.net/1822/82799
AcessoAcesso aberto
Aparece nas coleções:BUM - Dissertações de Mestrado
DI - Dissertações de Mestrado

Ficheiros deste registo:
Ficheiro Descrição TamanhoFormato 
Nelson Jose Dias Teixeira.pdf10,75 MBAdobe PDFVer/Abrir

Este trabalho está licenciado sob uma Licença Creative Commons Creative Commons

Partilhe no FacebookPartilhe no TwitterPartilhe no DeliciousPartilhe no LinkedInPartilhe no DiggAdicionar ao Google BookmarksPartilhe no MySpacePartilhe no Orkut
Exporte no formato BibTex mendeley Exporte no formato Endnote Adicione ao seu ORCID