Please use this identifier to cite or link to this item:
https://hdl.handle.net/1822/83126
Title: | Data Lakes em ambientes híbridos Cloud/Edge |
Other titles: | Data Lakes in hybrid Cloud/Edge environments |
Author(s): | Costa, Daniel Vilar da |
Advisor(s): | Vilaça, Ricardo Manuel Pereira Pereira, José |
Keywords: | Ambiente Cloud/Edge Sincronização Replicação Federação de dados Análise de dados exploratória Cloud/Edge environment Synchronization Replication Data federation Exploratory data analysis |
Issue date: | 5-Apr-2022 |
Abstract(s): | A análise dos dados tem sido, tradicionalmente, realizada em servidores na nuvem, onde a capacidade de
armazenamento e de processamento são quase ilimitadas. Em contrapartida, os dispositivos periféricos
têm severas limitações tanto de armazenamento como de processamento. No entanto, estes dispositivos
encontram-se mais próximos do local onde os dados são gerados. Por causa disso, estes são, usualmente,
utilizados para cargas de trabalho transacionais onde a confiabilidade e interatividade são fulcrais.
Devido às limitações dos dispositivos periféricos, os dados são, geralmente, extraídos periodicamente
para a nuvem onde são depois armazenados e processados. De modo a permitir a análise exploratória de
dados heterogéneos, é comum utilizar uma infraestrutura Data Lake que permite gerir dados em formato
bruto de múltiplas fontes. No entanto, transferir todos os dados coletados para a nuvem é inviável devido
à limitada capacidade da rede que não tem conseguido acompanhar o crescimento do volume de dados
coletados.
Esta dissertação ultrapassa estes desafios ao implementar um componente middleware capaz de
armazenar os dados previamente transmitidos na nuvem e propaga partes da interrogação para a periferia.
Deste modo, consegue-se reduzir o volume de dados transferido ao enviar, idealmente, apenas uma vez
os dados necessários para responder aos pedidos. Além disso, esta solução equilibra o impacto na rede
e o custo computacional na periferia de modo a minimizar o tempo de execução. Data analysis has traditionally been performed on dedicated servers in the cloud, where storage and processing capabilities are almost unlimited, in contrast to edge devices. Nonetheless, these devices are closer to where data is generated. Because of this, they have, usually, a transactional workload, where reliability and interactivity are essential. Due to the limitations of edge devices, generally, data is extracted periodically to the cloud to be stored and processed. In order to allow exploratory data analysis, the heterogeneous data is stored in a Data Lake infrastructure that manages data in raw format from multiple data sources. Nonetheless, transferring all collected data to the cloud is unfeasible because the increase in the volume of collected data has surpassed the network capabilities. This thesis overcomes these challenges by employing a middleware component capable of storing previously transmitted data in the cloud and pushing down query fragments to the edge. Consequently, the volume of data transmitted to the cloud is reduced by uploading, ideally, only once the required data. Furthermore, the solution balances the impact on the network and the computational effort in the edge in order to minimize execution time. |
Type: | Master thesis |
Description: | Dissertação de mestrado integrado em Engenharia Informática |
URI: | https://hdl.handle.net/1822/83126 |
Access: | Open access |
Appears in Collections: | BUM - Dissertações de Mestrado DI - Dissertações de Mestrado |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
Daniel Vilar da Costa.pdf | 666,02 kB | Adobe PDF | View/Open |
This item is licensed under a Creative Commons License