Data Lakes em ambientes híbridos Cloud/Edge

Utilize este identificador para referenciar este registo: https://hdl.handle.net/1822/83126

Registo completo

Campo DC	Valor	Idioma
dc.contributor.advisor	Vilaça, Ricardo Manuel Pereira	por
dc.contributor.advisor	Pereira, José	por
dc.contributor.author	Costa, Daniel Vilar da	por
dc.date.accessioned	2023-03-08T18:55:21Z	-
dc.date.available	2023-03-08T18:55:21Z	-
dc.date.issued	2022-04-05	-
dc.date.submitted	2022-02	-
dc.identifier.uri	https://hdl.handle.net/1822/83126	-
dc.description	Dissertação de mestrado integrado em Engenharia Informática	por
dc.description.abstract	A análise dos dados tem sido, tradicionalmente, realizada em servidores na nuvem, onde a capacidade de armazenamento e de processamento são quase ilimitadas. Em contrapartida, os dispositivos periféricos têm severas limitações tanto de armazenamento como de processamento. No entanto, estes dispositivos encontram-se mais próximos do local onde os dados são gerados. Por causa disso, estes são, usualmente, utilizados para cargas de trabalho transacionais onde a confiabilidade e interatividade são fulcrais. Devido às limitações dos dispositivos periféricos, os dados são, geralmente, extraídos periodicamente para a nuvem onde são depois armazenados e processados. De modo a permitir a análise exploratória de dados heterogéneos, é comum utilizar uma infraestrutura Data Lake que permite gerir dados em formato bruto de múltiplas fontes. No entanto, transferir todos os dados coletados para a nuvem é inviável devido à limitada capacidade da rede que não tem conseguido acompanhar o crescimento do volume de dados coletados. Esta dissertação ultrapassa estes desafios ao implementar um componente middleware capaz de armazenar os dados previamente transmitidos na nuvem e propaga partes da interrogação para a periferia. Deste modo, consegue-se reduzir o volume de dados transferido ao enviar, idealmente, apenas uma vez os dados necessários para responder aos pedidos. Além disso, esta solução equilibra o impacto na rede e o custo computacional na periferia de modo a minimizar o tempo de execução.	por
dc.description.abstract	Data analysis has traditionally been performed on dedicated servers in the cloud, where storage and processing capabilities are almost unlimited, in contrast to edge devices. Nonetheless, these devices are closer to where data is generated. Because of this, they have, usually, a transactional workload, where reliability and interactivity are essential. Due to the limitations of edge devices, generally, data is extracted periodically to the cloud to be stored and processed. In order to allow exploratory data analysis, the heterogeneous data is stored in a Data Lake infrastructure that manages data in raw format from multiple data sources. Nonetheless, transferring all collected data to the cloud is unfeasible because the increase in the volume of collected data has surpassed the network capabilities. This thesis overcomes these challenges by employing a middleware component capable of storing previously transmitted data in the cloud and pushing down query fragments to the edge. Consequently, the volume of data transmitted to the cloud is reduced by uploading, ideally, only once the required data. Furthermore, the solution balances the impact on the network and the computational effort in the edge in order to minimize execution time.	por
dc.description.sponsorship	Parcialmente financiado pelo projeto AIDA – Adaptive, Intelligent and Distributed Assurance Platform (POCI-01-0247-FEDER-045907), cofinanciado pelo Fundo Europeu de Desenvolvimento Regional (FEDER) através do Programa Operacional da Competitividade e Internacionalização (COMPETE 2020) e pela Fundação para a Ciência e Tecnologia (FCT) no âmbito do CMU Portugal.	por
dc.language.iso	por	por
dc.relation	POCI-01-0247-FEDER-045907	por
dc.rights	openAccess	por
dc.rights.uri	http://creativecommons.org/licenses/by-nc-sa/4.0/	por
dc.subject	Ambiente Cloud/Edge	por
dc.subject	Sincronização	por
dc.subject	Replicação	por
dc.subject	Federação de dados	por
dc.subject	Análise de dados exploratória	por
dc.subject	Cloud/Edge environment	por
dc.subject	Synchronization	por
dc.subject	Replication	por
dc.subject	Data federation	por
dc.subject	Exploratory data analysis	por
dc.title	Data Lakes em ambientes híbridos Cloud/Edge	por
dc.title.alternative	Data Lakes in hybrid Cloud/Edge environments	por
dc.type	masterThesis	eng
dc.identifier.tid	203206290	por
thesis.degree.grantor	Universidade do Minho	por
sdum.degree.grade	19 valores	por
sdum.uoei	Escola de Engenharia	por
dc.subject.fos	Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática	por
Aparece nas coleções:	BUM - Dissertações de Mestrado DI - Dissertações de Mestrado