Apache Kudu: vantagens e desvantagens na análise de vastas quantidades de dados

Utilize este identificador para referenciar este registo: https://hdl.handle.net/1822/59122

Registo completo

Campo DC	Valor	Idioma
dc.contributor.advisor	Santos, Maribel Yasmina	por
dc.contributor.author	Martins, João Filipe Freitas	por
dc.date.accessioned	2019-02-20T09:07:52Z	-
dc.date.available	2019-02-20T09:07:52Z	-
dc.date.issued	2018	-
dc.date.submitted	2018	-
dc.identifier.uri	https://hdl.handle.net/1822/59122	-
dc.description	Dissertação de mestrado integrado em Engenharia e Gestão de Sistemas de Informação	por
dc.description.abstract	Durante os últimos anos, temos assistido a um aumento exponencial da quantidade de dados produzidos. Este aumento deve-se, principalmente, à enorme utilização de sensores, assim como à massificação da utilização das redes sociais e de dispositivos móveis que, em permanência, recolhem dados de diversos tipos e contextos. O tratamento e análise destes dados por parte das organizações traduz-se numa inegável vantagem competitiva nos mercados, cada vez mais exigentes. Por este motivo, o estudo e desenvolvimento de novas ferramentas para a exploração destes dados tem atraído a atenção das organizações e também da comunidade científica, uma vez que as técnicas e tecnologia tradicionais se têm mostrado incapazes de lidar com dados de tal natureza. Neste contexto, surge o termo Big Data, utilizado para definir este tipo de dados de grande volume, diferentes graus de complexidade e, por vezes, não estruturados ou com um modelo de dados pré-definido. Associado ao termo Big Data surgem novos repositórios de dados com modelos lógicos próprios, denominados de bases de dados NoSQL, que vêm substituir as bases de dados relacionais baseadas no paradigma relacional. Estes repositórios estão integrados num ecossistema vasto de ferramentas e tecnologias para lidar com este tipo de dados, o Hadoop. Neste seguimento, esta dissertação tem por objetivo estudar uma das muitas ferramentas associadas ao projeto Hadoop, o Kudu. Esta nova ferramenta, de arquitetura híbrida, promete preencher a lacuna existente entre as ferramentas de acesso a dados de forma sequencial e as ferramentas de acesso a dados de forma aleatória, simplificando, por isso, a arquitetura complexa que a utilização destes dois tipos de sistemas implica. Para cumprir os objetivos da dissertação foram realizados testes de desempenho com dois modelos de dados distintos, ao Kudu e a outras ferramentas destacadas na literatura, para possibilitar a comparação de resultados.	por
dc.description.abstract	Over the last few years we have witnessed an exponential increase in the amount of data produced. This increase is mainly due to the huge use of sensors, as well as the mass use of social networks and mobile devices that continuously collect data of different types and contexts. The processing and analysis of these data by the organizations translates into an undeniable competitive advantage in the increasingly competitive markets. For this reason, the study and development of new tools for the exploration of these data has attracted the attention of organizations and scientific community, since traditional techniques and technology have been unable to deal with data of this nature. In this context, the term Big Data appears, used to define this type of data of great volume, different degrees of complexity, and sometimes unstructured or disorganized. Associated with the term Big Data arise new data repositories with own logical models, denominated of databases NoSQL, that replace the traditional models. These repositories are integrated into a vast ecosystem of tools and technologies to handle this type of data, Hadoop. In this follow-up, this dissertation aims to study one of the many tools associated with the Hadoop project, Kudu. This new hybrid architecture tool promises to fill the gap between sequential data access tools and random data access tools, thereby simplifying the complex architecture that the use of these two types of systems implies. To fulfill the objectives of the dissertation, performance tests were performed with two different data models, over Kudu and other tools highlighted in the literature, to allow the comparison of results.	por
dc.language.iso	por	por
dc.rights	openAccess	por
dc.subject	Big Data	por
dc.subject	NoSQL	por
dc.subject	Hadoop	por
dc.subject	Kudu	por
dc.title	Apache Kudu: vantagens e desvantagens na análise de vastas quantidades de dados	por
dc.type	masterThesis	eng
dc.identifier.tid	202168026	por
thesis.degree.grantor	Universidade do Minho	por
sdum.degree.grade	17 valores	por
sdum.uoei	Escola de Engenharia	por
dc.subject.fos	Engenharia e Tecnologia::Outras Engenharias e Tecnologias	por
Aparece nas coleções:	BUM - Dissertações de Mestrado DSI - Engenharia e Gestão de Sistemas de Informação

Ficheiros deste registo:

Ficheiro	Descrição	Tamanho	Formato
73052_JoaoMartins_final.pdf		1,42 MB	Adobe PDF	Ver/Abrir

Ver registo simples Sugerir correção Estatísticas