Inclusão de funcionalidades MapReduce em sistemas de data warehousing

Utilize este identificador para referenciar este registo: https://hdl.handle.net/1822/28079

Registo completo

Campo DC	Valor	Idioma
dc.contributor.advisor	Belo, Orlando	-
dc.contributor.author	Silva, Dário Almeno Matos da	-
dc.date.accessioned	2014-02-20T14:58:07Z	-
dc.date.available	2014-02-20T14:58:07Z	-
dc.date.issued	2013-12-18	-
dc.identifier.uri	https://hdl.handle.net/1822/28079	-
dc.description	Dissertação de mestrado em Engenharia Informática	por
dc.description.abstract	Em geral, o processo de aquisição de dados nas organizações tornou-se gradualmente mais fácil. Perante a atual proliferação de dados, surgiram novas estratégias de processamento que visam a obtenção de melhores desempenhos dos processos de análise de dados. O MapReduce é um modelo de programação dedicado ao processamento de grandes conjuntos de dados e que coloca em prática muitos dos princípios da computação paralela e distribuída. Este modelo tem em vista facilitar o acesso aos sistemas paralelos e distribuídos a programadores menos experientes, de forma a que estes possam beneficiar das suas características de armazenamento e de processamento de dados. Os frameworks baseados neste modelo de programação ocupam hoje já uma posição de destaque no mercado, sobretudo no segmento dedicado à análise de dados não estruturados, tais como documentos de texto ou ficheiros log. Na prática, o problema do armazenamento das estruturas multidimensionais de dados e a capacidade de realizar cálculos “on the fly”, com tempos de execução reduzidos, constituem desafios muito importantes que têm que ser, também, encarados pelos sistemas de data warehousing modernos. Com efeito, nas últimas décadas, surgiram técnicas de otimização de desempenho para dar resposta às necessidades mais correntes dos agentes de decisão. O espaço multidimensional é tipicamente sustentado por um sistema de gestão de base de dados relacional através de um esquema em estrela. Igualmente, algumas soluções alternativas a estes sistemas, tal como a Bigtable, e o aparecimento de tecnologias de sistemas de data warehousing baseadas em MapReduce, como o Apache Hive e o Apache Pig, assumem um papel cada vez mais relevante. Nesta dissertação foram analisadas várias técnicas orientadas para a otimização do desempenho de um sistema multidimensional de dados, com base nas características de armazenamento e processamento de queries que o MapReduce nos propicia nos dias que correm. Os princípios fundamentais destas técnicas consistem numa estruturação dos dados contidos no data warehouse, de forma a facilitar a sua manutenção e usufruir de excelentes desempenhos na satisfação de queries, tendo em consideração, contudo, as limitações impostas pelo modelo de programação MapReduce. Adicionalmente, esta dissertação apresenta e descreve um processo de adaptação de uma estrutura convencional de um data warehouse para uma estrutura baseada em MapReduce, analisando os seus aspetos mais pertinentes.	por
dc.description.abstract	In general, the data acquisition process by organizations become gradually easier. Given the current data proliferation, new processing strategies aimed at archiving better performance of data analysis processes. MapReduce is a programming dedicated to processing large data sets and puts into practice many of the principles parallel and distributed computing. This model aims to facilitate access to parallel and distributed systems to less experienced programmers, so that they can benefit from their storage characteristics and data processing. Frameworks based on this programming model today already occupy a prominent position in the market, especially in the segment devoted to the analysis of unstructured data such as text documents or log files. In practice, the problem of storage of multidimensional data structures and the ability to perform onthe fly calculations, with reduced execution time, are very important challenges that must also faced by modern data warehousing systems. Indeed, in recent decades, emerged techniques for performance optimization to meet the most common needs of the decision makers. The multidimensional space is typically supported by a relational database management system through a star schema. Also, some alterative solutions to these systems, such as Bigtable, and the emergence of data warehousing systems technologies based on MapReduce, such as Apache Hive e Apache Pig are playing an increasingly important role. This dissertation analyzed several techniques aimed at optimizing the performance of a system of multidimensional data, based on characteristics of storage and query processing in the MapReduce provide these days. The fundamental principles of these techniques consist of a structure of data in the data warehouse, in order to facilitate their management and boasts excellent performance in satisfying queries, taking account, however, the limitations imposed by the MapReduce programming model. Additionally, this dissertation introduces and describes an adaptation process of a conventional data warehouse structure for a framework based on MapReduce, analyzing its most relevant aspects.	por
dc.language.iso	por	por
dc.rights	openAccess	por
dc.subject	Sistemas de suporte à decisão	por
dc.subject	Business intelligence	por
dc.subject	Data warehousing	por
dc.subject	Processamento de estruturas multidimensionais de dados	por
dc.subject	On-line analytical processing	por
dc.subject	MapReduce	por
dc.subject	Decision support systems	por
dc.subject	Multidimensional data structures processing	por
dc.title	Inclusão de funcionalidades MapReduce em sistemas de data warehousing	por
dc.type	masterThesis	por
dc.comments	eeum_di_dissertacao_pg16419	por
dc.subject.udc	681.3:658.0	-
dc.subject.udc	658.0:681.3	-
dc.identifier.tid	201195127	por
Aparece nas coleções:	BUM - Dissertações de Mestrado

Ficheiros deste registo:

Ficheiro	Descrição	Tamanho	Formato
eeum_di_dissertacao_pg16419.pdf		2,18 MB	Adobe PDF	Ver/Abrir

Ver registo simples Sugerir correção Estatísticas