Utilize este identificador para referenciar este registo: https://hdl.handle.net/1822/28079

Registo completo
Campo DCValorIdioma
dc.contributor.advisorBelo, Orlando-
dc.contributor.authorSilva, Dário Almeno Matos da-
dc.date.accessioned2014-02-20T14:58:07Z-
dc.date.available2014-02-20T14:58:07Z-
dc.date.issued2013-12-18-
dc.identifier.urihttps://hdl.handle.net/1822/28079-
dc.descriptionDissertação de mestrado em Engenharia Informáticapor
dc.description.abstractEm geral, o processo de aquisição de dados nas organizações tornou-se gradualmente mais fácil. Perante a atual proliferação de dados, surgiram novas estratégias de processamento que visam a obtenção de melhores desempenhos dos processos de análise de dados. O MapReduce é um modelo de programação dedicado ao processamento de grandes conjuntos de dados e que coloca em prática muitos dos princípios da computação paralela e distribuída. Este modelo tem em vista facilitar o acesso aos sistemas paralelos e distribuídos a programadores menos experientes, de forma a que estes possam beneficiar das suas características de armazenamento e de processamento de dados. Os frameworks baseados neste modelo de programação ocupam hoje já uma posição de destaque no mercado, sobretudo no segmento dedicado à análise de dados não estruturados, tais como documentos de texto ou ficheiros log. Na prática, o problema do armazenamento das estruturas multidimensionais de dados e a capacidade de realizar cálculos “on the fly”, com tempos de execução reduzidos, constituem desafios muito importantes que têm que ser, também, encarados pelos sistemas de data warehousing modernos. Com efeito, nas últimas décadas, surgiram técnicas de otimização de desempenho para dar resposta às necessidades mais correntes dos agentes de decisão. O espaço multidimensional é tipicamente sustentado por um sistema de gestão de base de dados relacional através de um esquema em estrela. Igualmente, algumas soluções alternativas a estes sistemas, tal como a Bigtable, e o aparecimento de tecnologias de sistemas de data warehousing baseadas em MapReduce, como o Apache Hive e o Apache Pig, assumem um papel cada vez mais relevante. Nesta dissertação foram analisadas várias técnicas orientadas para a otimização do desempenho de um sistema multidimensional de dados, com base nas características de armazenamento e processamento de queries que o MapReduce nos propicia nos dias que correm. Os princípios fundamentais destas técnicas consistem numa estruturação dos dados contidos no data warehouse, de forma a facilitar a sua manutenção e usufruir de excelentes desempenhos na satisfação de queries, tendo em consideração, contudo, as limitações impostas pelo modelo de programação MapReduce. Adicionalmente, esta dissertação apresenta e descreve um processo de adaptação de uma estrutura convencional de um data warehouse para uma estrutura baseada em MapReduce, analisando os seus aspetos mais pertinentes.por
dc.description.abstractIn general, the data acquisition process by organizations become gradually easier. Given the current data proliferation, new processing strategies aimed at archiving better performance of data analysis processes. MapReduce is a programming dedicated to processing large data sets and puts into practice many of the principles parallel and distributed computing. This model aims to facilitate access to parallel and distributed systems to less experienced programmers, so that they can benefit from their storage characteristics and data processing. Frameworks based on this programming model today already occupy a prominent position in the market, especially in the segment devoted to the analysis of unstructured data such as text documents or log files. In practice, the problem of storage of multidimensional data structures and the ability to perform onthe fly calculations, with reduced execution time, are very important challenges that must also faced by modern data warehousing systems. Indeed, in recent decades, emerged techniques for performance optimization to meet the most common needs of the decision makers. The multidimensional space is typically supported by a relational database management system through a star schema. Also, some alterative solutions to these systems, such as Bigtable, and the emergence of data warehousing systems technologies based on MapReduce, such as Apache Hive e Apache Pig are playing an increasingly important role. This dissertation analyzed several techniques aimed at optimizing the performance of a system of multidimensional data, based on characteristics of storage and query processing in the MapReduce provide these days. The fundamental principles of these techniques consist of a structure of data in the data warehouse, in order to facilitate their management and boasts excellent performance in satisfying queries, taking account, however, the limitations imposed by the MapReduce programming model. Additionally, this dissertation introduces and describes an adaptation process of a conventional data warehouse structure for a framework based on MapReduce, analyzing its most relevant aspects.por
dc.language.isoporpor
dc.rightsopenAccesspor
dc.subjectSistemas de suporte à decisãopor
dc.subjectBusiness intelligencepor
dc.subjectData warehousingpor
dc.subjectProcessamento de estruturas multidimensionais de dadospor
dc.subjectOn-line analytical processingpor
dc.subjectMapReducepor
dc.subjectDecision support systemspor
dc.subjectMultidimensional data structures processingpor
dc.titleInclusão de funcionalidades MapReduce em sistemas de data warehousingpor
dc.typemasterThesispor
dc.commentseeum_di_dissertacao_pg16419por
dc.subject.udc681.3:658.0-
dc.subject.udc658.0:681.3-
dc.identifier.tid201195127por
Aparece nas coleções:BUM - Dissertações de Mestrado

Ficheiros deste registo:
Ficheiro Descrição TamanhoFormato 
eeum_di_dissertacao_pg16419.pdf2,18 MBAdobe PDFVer/Abrir

Partilhe no FacebookPartilhe no TwitterPartilhe no DeliciousPartilhe no LinkedInPartilhe no DiggAdicionar ao Google BookmarksPartilhe no MySpacePartilhe no Orkut
Exporte no formato BibTex mendeley Exporte no formato Endnote Adicione ao seu ORCID