Utilize este identificador para referenciar este registo: https://hdl.handle.net/1822/53753

Registo completo
Campo DCValorIdioma
dc.contributor.advisorSantos, Maribel Yasminapor
dc.contributor.authorCosta, Eduarda Alexandra Pinto dapor
dc.date.accessioned2018-03-29T14:04:59Z-
dc.date.available2018-03-29T14:04:59Z-
dc.date.issued2017-
dc.date.submitted2017-
dc.identifier.urihttps://hdl.handle.net/1822/53753-
dc.descriptionDissertação de mestrado integrado em Engenharia e Gestão de Sistemas de Informaçãopor
dc.description.abstractA quantidade de dados que é produzida nos dias de hoje tem aumentado exponencialmente, como consequência da disponibilidade de novas fontes de dados e, também, devido aos avanços que vão surgindo na área de recolha e armazenamento de dados. Esta explosão de dados foi acompanhada pela popularização do conceito de Big Data, que pode ser definido como grandes volumes de dados, com diferentes graus de complexidade, muitas vezes sem estrutura e organização, que não podem ser processados ou analisados com processos ou ferramentas tradicionais. Os Data Warehouses surgem como uma peça central no armazenamento adequado dos dados, facilitando a análise dos dados sob várias perspetivas e permitindo a extração de informação que pode utilizada nos processos de tomada de decisão. No entanto, estes repositórios tradicionais, que se baseiam em bases de dados relacionais, já não conseguem responder às exigências desta nova realidade. Surge então a necessidade de seguir para o contexto de Big Data Warehouses, que trazem novos problemas e que implicam a adoção de novos modelos lógicos, usados nas bases de dados NoSQL ou nas tecnologias disponíveis no Hadoop, para obter maior flexibilidade na gestão de dados não estruturados, e a adoção de novas tecnologias que suportem grandes quantidades de dados. O Hive é uma ferramenta que permite a concretização de Data Warehouse para contextos de Big Data, que organiza os dados em tabelas, partições e buckets. Vários estudos têm sido conduzidos para compreender formas de otimizar o desempenho no armazenamento e no processamento de dados em Big Data Warehouses. No entanto, poucos destes estudos exploram se a forma como os dados são estruturados tem alguma influência na forma como o Hive responde a consultas. Assim, esta dissertação procura investigar o papel da modelação e organização de dados nos tempos de processamento de Big Data Warehouses, especificamente a definição de partições e buckets no Hive, de forma a definir um conjunto de boas práticas que auxiliem no processo de modelação dos dados e de definição da estrutura de dados a armazenar nestes repositórios. Os resultados obtidos com a aplicação de diversas estratégias de modelação e organização de dados no Hive, reforçam as vantagens associadas à implementação de Big Data Warehouses baseados em tabelas desnormalizadas e, ainda, o potencial benefício da utilização de técnicas de particionamento que, uma vez alinhadas com os filtros aplicados frequentemente nos dados, podem diminuir significativamente o tempo de processamento. As técnicas de bucketing não demonstraram grandes benefícios para o armazenamento e processamento de dados pelo que, na generalidade dos casos, é desaconselhada a sua utilização.por
dc.description.abstractThe amount of data produced today has increased exponentially as a consequence of the availability of new data sources, such as social networks and sensors and, also, due to advances emerging in the area of collection and storage of data. This data explosion was accompanied by the popularization of the term Big Data that can be defined as large volumes of data, with varying degrees of complexity, often without structure and organization, that cannot be processed or analyzed using traditional processes or tools. Data Warehouses emerged as central pieces for adequate data storage, facilitating the analysis of data using different perspectives and allowing the extraction of valuable information that can be used in decision-making processes. Nevertheless, these traditional repositories, which are based on relational databases, can no longer answer to the demands of this new reality. There is a need to move to a Big Data Warehouses context, which brings new problems and imply the adoption of new logical models, used in the NoSQL databases or in the technologies available in Hadoop, in order to gain flexibility and to manage unstructured data, and to adopt new technologies that support large amounts of data. Hive is a tool that allows the implementation of Data Warehouses for Big Data contexts which organizes the data into tables, partitions and buckets. Several studies have been conducted to understand ways to optimize the performance in data storage and processing in Big Data Warehouses. However, few of these studies explore whether the way data is structured has any influence on how Hive responds to queries. Thus, this dissertation investigates the role of data organization and modelling in the processing times of Big Data Warehouses, specifically the definition of partitions and buckets on Hive, in order to identify a set of best practices that help in the process of data modelling and the definition of the data structures to be used to store data in these repositories. The results obtained with the application of several strategies of data modeling and organization in Hive reinforce the advantages associated to the implementation of Big Data Warehouses based on denormalized models and, also, the potential benefit of using partitioning techniques that, once aligned with the filters frequently applied on data, can significantly decrease the processing times. Bucketing techniques have not presented significant benefits for data storage and processing, therefore, in general, the use of such techniques is discouraged.por
dc.description.sponsorshipThis work was supported by: European Structural and Investment Funds in the FEDER component, through the Operational Competitiveness and Internationalization Programme (COMPETE 2020) [Project nº 002814; Funding Reference: POCI-01-0247-FEDER-002814]por
dc.language.isoporpor
dc.rightsopenAccesspor
dc.subjectBig Data Warehousepor
dc.subjectHivepor
dc.subjectPartiçõespor
dc.subjectBucketspor
dc.subjectDesempenhopor
dc.subjectPartitionspor
dc.subjectPerformancepor
dc.titleOrganização e processamento de dados em Big Data Warehouses baseados em Hivepor
dc.title.alternativeData storage and processing in Hive-based Big Data Warehousespor
dc.typemasterThesiseng
dc.identifier.tid201890119por
thesis.degree.grantorUniversidade do Minhopor
sdum.degree.grade17 valorespor
sdum.uoeiEscola de Engenhariapor
dc.subject.fosEngenharia e Tecnologia::Outras Engenharias e Tecnologiaspor
Aparece nas coleções:BUM - Dissertações de Mestrado
DSI - Engenharia e Gestão de Sistemas de Informação

Ficheiros deste registo:
Ficheiro Descrição TamanhoFormato 
Eduarda Alexandra Pinto da Costa.pdf4,93 MBAdobe PDFVer/Abrir

Partilhe no FacebookPartilhe no TwitterPartilhe no DeliciousPartilhe no LinkedInPartilhe no DiggAdicionar ao Google BookmarksPartilhe no MySpacePartilhe no Orkut
Exporte no formato BibTex mendeley Exporte no formato Endnote Adicione ao seu ORCID