Efficient computation of the matrix square root in heterogeneous platforms

Utilize este identificador para referenciar este registo: https://hdl.handle.net/1822/27850

Registo completo

Campo DC	Valor	Idioma
dc.contributor.advisor	Proença, Alberto José	-
dc.contributor.advisor	Ralha, Rui	-
dc.contributor.author	Costa, Pedro Filipe Araújo	-
dc.date.accessioned	2014-02-06T12:16:05Z	-
dc.date.available	2014-02-06T12:16:05Z	-
dc.date.issued	2013	-
dc.date.submitted	2013	-
dc.identifier.uri	https://hdl.handle.net/1822/27850	-
dc.description	Dissertação de mestrado em Engenharia Informática	por
dc.description.abstract	Matrix algorithms often deal with large amounts of data at a time, which impairs efficient cache memory usage. Recent collaborative work between the Numerical Algorithms Group and the University of Minho led to a blocked approach to the matrix square root algorithm with significant efficiency improvements, particularly in a multicore shared memory environment. Distributed memory architectures were left unexplored. In these systems data is distributed across multiple memory spaces, including those associated with specialized accelerator devices, such as GPUs. Systems with these devices are known as heterogeneous platforms. This dissertation focuses on studying the blocked matrix square root algorithm, first in a multicore environment, and then in heterogeneous platforms. Two types of hardware accelerators are explored: Intel Xeon Phi coprocessors and NVIDIA CUDA-enabled GPUs. The initial implementation confirmed the advantages of the blocked method and showed excellent scalability in a multicore environment. The same implementation was also used in the Intel Xeon Phi, but the obtained performance results lagged behind the expected behaviour and the CPU-only alternative. Several optimizations techniques were applied to the common implementation, which managed to reduce the gap between the two environments. The implementation for CUDA-enabled devices followed a different programming model and was not able to benefit from any of the previous solutions. It also required the implementation of BLAS and LAPACK routines, since no existing package fits the requirements of this application. The measured performance also showed that the CPU-only implementation is still the fastest.	por
dc.description.abstract	Algoritmos de matrizes lidam regularmente com grandes quantidades de dados ao mesmo tempo, o que dificulta uma utilização eficiente da cache. Um trabalho recente de colaboração entre o Numerical Algorithms Group e a Universidade do Minho levou a uma abordagem por blocos para o algoritmo da raíz quadrada de uma matriz com melhorias de eficiência significativas, particularmente num ambiente multicore de memória partilhada. Arquiteturas de memória distribuída permaneceram inexploradas. Nestes sistemas os dados são distribuídos por diversos espaços de memória, incluindo aqueles associados a dispositivos aceleradores especializados, como GPUs. Sistemas com estes dispositivos são conhecidos como plataformas heterogéneas. Esta dissertação foca-se em estudar o algoritmo da raíz quadrada de uma matriz por blocos, primeiro num ambiente multicore e depois usando plataformas heterogéneas. Dois tipos de aceleradores são explorados: co-processadores Intel Xeon Phi e GPUs NVIDIA habilitados para CUDA. A implementação inicial confirmou as vantagens do método por blocos e mostrou uma escalabilidade excelente num ambiente multicore. A mesma implementação foi ainda usada para o Intel Xeon Phi, mas os resultados de performance obtidos ficaram aquém do comportamento esperado e da alternativa usando apenas CPUs. Várias otimizações foram aplicadas a esta implementação comum, conseguindo reduzir a diferença entre os dois ambientes. A implementação para dispositivos CUDA seguiu um modelo de programação diferente e não pôde beneficiar the nenhuma das soluções anteriores. Também exigiu a implementação de rotinas BLAS e LAPACK, já que nenhum dos pacotes existentes se adequa aos requisitos desta implementação. A performance medida também mostrou que a alternativa usando apenas CPUs ainda é a mais rápida.	por
dc.description.sponsorship	Fundação para a Ciência e a Tecnologia (FCT) - Program UT Austin \| Portugal	por
dc.language.iso	eng	por
dc.rights	openAccess	por
dc.title	Efficient computation of the matrix square root in heterogeneous platforms	por
dc.type	masterThesis	por
dc.comments	eeum_di_dissertacao_pg19830	por
dc.subject.udc	681.3.02	-
dc.subject.udc	681.325.59	-
dc.subject.udc	519.612	-
dc.identifier.tid	201195771	por
Aparece nas coleções:	BUM - Dissertações de Mestrado DI - Dissertações de Mestrado

Ficheiros deste registo:

Ficheiro	Descrição	Tamanho	Formato
eeum_di_dissertacao_pg19830.pdf		6,42 MB	Adobe PDF	Ver/Abrir

Ver registo simples Sugerir correção Estatísticas