Please use this identifier to cite or link to this item:
https://hdl.handle.net/1822/27850
Title: | Efficient computation of the matrix square root in heterogeneous platforms |
Author(s): | Costa, Pedro Filipe Araújo |
Advisor(s): | Proença, Alberto José Ralha, Rui |
Issue date: | 2013 |
Abstract(s): | Matrix algorithms often deal with large amounts of data at a time, which impairs efficient
cache memory usage. Recent collaborative work between the Numerical Algorithms
Group and the University of Minho led to a blocked approach to the matrix square root algorithm
with significant efficiency improvements, particularly in a multicore shared memory
environment.
Distributed memory architectures were left unexplored. In these systems data is distributed
across multiple memory spaces, including those associated with specialized accelerator
devices, such as GPUs. Systems with these devices are known as heterogeneous
platforms.
This dissertation focuses on studying the blocked matrix square root algorithm, first
in a multicore environment, and then in heterogeneous platforms. Two types of hardware
accelerators are explored: Intel Xeon Phi coprocessors and NVIDIA CUDA-enabled GPUs.
The initial implementation confirmed the advantages of the blocked method and showed
excellent scalability in a multicore environment. The same implementation was also used in
the Intel Xeon Phi, but the obtained performance results lagged behind the expected behaviour
and the CPU-only alternative. Several optimizations techniques were applied to the
common implementation, which managed to reduce the gap between the two environments.
The implementation for CUDA-enabled devices followed a different programming model
and was not able to benefit from any of the previous solutions. It also required the implementation
of BLAS and LAPACK routines, since no existing package fits the requirements of
this application. The measured performance also showed that the CPU-only implementation
is still the fastest. Algoritmos de matrizes lidam regularmente com grandes quantidades de dados ao mesmo tempo, o que dificulta uma utilização eficiente da cache. Um trabalho recente de colaboração entre o Numerical Algorithms Group e a Universidade do Minho levou a uma abordagem por blocos para o algoritmo da raíz quadrada de uma matriz com melhorias de eficiência significativas, particularmente num ambiente multicore de memória partilhada. Arquiteturas de memória distribuída permaneceram inexploradas. Nestes sistemas os dados são distribuídos por diversos espaços de memória, incluindo aqueles associados a dispositivos aceleradores especializados, como GPUs. Sistemas com estes dispositivos são conhecidos como plataformas heterogéneas. Esta dissertação foca-se em estudar o algoritmo da raíz quadrada de uma matriz por blocos, primeiro num ambiente multicore e depois usando plataformas heterogéneas. Dois tipos de aceleradores são explorados: co-processadores Intel Xeon Phi e GPUs NVIDIA habilitados para CUDA. A implementação inicial confirmou as vantagens do método por blocos e mostrou uma escalabilidade excelente num ambiente multicore. A mesma implementação foi ainda usada para o Intel Xeon Phi, mas os resultados de performance obtidos ficaram aquém do comportamento esperado e da alternativa usando apenas CPUs. Várias otimizações foram aplicadas a esta implementação comum, conseguindo reduzir a diferença entre os dois ambientes. A implementação para dispositivos CUDA seguiu um modelo de programação diferente e não pôde beneficiar the nenhuma das soluções anteriores. Também exigiu a implementação de rotinas BLAS e LAPACK, já que nenhum dos pacotes existentes se adequa aos requisitos desta implementação. A performance medida também mostrou que a alternativa usando apenas CPUs ainda é a mais rápida. |
Type: | Master thesis |
Description: | Dissertação de mestrado em Engenharia Informática |
URI: | https://hdl.handle.net/1822/27850 |
Access: | Open access |
Appears in Collections: | BUM - Dissertações de Mestrado DI - Dissertações de Mestrado |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
eeum_di_dissertacao_pg19830.pdf | 6,42 MB | Adobe PDF | View/Open |