Utilize este identificador para referenciar este registo: https://hdl.handle.net/1822/38671

TítuloEstudo de viabilidade de paralelização de códigos de análise de dados em PROOF
Autor(es)Silva, Rafael Caldeira
Orientador(es)Pina, António Manuel Silva
Castro, Nuno Filipe Silva Fernandes
Palavras-chaveParalelismo
Análise de dados
PROOF
Data18-Dez-2014
Resumo(s)Esta dissertação surge no contexto das análises de dados gerados pelo LHC (Large Hadron Collider), do esperado crescimento do volume de dados produzidos depois da atualização de 2013-2014 e do atual paradigma pseudo-paralelo destas aplicações no LIP-Minho (Laboratório de Instrumentação e física experimental de Partículas, delegação Minho). O trabalho surgiu como um estudo da utilização do PROOF (Parallel ROOT Facilities) como plataforma para habilitar a extração automática de paralelismo nas aplicações de análises de dados do LIP-Minho. Na consideração que as análises em estudo têm uma estrutura semelhante que é susceptível de ser paralelizada, partimos de um caso de estudo para a familiarização e experimentação do ambiente PROOF. Face às dificuldades de adaptação da aplicação para utilização do sistema PROOF, desenvolvemos e testamos uma nova estrutura de classes, chamada event, que pode eliminar uma série de problemas na fase de desenvolvimento. Esta proposta é suportada por um gerador de código esqueleto de aplicações deste tipo, o makeEvent. Os testes efetuados comprovam a possibilidade de usar a estrutura event como alternativa à API TSelector, sem perda de desempenho e com a possibilidade de alcançar speedups superlineares no ambiente de cluster utilizado. No caso de códigos de análise de dados com alguma dimensão e complexidade, o processo de adaptação para um modelo compatível com o sistema PROOF pode ser uma tarefa morosa e exigente que pode não ser trivial. Por este motivo, propomos como trabalho futuro a criação de uma biblioteca que trate das tarefas habituais no processo de análise dos dados. Prevê-se também que a aplicação makeEvent permita a seleção apenas dos branches utilizados na classe event, reduzindo significativamente o tempo de execução de análises de dados que carregam desnecessariamente todos os branches de uma tree. A conclusão a que chegamos é a da viabilidade da utilização da estrutura event, e consequentemente do makeEvent, como uma alternativa possível para a extração de paralelismo automático das análises de dados em estudo, recorrendo à plataforma PROOF.
This dissertation comes in the context of the analysis of data generated by the LHC (Large Hadron Collider), the expected growth of the produced data volume after the machine upgrade in 2013-2014 and the current pseudo-parallel paradigm of these applications at LIP-Minho (Laboratório de Instrumentação e física experimental de Partículas, Minho delegation). The work came as a study of the use of PROOF (Parallel ROOT Facilities) as a platform to enable automatic extraction of parallelism in data analysis applications at LIP-Minho. Knowing that the analysis in study have a similar structure that is capable of being parallelized, we start from a case study for familiarization and testing the PROOF environment. Given the difficulties of porting the application to use the PROOF system, we developed and tested a new class structure, named event, which can eliminate a series of problems in the development phase. This proposal was supported by a generator of skeleton code of applications of this type, makeEvent. The tests performed show the possibility of using the event structure as an alternative to TSelector API without loss of performance and with the possibility of reaching superlinear speedups in the cluster environment used. In the case of data analysis with considerable size and complexity, the process of adaptation to a level compatible with the PROOF system can be a time consuming and demanding task, most likely non trivial. For this reason, we propose as future work to create a library that handles the common tasks in the data analysis process. It is also envisaged that the makeEvent application will allow one to select only the branches used in the event class, significantly reducing the execution time data analysis that needlessly load all the branches of a tree. The conclusion we reached is the viability of using the event structure, and consequently the makeEvent, as a possible alternative for the automatic extraction of parallelism of data analysis in study, using the PROOF platform.
TipoDissertação de mestrado
DescriçãoDissertação de mestrado em Engenharia Informática
URIhttps://hdl.handle.net/1822/38671
AcessoAcesso aberto
Aparece nas coleções:BUM - Dissertações de Mestrado
DI - Dissertações de Mestrado

Ficheiros deste registo:
Ficheiro Descrição TamanhoFormato 
eeum_di_dissertacao_pg20202.pdf1,54 MBAdobe PDFVer/Abrir

Partilhe no FacebookPartilhe no TwitterPartilhe no DeliciousPartilhe no LinkedInPartilhe no DiggAdicionar ao Google BookmarksPartilhe no MySpacePartilhe no Orkut
Exporte no formato BibTex mendeley Exporte no formato Endnote Adicione ao seu ORCID