Estudo de viabilidade de paralelização de códigos de análise de dados em PROOF

Utilize este identificador para referenciar este registo: https://hdl.handle.net/1822/38671

Título:	Estudo de viabilidade de paralelização de códigos de análise de dados em PROOF
Autor(es):	Silva, Rafael Caldeira
Orientador(es):	Pina, António Manuel Silva Castro, Nuno Filipe Silva Fernandes
Palavras-chave:	Paralelismo Análise de dados PROOF
Data:	18-Dez-2014
Resumo(s):	Esta dissertação surge no contexto das análises de dados gerados pelo LHC (Large Hadron Collider), do esperado crescimento do volume de dados produzidos depois da atualização de 2013-2014 e do atual paradigma pseudo-paralelo destas aplicações no LIP-Minho (Laboratório de Instrumentação e física experimental de Partículas, delegação Minho). O trabalho surgiu como um estudo da utilização do PROOF (Parallel ROOT Facilities) como plataforma para habilitar a extração automática de paralelismo nas aplicações de análises de dados do LIP-Minho. Na consideração que as análises em estudo têm uma estrutura semelhante que é susceptível de ser paralelizada, partimos de um caso de estudo para a familiarização e experimentação do ambiente PROOF. Face às dificuldades de adaptação da aplicação para utilização do sistema PROOF, desenvolvemos e testamos uma nova estrutura de classes, chamada event, que pode eliminar uma série de problemas na fase de desenvolvimento. Esta proposta é suportada por um gerador de código esqueleto de aplicações deste tipo, o makeEvent. Os testes efetuados comprovam a possibilidade de usar a estrutura event como alternativa à API TSelector, sem perda de desempenho e com a possibilidade de alcançar speedups superlineares no ambiente de cluster utilizado. No caso de códigos de análise de dados com alguma dimensão e complexidade, o processo de adaptação para um modelo compatível com o sistema PROOF pode ser uma tarefa morosa e exigente que pode não ser trivial. Por este motivo, propomos como trabalho futuro a criação de uma biblioteca que trate das tarefas habituais no processo de análise dos dados. Prevê-se também que a aplicação makeEvent permita a seleção apenas dos branches utilizados na classe event, reduzindo significativamente o tempo de execução de análises de dados que carregam desnecessariamente todos os branches de uma tree. A conclusão a que chegamos é a da viabilidade da utilização da estrutura event, e consequentemente do makeEvent, como uma alternativa possível para a extração de paralelismo automático das análises de dados em estudo, recorrendo à plataforma PROOF. This dissertation comes in the context of the analysis of data generated by the LHC (Large Hadron Collider), the expected growth of the produced data volume after the machine upgrade in 2013-2014 and the current pseudo-parallel paradigm of these applications at LIP-Minho (Laboratório de Instrumentação e física experimental de Partículas, Minho delegation). The work came as a study of the use of PROOF (Parallel ROOT Facilities) as a platform to enable automatic extraction of parallelism in data analysis applications at LIP-Minho. Knowing that the analysis in study have a similar structure that is capable of being parallelized, we start from a case study for familiarization and testing the PROOF environment. Given the difficulties of porting the application to use the PROOF system, we developed and tested a new class structure, named event, which can eliminate a series of problems in the development phase. This proposal was supported by a generator of skeleton code of applications of this type, makeEvent. The tests performed show the possibility of using the event structure as an alternative to TSelector API without loss of performance and with the possibility of reaching superlinear speedups in the cluster environment used. In the case of data analysis with considerable size and complexity, the process of adaptation to a level compatible with the PROOF system can be a time consuming and demanding task, most likely non trivial. For this reason, we propose as future work to create a library that handles the common tasks in the data analysis process. It is also envisaged that the makeEvent application will allow one to select only the branches used in the event class, significantly reducing the execution time data analysis that needlessly load all the branches of a tree. The conclusion we reached is the viability of using the event structure, and consequently the makeEvent, as a possible alternative for the automatic extraction of parallelism of data analysis in study, using the PROOF platform.
Tipo:	Dissertação de mestrado
Descrição:	Dissertação de mestrado em Engenharia Informática
URI:	https://hdl.handle.net/1822/38671
Acesso:	Acesso aberto
Aparece nas coleções:	BUM - Dissertações de Mestrado DI - Dissertações de Mestrado

Ficheiros deste registo:

Ficheiro	Descrição	Tamanho	Formato
eeum_di_dissertacao_pg20202.pdf		1,54 MB	Adobe PDF	Ver/Abrir

Ver registo completo Sugerir correção Estatísticas