Energy efficiency aware job scheduling for scalable data processing tools

Utilize este identificador para referenciar este registo: https://hdl.handle.net/1822/92678

Título:	Energy efficiency aware job scheduling for scalable data processing tools
Autor(es):	Azevedo, Renato André Araújo
Orientador(es):	Vilaça, Ricardo Manuel Pereira
Palavras-chave:	Spark Scheduling Energy Efficiency Agendamento Eficiência energética
Data:	15-Dez-2023
Resumo(s):	Massive data processing tools for distributed environments such as Spark or Dask allow programmers to process massive amounts of data in data centers. A large portion of the operation costs of these infrastructures corresponds to the energy consumption resulting in performing these operations. Current tools use simple algorithms for efficient scheduling of data processing jobs in distributed computing, relying on heuristics without considering the workload characteristics. Recent work explores efficient scheduling of data processing jobs in distributed computing, especially in heterogeneous environ ments, despite these infrastructures being typically homogeneous. This dissertation makes an analysis of job executions in Spark and proposes EASAHUM a new al gorithm for job scheduling in massive data processing tools with energy efficiency concerns using the conclusions drawn. The implementation and evaluation in a simulator using real and synthetic execution traces in Spark demonstrate that the algorithm can reduce energy consumption by up to 16% and reduce job execution time by up to 12.25% without significant impact on the scheduling time. As ferramentas de processamento de dados massivos em ambientes distribuídos como o Spark ou Dask permitem aos programadores processar grandes quantidades de dados em centros de dados. Uma grande fatia dos custos de operação destas infraestruturas corresponde ao consumo energético resultante de processar estes dados. As ferramentas atuais utilizam algoritmos simples para o agendamento eficiente de trabalhos de processamento de dados em computação distribuída, recorrendo a heurísticas sem ter em conta as características da carga de trabalho. Trabalho recente explora o agendamento eficiente de trabalhos de processamento de dados em computação distribuída, especialmente em ambientes heterogéneos, sendo que estas infraestruturas são tipicamente homogéneas. Esta dissetação faz uma analise de execuções de trabalhos em Spark e propõem EASAHUM um novo algoritmo para o agendamento de trabalhos para ferramentas de processamento de dados massivos com preocupações de eficiência energética com as conclusões tiradas. A implementação num simulador e avaliação usando traces de execuções reais e sintéticas em Spark, demonstram que o algoritmo consegue reduzir o consumo energético em até 16%, além de conseguir reduzir o tempo de execução dos trabalhos em até 12.25%, sem grande impacto no tempo gasto no agendamento.
Tipo:	Dissertação de mestrado
Descrição:	Dissertação de mestrado em Informatics Engineering
URI:	https://hdl.handle.net/1822/92678
Acesso:	Acesso aberto
Aparece nas coleções:	BUM - Dissertações de Mestrado DI - Dissertações de Mestrado