Utilize este identificador para referenciar este registo:
https://hdl.handle.net/1822/92678
Título: | Energy efficiency aware job scheduling for scalable data processing tools |
Autor(es): | Azevedo, Renato André Araújo |
Orientador(es): | Vilaça, Ricardo Manuel Pereira |
Palavras-chave: | Spark Scheduling Energy Efficiency Agendamento Eficiência energética |
Data: | 15-Dez-2023 |
Resumo(s): | Massive data processing tools for distributed environments such as Spark or Dask allow programmers
to process massive amounts of data in data centers. A large portion of the operation costs of these
infrastructures corresponds to the energy consumption resulting in performing these operations.
Current tools use simple algorithms for efficient scheduling of data processing jobs in distributed
computing, relying on heuristics without considering the workload characteristics. Recent work explores
efficient scheduling of data processing jobs in distributed computing, especially in heterogeneous environ ments, despite these infrastructures being typically homogeneous.
This dissertation makes an analysis of job executions in Spark and proposes EASAHUM a new al gorithm for job scheduling in massive data processing tools with energy efficiency concerns using the
conclusions drawn. The implementation and evaluation in a simulator using real and synthetic execution
traces in Spark demonstrate that the algorithm can reduce energy consumption by up to 16% and reduce
job execution time by up to 12.25% without significant impact on the scheduling time. As ferramentas de processamento de dados massivos em ambientes distribuídos como o Spark ou Dask permitem aos programadores processar grandes quantidades de dados em centros de dados. Uma grande fatia dos custos de operação destas infraestruturas corresponde ao consumo energético resultante de processar estes dados. As ferramentas atuais utilizam algoritmos simples para o agendamento eficiente de trabalhos de processamento de dados em computação distribuída, recorrendo a heurísticas sem ter em conta as características da carga de trabalho. Trabalho recente explora o agendamento eficiente de trabalhos de processamento de dados em computação distribuída, especialmente em ambientes heterogéneos, sendo que estas infraestruturas são tipicamente homogéneas. Esta dissetação faz uma analise de execuções de trabalhos em Spark e propõem EASAHUM um novo algoritmo para o agendamento de trabalhos para ferramentas de processamento de dados massivos com preocupações de eficiência energética com as conclusões tiradas. A implementação num simulador e avaliação usando traces de execuções reais e sintéticas em Spark, demonstram que o algoritmo consegue reduzir o consumo energético em até 16%, além de conseguir reduzir o tempo de execução dos trabalhos em até 12.25%, sem grande impacto no tempo gasto no agendamento. |
Tipo: | Dissertação de mestrado |
Descrição: | Dissertação de mestrado em Informatics Engineering |
URI: | https://hdl.handle.net/1822/92678 |
Acesso: | Acesso aberto |
Aparece nas coleções: | BUM - Dissertações de Mestrado DI - Dissertações de Mestrado |
Ficheiros deste registo:
Ficheiro | Descrição | Tamanho | Formato | |
---|---|---|---|---|
Renato Andre Araujo Azevedo.pdf | Dissertação de mestrado | 3,88 MB | Adobe PDF | Ver/Abrir |
Este trabalho está licenciado sob uma Licença Creative Commons