Please use this identifier to cite or link to this item:
https://hdl.handle.net/1822/84157
Title: | Fault tolerant decentralized deep neural networks |
Author(s): | Padrão, João Carlos Faria |
Advisor(s): | Baquero, Carlos Enes, Vitor |
Keywords: | Distributed systems Machine Learning Artificial intelligence Fault Tolerance Sistemas distribuídos Inteligência artificial Tolerância a faltas |
Issue date: | 4-Feb-2021 |
Abstract(s): | Machine Learning is trending in computer science, especially Deep Learning. Training
algorithms that follow this approach to Machine Learning routinely deal with vast amounts
of data. Processing these enormous quantities of data requires complex computation tasks
that can take a long time to produce results. Distributing computation efforts across multiple
machines makes sense in this context, as it allows conclusive results to be available in a
shorter time frame.
Distributing the training of a Deep Neural Network is not a trivial procedure. Various
architectures have been proposed, following two different paradigms. The most common one
follows a centralized approach, where a centralized entity, broadly named parameter server,
synchronizes and coordinates the updates generated by a number of workers. The alternative
discards the centralized unit, assuming a decentralized architecture. The synchronization
between the multiple workers is assured by communication techniques that average gradients
between a node and its peers.
High-end clusters are the ideal environment to deploy Deep Learning systems. Low
latency between nodes assures low idle times for workers, increasing the overall system
performance. These setups, however, are expensive and are only available to a limited
number of entities. On the other end, there is a continuous growth of edge devices with
potentially vast amounts of available computational resources.
In this dissertation, we aim to implement a fault tolerant decentralized Deep Neural Net work training framework, capable of handling the high latency and unreliability characteristic
of edge networks. To manage communication between nodes, we employ decentralized
algorithms capable of estimating parameters globally Machine Learning, mais especificamente Deep Learning, é um campo emergente nas ciências da computação. Algoritmos de treino aplicados em Deep Learning lidam muito frequentemente com vastas quantidades de dados. Processar estas enormes quantidades de dados requer operações computacionais complexas que demoram demasiado tempo para produzir resultados. Distribuir o esforço computacional por múltiplas máquinas faz todo o sentido neste contexto e permite um aumento significativo de desempenho. Distribuir o método de treino de uma rede neuronal não é um processo trivial. Várias arquiteturas têm sido propostas, seguindo dois diferentes paradigmas. O mais comum segue uma abordagem centralizada, onde uma entidade central, normalmente denominada de parameter server, sincroniza e coordena todas as atualizações produzidas pelos workers. A alternativa passa por descartar a entidade centralizada, assumindo uma arquitetura descentralizada. A sincronização entre workers é assegurada através de estratégias de comunicação descentralizadas. Clusters de alta performance são o ambiente ideal para a implementação de sistemas de Deep Learning. A baixa latência entre nodos assegura baixos períodos de inatividade nos workers, aumentando assim o rendimento do sistema. Estas instalações, contudo, são muito custosas, estando apenas disponíveis para um pequeno número de entidades. Por outro lado, o número de equipamentos nas extremidades da rede, com baixo aproveitamento de poder computacional, continua a crescer, o que torna o seu uso desejável. Nesta dissertação, visamos implementar um ambiente de treino de redes neuronais descentralizado e tolerante a faltas, apto a lidar com alta latência nas comunicações e baixa estabilidade nos nodos, caraterística de redes na extremidade. Para coordenar a comunicação entre os nodos, empregamos algoritmos de agregação, capazes de criar uma visão geral de parâmetros numa topologia. |
Type: | Master thesis |
Description: | Dissertação de mestrado integrado em Informatics Engineering |
URI: | https://hdl.handle.net/1822/84157 |
Access: | Open access |
Appears in Collections: | BUM - Dissertações de Mestrado DI - Dissertações de Mestrado |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
Joao Carlos Faria Padrao.pdf | 853,32 kB | Adobe PDF | View/Open |
This item is licensed under a Creative Commons License