Utilize este identificador para referenciar este registo:
https://hdl.handle.net/1822/92566
Título: | Tradeoff between moving targets, gradient magnitude and performance in quantum variational Q-Learning |
Autor(es): | Coelho, Rodrigo da Silva Gomes Peres |
Orientador(es): | Santos, Luís Paulo Sequeira, André |
Palavras-chave: | Reinforcement learning Quantum computing Variational quantum circuits Neural networks Computação quântica Circuitos variacionais quânticos Redes neuronais |
Data: | 20-Out-2023 |
Resumo(s): | Reinforcement Learning (RL) consists of designing agents that make intelligent decisions without human
supervision. When used alongside function approximators such as Neural Networks (NNs), RL is capable of
solving extremely complex problems. Deep Q-Learning, a RL algorithm that uses Deep NNs, even achieved
super-human performance in some specific tasks. Nonetheless, it is also possible to use Variational
Quantum Circuits (VQCs) as function approximators in RL algorithms. This work empirically studies the
performance and trainability of such VQC-based Deep Q-Learning models in OpenAI’s gym CartPole-v0
and Acrobot-v1 environments. More specifically, we research how data re-uploading affects both these
metrics. We show that the magnitude and the variance of the gradients of these models remain substantial
throughout training due to the moving targets of Deep Q-Learning. Moreover, we show that increasing the
number of qubits does not lead to a decrease in the magnitude and variance of the gradients, unlike what
was expected due to the Barren Plateau Phenomenon. This hints at the possibility of VQCs being specially
adequate for being used as function approximators in such a context. We also use the Universal Quantum
Classifier as a function approximator in VQC-based Deep Q-Learning and implement VQC-based models
capable of achieving considerable performance in the Acrobot-v1 environment, a previously untapped
environment for VQCs. Reinforcement Learning (RL) consiste em projetar agentes que tomam decisões inteligentes sem super visão humana. Quando usado em conjunto com aproximadores de funções, como Redes Neuronais (RNs), RL é capaz de resolver problemas extremamente complexos. Deep Q-Learning é um algoritmo de RL que usa RNs profundas e que alcançou um desempenho super-humano em algumas tarefas específicas. No entanto, também é possível utilizar Circuitos Variacionais Quânticos (VQCs) como aproximadores de funções em algoritmos de RL. Este trabalho estuda empiricamente o desempenho e a treinabilidade de tais modelos de Deep Q-Learning baseados em VQC nos ambientes CartPole-v0 e Acrobot-v1 do Ope nAI gym. Mais especificamente, investigamos como o data re-uploading afeta ambas estas métricas. Demonstramos que a magnitude e a variância dos gradientes destes modelos permanecem substanciais ao longo do treino devido aos alvos móveis do Deep Q-Learning. Além disso, mostramos que aumentar o número de qubits não leva a uma diminuição na magnitude e variância dos gradientes, contrariamente ao que era esperado devido ao Barren Plateau Phenomenon. Isto sugere a possibilidade dos VQCs serem especialmente adequados para serem usados como aproximadores de funções neste contexto. Também utilizamos o Universal Quantum Classifier como um aproximador de funções em Deep Q-Learning e implementamos modelos baseados em VQC capazes de alcançar um desempenho considerável no ambiente Acrobot-v1, um ambiente anteriormente inexplorado para VQCs. |
Tipo: | Dissertação de mestrado |
Descrição: | Dissertação de mestrado em Engineering Physics |
URI: | https://hdl.handle.net/1822/92566 |
Acesso: | Acesso aberto |
Aparece nas coleções: | BUM - Dissertações de Mestrado DI - Dissertações de Mestrado |
Ficheiros deste registo:
Ficheiro | Descrição | Tamanho | Formato | |
---|---|---|---|---|
Rodrigo da Silva Gomes Peres Coelho.pdf | Dissertação de mestrado | 8,09 MB | Adobe PDF | Ver/Abrir |
Este trabalho está licenciado sob uma Licença Creative Commons