Utilize este identificador para referenciar este registo: https://hdl.handle.net/1822/36776

TítuloTowards the Improvement of robot motion learning techniques
Autor(es)Macedo, João Francisco Freitas Santos
Orientador(es)Santos, Cristina
Costa, Lino António
Data1-Dez-2014
Resumo(s)This manuscript presents solutions and methods to address some of the many problems that arise when dealing with the complex task of motor skill learning in robots. In the last years, several research lines have focused on learning motion primitives either through imitation learning or reinforcement learning. However, for many applications, learning a motion primitive of a single form is not enough and it is required that after being assimilated, the primitive is generalizable such that it can be executed in different contexts and for distinct instances of the same task. Therefore, the motion primitive must adapt a set of parameters according to the environment variables instead of always executing the exact same motor commands when it is put into action. Another aspect to have into consideration is how the learning process of motion primitives is guided. Some primitives are too complex to be learned all at once, i.e, learning all their intricacies without a properly structured approach may be intractable. In this thesis, these aspects are mindfully taken into account, allowing to develop reinforcement learning techniques that are then used to teach a controller of a biped robot that is only able to generate stable locomotion on a flat surface, making it tolerant to a range of slope angles, perpendicular and/or parallel to the direction of walking. Legged locomotion is a relevant example of a complex and dynamic motor skill that has been the focus of intensive research for many years in robotics and it is expected for the techniques that are successful in the learning of such a hard task to be useful in other contexts. In order to achieve this goal, three main steps, divided into chapters of this thesis, are taken. First, an existing algorithm - Cost-regularized Kernel Regression (CrKR) - originally introduced to allow learning to generalize parameterized policies is modified and extended into a new algorithm named CrKR++. Some of the performed changes allow to use the algorithm for training sessions with a high number of samples, which is needed when it is intended to learn complex policies. This feat would be impracticable with the original version of the algorithm due to its high computational complexity. The remaining changes are issued with the purpose of improving the general effectiveness of the algorithm. Second, a framework that enables storing, combining and mutual learning of parameterized policies is presented. This framework, where the CrKR++ algorithm plays a core role, provides the means, for instance, to create a movement primitives library or to perform gradual learning of a motor skill, being named Flexible Framework for Learning (F3L). Finally, the developed framework is used to teach the controller of the biped robot to adapt its locomotion parameters according to the slope angles of the underlying surface. The achieved solution and intermediate steps are tested in simulation software with Dynamic Anthropomorphic Robot with Intelligence–Open Platform (DARwIn-OP) in carefully delineated experiments.
Esta tese apresenta soluções e métodos que abordam alguns dos muitos problemas que surgem quando lidando com o complexo problema da aprendizagem de tarefas motoras em robôs. Nos últimos anos, várias linhas de investigação focaram-se na aprendizagem de primitivas de movimento, quer pela aprendizagem via imitação quer pela aprendizagem via reforço. Contudo, em muitas aplicações, não basta assimilar uma primitiva numa única forma e pode ser necessário que depois de assimilada, uma primitiva seja generalizável de maneira a ser possível executá-la em diferentes contextos e para diferentes instâncias de uma mesma tarefa. Uma primitiva de movimento deve portanto nestes casos adaptar um conjunto de parâmetros de acordo com as condições do meio envolvente em vez de executar sempre os mesmos comandos motores quando colocada em ação. Outro aspeto a ter em consideração é ainda a forma como o processo de aprendizagem das primitivas de movimento é guiado. Algumas primitivas são demasiado complexas para serem apreendidas de uma vez só, isto é, aprender todas as suas nuances sem uma abordagem estruturada pode revelar-se extremamente difícil. Nesta tese, estes dois aspetos são tidos em conta, o que permite desenvolver novas técnicas de aprendizagem via reforço que são depois usadas para ensinar um programa controlador de um robô bípede que é apenas capaz de lidar com superfícies planas, tornando-o tolerante a uma gama de inclinações em direções perpendiculares ou paralelas à direção do movimento. A locomoção com pernas é o exemplo definitivo de uma tarefa motora complexa e dinâmica que tem sido alvo de investigação intensiva durante anos na robótica. É de esperar que as técnicas que sejam bem sucedidas na aprendizagem de uma tarefa com este grau de dificuldade sejam também úteis em outros contextos. Para atingir este objetivo, três passos principais, que se dividem em capítulos desta tese são dados. Em primeiro lugar, um algoritmo já existente - CrKR - ,originalmente criado para permitir a aprendizagem de políticas parametrizadas, é modificado e transformado num novo algoritmo denominado CrKR++. Algumas das modificações feitas permitem usar o algoritmo em sessões de treino com um maior número de amostras, o que é necessário quando se pretende aprender políticas com um elevado grau de complexidade. Tal seria impossível com a versão original do algoritmo devido à sua elevada complexidade computacional. As restantes modificações são introduzidas com o propósito de melhorar a eficácia geral do algoritmo. Em segundo lugar, uma framework que permite o armazenamento, a combinação e a aprendizagem mútua de políticas parametrizadas é apresentada. Esta framework, onde o algoritmo CrKR++ desempenha uma função nuclear, providencia os meios para, por exemplo, criar uma biblioteca de primitivas de movimento ou realizar aprendizagem gradual de uma tarefa motora sendo denominada de F3L. Por fim, a framework desenvolvida é utilizada para ensinar o controlador do robô bípede a adaptar determinados parâmetros da locomoção em função da inclinação da superfície subjacente. A solução alcançada bem como os passos intermédios são testados em software de simulação com o robô DARwIn-OP em experiências cuidadosamente delineadas.
TipoDissertação de mestrado
DescriçãoDissertação de Mestrado em Engenharia Informática
URIhttps://hdl.handle.net/1822/36776
AcessoAcesso aberto
Aparece nas coleções:BUM - Dissertações de Mestrado

Ficheiros deste registo:
Ficheiro Descrição TamanhoFormato 
eeum_di_dissertacao_pg23207.pdf15,09 MBAdobe PDFVer/Abrir

Partilhe no FacebookPartilhe no TwitterPartilhe no DeliciousPartilhe no LinkedInPartilhe no DiggAdicionar ao Google BookmarksPartilhe no MySpacePartilhe no Orkut
Exporte no formato BibTex mendeley Exporte no formato Endnote Adicione ao seu ORCID