Utilize este identificador para referenciar este registo:
https://hdl.handle.net/1822/10466
Título: | Developmentally inspired computational framework for embodied speech imitation |
Autor(es): | Vaz, Miguel José Lopes Rodrigues Martins |
Orientador(es): | Bicho, E. Erlhagen, Wolfram |
Data: | 25-Jan-2010 |
Resumo(s): | A presente tese é dedicada à aquisição autónoma de competências relativas à produção de
fala por parte de um sistema robótico. Pressupõe-se que tal aquisição ocorra em interacção
com um tutor humano, de forma a que não haja praticamente necessidade de assumir
hipóteses iniciais relativamente ao vocabulário e à linguagem de interacção. Em particular, o
robot humanóide Asimo é usado nesta tese para corporizar o alvo do sistema de aquisição
de competências.
Dado o seu tamanho e o seu fraco conhecimento do mundo que o rodeia, entendeu-se
que uma voz de criança seria o tipo de voz mais apropriado para um tal sistema interactivo.
Contudo, isto implica que as propriedades acústicas da voz do tutor são muito diferentes
das da voz do sistema robótico. Consequentemente, para fazer uso dos alvos acústicos
propostos pelo tutor durante a interacção com o robot, o sistema tem que se ocupar do
problema da correspondência na fala.
Com este objectivo, e tendo em conta resultados conhecidos relativamente ao desenvolvimento
de competências de fala em infantes 1, propomos a utilização de um esquema
de interacção que envolve um tutor cooperante, tutor este que proporciona informação
de retorno, na forma de imitação de vocalizações simples do sistema. Permite que o
robot aprenda um modelo probabilístico de correspondência, que possibilita ao sistema
associar configurações vocais a propriedades acústicas da voz do tutor. Com este modelo
de correspondência, o sistema é capaz de projectar uma vocalização do tutor no seu espaço
motor, produzindo assim uma imitação desta.
Por sua vez, este esquema interactivo foi integrado com um modelo corporizado de aquisição de estrutura de fala, que já foi usado para interagir com o robot. Esta integração
permite-nos medir a resposta do tutor, bem como as vocalizações a imitar, num espaço
perceptual previamente adquirido, o que não só é mais plausível como também prepara a
corporização num robot humanóide.
Investigou-se ainda um novo algoritmo de síntese de fala, que actua no domínio acústico
e que confere ao sistema uma voz semelhante à de uma criança. Corresponde a uma
arquitectura híbrida constituída por um modelo harmónico e um channel vocoder, que utiliza
um gammatone filter bank para produzir as representações espectrais. Para o controlo
deste sintetizador num contexto de aprendizagem por imitação, investigou-se ainda um
esquema de código sinergístico baseado no conceito de motor primitive. This thesis is concerned with the autonomous acquisition of speech production skills by a robotic system. The acquisition should occur in interaction with a human tutor, making little or no assumptions on the vocabulary and language of interaction. A particular target embodiment of the acquisition framework presented in this thesis is the humanoid robot Asimo. Because of its size, and the little knowledge of the world it possesses, a child’s voice is probably the most appropriate type of voice for such an interactive system. This means, however, that the acoustic properties of the tutor’s voice are very different from the system’s. Consequently, the system has to address the correspondence problem in speech. For this, inspired by findings in the development of speech skills in infants, we propose an interaction scheme involving a cooperative tutor that provides imitative feedback for simple utterances of the system. It allows the robot to learn a probabilistic correspondence model, which lets the system associate configurations of it’s own vocal tract with the acoustic properties of the tutor’s voice. Using this correspondence model, the system can project a target tutor utterance into its motor space, making an imitation possible. We also integrated this interaction scheme in an embodied speech structure acquisition framework, already used to teach and interact with the robot. With this integration, we measure the tutor response, and the utterances to be imitated, in a previously trained perceptual space. This is not only biologically more plausible, but also paves the way for an embodiment in the humanoid robot. We also investigated a new speech synthesis algorithm, which operates in the acoustic domain and provides the system with a child-like voice. Its architecture is a hybrid of a harmonic model and a channel vocoder, and uses a gammatone filter bank to produce the spectral representations. For the control of the speech synthesizer in the context of imitation learning, a synergistic coding scheme, based on the concept of motor primitive, was investigated. |
Tipo: | Tese de doutoramento |
Descrição: | Tese de doutoramento em Electrónica Industrial (ramo do conhecimento em Automação e Controlo) |
URI: | https://hdl.handle.net/1822/10466 |
Acesso: | Acesso aberto |
Aparece nas coleções: | DEI - Teses de doutoramento |
Ficheiros deste registo:
Ficheiro | Descrição | Tamanho | Formato | |
---|---|---|---|---|
thesis_Miguel Vaz_2009.pdf | 5,46 MB | Adobe PDF | Ver/Abrir |