|
Universidade do Minho - Repositório Institucional >
Biblioteca da Universidade do Minho >
BUM - Teses de Doutoramento >
Please use this identifier to cite or link to this item:
http://hdl.handle.net/1822/10466
|
| Title: | Developmentally inspired computational framework for embodied speech imitation |
| Authors: | Vaz, Miguel José Lopes Rodrigues Martins |
| Advisor: | Bicho, E. Erlhagen, Wolfram |
| Issue date: | 25-Jan-2010 |
| Abstract: | A presente tese é dedicada à aquisição autónoma de competências relativas à produção de
fala por parte de um sistema robótico. Pressupõe-se que tal aquisição ocorra em interacção
com um tutor humano, de forma a que não haja praticamente necessidade de assumir
hipóteses iniciais relativamente ao vocabulário e à linguagem de interacção. Em particular, o
robot humanóide Asimo é usado nesta tese para corporizar o alvo do sistema de aquisição
de competências.
Dado o seu tamanho e o seu fraco conhecimento do mundo que o rodeia, entendeu-se
que uma voz de criança seria o tipo de voz mais apropriado para um tal sistema interactivo.
Contudo, isto implica que as propriedades acústicas da voz do tutor são muito diferentes
das da voz do sistema robótico. Consequentemente, para fazer uso dos alvos acústicos
propostos pelo tutor durante a interacção com o robot, o sistema tem que se ocupar do
problema da correspondência na fala.
Com este objectivo, e tendo em conta resultados conhecidos relativamente ao desenvolvimento
de competências de fala em infantes 1, propomos a utilização de um esquema
de interacção que envolve um tutor cooperante, tutor este que proporciona informação
de retorno, na forma de imitação de vocalizações simples do sistema. Permite que o
robot aprenda um modelo probabilístico de correspondência, que possibilita ao sistema
associar configurações vocais a propriedades acústicas da voz do tutor. Com este modelo
de correspondência, o sistema é capaz de projectar uma vocalização do tutor no seu espaço
motor, produzindo assim uma imitação desta.
Por sua vez, este esquema interactivo foi integrado com um modelo corporizado de aquisição de estrutura de fala, que já foi usado para interagir com o robot. Esta integração
permite-nos medir a resposta do tutor, bem como as vocalizações a imitar, num espaço
perceptual previamente adquirido, o que não só é mais plausível como também prepara a
corporização num robot humanóide.
Investigou-se ainda um novo algoritmo de síntese de fala, que actua no domínio acústico
e que confere ao sistema uma voz semelhante à de uma criança. Corresponde a uma
arquitectura híbrida constituída por um modelo harmónico e um channel vocoder, que utiliza
um gammatone filter bank para produzir as representações espectrais. Para o controlo
deste sintetizador num contexto de aprendizagem por imitação, investigou-se ainda um
esquema de código sinergístico baseado no conceito de motor primitive. This thesis is concerned with the autonomous acquisition of speech production skills by a
robotic system. The acquisition should occur in interaction with a human tutor, making
little or no assumptions on the vocabulary and language of interaction.
A particular target embodiment of the acquisition framework presented in this thesis is
the humanoid robot Asimo. Because of its size, and the little knowledge of the world
it possesses, a child’s voice is probably the most appropriate type of voice for such an
interactive system.
This means, however, that the acoustic properties of the tutor’s voice are very different
from the system’s. Consequently, the system has to address the correspondence problem in
speech.
For this, inspired by findings in the development of speech skills in infants, we propose an
interaction scheme involving a cooperative tutor that provides imitative feedback for simple
utterances of the system. It allows the robot to learn a probabilistic correspondence model,
which lets the system associate configurations of it’s own vocal tract with the acoustic
properties of the tutor’s voice. Using this correspondence model, the system can project a
target tutor utterance into its motor space, making an imitation possible.
We also integrated this interaction scheme in an embodied speech structure acquisition
framework, already used to teach and interact with the robot. With this integration, we
measure the tutor response, and the utterances to be imitated, in a previously trained
perceptual space. This is not only biologically more plausible, but also paves the way for an
embodiment in the humanoid robot.
We also investigated a new speech synthesis algorithm, which operates in the acoustic domain and provides the system with a child-like voice. Its architecture is a hybrid of a
harmonic model and a channel vocoder, and uses a gammatone filter bank to produce
the spectral representations. For the control of the speech synthesizer in the context of
imitation learning, a synergistic coding scheme, based on the concept of motor primitive,
was investigated. |
| Type: | doctoralThesis |
| Description: | Tese de doutoramento em Electrónica Industrial (ramo do conhecimento em Automação e Controlo) |
| URI: | http://hdl.handle.net/1822/10466 |
| Appears in Collections: | DEI - Teses de Doutoramento BUM - Teses de Doutoramento
|
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.
|