Developmentally inspired computational framework for embodied speech imitation

Utilize este identificador para referenciar este registo: https://hdl.handle.net/1822/10466

Título:	Developmentally inspired computational framework for embodied speech imitation
Autor(es):	Vaz, Miguel José Lopes Rodrigues Martins
Orientador(es):	Bicho, E. Erlhagen, Wolfram
Data:	25-Jan-2010
Resumo(s):	A presente tese é dedicada à aquisição autónoma de competências relativas à produção de fala por parte de um sistema robótico. Pressupõe-se que tal aquisição ocorra em interacção com um tutor humano, de forma a que não haja praticamente necessidade de assumir hipóteses iniciais relativamente ao vocabulário e à linguagem de interacção. Em particular, o robot humanóide Asimo é usado nesta tese para corporizar o alvo do sistema de aquisição de competências. Dado o seu tamanho e o seu fraco conhecimento do mundo que o rodeia, entendeu-se que uma voz de criança seria o tipo de voz mais apropriado para um tal sistema interactivo. Contudo, isto implica que as propriedades acústicas da voz do tutor são muito diferentes das da voz do sistema robótico. Consequentemente, para fazer uso dos alvos acústicos propostos pelo tutor durante a interacção com o robot, o sistema tem que se ocupar do problema da correspondência na fala. Com este objectivo, e tendo em conta resultados conhecidos relativamente ao desenvolvimento de competências de fala em infantes 1, propomos a utilização de um esquema de interacção que envolve um tutor cooperante, tutor este que proporciona informação de retorno, na forma de imitação de vocalizações simples do sistema. Permite que o robot aprenda um modelo probabilístico de correspondência, que possibilita ao sistema associar configurações vocais a propriedades acústicas da voz do tutor. Com este modelo de correspondência, o sistema é capaz de projectar uma vocalização do tutor no seu espaço motor, produzindo assim uma imitação desta. Por sua vez, este esquema interactivo foi integrado com um modelo corporizado de aquisição de estrutura de fala, que já foi usado para interagir com o robot. Esta integração permite-nos medir a resposta do tutor, bem como as vocalizações a imitar, num espaço perceptual previamente adquirido, o que não só é mais plausível como também prepara a corporização num robot humanóide. Investigou-se ainda um novo algoritmo de síntese de fala, que actua no domínio acústico e que confere ao sistema uma voz semelhante à de uma criança. Corresponde a uma arquitectura híbrida constituída por um modelo harmónico e um channel vocoder, que utiliza um gammatone filter bank para produzir as representações espectrais. Para o controlo deste sintetizador num contexto de aprendizagem por imitação, investigou-se ainda um esquema de código sinergístico baseado no conceito de motor primitive. This thesis is concerned with the autonomous acquisition of speech production skills by a robotic system. The acquisition should occur in interaction with a human tutor, making little or no assumptions on the vocabulary and language of interaction. A particular target embodiment of the acquisition framework presented in this thesis is the humanoid robot Asimo. Because of its size, and the little knowledge of the world it possesses, a child’s voice is probably the most appropriate type of voice for such an interactive system. This means, however, that the acoustic properties of the tutor’s voice are very different from the system’s. Consequently, the system has to address the correspondence problem in speech. For this, inspired by findings in the development of speech skills in infants, we propose an interaction scheme involving a cooperative tutor that provides imitative feedback for simple utterances of the system. It allows the robot to learn a probabilistic correspondence model, which lets the system associate configurations of it’s own vocal tract with the acoustic properties of the tutor’s voice. Using this correspondence model, the system can project a target tutor utterance into its motor space, making an imitation possible. We also integrated this interaction scheme in an embodied speech structure acquisition framework, already used to teach and interact with the robot. With this integration, we measure the tutor response, and the utterances to be imitated, in a previously trained perceptual space. This is not only biologically more plausible, but also paves the way for an embodiment in the humanoid robot. We also investigated a new speech synthesis algorithm, which operates in the acoustic domain and provides the system with a child-like voice. Its architecture is a hybrid of a harmonic model and a channel vocoder, and uses a gammatone filter bank to produce the spectral representations. For the control of the speech synthesizer in the context of imitation learning, a synergistic coding scheme, based on the concept of motor primitive, was investigated.
Tipo:	Tese de doutoramento
Descrição:	Tese de doutoramento em Electrónica Industrial (ramo do conhecimento em Automação e Controlo)
URI:	https://hdl.handle.net/1822/10466
Acesso:	Acesso aberto
Aparece nas coleções:	BUM - Teses de Doutoramento DEI - Teses de doutoramento

Ficheiros deste registo:

Ficheiro	Descrição	Tamanho	Formato
thesis_Miguel Vaz_2009.pdf		5,46 MB	Adobe PDF	Ver/Abrir

Ver registo completo Sugerir correção Estatísticas