Identificação - extração semiautomática de colocações utilizando métodos contrastivos

Utilize este identificador para referenciar este registo: https://hdl.handle.net/1822/44295

Título:	Identificação - extração semiautomática de colocações utilizando métodos contrastivos
Outro(s) título(s):	Semiautomatic identification - extraction of collocations using contrastive methods Identificación - extracción semiautomática de colocaciones utilizando métodos contrastivos
Autor(es):	Veloso, Joana Isabel da Silva
Orientador(es):	Iriarte Sanromán, Álvaro Simões, Alberto
Data:	2013
Resumo(s):	O presente trabalho, que se inscreve nas áreas de investigação da Lexicografia e da Linguística Computacional, pretende investigar da exequibilidade a criação de um algoritmo automático para a extração automática coerente e consistente de colocações a partir da comparação de duas línguas. Para esta experiência escolheram-se as línguas espanhola e a portuguesa e, partindo de um corpus do Banco Central Europeu, obtiveram-se 46,089 pares candidatos a colocação. Estes pares candidatos foram verificados e avaliados de forma manual, utilizando métodos contrastivos. Para além da avaliação fez-se uma análise cuidada dos vários tipos de erros existentes no algoritmo para que mais tarde este possa ser melhorado. Concluindo a análise, comprovou-se que 56,14% dos pares correspondem a combinações lexicais correctamente identificadas, das quais 13,99% eram combinações em que opera algum tipo de restrição lexical e 42,15% eram combinações livres. This work, which falls in the research areas of Lexicography and Computational Linguistics, pretends to study the practicability of an algorithm for the automatic, coherent and consistent extraction of collocations by comparing translations from two different languages. For this study the chosen languages were Spanish and Portuguese and, starting with the European Central Bank corpus, a total of 46,089 collocation candidates pairs were obtained. This data was verified and evaluated manually, using contrastive methods. Beyond the evaluation, a careful study of the different kind of errors found in the algorithm was made, so that later the algorithm can be improved. The results shown that 56,14% of the extracted pairs are correctly identified as lexical combinations. From these, 13,99% are combinations where exists some kind of lexical restriction, and 42,15% are free combinations. Este trabajo, que se encuadra dentro de las áreas de investigación de la lingüística computacional y la lexicografía, se propone investigar la viabilidad de un algoritmo para la extracción automática coherente y consistente de colocaciones a partir de la comparación de dos lenguas. Para este experimento se eligieron muestras en español y en portugués, y, a partir de un corpus del Banco Central Europeo, se obtuvieron 46.089 pares de candidatos a colocación. Estos pares de candidatos fueron revisados y evaluados manualmente, utilizando métodos contrastivos. Además de la evaluación, se hizo un análisis detallado de los distintos tipos de errores producidos, para posibilitar correcciones e mejoras posteriores del algoritmo. Concluido el análisis, se comprobó que el 56,14% de los pares corresponden a combinaciones lexicales correctamente identificadas, de las cuales el 13,99% eran combinaciones en que operaba algún tipo de restricción lexical y el 42,15% eran combinaciones libres.
Tipo:	Dissertação de mestrado
Descrição:	Dissertação de mestrado em Linguística Portuguesa e Comparada
URI:	https://hdl.handle.net/1822/44295
Acesso:	Acesso aberto
Aparece nas coleções:	BUM - Dissertações de Mestrado ELACH - Dissertações de Mestrado

Ficheiros deste registo:

Ficheiro	Descrição	Tamanho	Formato
Tese_JoanaVeloso.pdf		2,31 MB	Adobe PDF	Ver/Abrir

Ver registo completo Sugerir correção Estatísticas