Parallel corpora word alignment and applications

Utilize este identificador para referenciar este registo: https://hdl.handle.net/1822/677

Registo completo

Campo DC	Valor	Idioma
dc.contributor.author	Simões, Alberto	-
dc.date.accessioned	2004-11-15T13:38:28Z	-
dc.date.available	2004-11-15T13:38:28Z	-
dc.date.issued	2004	-
dc.identifier.uri	https://hdl.handle.net/1822/677	-
dc.description.abstract	Parallel corpora are valuable resources on natural language processing and, in special, on the translation area. They can be used not only by translators, but also analyzed and processed by computers to learn and extract information about the languages. In this document, we talk about some processes related with the parallel corpora life cycle. We will focus on the parallel corpora word alignment. The necessity for a robust word aligner arrived with the TerminUM project which goal is to gather parallel corpora from different sources, align, analyze and use them to create bilingual resources like terminology or translation memories for machine translation. Aligner, an open-source word aligner developed by Djoerd Hiemstra. Its results were interesting but it worked only for small sized corpora. The work done began with the reengineering of Twente-Aligner, followed by the analysis of the alignment results and the development of several tools based on the extracted probabilistic dictionaries. The re-engineering process was based on formal methods: the algorithms and data structures were formalized, optimized and re-implemented. The timings and alignment results were analysed. The speed improvement derived from the re-engineering process and the scale-up derived of the alignment by chunks, permitted the alignment of bigger corpora. Bigger corpora makes dictionaries quality raise, and this makes new problems and new ideas possible. The probabilistic dictionaries created by the alignment process were used in different tasks. A first pair of tools was developed to search the dictionaries and their relation to the corpora. The probabilistic dictionaries were used to calculate a measure of how two sentences are translations of each other. This naive measure was used to prototype tools for aligning word sequences, to extract multiword terminology from corpora, and a “by example” machine translation software.	eng
dc.description.abstract	Os corpora paralelos são recursos muito valiosos no processamento da linguagem natural e, em especial, na área da tradução. Podem ser usados não só por tradutores, mas também analisados e processados por computadores para aprender e extrair informação sobre as línguas. Neste documento, falamos sobre alguns dos processos relacionados como ciclo de vida dos corpora paralelos. Iremo-nos focar no alinhamento de corpora paralelo à palavra. A necessidade de um alinhador à palavra robusto apareceu com o projecto TerminUM, que tem como principal objectivo recolher corpora paralelos de diferentes fontes, alinhar e usá-los para criar recursos bilingues como terminologia ou memórias de tradução para tradução automática. O ponto de arranque foi o Twente-Aligner, um alinhador à palavra open-source, desenvolvido por Djoerd Hiemstra. Os seus resultados eram interessantes mas só funcionava para corpora de tamanhos pequenos. O trabalho realizado iniciou com a re-engenharia do Twente-Aligner, seguida pela análise dos resultados do alinhamento e o desenvolvimento de várias ferramentas baseadas nos dicionários probabilísticos extraídos. O processo de re-engenharia foi baseado em métodos formais: os algoritmos e estruturas de dados foram formalizados, optimizados e re-implementados. Os tempos e resultados de alinhamento foram analizados. Os melhoramentos em velocidade derivados do processo de re-engenharia e a escalabilidade derivada do alinhamento por fatias, permitiu o alinhamento de corpora maiores. Corpora maiores fazem aumentar a qualidade dos dicionários, o que torna novos problemas e ideias possíveis. Os dicionários probabilísticos criados pelo processo de alinhamento foram usados em tarefas diferentes. Um primeiro par de ferramentas foi desenvolvido para procurar nos dicionários e a sua relação com os corpora. Os dicionários probabilísticos foram usados para calcular uma medida de quão duas frases são tradução uma da outra. Esta medida foi usada para prototipar ferramentas para o alinhamento de sequências de palavras, extrair terminologia multipalavra dos corpora, e uma aplicação automática de tradução "por exemplo".	eng
dc.language.iso	eng	-
dc.rights	openAccess	eng
dc.title	Parallel corpora word alignment and applications	eng
dc.type	masterThesis	eng
dc.subject.udc	681.3	-
dc.subject.udc	801	-
dc.subject.udc	82.035	-
Aparece nas coleções:	BUM - Dissertações de Mestrado DI/CCTC - Dissertações de Mestrado (master thesis)

Ficheiros deste registo:

Ficheiro	Descrição	Tamanho	Formato
AlbertoSimoes-Msc.pdf		1,1 MB	Adobe PDF	Ver/Abrir

Ver registo simples Sugerir correção Estatísticas