Utilize este identificador para referenciar este registo: https://hdl.handle.net/1822/8338

Registo completo
Campo DCValorIdioma
dc.contributor.advisorAlmeida, J. J.-
dc.contributor.authorSimões, Alberto-
dc.date.accessioned2008-11-24T09:53:22Z-
dc.date.available2008-11-24T09:53:22Z-
dc.date.issued2008-05-19-
dc.date.submitted2008-03-11-
dc.identifier.urihttps://hdl.handle.net/1822/8338-
dc.descriptionTese de Doutoramento em Informática - Área do Conhecimento Processamento de Linguagem Naturalen
dc.description.abstractOs recursos bilingues mais abundantes são os corpora paralelos. Resultam de toda uma história de tradução de instituições e organizações internacionais. Estes corpora constituem um recurso de tradução muito rico, mas que precisa de ser tratado para ser útil: é necessária a sua preparação, realçando conhecimento que se encontra camuflado. Neste trabalho pretende-se obter conhecimento de diferentes tipos: dicionários de tradução, terminologia bilingue, exemplos de tradução (segmentos equivalentes) ou mesmo n-gramas. Para além de realizar a extracção destes recursos, pretende-se definir uma álgebra que os permita manusear e tratar. O ponto inicial na extracção de recursos bilingues corresponde à definição de pontes básicas entre as duas línguas: relacionamentos entre palavras, que são representados como dicionários probabilísticos de tradução. Com base nos corpora paralelos e nos dicionários probabilísticos de tradução são extraídos diferentes tipos de recursos, como sejam exemplos de tradução ou terminologia bilingue. A necessidade de adaptar os vários recursos bilingues extraídos ás situações concretas em que vão ser usados leva a que seja útil um ambiente para o desenvolvimento e prototipagem de processadores de recursos. Este ambiente é constituído por um servidor de recursos e uma API de ordem superior que os permite manipular. Os recursos bilingues, para além de poderem ser utilizados de forma programática, são úteis por si só. Neste sentido, é importante a sua disponibilização para consulta interactiva através da Internet, e para uso local através de dicionários off-line. Dado que todos os métodos usados se baseiam em estatística, e que se pretende uma grande cobertura lexical dos recursos obtidos, é necessário processar corpora de grandes dimensões, pelo que se usam mecanismos de decomposição e ferramentas de suporte ao processamento paralelo que permitem a escalabilidade dos métodos desenvolvidos.en
dc.description.abstractThe most abundant bilingual resource available are parallel corpora. They are the result of years of human translations performed on international institutions and organizations. These corpora are rich sources of translation knowledge but, to be useful, need to be prepared, enhancing their hidden knowledge. This main goal of this work is the extraction of different kinds of bilingual knowledge (translations dictionaries, bilingual terminologies, translation examples and n-grams) and the definition of a resources algebra. The first task of bilingual resources extraction is the identification of basic bridges between two languages: the extraction of relationships between words, that are stored as probabilistic translation dictionaries. These probabilistic translation dictionaries are used to extract different kinds of bilingual resources from parallel corpora such as translation examples or bilingual terminology. The extracted resources can be used for different intentions. This makes it important to have a workbench for the development and prototyping of resources processors. This workbench comprises a bilingual resources server and a high order API over it. The bilingual resources are useful both for the development of natural language processing applications or by final-users like translators. For these users, it is important to make these resources available. This can be done over the Internet, using an integrated web application, or by releasing off-line dictionaries. Given that most of the presented methods are based on statistics and that we want a wide lexical coverage, we need to process big corpora. The use of decomposition methods and tools to support parallel processing makes it possible to give scalability to the developed methods.en
dc.description.sponsorshipFundação para a Ciência e a Tecnologia (FCT) - POSI/PLP/43931/2001; 4/1.3/C/NRE; 339/1.3/C/NAC.en
dc.language.isoporen
dc.rightsopenAccessen
dc.titleExtracção de recursos de tradução com base em dicionários probabilísticos de traduçãoen
dc.typedoctoralThesispor
dc.subject.udc82.035:681.3en
dc.subject.udc681.3:82.035en
Aparece nas coleções:BUM - Teses de Doutoramento

Ficheiros deste registo:
Ficheiro Descrição TamanhoFormato 
AlbertoSimoes.pdf2,68 MBAdobe PDFVer/Abrir

Partilhe no FacebookPartilhe no TwitterPartilhe no DeliciousPartilhe no LinkedInPartilhe no DiggAdicionar ao Google BookmarksPartilhe no MySpacePartilhe no Orkut
Exporte no formato BibTex mendeley Exporte no formato Endnote Adicione ao seu ORCID