Acolhimento de corpus de textos em crioulos orientais de base portuguesa num sistema de representação TEI

Utilize este identificador para referenciar este registo: https://hdl.handle.net/1822/31416

Título:	Acolhimento de corpus de textos em crioulos orientais de base portuguesa num sistema de representação TEI
Autor(es):	Barros, Anabela Leal de Belo, Orlando
Palavras-chave:	Corpus de textos Crioulos orientais de base portuguesa Acolhimento de textos heterogéneos Text Encoding Initiative Bases de dados Web Crawlers
Data:	2011
Resumo(s):	Dada a natureza dos crioulos orientais de base portuguesa, o seu carácter minoritário e a sua cada vez menor expressão no que toca ao número de falantes e ao âmbito de utilização, em alguns casos coincidindo com a extinção, a recolha e tratamento de um corpus textual o mais amplo possível, exige a colaboração interdisciplinar de investigadores de diversas línguas asiáticas, e preferencialmente com conhecimento simultâneo de várias delas, juntamente com o do português. Por outro lado, a única via para recolha de textos o mais possível antigos, de épocas em que cada crioulo se encontrava no seu auge ou possuía ainda alguma vitalidade, impõe a pesquisa de arquivo em manuscritos, miscelâneas e todo o tipo de repositórios de papéis vários do período das Descobertas e posteriores a ele. Paralelamente, investigadores com conhecimento das restantes línguas faladas desde o séc. XV em cada território onde a presença portuguesa deu origem a uma forma de pidgin ou crioulo de base portuguesa deverão recolher in loco registos orais, caracterizando cada um dos informantes, e ainda textos escritos, preocupando-se em abranger vários tipos de discurso e de registo. O corpus dividir-se-á, pois, em alargados conjuntos de textos orais quotidianos; transcrições de canções antigas, do folclore local, de contos e histórias passadas de geração em geração, capazes de perpetuar uma língua já total ou parcialmente desaparecida ou modificada no séc. XXI; registos de receitas culinárias; correspondência particular ou oficial em crioulo; apontamentos de cariz pessoal, eventualmente para fins testamentários, de divisão ou registo de bens e propriedades, para memorização ou transmissão de rituais (como os de cultivo de campos, em Timor), ou notas de dívidas; lendas, contos e outros textos de carácter popular que vão circulando de geração em geração sem alterações importantes. Apesar da sua grande heterogeneidade, todas estas fontes permitem criar um corpus geral, abrangente, extremamente rico e diversificado, mas também datável, localizável, seccionável e perspectivável por temas, âmbitos, cronologias, línguas, variedades, etc. Todavia, para esse corpus possa ser efectivamente explorado e estudado é necessário acolhê-lo num formato único capaz de conciliar numa base homogénea, a diversidade de formatos e estruturas linguísticas apresentadas nos textos de crioulos orientais de base portuguesa e, consequentemente, permitir a exploração dos seus conteúdos e da meta informação com eles associada. A criação deste repositório de informação unificado implicará o desenvolvimento de mecanismos adequados para a recolha e acolhimento das várias peças de informação recolhidas in loco pelos investigadores, que sejam capazes de traduzirem os diversos formatos linguísticos nativos para o formato de representação adoptado e de inferirem de forma automática, sempre que possível, para casos previamente definidos, alguma da meta informação associada com o texto que se está a incorporar no sistema. Além destes mecanismos, o sistema contará com um conjunto de angariadores de informação automáticos (Web Crawlers), especialmente concebidos para a recolha de textos em crioulos orientais de base portuguesa na Web. Toda a informação angariada, tanto pelos investigadores como pelos Web Crawlers será convertida para um sistema de dados TEI (Text Encoding Initiative) P5 (http://www.tei-c.org/Guidelines/P5/) o que permitirá fazer a sua exploração de forma muito efectiva tendo em conta não só o seu conteúdo, estrutura, origem, época ou meta informação associada, bem como fazer o cruzamento de elementos estruturais e de padrões linguísticos entre várias peças de informação. A definição de perfis de utilização e de exploração personalizados garantirá também a incorporação, validação e enriquecimento das várias peças de informação angariadas. Neste artigo apresentaremos as características e funcionalidades base deste sistema de gestão de corpus textuais, bem como demonstraremos a sua aplicação no acolhimento e exploração de peças de texto em crioulos orientais de base portuguesa, relevando os aspectos mais importantes de todos os elementos funcionais do sistema.
Tipo:	Resumo em ata de conferência
Descrição:	Resumo apresentado no 12º Colóquio da Associação de Crioulos de Base Lexical Portuguesa e Espanhola, realizado na Universidade do Porto, Portugal, nos dias 7-8 julho 2011
URI:	https://hdl.handle.net/1822/31416
Arbitragem científica:	yes
Acesso:	Acesso restrito UMinho
Aparece nas coleções:	CAlg - Resumos em livros de atas/Abstracts in proceedings

Ficheiros deste registo:

Ficheiro	Descrição	Tamanho	Formato
2011-ACBLPE-Barros&Belo-ABS-CRP.pdf Acesso restrito!	Documento principal.	65,8 kB	Adobe PDF	Ver/Abrir

Ver registo completo Sugerir correção Estatísticas