Utilize este identificador para referenciar este registo: https://hdl.handle.net/1822/31416

TítuloAcolhimento de corpus de textos em crioulos orientais de base portuguesa num sistema de representação TEI
Autor(es)Barros, Anabela Leal de
Belo, Orlando
Palavras-chaveCorpus de textos
Crioulos orientais de base portuguesa
Acolhimento de textos heterogéneos
Text Encoding Initiative
Bases de dados
Web Crawlers
Data2011
Resumo(s)Dada a natureza dos crioulos orientais de base portuguesa, o seu carácter minoritário e a sua cada vez menor expressão no que toca ao número de falantes e ao âmbito de utilização, em alguns casos coincidindo com a extinção, a recolha e tratamento de um corpus textual o mais amplo possível, exige a colaboração interdisciplinar de investigadores de diversas línguas asiáticas, e preferencialmente com conhecimento simultâneo de várias delas, juntamente com o do português. Por outro lado, a única via para recolha de textos o mais possível antigos, de épocas em que cada crioulo se encontrava no seu auge ou possuía ainda alguma vitalidade, impõe a pesquisa de arquivo em manuscritos, miscelâneas e todo o tipo de repositórios de papéis vários do período das Descobertas e posteriores a ele. Paralelamente, investigadores com conhecimento das restantes línguas faladas desde o séc. XV em cada território onde a presença portuguesa deu origem a uma forma de pidgin ou crioulo de base portuguesa deverão recolher in loco registos orais, caracterizando cada um dos informantes, e ainda textos escritos, preocupando-se em abranger vários tipos de discurso e de registo. O corpus dividir-se-á, pois, em alargados conjuntos de textos orais quotidianos; transcrições de canções antigas, do folclore local, de contos e histórias passadas de geração em geração, capazes de perpetuar uma língua já total ou parcialmente desaparecida ou modificada no séc. XXI; registos de receitas culinárias; correspondência particular ou oficial em crioulo; apontamentos de cariz pessoal, eventualmente para fins testamentários, de divisão ou registo de bens e propriedades, para memorização ou transmissão de rituais (como os de cultivo de campos, em Timor), ou notas de dívidas; lendas, contos e outros textos de carácter popular que vão circulando de geração em geração sem alterações importantes. Apesar da sua grande heterogeneidade, todas estas fontes permitem criar um corpus geral, abrangente, extremamente rico e diversificado, mas também datável, localizável, seccionável e perspectivável por temas, âmbitos, cronologias, línguas, variedades, etc. Todavia, para esse corpus possa ser efectivamente explorado e estudado é necessário acolhê-lo num formato único capaz de conciliar numa base homogénea, a diversidade de formatos e estruturas linguísticas apresentadas nos textos de crioulos orientais de base portuguesa e, consequentemente, permitir a exploração dos seus conteúdos e da meta informação com eles associada. A criação deste repositório de informação unificado implicará o desenvolvimento de mecanismos adequados para a recolha e acolhimento das várias peças de informação recolhidas in loco pelos investigadores, que sejam capazes de traduzirem os diversos formatos linguísticos nativos para o formato de representação adoptado e de inferirem de forma automática, sempre que possível, para casos previamente definidos, alguma da meta informação associada com o texto que se está a incorporar no sistema. Além destes mecanismos, o sistema contará com um conjunto de angariadores de informação automáticos (Web Crawlers), especialmente concebidos para a recolha de textos em crioulos orientais de base portuguesa na Web. Toda a informação angariada, tanto pelos investigadores como pelos Web Crawlers será convertida para um sistema de dados TEI (Text Encoding Initiative) P5 (http://www.tei-c.org/Guidelines/P5/) o que permitirá fazer a sua exploração de forma muito efectiva tendo em conta não só o seu conteúdo, estrutura, origem, época ou meta informação associada, bem como fazer o cruzamento de elementos estruturais e de padrões linguísticos entre várias peças de informação. A definição de perfis de utilização e de exploração personalizados garantirá também a incorporação, validação e enriquecimento das várias peças de informação angariadas. Neste artigo apresentaremos as características e funcionalidades base deste sistema de gestão de corpus textuais, bem como demonstraremos a sua aplicação no acolhimento e exploração de peças de texto em crioulos orientais de base portuguesa, relevando os aspectos mais importantes de todos os elementos funcionais do sistema.
TipoResumo em ata de conferência
DescriçãoResumo apresentado no 12º Colóquio da Associação de Crioulos de Base Lexical Portuguesa e Espanhola, realizado na Universidade do Porto, Portugal, nos dias 7-8 julho 2011
URIhttps://hdl.handle.net/1822/31416
Arbitragem científicayes
AcessoAcesso restrito UMinho
Aparece nas coleções:CAlg - Resumos em livros de atas/Abstracts in proceedings

Ficheiros deste registo:
Ficheiro Descrição TamanhoFormato 
2011-ACBLPE-Barros&Belo-ABS-CRP.pdf
Acesso restrito!
Documento principal.65,8 kBAdobe PDFVer/Abrir

Partilhe no FacebookPartilhe no TwitterPartilhe no DeliciousPartilhe no LinkedInPartilhe no DiggAdicionar ao Google BookmarksPartilhe no MySpacePartilhe no Orkut
Exporte no formato BibTex mendeley Exporte no formato Endnote Adicione ao seu ORCID