Utilize este identificador para referenciar este registo:
https://hdl.handle.net/1822/64859
Título: | Repositório genealógico nacional: integração e consolidação de dados |
Autor(es): | Salgado, Agostinho Filipe Fernandes |
Orientador(es): | Santos, Maribel Yasmina |
Palavras-chave: | Fusão de dados Integração de dados Qualidade de dados Record Linkage Demografia Histórica Data Fusion Data Integration Data Quality Record Linkage Historical demography |
Data: | 28-Dez-2016 |
Resumo(s): | Desde há cerca de vinte anos que o Grupo de História das Populações (GHP) tem vindo a desenvolver,
na Universidade do Minho, uma linha de investigação centrada no estudo de comunidades históricas
numa perspetiva micro analítica. Estes trabalhos assentam em bases de dados paroquiais (BDP)
constituídas a partir dos registos paroquiais (RP) de batismo, casamento e óbito, organizadas segundo
uma metodologia desenvolvida por Maria Norberta Amorim (Amorim, 1991), que permite acompanhar o
percurso de vida de cada residente da comunidade em encadeamento genealógico. Atualmente, estas
BD, que se encontram isoladas - existe uma BD por paróquia - reúnem mais de 1 milhão de registos de
indivíduos, com uma representação geográfica concentrada principalmente no Norte de Portugal e em
duas ilhas do arquipélago dos Açores, para além de núcleos de menor dimensão nos distritos do Porto,
Aveiro, Lisboa e Évora. Este volume de informação exige a concretização de um sistema centralizado que
reúna os dados das diferentes comunidades e que possibilite ao investigador acompanhar o percurso
dos indivíduos em áreas geográficas mais alargadas. Esta necessidade acentua-se nos estudos sobre
espaços urbanos ao longo de vários séculos, considerando a elevada mobilidade dos indivíduos e das
famílias.
Para a concretização deste sistema centralizado torna-se necessário proceder à integração dos dados
das diversas bases de dados locais numa base de dados central (BDC) que, com um modelo de dados
unificado, permita a integração, consolidação e análise dos dados disponíveis e a reconstituição, por
exemplo, de genealogias familiares.
Na presente dissertação analisou-se, em primeira instância, o modelo de dados da BDP, tendo-se
averiguado junto dos investigadores do GHP, as limitações que o mesmo apresenta. Com base na
informação recolhida, estudou-se, propôs-se e implementou-se a BDC, cujo modelo de dados detém a
capacidade de, por um lado, suprimir as limitações identificadas e, por outro, corresponder aos requisitos
que a fusão das BDP exige. Idealizou-se e implementou-se, ainda, um conjunto de processos de extração,
transformação e carregamento de dados, capaz de, em primeiro lugar, avaliar e tratar das inconsistências
dos dados presentes em cada uma das BDP, procedendo depois às transformações de entidades e dados
necessárias, para que correspondam aos formatos definidos na BDC. Estes processos realizam, de
seguida, o carregamento dos dados para a BDC, garantindo a preservação de todos os registos e os
atributos consistentes, presentes em cada uma das BDP. Criou-se ainda uma funcionalidade para a deteção de possíveis registos de indivíduos duplicados,
ajustada ao presente contexto de dados e às necessidades do GHP que se revelou de elevada eficácia.
A combinação destes elementos resulta na concretização da BDC e de um conjunto de procedimentos
capazes de integrar e fundir cada uma das BDP para este repositório único, conforme o desejado pelos
investigadores do GHP, para o desenvolvimento de pesquisas e análises mais abrangentes, possíveis
apenas com esta realidade. For about twenty years, the Grupo de História das Populações (GHP) has been developing at the University of Minho a line of research focused on the study of historical communities in a micro-analytic perspective. The works developed from these investigations are based on parochial databases (PDB) built from parish registers (PR) of baptism, marriage and death. The organization of these data bases follows a methodology that was developed by Maria Norberta Amorim (Amorim, 1991). This approach allows to track the life path of each resident of a certain community with genealogical linkage. Currently, there are more than 1 million individuals in isolated databases (there is one data base for each parish), with a geographical representation mainly from the North of Portugal and two islands of the Azores archipelago. Other nucleus of a smaller dimension from the districts of Oporto, Aveiro, Lisbon and Évora are as well represented. This volume of information requires the creation of a central system able to gather data from different communities and to enable the researcher to follow the life path of the individuals, in wider geographical areas. This need is more noticeable in studies about urban areas over the centuries that comprises the high mobility from families and individuals. For the implementation of this centralized system it is necessary to integrate data from the multiple local databases in a central database (CDB) that, with a unified data model, allows the integration, consolidation and analysis of available data and the reconstruction, for example, of family genealogies. In this dissertation is has been studied, on the first place, the data model of the PDB. Also, the GHP researchers have been inquired about the limitations of this model. Based on the collected information, the CDB has been studied, proposed and implemented, with a data model that has the capacity to, on one hand, eliminate the identified limitations and, on the other hand, satisfy to the requirements that the merge of the PDB demands. A set of processes of extraction, transformation and loading of data, capable of, firstly, assess and deal with the inconsistencies of the existing data in each one of the PDB, proceeding then to the necessary transformations of the entities and the data, in order to match the formats defined in the CDB, have been conceived and implemented. In the subsequent phase, these processes load the resulting data to the BDC, guaranteeing the preservation of all the consistent records and attributes in each one of the PDB. Also, it has been developed a functionality for the detection of possible duplicate records, adjusted to the present data context and to the needs of the GHP which has proved to be of high efficiency. The combination of these elements results in the implementation of CDB and of a set of procedures able to integrate and merge each one of the PDB to this central repository, as sought by investigators of the GHP, for the development of more comprehensive research and analyses, possible only on this new reality. |
Tipo: | Dissertação de mestrado |
Descrição: | Dissertação de Mestrado (Ciclo de Estudos Integrados Conducentes ao Grau de Mestre em Engenharia e Gestão de Sistemas de Informação) |
URI: | https://hdl.handle.net/1822/64859 |
Acesso: | Acesso aberto |
Aparece nas coleções: | BUM - Dissertações de Mestrado DSI - Engenharia e Gestão de Sistemas de Informação |
Ficheiros deste registo:
Ficheiro | Descrição | Tamanho | Formato | |
---|---|---|---|---|
Agostinho Filipe Fernandes Salgado.pdf | 6,06 MB | Adobe PDF | Ver/Abrir |