Utilize este identificador para referenciar este registo: https://hdl.handle.net/1822/64859

TítuloRepositório genealógico nacional: integração e consolidação de dados
Autor(es)Salgado, Agostinho Filipe Fernandes
Orientador(es)Santos, Maribel Yasmina
Palavras-chaveFusão de dados
Integração de dados
Qualidade de dados
Record Linkage
Demografia Histórica
Data Fusion
Data Integration
Data Quality
Record Linkage
Historical demography
Data28-Dez-2016
Resumo(s)Desde há cerca de vinte anos que o Grupo de História das Populações (GHP) tem vindo a desenvolver, na Universidade do Minho, uma linha de investigação centrada no estudo de comunidades históricas numa perspetiva micro analítica. Estes trabalhos assentam em bases de dados paroquiais (BDP) constituídas a partir dos registos paroquiais (RP) de batismo, casamento e óbito, organizadas segundo uma metodologia desenvolvida por Maria Norberta Amorim (Amorim, 1991), que permite acompanhar o percurso de vida de cada residente da comunidade em encadeamento genealógico. Atualmente, estas BD, que se encontram isoladas - existe uma BD por paróquia - reúnem mais de 1 milhão de registos de indivíduos, com uma representação geográfica concentrada principalmente no Norte de Portugal e em duas ilhas do arquipélago dos Açores, para além de núcleos de menor dimensão nos distritos do Porto, Aveiro, Lisboa e Évora. Este volume de informação exige a concretização de um sistema centralizado que reúna os dados das diferentes comunidades e que possibilite ao investigador acompanhar o percurso dos indivíduos em áreas geográficas mais alargadas. Esta necessidade acentua-se nos estudos sobre espaços urbanos ao longo de vários séculos, considerando a elevada mobilidade dos indivíduos e das famílias. Para a concretização deste sistema centralizado torna-se necessário proceder à integração dos dados das diversas bases de dados locais numa base de dados central (BDC) que, com um modelo de dados unificado, permita a integração, consolidação e análise dos dados disponíveis e a reconstituição, por exemplo, de genealogias familiares. Na presente dissertação analisou-se, em primeira instância, o modelo de dados da BDP, tendo-se averiguado junto dos investigadores do GHP, as limitações que o mesmo apresenta. Com base na informação recolhida, estudou-se, propôs-se e implementou-se a BDC, cujo modelo de dados detém a capacidade de, por um lado, suprimir as limitações identificadas e, por outro, corresponder aos requisitos que a fusão das BDP exige. Idealizou-se e implementou-se, ainda, um conjunto de processos de extração, transformação e carregamento de dados, capaz de, em primeiro lugar, avaliar e tratar das inconsistências dos dados presentes em cada uma das BDP, procedendo depois às transformações de entidades e dados necessárias, para que correspondam aos formatos definidos na BDC. Estes processos realizam, de seguida, o carregamento dos dados para a BDC, garantindo a preservação de todos os registos e os atributos consistentes, presentes em cada uma das BDP. Criou-se ainda uma funcionalidade para a deteção de possíveis registos de indivíduos duplicados, ajustada ao presente contexto de dados e às necessidades do GHP que se revelou de elevada eficácia. A combinação destes elementos resulta na concretização da BDC e de um conjunto de procedimentos capazes de integrar e fundir cada uma das BDP para este repositório único, conforme o desejado pelos investigadores do GHP, para o desenvolvimento de pesquisas e análises mais abrangentes, possíveis apenas com esta realidade.
For about twenty years, the Grupo de História das Populações (GHP) has been developing at the University of Minho a line of research focused on the study of historical communities in a micro-analytic perspective. The works developed from these investigations are based on parochial databases (PDB) built from parish registers (PR) of baptism, marriage and death. The organization of these data bases follows a methodology that was developed by Maria Norberta Amorim (Amorim, 1991). This approach allows to track the life path of each resident of a certain community with genealogical linkage. Currently, there are more than 1 million individuals in isolated databases (there is one data base for each parish), with a geographical representation mainly from the North of Portugal and two islands of the Azores archipelago. Other nucleus of a smaller dimension from the districts of Oporto, Aveiro, Lisbon and Évora are as well represented. This volume of information requires the creation of a central system able to gather data from different communities and to enable the researcher to follow the life path of the individuals, in wider geographical areas. This need is more noticeable in studies about urban areas over the centuries that comprises the high mobility from families and individuals. For the implementation of this centralized system it is necessary to integrate data from the multiple local databases in a central database (CDB) that, with a unified data model, allows the integration, consolidation and analysis of available data and the reconstruction, for example, of family genealogies. In this dissertation is has been studied, on the first place, the data model of the PDB. Also, the GHP researchers have been inquired about the limitations of this model. Based on the collected information, the CDB has been studied, proposed and implemented, with a data model that has the capacity to, on one hand, eliminate the identified limitations and, on the other hand, satisfy to the requirements that the merge of the PDB demands. A set of processes of extraction, transformation and loading of data, capable of, firstly, assess and deal with the inconsistencies of the existing data in each one of the PDB, proceeding then to the necessary transformations of the entities and the data, in order to match the formats defined in the CDB, have been conceived and implemented. In the subsequent phase, these processes load the resulting data to the BDC, guaranteeing the preservation of all the consistent records and attributes in each one of the PDB. Also, it has been developed a functionality for the detection of possible duplicate records, adjusted to the present data context and to the needs of the GHP which has proved to be of high efficiency. The combination of these elements results in the implementation of CDB and of a set of procedures able to integrate and merge each one of the PDB to this central repository, as sought by investigators of the GHP, for the development of more comprehensive research and analyses, possible only on this new reality.
TipoDissertação de mestrado
DescriçãoDissertação de Mestrado (Ciclo de Estudos Integrados Conducentes ao Grau de Mestre em Engenharia e Gestão de Sistemas de Informação)
URIhttps://hdl.handle.net/1822/64859
AcessoAcesso aberto
Aparece nas coleções:BUM - Dissertações de Mestrado
DSI - Engenharia e Gestão de Sistemas de Informação

Ficheiros deste registo:
Ficheiro Descrição TamanhoFormato 
Agostinho Filipe Fernandes Salgado.pdf6,06 MBAdobe PDFVer/Abrir

Partilhe no FacebookPartilhe no TwitterPartilhe no DeliciousPartilhe no LinkedInPartilhe no DiggAdicionar ao Google BookmarksPartilhe no MySpacePartilhe no Orkut
Exporte no formato BibTex mendeley Exporte no formato Endnote Adicione ao seu ORCID