Please use this identifier to cite or link to this item:
https://hdl.handle.net/1822/79025
Title: | Entity recognition in archival descriptions |
Author(s): | Cunha, Luís Filipe da Costa |
Keywords: | Named entity recognition Archival finding aids Machine learning Deep learning BERT Data annotation Reconhecimento de entidades mencionadas Descrições arquivísticas Anotação de dados |
Issue date: | 2022 |
Abstract(s): | At the moment, there is a vast amount of archival data spread across the Portuguese
archives, which keeps information from our ancestors’ times to the present
day. Most of this information was already transcribed to digital format, and the
public can access it through archives’ online repositories. Despite that, some of these
documents are structured with many plain text fields without any annotations, making
their content analyses difficult. In this thesis, we implemented several Named
Entity Recognition solutions to perform a semantic interpretation of the archival
finding aids by extracting named entities like Person, Place, Date, Profession, and
Organization. These entities translate into crucial information about the context in
which they are inserted. They can be used for several purposes with high confidence
results, such as creating smart browsing tools by using entity linking and record
linking techniques.
In this way, the main challenge of this work was the creation of powerful NER
models capable of producing high confidence results. In order to achieve high result
scores, we annotated several corpora to train our Machine Learning algorithms in the
archival domain. We also used different ML architectures such as MaxEnt, CNNs,
LSTMs, and BERT models. During the model’s validation, we created different
environments to test the effect of the context proximity in the training data.
Finally, during the model’s training, we noticed a lack of available Portuguese
annotated data, limiting the potential of several NLP tasks. In this way, we developed
an intelligent corpus annotator that uses one of our NER models to assist and
accelerate the annotation process. De momento, existe uma vasta quantidade de dados arquivísticos espalhados pelos arquivos portugueses, que guardam informações desde os tempos dos nossos antepassados até aos dias de hoje. A maior parte desta informação já foi transcrita para o formato digital e encontra-se disponível ao público através de repositórios online dos arquivos. Apesar disso, alguns destes documentos estão estruturados com muitos campos de texto livre, sem quaisquer anotações, o que pode dificultar a análise do seu conteúdo. Nesta tese, implementamos várias soluções de Reconhecimento de Entidades Mencionadas, a fim de se realizar uma interpretação semântica sobre descrições arquivísticas, extraindo entidades tais como Pessoa, Local, Data, Profissão e Organização. Estes tipos de entidades traduzem-se em informação crucial sobre o contexto em que estão inseridas. Com métricas de confiança suficientemente elevadas, estas entidades podem ser utilizadas para diversos fins, como a criação de ferramentas de navegação inteligente por meio de técnicas de entity linking e record linking. Desta forma, o principal desafio deste trabalho consistiu na criação de poderosos modelos NER que fossem capazes de produzir resultados de elevada confiança. Para alcançar tais resultados, anotamos vários datasets para treinar os nossos próprios algoritmos de Aprendizado de Máquina no contexto arquivístico. Para além disso, usamos diferentes arquiteturas de ML tais como MaxEnt, CNNs, LSTMs e BERT. Durante a validação do modelo, criamos diferentes ambientes de teste de modo a testar o efeito da proximidade de contexto nos dados de treino. Por fim, durante o treino dos modelos verificamos que existe pouca quantidade de dados disponíveis anotados em português, o que pode limitar o potencial de várias tarefas de NLP. Desta forma, desenvolvemos um anotador de datasets inteligente que utiliza um dos nossos modelos de NER para auxiliar e acelerar o processo de anotação. |
Type: | Master thesis |
Description: | Dissertação de mestrado integrado em Informatics Engineering |
URI: | https://hdl.handle.net/1822/79025 |
Access: | Open access |
Appears in Collections: | BUM - Dissertações de Mestrado |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
Provas-dissertação-final.pdf | 4,65 MB | Adobe PDF | View/Open |
This item is licensed under a Creative Commons License