Development of a recommendation system for scientific literature based on deep learning

Utilize este identificador para referenciar este registo: https://hdl.handle.net/1822/84495

Registo completo

Campo DC	Valor	Idioma
dc.contributor.advisor	Rocha, Miguel	por
dc.contributor.advisor	Pereira, Vítor	por
dc.contributor.author	Silva, Tiago Rafael Ferreira Miranda da	por
dc.date.accessioned	2023-05-16T10:37:02Z	-
dc.date.available	2023-05-16T10:37:02Z	-
dc.date.issued	2022-12-15	-
dc.date.submitted	2022-10	-
dc.identifier.uri	https://hdl.handle.net/1822/84495	-
dc.description	Dissertação de mestrado em Bioinformatics	por
dc.description.abstract	The previous few decades have seen an enormous volume of articles from the scientific commu nity on the most diverse biomedical topics, making it extremely challenging for researchers to find relevant information. Methods like Machine Learning (ML) and Deep Learning (DL) have been used to create tools that can speed up this process. In that context, this work focuses on examining the performance of different ML and DL techniques when classifying biomedical documents, mainly regarding their relevance to given topics. To evaluate the different techniques, the dataset from the BioCreative VI Track 4 challenge was used. The objective of the challenge was to identify documents related to protein-protein interactions altered by mutations, a topic extremely important in precision medicine. Protein-protein interactions play a crucial role in the cellular mechanisms of all living organisms, and mutations in these interaction sites could be indicative of diseases. To handle the data to be used in training, some text processing methods were implemented in the Omnia package from OmniumAI, the host company of this work. Several preprocessing and feature extraction methods were implemented, such as removing stopwords and TF-IDF, which may be used in other case studies. They can be used either with generic text or biomedical text. These methods, in conjunction with ML pipelines already developed by the Omnia team, allowed the training of several traditional ML models. We were able to achieve a small improvement on performance, compared to the challenge baseline, when applying these traditional ML models on the same dataset. Regarding DL, testing with a CNN model, it was clear that the BioWordVec pre-trained embedding achieved the best performance of all pre-trained embeddings. Additionally, we explored the application of more complex DL models. These models achieved a better performance than the best challenge submission. BioLinkBERT managed an improvement of 0.4 percent points on precision, 4.9 percent points on recall, and 2.2 percent points on F1.	por
dc.description.abstract	As décadas anteriores assistiram a um enorme aumento no volume de artigos da comunidade científica sobre os mais diversos tópicos biomédicos, tornando extremamente difícil para os investigadores encontrar informação relevante. Métodos como Aprendizagem Máquina (AM) e Aprendizagem Profunda (AP) tem sido utilizados para criar ferramentas que podem acelerar este processo. Neste contexto, este trabalho centra-se na avaliação do desempenho de diferentes técnicas de AM e AP na classificação de documentos biomédicos, principalmente no que diz respeito à sua relevância para determinados tópicos. Para avaliar as diferentes técnicas, foi utilizado o conjunto de dados do desafio BioCreative VI Track 4. O objectivo do desafio era identificar documentos relacionados com as interações proteína-proteína alteradas por mutações, um tópico extremamente importante na medicina de precisão. As interacções proteína-proteína desempenham um papel crucial nos mecanismos celulares de todos os organismos vivos, e as mutações nestes locais de interacção podem ser indicativas de doenças. Para tratar os dados a utilizar no treino, alguns métodos de processamento de texto foram implementados no pacote Omnia da OmniumAI, a empresa anfitriã deste trabalho. Foram implementados vários métodos de pré-processamento e extracção de características, tais como a remoção de palavras irrelevantes e TF-IDF, que podem ser utilizados em outros casos de estudos, tanto com texto genérico quer com texto biomédico. Estes métodos, em conjunto com as pipelines de AM já desenvolvidas pela equipa da Omnia, permitiram o treino de vários modelos tradicionais de AM. Conseguimos alcançar uma pequena melhoria no desempenho, em comparação com a linha de referência do desafio, ao aplicar estes modelos tradicionais de AM no mesmo conjunto de dados. Relativamente a AP, testando com um modelo CNN, ficou claro que o embedding pré-treinado BioWordVec alcançou o melhor desempenho de todos os embeddings pré-treinados. Adicionalmente, exploramos a aplicação de modelos de AP mais complexos. Estes modelos alcançaram um melhor desempenho do que a melhor submissão do desafio. BioLinkBERT conseguiu uma melhoria de 0,4 pontos percentuais na precisão, 4,9 pontos percentuais no recall, e 2,2 pontos percentuais em F1.	por
dc.language.iso	eng	por
dc.rights	openAccess	por
dc.rights.uri	http://creativecommons.org/licenses/by/4.0/	por
dc.subject	Deep learning	por
dc.subject	Document classification	por
dc.subject	Machine learning	por
dc.subject	Biomedical text mining	por
dc.subject	Text mining	por
dc.subject	Aprendizagem profunda	por
dc.subject	Classificação de documentos	por
dc.subject	Aprendizagem máquina	por
dc.subject	Mineração de texto biomédico	por
dc.subject	Mineração de texto	por
dc.title	Development of a recommendation system for scientific literature based on deep learning	por
dc.type	masterThesis	eng
dc.identifier.tid	203262492	por
thesis.degree.grantor	Universidade do Minho	por
sdum.degree.grade	18 valores	por
sdum.uoei	Escola de Engenharia	por
dc.subject.fos	Engenharia e Tecnologia::Outras Engenharias e Tecnologias	por
Aparece nas coleções:	BUM - Dissertações de Mestrado DI - Dissertações de Mestrado CEB - Dissertações de Mestrado / MSc Dissertations