Please use this identifier to cite or link to this item:
https://hdl.handle.net/1822/81325
Title: | Bacteriophage-host determinants: identification of bacteriophage receptors through machine learning techniques |
Author(s): | Araújo, Pedro Henrique Matela Aidos Manso de |
Advisor(s): | Dias, Oscar Oliveira, Hugo Alexandre Mendes |
Keywords: | Bacteriophages Phages Host prediction Bacterial strain Machine learning Bacteriófago Fago Previsão de hospedeiro Estirpe bacteriana Aprendizagem máquina |
Issue date: | 2021 |
Abstract(s): | Bacterial resistance to antibiotics is nowadays becoming a major concern. Several reports indicate
that bacteria are developing resistance mechanisms to various antibiotics. Moreover, the processes involved
in the development of new antibiotics are lengthy and expensive. Therefore, an alternative to antibiotics
is needed. One promising alternative are bacteriophages, viruses that specifically infect bacteria,
causing their lysis. Hence, it would be interesting to discover which bacteria a specific phage recognizes.
The bacterial receptors determine phage specificity, using tail spikes/fibres as receptor binding proteins
to detect carbohydrates or proteins, in bacterial surface. Studying interactions between phage tail spikes/-
fibres and bacterial receptors can allow the identification of interaction pairs. Machine learning algorithms
can be used to find patterns in these interactions and build models to make predictions.
In this work, PhageHost, a tool that predicts hosts at a strain level, for three species, E. coli, K.
pneumoniae and A. baumannii was developed. Several data was extracted from GenBank, retrieving
general, protein and coding information, for both phages and bacteria. The protein data was used to
build an important phage protein function database, that allowed the classification of protein functions,
namely, phage tail spikes/fibres. In the end, several machine learning models with relevant protein features
were created to predict phage-host strain interactions. Compared with previously performed works, these
models show better predictive power and the ability to perform strain-level predictions. For the best model,
a Matthews correlation coefficient (MCC) of 96.6% and an F-score of 98.3% were obtained. These best
predictive models were implemented online, in a server under the name PhageHost (https://galaxy.bio.di.
uminho.pt). Resistência bacteriana a antibióticos está a tornar-se uma preocupação hoje em dia. Várias bactérias foram descritas desenvolvendo mecanismos de resistência a diversos antibióticos. Aliado a isto, estão os longos e dispendiosos processos envolvidos no desenvolvimento de antibióticos. Por isso, há a necessidade de procurar uma alternativa aos antibióticos. Uma alternativa promissora são os bacteriófagos, vírus que infetam especificamente bactérias e levam à sua lise. Posto isto, seria interessante descobrir qual a bactéria que um certo fago reconhece. A especificidade de fagos é dada pelos recetores da superfícies das bactérias que conseguem reconhecer. Eles usam proteínas das spikes/fibras para reconhecer recetires proteicos ou hidratos de carbono nas bactérias. Estudar as interações entre spikes/fibras das caudas de fagos e recetores bacterianos pode permitir a identificação de pares de interação. Algoritmos de aprendizagem máquina podem ser utilizados para descobrir padrões nestas interações e construir modelos para realizar previsões. Neste trabalho, a ferramenta PhageHost foi desenvolvida. Permite a previsão de hospedeiros ao nível da estirpe, para três espécies, E. coli, K. pneumoniae e A. baumannii. Vários dados foram extraídos do GenBank, nomeadamente informações gerais, de proteína e codificante, para fagos e bactérias. Com todos os dados proteicos, uma base de dados importante foi construída, que permitiu a classificação de funções proteicas, nomeadamente, spikes/fibras das caudas dos fagos. Finalmente, vários modelos de aprendizagem máquina, com características proteicas relevantes, capazes de prever interações fago-hospedeiro, a nível da estirpe. Em comparação com outros trabalhos semelhantes, estes modelos demonstraram melhor poder preditivo, assim como capacidade de prever interações a nível da estirpe. Para o melhor modelo foram obtidos um coeficiente de correlação de Matthews de 96.6% e um F-score de 98.3%. Os melhores modelos foram implementados online, num servidor com o nome PhageHost (https://galaxy.bio.di.uminho.pt). |
Type: | Master thesis |
Description: | Dissertação de mestrado em Bioinformatics |
URI: | https://hdl.handle.net/1822/81325 |
Access: | Open access |
Appears in Collections: | BUM - Dissertações de Mestrado DI - Dissertações de Mestrado |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
Pedro-Henrique-Matela-Aidos-Manso-de-Araújo-dissertação.pdf | 2,84 MB | Adobe PDF | View/Open |
This item is licensed under a Creative Commons License