Utilize este identificador para referenciar este registo:
https://hdl.handle.net/1822/77372
Título: | PhageDPO: phage depolymerase finder |
Autor(es): | Duarte, José Alexandre Graça |
Orientador(es): | Oliveira, Hugo Alexandre Mendes Dias, Oscar |
Palavras-chave: | Bacteriophages Depolymerase Galaxy Machine learning Aprendizagem máquina Bacteriófagos Depolimerase Galaxy |
Data: | 2021 |
Resumo(s): | Antibiotic resistance is a severe public health problem. New resistance mechanisms
are rapidly emerging and spreading globally, threatening our ability to treat infections.
The bacteriophages (phages) arise as a possible solution through their capability of
infecting and killing bacteria. Phages are natural bacterial predators: they encode an
arsenal of specialized proteins to target their bacterial hosts. One emerging protein is
Phages Depolymerases (DPOs), responsible for selective recognition and degradation
of bacterial cell surface decorating polysaccharides, turning the bacteria susceptible to
external agents. Due to the difficulty in locating these enzymes in the phage genome, we
developed PhageDPO, a DPO prediction tool, through machine learning methods.
Several classifiers were created, using different datasets and algorithms and tested
through cross-validation. The datasets were composed of protein sequences retrieved
from the NCBI protein database and by a different number of negative cases. Two
models were selected for integration in the tool: the Support Vector Machine (SVM)
model created with a dataset containing data of 4311 sequences and the Artificial Neural
Network (ANN) model created with a dataset containing data of 7185 sequences. On an
independent validation dataset, the SVM model presented 95% accuracy, 98% precision
and 91% recall and the ANN model presented 98% accuracy, 99% precision and 96%
recall. While the high precision and PECC of the SVM focus on predicting true DPO
sequences and avoiding false positives, the ANN ensures that all DPOs are identified due
to its high recall. PhageDPO was successfully tested in predicting DPOs of, previously
characterized, phages.
PhageDPO was integrated into the Galaxy framework (https://bit.ly/3dOam2u), providing
a user-friendly graphical interface for wet-lab researchers without computational
skills. A resistência aos antibióticos é um sério problema de saúde pública. Novos mecanismos de resistência estão a aparecer e a espalhar-se por todo o mundo, ameaçando a nossa capacidade de tratar infeções. Os bacteriófagos (fagos) surgem como uma solução pela sua capacidade de infeção e lise de bactérias. Os fagos são predadores naturais de bactérias: codificam um arsenal de proteínas especializadas para infeção dos seus hospedeiros. Uma proteína emergente é a depolimerase de polissacarídeos (DPOs) dos fagos, responsável pelo reconhecimento seletivo e degradação dos polissacarídeos presentes na superfície das bactérias, tornando-a suscetível a agentes externos. Devido à sua difícil localização no genoma do fago, foi desenvolvida a ferramenta PhageDPO, para previsão de DPOs, através de métodos de aprendizagem máquina. Vários modelos foram desenvolvidos, com diferentes conjuntos de dados, e testados através de validação cruzada. Os conjuntos de dados são constituídos por sequências protéicas retiradas da base de dados NCBI protein e por números diferentes de casos negativos. Dois modelos foram incorporados na ferramenta: o modelo SVM treinado com dados de 4311 sequências e o modelo ANN treinado com dados de 7185 sequências. Num conjunto independente de dados de validação, o modelo SVM apresentou 95% de exatidão, 98% de precisão e 91 % de sensibilidade e o modelo ANN apresentou 98% de exatidão, 99% de precisão e 96% de sensibilidade. Enquanto que a elevada exatidão e precisão do modelo SVM se foca na previsão de sequências corretamente classificadas, o modelo ANN assegura que todas as DPOs são identificadas devido a sua elevada sensibilidade. A PhageDPO foi testada com sucesso na previsão de DPOs de fagos previamente caracterizados. PhageDPO foi integrado no Galaxy (https://bit.ly/3dOam2u), uma framework com interface gráfica para investigadores sem conhecimento de programação |
Tipo: | Dissertação de mestrado |
Descrição: | Dissertação de mestrado em Bioinformatics |
URI: | https://hdl.handle.net/1822/77372 |
Acesso: | Acesso aberto |
Aparece nas coleções: | BUM - Dissertações de Mestrado |
Ficheiros deste registo:
Ficheiro | Descrição | Tamanho | Formato | |
---|---|---|---|---|
Dissertação José Alexandre Graça Duarte.pdf | 6,49 MB | Adobe PDF | Ver/Abrir |
Este trabalho está licenciado sob uma Licença Creative Commons