Utilize este identificador para referenciar este registo: https://hdl.handle.net/1822/66156

TítuloBuilding a database and development of a machine learning algorithm to identify and characterize viral fusion peptides
Autor(es)Pereira, Sara Catarina Monteiro
Orientador(es)Lousa, Diana Andreia Pereira
Rocha, I.
Palavras-chaveFusion peptides
Viral fusion
Fusion proteins
Machine learning
Accuracy
Péptidos de fusão
Fusão viral
Proteínas de fusão
Machine learning
Data2019
Resumo(s)Fusion Peptides (FPs) play an important role in viral fusion. They are segments of fusion proteins that include conserved hydrophobic domains absolutely required for the fusogenic activity of glycoproteins from divergent virus families. FPs from different viruses are very different, which is intriguing and makes it difficult to find patterns that could characterize them. However, the development of therapeutics targeting fusion peptides requires a detailed knowledge about their properties. Most of the studies made in this field were more focused on Influenza, HIV and all retroviruses fusion peptides, but one cannot generalize that information for all viral families, since they are different even at the sequence level. Hence, machine learning can be a good tool to unveil hidden patterns that characterize these peptides. Creating a model capable of separating fusion peptides (positive cases) from non-fusion peptides (negative cases) using their amino acid (AA) sequence as the basis for generating features, requires the usage of well annotated and reviewed proteins. Currently, the information about these peptides is very dispersed and there are no complete databases available to access and use this data. In the scope of this dissertation, an extensive search on these fusion peptides was performed, which resulted in 468 sequences found for 207 out of 255 viruses. From that universe 111 sequences, with experimentally validated FPs were used in subsequent analysis. Multiple alignments and phylogenetic trees analysis suggested clusters per class and per family, which led to consensus sequences per virus family. For this work, eight different machine learning models were trained and tested, using a five-fold cross validation process, on different datasets to identify and classify fusion peptides. To prove the value of the developed models, three different datasets composed by well annotated sequences from UniProt and NCBI were used. Ensembles of the created models using one dataset showed good overall performance with scores of accuracy and recall above 90 %. These are promising results on predicting the most plausible regions where the FP is located within an entire fusion protein sequence, which can be very useful in future research.
Os péptidos de fusão têm um papel importante no mecanismo de fusão viral. Estes péptidos são segmentos de proteínas de fusão que incluem domínios hidrofóbicos conservados absolutamente indispensáveis à atividade fusogénica de glicoproteínas de diversas famílias de vírus. É intrigante que cada vírus tenha um péptido de fusão diferente, o que dificulta a identificação de padrões que os caracterizem, mesmo que o desenvolvimento de novos fármacos dependa do conhecimento detalhado sobre as propriedades dos mesmos. A maioria dos estudos feitos nesta área incidem principalmente sobre os vírus Influenza, VIH e os péptidos de fusão dos retrovírus, contudo não é possível inferir informação para outros vírus devido às diferenças ao nível sequencial. Tendo em conta todos estes factos, machine learning pode ser uma boa ferramenta para revelar padrões que estejam mais impercetíveis à primeira vista que caracterizem péptidos de fusão. Para criar modelos capazes de distinguir claramente um péptido de fusão de uma outra sequência, recorrendo aos aminoácidos presentes na sua sequência, é necessário usar informação que esteja bem anotada e revista. Atualmente, a informação relativa a estes péptidos encontra-se dispersa por várias bases de dados, não existindo assim nenhum local onde a informação esteja centralizada e completa. No âmbito desta dissertação fez-se uma pesquisa exaustiva sobre péptidos de fusão, resultando em 468 sequências para 207 vírus de um universo de 255 vírus, usando com confiança 111 dessas sequências para efeitos de machine learning. Neste trabalho foram treinados oito modelos de machine learning diferentes, e testados usando 5-fold cross-validation, em diferentes datasets de forma a identificar e classificar péptidos de fusão. Para comprovar a utilidade dos modelos, este foram usados em três datasets diferentes compostos por sequências retiradas da UniProt e do NCBI. O conjunto de modelos final obteve uma percentagem de exemplos corretamente classificados e recall a rondar os 90 %. Estes resultados são promissores na medida em que prevêem corretamente a região mais provável do péptido de fusão, dentro de uma sequência de uma proteína de fusão, resultados que podem ser deveras proveitosos para investigadores desta área científica.
TipoDissertação de mestrado
DescriçãoDissertação de mestrado em Bioinformatics
URIhttps://hdl.handle.net/1822/66156
AcessoAcesso aberto
Aparece nas coleções:BUM - Dissertações de Mestrado
CEB - Dissertações de Mestrado / MSc Dissertations

Ficheiros deste registo:
Ficheiro Descrição TamanhoFormato 
Sara-Catarina-Monteiro-Pereira-dissertacao.pdf1,3 MBAdobe PDFVer/Abrir

Partilhe no FacebookPartilhe no TwitterPartilhe no DeliciousPartilhe no LinkedInPartilhe no DiggAdicionar ao Google BookmarksPartilhe no MySpacePartilhe no Orkut
Exporte no formato BibTex mendeley Exporte no formato Endnote Adicione ao seu ORCID