Please use this identifier to cite or link to this item:
https://hdl.handle.net/1822/79910
Title: | Identification and classification of transporter proteins using deep learning models |
Author(s): | Silva, Andrea Ferreira Meireles |
Advisor(s): | Rocha, Miguel Dias, Oscar |
Keywords: | Deep Learning Machine Learning Modelos Proteínas transportadoras Models Transport proteins |
Issue date: | 28-Nov-2019 |
Abstract(s): | Nos últimos anos a identificação e sequenciação de proteínas transportadoras tem crescido, uma
vez que estas são de extrema importância no corpo humano e em todos os seres vivos, sendo
responsáveis pela absorção e movimentação de moléculas essenciais às células e ainda pela excreção
de produtos do metabolismo celular. A identificação de genes que codificam proteínas transportadoras é
muito importante em várias áreas, como farmacocinética e reconstrução de modelos metabólicos em
escala genómica que permitem perceber a relação entre genótipos-fenótipos.
De forma a tentar diferenciar proteínas transportadoras de não transportadoras duas abordagens
foram realizadas, treinando e testando modelos de machine learning e de deep learning. Os dados
utilizados provêm da base de dados TCDB, que contém proteínas transportadoras, e da base de dados
Swiss-Prot, onde as proteínas foram filtradas para serem obtidas proteínas não transportadoras, obtendo
no final um conjunto de dados equilibrado. De seguida, através desses dados foram obtidas
características das proteínas através das suas sequências, sendo assim utilizado para treinar diferentes
modelos de machine learning e deep neural networks. Nesta abordagem os modelos apresentaram um
bom desempenho global, atingindo 89% de acerto na identificação de proteínas transportadoras. Todos
os modelos treinados apresentam um elevado número de falsos negativos em comparação com o
número de falsos positivos, indicando que a maior falha nos modelos prende-se na identificação de
proteínas transportadoras como não transportadoras.
O principal objetivo deste projeto prendia-se com a utilização de métodos de deep learning para
identificar proteínas transportadoras, apenas utilizando as suas sequências de aminoácidos como
entrada, comparando assim as duas abordagens realizadas. Desta forma, utilizando apenas as
sequencias das proteínas, diferentes redes neuronais foram treinadas e testadas, desde redes neuronais
recorrentes a convolucionais, obtendo um desempenho global muito semelhante ao da abordagem
anterior, atingindo também um valor de 89% de acerto na identificação de proteínas transportadoras.
Assim, foram alcançados modelos de desempenho preditivo semelhante sem a necessidade de calcular
características. In the last years, the identification and sequencing of transport proteins has grown, once they are extremely important in the human body and in all living beings, being responsible for the absorption and movement of molecules essential to cells and also for the excretion of cellular metabolism products. Identification of genes that encode transport proteins is very important in areas,such as pharmacokinetics and genome-scale metabolic models reconstruction, which allow us to understand the relationship between genotypes and phenotypes. In order to try to differentiate transport proteins from non-transport ones, two approaches were taken, training and testing machine learning and deep learning models. The data used came from the TCDB database, which contains transport proteins, and from the Swiss-Prot database, where the proteins were filtered to obtain non-transport proteins, obtaining at the end a balanced dataset. Next, using this dataset, features were created from the protein sequences and used to train different machine learning models and deep neural networks. In this approach the models presented a good overall performance, reaching 89% accuracy in the identification of transport proteins. All trained models have a high number of false negatives compared to the number of false positives, indicating that the major failure in the models is the identification of transport proteins as non-transport proteins. The main objective of this project was to use deep learning methods to identify transport proteins, only using their aminoacid sequences as inputs, thus comparing the two approaches. Thus, using only the protein sequences, different neural networks were trained and tested, from recurrent to convolutional neural networks, obtaining an overall performance very similar to that of the previous approach, reaching once more 89% accuracy in the identification of transport proteins. Thus, we have attained models of similar predictive performance without the need to compute features. |
Type: | Master thesis |
Description: | Dissertação de mestrado em Bioinformatics |
URI: | https://hdl.handle.net/1822/79910 |
Access: | Open access |
Appears in Collections: | BUM - Dissertações de Mestrado DI - Dissertações de Mestrado |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
Andrea Ferreira Meireles Silva.pdf | Dissertação de mestrado | 842,18 kB | Adobe PDF | View/Open |
This item is licensed under a Creative Commons License