Utilize este identificador para referenciar este registo:
https://hdl.handle.net/1822/87218
Título: | Mining metagenomics datasets for novel plastic-degrading enzymes |
Autor(es): | Freitas, José Pedro Silva |
Orientador(es): | Rocha, Miguel Salvador, Andreia Filipa Ferreira |
Palavras-chave: | Biodegradação de plásticos Ferramenta bioinformática Mineração de dados ómicos Construção de Hidden Markov Models Plastic biodegradation Bioinformatics tool Omics data mining Hidden Markov Models construction |
Data: | 29-Nov-2022 |
Resumo(s): | A crescente quantidade de dados depositados em bases de dados públicas sem
anotação pode ocultar uma série de genes e proteínas cuja função ainda é
desconhecida. Com base no conhecimento de algumas enzimas capazes de
catalisar reações com interesse ambiental ou biotecnológico, será possível
encontrar em bases de dados de proteínas ou em conjuntos de dados ómicos,
outras com atividade semelhante, que eventualmente poderão ser mais
eficientes. No entanto, não existem ferramentas bioinformáticas projetadas para
encontrar proteínas de interesse em grandes conjuntos de dados.
Neste trabalho, uma ferramenta de bioinformática foi desenvolvida e
denominada Mining Protein dAtasets foR Targeted enzYmes (M-PARTY) para
minerar enzimas alvo em grandes conjuntos de dados. M-PARTY recebe um
ficheiro FASTA contendo as enzimas alvo e automaticamente produz bases de
dados de Hidden Markov Model, valida e filtra os modelos não validados. M PARTY procura sequências homólogas em determinados conjuntos de dados e
identifica as proteínas mais semelhantes, que apresentam potencialmente as
mesmas atividades das enzimas alvo. A M-PARTY é uma Interface de Linha de
Comando de uso gratuito, corre no sistema operacional Linux com apenas um
comando, é de código aberto e foi desenvolvida em Python.
Esta ferramenta foi testada para encontrar enzimas envolvidas na
biodegradação do polietileno em metagenomas hidrotermais e marinhos. A
partir de 5 sequências proteicas iniciais, 329 HMMs foram gerados pelo M PARTY e 103 foram descartados após a etapa de validação. Um total de 19
proteínas apresentaram homologia significativa com as 5 enzimas alvo, sendo
enzimas potencialmente degradadoras de polietileno.
Esta ferramenta será muito útil para realizar uma primeira triagem de enzimas
de interesse em diferentes ambientes, antecedendo uma posterior confirmação
da atividade enzimática e eventual implementação. There is an increasing amount of data deposited in public databases that is poorly annotated and may hide a number of genes and proteins whose function is yet unknown. By knowing some enzymes that are capable to catalyze reactions with environmental or biotechnological interest, it would be possible to find other enzymes in databases or in omics datasets with similar activity, and which could be even more efficient. However, there are no bioinformatics tools designed to find proteins of interest in large datasets, such as those from metagenomics experiments. In this work, a bioinformatics tool was developed, named Mining Protein dAtasets foR Target enzYmes (M-PARTY), for mining target enzymes in big datasets. M-PARTY receives a FASTA file containing the target enzymes, and automatically produces Hidden Markov Model databases, validating, and filtering the non-validated models. M-PARTY searches for homolog sequences in given datasets and identifies the most similar proteins, which present potentially the same activities of the target enzymes. M-PARTY is a free-to-use Command Line Interface, runs on Linux operating system with only a command, is open source, and was developed in Python. This tool was tested to find enzymes involved in polyethylene biodegradation in hydrothermal and marine metagenomes. From 5 initial protein sequences, 329 HMMs were generated by M-PARTY, and 103 were discarded after the validation step. A total of 19 proteins showed significant homology to the 5 target enzymes, being potentially polyethylene-degrading enzymes. This tool will be especially useful for performing a first screening of enzymes of interest in different environments, preceding further enzymatic activity confirmation and eventual implementation on biotechnological processes. |
Tipo: | Dissertação de mestrado |
Descrição: | Dissertação de mestrado em Bioinformática |
URI: | https://hdl.handle.net/1822/87218 |
Acesso: | Acesso aberto |
Aparece nas coleções: | BUM - Dissertações de Mestrado |
Ficheiros deste registo:
Ficheiro | Descrição | Tamanho | Formato | |
---|---|---|---|---|
Jose Pedro Silva Freitas.pdf | Dissertação de Mestrado | 1,35 MB | Adobe PDF | Ver/Abrir |
Este trabalho está licenciado sob uma Licença Creative Commons