Utilize este identificador para referenciar este registo:
https://hdl.handle.net/1822/84090
Título: | Dotlet Reborn: diagonal dot plots in a web browser |
Autor(es): | Afonso, Gil da Lomba |
Orientador(es): | Johansson, Björn |
Palavras-chave: | Gráfico de pontos diagonais Dotlet Matriz de scores Diagonal plot Scoring matrices |
Data: | 22-Dez-2021 |
Resumo(s): | O método de gráfico de pontos diagonais é usado para comparar sequências de aminoácidos em
diferentes proteínas, de modo a relacionar as similaridades entre ambas as sequências, e também para
apresentar uma classificação das proteínas baseada nessas similaridades. É também usada para detetar
repetições nas sequências de aminoácidos de múltiplas proteínas, e para detetar regiões de ligações
existentes de bases nas sequências de nucleótidos de um ácido nucleico.
Existe um vasto número de tipos de matrizes de score usadas para comparar pares de sequências.
Na comparação entre as sequências, a matriz de score apresenta um valor para as igualdades, para as
diferenças, e para as substituições, influenciando assim o alinhamento da sequência de DNA ou proteína.
O score e a análise dos resultados dependem do tipo de matriz de score aplicada. O tipo de matrizes
que usamos na plataforma (dotlet) são a PAM, BLOSUM e Gonnet, em que a última apenas é utilizada
na primeira versão da aplicação dotlet.
A aplicação dotlet foi inicialmente desenvolvida em 1998 e em Java, tendo como programadores
Marco Pagni e Thomas Junier, ambos do Instituto Suíço de Bioinformática. A aplicação foi desenvolvida
devido à falta de aplicações que usem o método das matrizes de score, sejam possíveis de utilizar em
qualquer sistema operativo, e também devido à necessidade da existência de uma aplicação com estas
ferramentas para as aulas práticas de bioinformática no Instituto de Bioquímica. Esta aula prática iria ser
baseada na World Wide Web (www), pelo que a existência de um programa que funcionasse num browser
era crucial. Devido a estes requisitos e também de modo a criar uma versão melhorada de outras
aplicações já existentes que aplicassem o método dos gráficos de pontos diagonais, o dotlet foi
desenvolvido. A distribuição da primeira versão do dotlet pode ser encontrada no sítio
https://github.com/sib-swiss/dotlet.
Apesar de ter estado disponível por uma larga extensão de tempo, os browsers acabaram por deixar
de suportar Java, o que levou a que a versão original do dotlet deixasse de ser possível de ser utilizada
na web. Desta forma, uma nova versão do dotlet foi desenvolvida por Julien Delafontaine com tecnologias
atualizadas. Esta versão contém algumas das ferramentas que a versão original oferecia ao utilizador,
sendo ao mesmo tempo uma versão aprimorada em termos de usabilidade por parte do utilizador,
levando a um melhor desempenho comparando à versão anterior. Este projeto pode ser encontrado no
sítio https://github.com/sib-swiss/react-dotlet.
Apesar da nova versão do dotlet ser uma melhoria da versão anterior, existem algumas ferramentas
que ainda não estão implementadas. Estas ferramentas são a possibilidade de o utilizador guardar
sequências identificadas por um nome escolhido pelo mesmo utilizador, e posteriormente a possibilidade de selecionar uma das sequências guardadas para o alinhamento de sequências. Outra funcionalidade
imperativa é a existência de uma aplicação de desktop, para assim abranger mais elementos da
comunidade científica e também para ser possível de ser utilizada quando o acesso à internet não é
possível. Outra funcionalidade desenvolvida foi a capacidade de, ao ser feito o copy-paste de um sítio da
base de dados da UniProt (por exemplo, https://www.uniprot.org/uniprot/E5G0U9.fasta), que contenha
um ficheiro fasta, a sequência é retirada deste ficheiro e aplicada no alinhamento de sequências. O
código desta dissertação está disponível em https://github.com/gilafonso/react-dotlet. The diagonal plot method is used to compare sequences of amino acids in different proteins, to estimate the similarities between both sequences, and to present a classification of the proteins based on those similarities. It is also used to detect repetitions in the compared amino acid sequences of multiple proteins, and to detect regions of existing base-pairing in the nucleotide sequence of a nucleic acid. There are multiple types of scoring matrices used to compare a pair of sequences. The scoring matrix provides a score for matches, mismatches, and substitutions, influencing the DNA or protein sequence alignment. The score and analysis outcome differs from each type of scoring matrix. The type of scoring matrices we use in the dotlet platform are the PAM, BLOSUM and Gonnet, the latter being only used in the first dotlet version. Dotlet, first developed in Java, in 1998, was written by Marco Pagni and Thomas Junier from the Swiss Institute of Bioinformatics (SIB). It was developed since there was a lack of cross-platform applications that applied the diagonal plot tool, and also due to a need of having such a platform for practical lessons in bioinformatics at the Institute of Biochemistry. The practical lesson was going to be based on the World Wide Web (www), so there was a need to have a program that would run in a web browser. Due to this need and also to create an improved application of the previous existing applications that applied the diagonal plot method, dotlet was developed. The distribution of the first dotlet version can be found in https://github.com/sib-swiss/dotlet. Even though it was available for many years, browsers eventually stopped supporting Java, leading the original dotlet version to become obsolete. Therefore, a new version of dotlet, developed by Julien Delafontaine was created with updated technology. This version contains multiple features that the original dotlet version offered to the user, while having an improved user interface leading to an overall platform enhancement compared to the previous one. This project can be found in https://github.com/sib swiss/react-dotlet. Despite the newer dotlet version being an improvement of its previous version, there were still some features missing. These features were the capability of the user to save sequences which can later be selected for the sequence alignment and identified with a name the user creates for it. Another feature was the offline version of the application, a crucial feature that embraces more users and can be used whenever one does not have internet access. A feature that was also implemented in the application was the capability of the user to paste an URL from the UniProt database, containing the sequence within a fasta file (e.g., https://www.uniprot.org/uniprot/E5G0U9.fasta), which then is accessed and the sequence is gathered and presented in the alignment. The codebase of this dissertation is available in https://github.com/gilafonso/react-dotlet. |
Tipo: | Dissertação de mestrado |
Descrição: | Dissertação de mestrado em Bioinformatics |
URI: | https://hdl.handle.net/1822/84090 |
Acesso: | Acesso aberto |
Aparece nas coleções: | BUM - Dissertações de Mestrado DBio - Dissertações de Mestrado/Master Theses |
Ficheiros deste registo:
Ficheiro | Descrição | Tamanho | Formato | |
---|---|---|---|---|
Gil da Lomba Afonso.pdf | 5,26 MB | Adobe PDF | Ver/Abrir |
Este trabalho está licenciado sob uma Licença Creative Commons