Dotlet Reborn: diagonal dot plots in a web browser

Utilize este identificador para referenciar este registo: https://hdl.handle.net/1822/84090

Título:	Dotlet Reborn: diagonal dot plots in a web browser
Autor(es):	Afonso, Gil da Lomba
Orientador(es):	Johansson, Björn
Palavras-chave:	Gráfico de pontos diagonais Dotlet Matriz de scores Diagonal plot Scoring matrices
Data:	22-Dez-2021
Resumo(s):	O método de gráfico de pontos diagonais é usado para comparar sequências de aminoácidos em diferentes proteínas, de modo a relacionar as similaridades entre ambas as sequências, e também para apresentar uma classificação das proteínas baseada nessas similaridades. É também usada para detetar repetições nas sequências de aminoácidos de múltiplas proteínas, e para detetar regiões de ligações existentes de bases nas sequências de nucleótidos de um ácido nucleico. Existe um vasto número de tipos de matrizes de score usadas para comparar pares de sequências. Na comparação entre as sequências, a matriz de score apresenta um valor para as igualdades, para as diferenças, e para as substituições, influenciando assim o alinhamento da sequência de DNA ou proteína. O score e a análise dos resultados dependem do tipo de matriz de score aplicada. O tipo de matrizes que usamos na plataforma (dotlet) são a PAM, BLOSUM e Gonnet, em que a última apenas é utilizada na primeira versão da aplicação dotlet. A aplicação dotlet foi inicialmente desenvolvida em 1998 e em Java, tendo como programadores Marco Pagni e Thomas Junier, ambos do Instituto Suíço de Bioinformática. A aplicação foi desenvolvida devido à falta de aplicações que usem o método das matrizes de score, sejam possíveis de utilizar em qualquer sistema operativo, e também devido à necessidade da existência de uma aplicação com estas ferramentas para as aulas práticas de bioinformática no Instituto de Bioquímica. Esta aula prática iria ser baseada na World Wide Web (www), pelo que a existência de um programa que funcionasse num browser era crucial. Devido a estes requisitos e também de modo a criar uma versão melhorada de outras aplicações já existentes que aplicassem o método dos gráficos de pontos diagonais, o dotlet foi desenvolvido. A distribuição da primeira versão do dotlet pode ser encontrada no sítio https://github.com/sib-swiss/dotlet. Apesar de ter estado disponível por uma larga extensão de tempo, os browsers acabaram por deixar de suportar Java, o que levou a que a versão original do dotlet deixasse de ser possível de ser utilizada na web. Desta forma, uma nova versão do dotlet foi desenvolvida por Julien Delafontaine com tecnologias atualizadas. Esta versão contém algumas das ferramentas que a versão original oferecia ao utilizador, sendo ao mesmo tempo uma versão aprimorada em termos de usabilidade por parte do utilizador, levando a um melhor desempenho comparando à versão anterior. Este projeto pode ser encontrado no sítio https://github.com/sib-swiss/react-dotlet. Apesar da nova versão do dotlet ser uma melhoria da versão anterior, existem algumas ferramentas que ainda não estão implementadas. Estas ferramentas são a possibilidade de o utilizador guardar sequências identificadas por um nome escolhido pelo mesmo utilizador, e posteriormente a possibilidade de selecionar uma das sequências guardadas para o alinhamento de sequências. Outra funcionalidade imperativa é a existência de uma aplicação de desktop, para assim abranger mais elementos da comunidade científica e também para ser possível de ser utilizada quando o acesso à internet não é possível. Outra funcionalidade desenvolvida foi a capacidade de, ao ser feito o copy-paste de um sítio da base de dados da UniProt (por exemplo, https://www.uniprot.org/uniprot/E5G0U9.fasta), que contenha um ficheiro fasta, a sequência é retirada deste ficheiro e aplicada no alinhamento de sequências. O código desta dissertação está disponível em https://github.com/gilafonso/react-dotlet. The diagonal plot method is used to compare sequences of amino acids in different proteins, to estimate the similarities between both sequences, and to present a classification of the proteins based on those similarities. It is also used to detect repetitions in the compared amino acid sequences of multiple proteins, and to detect regions of existing base-pairing in the nucleotide sequence of a nucleic acid. There are multiple types of scoring matrices used to compare a pair of sequences. The scoring matrix provides a score for matches, mismatches, and substitutions, influencing the DNA or protein sequence alignment. The score and analysis outcome differs from each type of scoring matrix. The type of scoring matrices we use in the dotlet platform are the PAM, BLOSUM and Gonnet, the latter being only used in the first dotlet version. Dotlet, first developed in Java, in 1998, was written by Marco Pagni and Thomas Junier from the Swiss Institute of Bioinformatics (SIB). It was developed since there was a lack of cross-platform applications that applied the diagonal plot tool, and also due to a need of having such a platform for practical lessons in bioinformatics at the Institute of Biochemistry. The practical lesson was going to be based on the World Wide Web (www), so there was a need to have a program that would run in a web browser. Due to this need and also to create an improved application of the previous existing applications that applied the diagonal plot method, dotlet was developed. The distribution of the first dotlet version can be found in https://github.com/sib-swiss/dotlet. Even though it was available for many years, browsers eventually stopped supporting Java, leading the original dotlet version to become obsolete. Therefore, a new version of dotlet, developed by Julien Delafontaine was created with updated technology. This version contains multiple features that the original dotlet version offered to the user, while having an improved user interface leading to an overall platform enhancement compared to the previous one. This project can be found in https://github.com/sib swiss/react-dotlet. Despite the newer dotlet version being an improvement of its previous version, there were still some features missing. These features were the capability of the user to save sequences which can later be selected for the sequence alignment and identified with a name the user creates for it. Another feature was the offline version of the application, a crucial feature that embraces more users and can be used whenever one does not have internet access. A feature that was also implemented in the application was the capability of the user to paste an URL from the UniProt database, containing the sequence within a fasta file (e.g., https://www.uniprot.org/uniprot/E5G0U9.fasta), which then is accessed and the sequence is gathered and presented in the alignment. The codebase of this dissertation is available in https://github.com/gilafonso/react-dotlet.
Tipo:	Dissertação de mestrado
Descrição:	Dissertação de mestrado em Bioinformatics
URI:	https://hdl.handle.net/1822/84090
Acesso:	Acesso aberto
Aparece nas coleções:	BUM - Dissertações de Mestrado DBio - Dissertações de Mestrado/Master Theses