Utilize este identificador para referenciar este registo:
https://hdl.handle.net/1822/80865
Título: | Análise através da curva ROC: que ferramentas utilizar? |
Autor(es): | Quintas, José Pedro dos Santos |
Orientador(es): | Braga, A. C. |
Palavras-chave: | ROC curves Statistic Software R Shiny Package Checklist Curvas ROC Estatística Software |
Data: | 11-Mai-2020 |
Resumo(s): | ROC (Receiver Operating Characteristic) curve is a statistic tool that allows the evaluation
of the accuracy of a classification system. These curves are drawn on a two-dimensional
graph, with the ordinate representing the true positive fraction or sensitivity and the abscissa
representing the false positive fraction or 1-specificity. The index that evaluates the accuracy
of these graphs is represented by the area under the curve (AUC) where the larger that area
is the bigger the test performance is.
Its first appearance dates to the year of 1950. Nevertheless, computationally , the first
software only appeared around 1993 and since then several tools have been made available
for its analysis. Regarding the theoretical part of the subject, there is a vast bibliography
existing which introduces all the necessary concepts to analyze a ROC curve visually
and statistically. However, only a few of those documents discuss the evaluation and the
comparison of software that attain these same curves, consisting of old works in which
the vast majority corresponds to software that when compared to the current scenario are
outdated or fell out of use.
The R software environment with a programming language mainly for statistical use is
currently one of the best tools to perform the ROC analysis. The variety of packages in this
work environment make it an interesting study product, which allows us to take advantage
of the different features in different the packages or enjoy the same features but by different
means and formats. Like R there are several tools that can perform this same analysis, as is
the case of STATA software, which receives regular updates that have been improving this
tool recurrently. With the versatility of allowing us to work from a command line or through
menus predefined by the software itself, it makes it a very accessible and convenient tool to
explore.
The R language is also related to the package called shiny, which can create browser
applications through its own commands, making it possible to transpose the different
commands of packages R into a single application. Due to the wide variety of ROC packages
in R, it is interesting to link them to shiny. Therefore, a library in the application format was
designed to group the different packages on the same browser page. The result of this is
ROSY application available on https://pquintasbcl.shinyapps.io/ROSY/.
Due to the increasing use of ROC analysis in different systems, it is essential to explore
the best computational methods to process it in a correct way. Therefore, in this work the
research and selection of different software/tools to perform this type of analysis is done,
based on the different existing bibliographic documents in order to compare them and create a checklist, which will allow us to visualize the fundamental characteristics present in each
software analyzed. A curva ROC (Receiver Operating Characteristic) é uma ferramenta estatística que permite avaliar o desempenho de um sistema de classificação. Estas curvas são representadas num gráfico bidimensional, com a ordenada a representar a fração de verdadeiro positivos ou sensibilidade e a abcissa a representar a fração de falsos positivos ou 1-especificidade. O índice que avalia a medida de exatidão destes gráficos é a área abaixo da curva (AUC) e quanto maior for a área maior é o desempenho do sistema em causa. A sua primeira aparição remete para o ano de 1950, contudo, computacionalmente o primeiro software terá surgido por volta de 1993 e, desde então, que têm sido disponibilizadas diversas ferramentas para a sua análise. Relativamente à parte teórica do tema abordado, é disponibilizada uma vasta bibliografia capaz de introduzir todos os conceitos necessários para se conseguir analisar visualmente e estatisticamente uma curva ROC. Contudo, há poucos registos relativos à avaliação e comparação de software que produzem estas mesmas curvas, sendo trabalhos demasiado antigos, ou seja, na sua grande maioria foi utilizado software que comparativamente ao cenário real está desatualizado ou caiu em desuso. O R é um ambiente de trabalho com uma linguagem de programação destinada essen cialmente à estatística, sendo por isso atualmente, uma das melhores fontes para realizar análise ROC. A variedade de packages existentes neste ambiente de trabalho torna-o num interessante produto de estudo, sendo possível tirar partido de diferentes funcionalidades em diferentes packages ou então usufruir das mesmas funcionalidades mas por meios e formatos distintos. Em paralelo com o R existem diversas ferramentas capazes de realizar esta mesma análise, como é o caso do software STATA, que sofre recorrentemente atualizações que têm aprimorado esta ferramenta. Com a versatilidade de se poder trabalhar através de uma linha de comandos ou através de menus pré-definidos pelo próprio software torna-o bastante acessível e prático de explorar. O ambiente de trabalho R está ainda relacionado com um package denominado shiny, que possui a capacidade de criar aplicações browser através de comandos próprios, sendo assim possível transpor os diferentes comandos de packages R numa aplicação. Devido à grande variedade de packages ROC existentes neste ambiente de trabalho, torna-se interessante criar uma ligação dos mesmos com o shiny. Sendo por isso, idealizada uma library no formato de aplicação para agrupar os diferentes packages numa mesma página web. O resultado é a aplicação ROSY disponível em https://pquintasbcl.shinyapps.io/ROSY/. Devido à crescente utilização deste tipo de análise nos diferentes sistemas, torna-se fundamental explorar os melhores métodos computacionais para processar uma correta análise ROC, pelo que, neste trabalho é efetuada a pesquisa e seleção de diferentes soft ware/ferramentas capazes de realizar este tipo de análise, tendo como base os diferentes registos bibliográficos já existentes e posteriormente a sua comparação e criação de uma checklist, que permitirá visualizar as características fundamentais presentes em cada software analisado. |
Tipo: | Dissertação de mestrado |
Descrição: | Dissertação de mestrado em Bioinformática |
URI: | https://hdl.handle.net/1822/80865 |
Acesso: | Acesso aberto |
Aparece nas coleções: | BUM - Dissertações de Mestrado DI - Dissertações de Mestrado |
Ficheiros deste registo:
Ficheiro | Descrição | Tamanho | Formato | |
---|---|---|---|---|
Jose Pedro dos Santos Quintas.pdf | 2,51 MB | Adobe PDF | Ver/Abrir |
Este trabalho está licenciado sob uma Licença Creative Commons