Please use this identifier to cite or link to this item:
https://hdl.handle.net/1822/80868
Title: | Development of algorithms for the analysis and data mining of chemical compound prices |
Author(s): | Faria, Sofia Maria Alves |
Advisor(s): | Rocha, Miguel Vilaça, Paulo Ricardo Carvalho |
Keywords: | Biotechnology Chemical compounds Time series Algorithms Preprocessing Biotecnologia Compostos químicos Series temporais Algoritmos Pré- processamento |
Issue date: | 25-May-2020 |
Abstract(s): | Nowadays, the products deriving from the biotechnology industry have become quite valu able in the world market. Hence, it is highly advantageous to find out how the prices
of the different chemical compounds needed for biotechnological processes behave in the
bioeconomy. The SISBI project was developed to allow the retrieval and collection of different
prices associated with certain chemical compounds through different available sources and
databases. With access to this information, some behaviours and patterns can be detected
in the price variations, indicating other relevant knowledge, such as the biotechnological
interest of this compound in the field. However, it is necessary to take into account that
SISBI data, although relevant, have inconsistencies that do not support an efficient analysis
of these data, which is the case for the existence of duplicates, different units and problems
in the price integration. As a result, this study developed algorithms to identify and solve
these problems and to analyze the prices of compounds through time series. To effectively
evaluate these data, a new database, bioanalysis, was built based on the data from the SISBI
project. Then, several preprocessing methods were applied, including the elimination of
duplicates, conversion of units, removal of defective and inconsistent prices, which led to
the solution of the various complications encountered. Consequently, once the data was
prepared for analysis, the prices pertaining to two specific metabolites, 4-aminopyridine and
methane, were examined. Thus, different price variations over time were compared between
different configurations (quantity + unit) of the same metabolite and between different
metabolites. These variations were divided by the different price providers to identify any
specific relationship or pattern depending on where the data originate. However, in this
study, no particularly cheap provider was detected between 4-aminopyridine configurations
or between the two metabolites. The only association found occurred only between certain
methane configurations. In addition, the price variations analyzed are mostly constant, and
when they are not, they do not show any pattern or seasonality. These results revealed that,
using only the prices available to date, no correlation was determined by identifying the
providers associated with low prices when comparing different metabolites or configurations. Atualmente, os produtos resultantes da indústria biotecnológica têm-se tornado bastante importantes no mercado mundial. Desta forma, é altamente vantajoso descobrir como se comportam os preços dos diferentes compostos químicos necessários para os processos biotecnológicos na bioeconomia. O projeto SISBI foi desenvolvido de modo a permitir a recolha e coleção de diferentes preços associados a determinados compostos químicos através de diversas fontes e bases de dados disponíveis. Com o acesso a esta informação, alguns comportamentos e padrões podem ser detetados na variação dos preços, indicando outras informações relevantes como o interesse biotecnológico desse composto na área. No entanto, é necessário ter em conta que os dados da SISBI, embora relevantes, apresentam inconsistências que não permitem analisar de forma eficaz estes dados, como é o caso da existência de duplicados, diferentes unidades e problemas na integração dos preços. Por esta razão, este estudo comprometeu-se a desenvolver algoritmos para identificar e resolver estes problemas, e para analisar os preços dos compostos através de séries temporais. De modo a avaliar eficazmente estes dados, uma nova base de dados, bioanalysis, foi construída com base nos dados do projeto SISBI. De seguida, diversos métodos de pré-processamento foram realizados, incluindo a eliminação de duplicados, conversão de unidades, remoção de preços defeituosos e não consistentes, que levaram à resolução das várias complicações encontradas. Por consequência, uma vez os dados prontos para a análise, os preços pertencentes a dois metabolitos específicos, 4-aminopiridina e metano, foram examinados. Assim, diferentes variações de preços ao longo do tempo foram comparadas entre diferentes configurações (quantidade + unidade) do mesmo metabolito e entre diferentes metabolitos. Estas variações foram agrupadas pelas diferentes fontes de preços de modo a identificar alguma relação ou padrão específico dependente ao local de onde os dados provenieram. Contudo, neste estudo, não se detetou nenhuma fonte em particular consistentemente barata entre configurações do 4-aminopiridina ou entre os dois metabolitos. A única associação descoberta ocorreu apenas entre determinadas configurações do metano. Para além disso, as variações dos preços analisados são maioritariamente constantes, e quando não são, não demonstram nenhuma tendência ou sazonalidade. Estes resultados revelaram que, utilizando apenas os preços disponíveis até à data, nenhuma correlação foi determinada ao identificar as fontes associadas a preços baixos quando comparando diferentes metabolitos ou configurações. |
Type: | Master thesis |
Description: | Dissertação de mestrado em Bioinformática |
URI: | https://hdl.handle.net/1822/80868 |
Access: | Open access |
Appears in Collections: | BUM - Dissertações de Mestrado DI - Dissertações de Mestrado |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
Sofia Maria Alves Faria.pdf | 4,51 MB | Adobe PDF | View/Open |
This item is licensed under a Creative Commons License