Towards autonomic workload aware NoSQL databases

Utilize este identificador para referenciar este registo: https://hdl.handle.net/1822/44984

Título:	Towards autonomic workload aware NoSQL databases
Outro(s) título(s):	Rumo a bases de dados NoSQL autonomamente adaptáveis a distribuição dos pedidos
Autor(es):	Cruz, Francisco Miguel Carvalho Barros
Orientador(es):	Oliveira, Rui Carlos Mendes de
Data:	28-Nov-2016
Resumo(s):	In order to attain the promises of the Cloud Computing paradigm, systems need to be able to transparently adapt to environment changes. NoSQL databases, which are becoming pivotal systems in nowadays cloud infrastructures, exhibit the highly desirable scalability and availability properties. Scalability achieved by these databases is anchored on data independence; there is no clear relationship between data, and atomic inter-node operations are not a concern. Such assumption over data allows a paradigm shift on how to achieve the best performance. Unfortunately, current solutions put the burden on the application's developer to handle and master the speci cities of each system that is hindering a broader adoption. In this dissertation, we tackle the several shortcomings in current implementations of cloud-based NoSQL databases at three di erent levels. First, we present a cloud-enabled framework for the automatic and heterogeneous recon guration of NoSQL databases. This framework enables NoSQL databases to become autonomously elastic while providing a new load balancing component that takes into account data access patterns. Secondly, we propose a novel mechanism to partition data that takes into account the system workload. It estimates, in an autonomous way, a splitting point that leads to optimal load balancing in terms of requests. Finally, we develop a mechanism to accurately predict the resource usage of NoSQL databases resorting to an o ine trained model. Then, it can accurately estimate in real time the database resource usage for any request distribution only by knowing two parameters: i) cache hit ratio; and ii) incoming throughput. Both input values can be observed in real time or synthesized for request allocation decisions, furthermore it is su ciently simple and generic so it can be used with several databases. De modo a alcançar as promessas do paradigma da computação na nuvem, os sistemas têm de ser capazes de adaptar-se às mudanças de uma forma transparente. Os bancos de dados NoSQL que estão-se a tornar sistemas cruciais nas infraestruturas da nuvem, possuem as propriedades de escalabilidade e elevada disponibilidade. A escalabilidade está assente na independência de dados; pois não existe uma relação clara entre os mesmos, e operações atómicas que envolvam mais que um nó não são uma preocupação. Tal pressuposto permite uma mudança de paradigma na forma de alcançar o melhor desempenho. Infelizmente, as soluções atuais requerem responsabilidades adicionais a quem desenvolve as aplicações, nomeadamente a necessidade de manipular e dominar as especificidades de cada sistema. Esta situação esta a dificultar a adoção do paradigma. Nesta dissertação, abordamos v arias lacunas das atuais implementações de bases de dados NoSQL a três diferentes níveis. Primeiramente, apresentamos um sistema que permite a reconfiguração automática e heterogénea de bases de dados NoSQL, que permite ainda que essas mesmas bases de dados se tornem autonomamente elásticas e simultaneamente balancear a carga tendo em conta os padrões de acesso. Em segundo lugar, propomos um novo mecanismo de particionamento de dados que tem em conta o estado atual do sistema, ao estimar de forma autónoma qual o ponto ideal de divisão baseado nos pedidos. Finalmente, desenvolvemos um mecanismo para prever com precisão o uso de recursos pelas bases de dados NoSQL com base num modelo construído em modo online. Esse modelo permite estimar com elevada precisão e em tempo real o uso de recursos da base de dados para qualquer distribuição somente conhecendo dois parâmetros: i) a taxa de acessos com sucesso da cache e ii) o desempenho. Ambos os valores podem ser observados em tempo real, ou sintetizados para decisões de alocação, para al em disso, o mecanismo é suficientemente simples e genérico podendo ser utilizado em v arias bases de dados.
Tipo:	Tese de doutoramento
Descrição:	The MAP-i Doctoral Programme in Informatics, of the Universities of Minho, Aveiro and Porto
URI:	https://hdl.handle.net/1822/44984
Acesso:	Acesso aberto
Aparece nas coleções:	BUM - Teses de Doutoramento DI/CCTC - Teses de Doutoramento (phd thesis)

Ficheiros deste registo:

Ficheiro	Descrição	Tamanho	Formato
Francisco Miguel Carvalho Barros da Cruz.pdf		3,77 MB	Adobe PDF	Ver/Abrir

Ver registo completo Sugerir correção Estatísticas