Please use this identifier to cite or link to this item:
https://hdl.handle.net/1822/84185
Title: | Benchmarking deep learning for predicting telecommunications recurring problems |
Other titles: | Benchmarking de deep learning na previsão de problemas recorrentes de telecomunicações |
Author(s): | Castro, Vitor José Ribeiro |
Advisor(s): | Alves, Victor Pereira, Carlos Miguel Silva Couto |
Keywords: | Customer Telecommunications Data mining Quality of service Artificial intelligence Cliente Telecomunicações Mineração de dados Qualidade de serviço Inteligência artificial |
Issue date: | 30-Nov-2020 |
Abstract(s): | Nowadays, companies live in a scenario of strong competitiveness. The telecommunications
market is not an exception and it is possible to offer a differentiation from competition through
better service quality, differentiated support and even better value proposals. With the evolution of
technologies, companies have more data about their customers and the usage profile of each one
of them. With this information it is possible to establish a better relationship with the customer
through a more efficient support service.
The evolution of artificial intelligence and computational power, combined with existing data, al lows for several comparisons between different machine learning algorithms. In this dissertation,
a prediction model capable of predicting recurrences of contacts with the customer service is pro posed. The aim is to predict whether a particular problem reported by the customer will repeat and
require a new contact, so that it is possible to correct those problems in advance, making the user
experience more pleasant and fluid. In order to achieve the best possible model, different classical
machine learning approaches were tested, along with several deep neural network architectures.
In recent years, deep neural networks have shown interesting results in several non-tabular appli cations, therefore being interesting to test them in tabular applications like the one present in this
work. TabNet, developed by Google, is a deep neural network adjusted to perform the better in tabu lar datasets, and was also tested, as it has shown better performance than several neural networks
or decision-tree bases algorithms.
The used data were collected by various internal systems, the most important of which being the
one related to customer support calls. The customer service, due to its size and complexity, has a
system that monitors all calls and their motivations, as well as the parties involved (both operator
and customer) and other additional data such as time spent and the call outcome. Data from other
systems is related to billing, service usage and customer profile, and is added to help to understand
the context of the call.
The model that shown the best results was CatBoost, a decision trees based algorithm, showing
an AUC_ROC of 79%, with a Recall of 61% and a Precision of 62%, allowing the identification of about
8,6% of the 3.9 million calls made to the support service as recurrences even before they occur,
about 340k cases. In an ideal scenario, all these calls would be avoided, allowing a substantial cost
reduction for the company, as well as a consequent increase in customer satisfaction in relation to
the service.
The CatBoost model showed better training times and less memory needs, while achieving a better performance than the different architectures of deep neural networks proposed. Only TabNet
was able to achieve a similar performance, while maintaining a higher training time. However, in
futures uses, where the CatBoost model achieves a plateau and is not benefiting for the increasing
data, it could be useful to use TabNet as the model in production. TabNet has the advantage of being
a neural network and, for that reason, being more capable of breaking the plateau that classical
models often achieve. Atualmente, as empresas vivem num cenário de forte competitividade. O mercado das telecomunicações não é uma exceção e é possível oferecer uma diferenciação da competição através de melhor qualidade de serviço, suporte diferenciado e até melhores propostas de valor. Com a evolução das tecnologias, as empresas possuem também cada vez mais dados acerca dos seus clientes e sobre o perfil de uso de cada um deles. Com esta informação é possível estabelecer uma melhor relação com o cliente através de um suporte mais eficiente. A evolução da inteligência artificial e do poder computacional, aliada aos dados existentes, permitem fazer várias comparações entre diferentes algoritmos de machine learning. Nesta dissertação, é proposto um modelo de previsão capaz de prever reincidências de contactos com o serviço de apoio ao cliente. O objetivo é, então, prever se um determinado problema reportado pelo cliente se vai tornar reincidente e exigir um novo contacto, para que seja possível proceder à correção antecipada desses problemas, tornando a experiência de utilizador mais agradável e fluida. A fim de alcançar o melhor modelo possível, foram testadas diferentes abordagens clássicas de machine learning, juntamente com várias arquitecturas de deepneuralnetworks. Nos últimos anos, as deep neuralnetworks mostraram resultados interessantes em várias aplicações não tabulares, pelo que é interessante testá-las em aplicações tabulares como a presente neste trabalho. O TabNet, desenvolvido pela Google, é uma deepneuralnetwork ajustada para ter um melhor desempenho em conjuntos de dados tabulares, e também foi testada, uma vez que mostrou um melhor desempenho do que várias redes neuronais e algoritmos baseados em árvores de decisão. Os dados usados são recolhidos por diversos sistemas internos, sendo que os de maior importância são os dados relativos a chamadas para o apoio ao cliente. O serviço de apoio ao cliente, devido à sua dimensão e complexidade, possui um sistema que monitoriza todas as chamadas e as suas motivações, bem como os intervenientes e outros dados acessórios como tempo dispensado e soluções encontradas. Os dados provenientes de outros sistemas estão relacionados com a faturação, uso e perfil do cliente, com vista a fornecer um contexto para a situação. O modelo que obteve o melhor resultado foi o CatBoost, baseado em árvores de decisão, com um ROC_AUC de 79%, com uma Recall de 61% e uma Precision de 62%, permitindo identificar cerca de 8,6% das 3,9 milhões de chamadas feitas ao serviço de suporte como reincidências mesmo antes de elas ocorrerem, ou seja, 334 mil casos. Num cenário ideal, todas essas chamadas seriam evitadas, possibilitando uma redução de custos substancial para a empresa, bem como um consequente aumento na satisfação do cliente em relação ao serviço.O CatBoost foi também o modelo que mostrou melhores tempos de treino e menor exigência de memória, conseguindo ao mesmo tempo um melhor desempenho do que as diferentes arquitecturas de deepneuralnetworks propostas. Apenas o TabNet conseguiu um desempenho semelhante, apesar de manter um tempo de treino superior. Contudo, em utilizações futuras, onde o modelo CatBoost atinge um patamar de performance e já não beneficie com o aumento de dados, poderá ser útil utilizar o TabNet como modelo em produção. O TabNet tem a vantagem de ser uma rede neural e, por essa razão, ser mais capaz de quebrar o patamar de performance que os modelos clássicos frequentemente alcançam e não conseguem quebrar. |
Type: | Master thesis |
Description: | Dissertação de mestrado integrado em Informatics Engineering |
URI: | https://hdl.handle.net/1822/84185 |
Access: | Open access |
Appears in Collections: | BUM - Dissertações de Mestrado DI - Dissertações de Mestrado |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
Vitor Jose Ribeiro Castro.pdf | 3,3 MB | Adobe PDF | View/Open |
This item is licensed under a Creative Commons License