Benchmarking deep learning for predicting telecommunications recurring problems

Utilize este identificador para referenciar este registo: https://hdl.handle.net/1822/84185

Título:	Benchmarking deep learning for predicting telecommunications recurring problems
Outro(s) título(s):	Benchmarking de deep learning na previsão de problemas recorrentes de telecomunicações
Autor(es):	Castro, Vitor José Ribeiro
Orientador(es):	Alves, Victor Pereira, Carlos Miguel Silva Couto
Palavras-chave:	Customer Telecommunications Data mining Quality of service Artificial intelligence Cliente Telecomunicações Mineração de dados Qualidade de serviço Inteligência artificial
Data:	30-Nov-2020
Resumo(s):	Nowadays, companies live in a scenario of strong competitiveness. The telecommunications market is not an exception and it is possible to offer a differentiation from competition through better service quality, differentiated support and even better value proposals. With the evolution of technologies, companies have more data about their customers and the usage profile of each one of them. With this information it is possible to establish a better relationship with the customer through a more efficient support service. The evolution of artificial intelligence and computational power, combined with existing data, al lows for several comparisons between different machine learning algorithms. In this dissertation, a prediction model capable of predicting recurrences of contacts with the customer service is pro posed. The aim is to predict whether a particular problem reported by the customer will repeat and require a new contact, so that it is possible to correct those problems in advance, making the user experience more pleasant and fluid. In order to achieve the best possible model, different classical machine learning approaches were tested, along with several deep neural network architectures. In recent years, deep neural networks have shown interesting results in several non-tabular appli cations, therefore being interesting to test them in tabular applications like the one present in this work. TabNet, developed by Google, is a deep neural network adjusted to perform the better in tabu lar datasets, and was also tested, as it has shown better performance than several neural networks or decision-tree bases algorithms. The used data were collected by various internal systems, the most important of which being the one related to customer support calls. The customer service, due to its size and complexity, has a system that monitors all calls and their motivations, as well as the parties involved (both operator and customer) and other additional data such as time spent and the call outcome. Data from other systems is related to billing, service usage and customer profile, and is added to help to understand the context of the call. The model that shown the best results was CatBoost, a decision trees based algorithm, showing an AUC_ROC of 79%, with a Recall of 61% and a Precision of 62%, allowing the identification of about 8,6% of the 3.9 million calls made to the support service as recurrences even before they occur, about 340k cases. In an ideal scenario, all these calls would be avoided, allowing a substantial cost reduction for the company, as well as a consequent increase in customer satisfaction in relation to the service. The CatBoost model showed better training times and less memory needs, while achieving a better performance than the different architectures of deep neural networks proposed. Only TabNet was able to achieve a similar performance, while maintaining a higher training time. However, in futures uses, where the CatBoost model achieves a plateau and is not benefiting for the increasing data, it could be useful to use TabNet as the model in production. TabNet has the advantage of being a neural network and, for that reason, being more capable of breaking the plateau that classical models often achieve. Atualmente, as empresas vivem num cenário de forte competitividade. O mercado das telecomunicações não é uma exceção e é possível oferecer uma diferenciação da competição através de melhor qualidade de serviço, suporte diferenciado e até melhores propostas de valor. Com a evolução das tecnologias, as empresas possuem também cada vez mais dados acerca dos seus clientes e sobre o perfil de uso de cada um deles. Com esta informação é possível estabelecer uma melhor relação com o cliente através de um suporte mais eficiente. A evolução da inteligência artificial e do poder computacional, aliada aos dados existentes, permitem fazer várias comparações entre diferentes algoritmos de machine learning. Nesta dissertação, é proposto um modelo de previsão capaz de prever reincidências de contactos com o serviço de apoio ao cliente. O objetivo é, então, prever se um determinado problema reportado pelo cliente se vai tornar reincidente e exigir um novo contacto, para que seja possível proceder à correção antecipada desses problemas, tornando a experiência de utilizador mais agradável e fluida. A fim de alcançar o melhor modelo possível, foram testadas diferentes abordagens clássicas de machine learning, juntamente com várias arquitecturas de deepneuralnetworks. Nos últimos anos, as deep neuralnetworks mostraram resultados interessantes em várias aplicações não tabulares, pelo que é interessante testá-las em aplicações tabulares como a presente neste trabalho. O TabNet, desenvolvido pela Google, é uma deepneuralnetwork ajustada para ter um melhor desempenho em conjuntos de dados tabulares, e também foi testada, uma vez que mostrou um melhor desempenho do que várias redes neuronais e algoritmos baseados em árvores de decisão. Os dados usados são recolhidos por diversos sistemas internos, sendo que os de maior importância são os dados relativos a chamadas para o apoio ao cliente. O serviço de apoio ao cliente, devido à sua dimensão e complexidade, possui um sistema que monitoriza todas as chamadas e as suas motivações, bem como os intervenientes e outros dados acessórios como tempo dispensado e soluções encontradas. Os dados provenientes de outros sistemas estão relacionados com a faturação, uso e perfil do cliente, com vista a fornecer um contexto para a situação. O modelo que obteve o melhor resultado foi o CatBoost, baseado em árvores de decisão, com um ROC_AUC de 79%, com uma Recall de 61% e uma Precision de 62%, permitindo identificar cerca de 8,6% das 3,9 milhões de chamadas feitas ao serviço de suporte como reincidências mesmo antes de elas ocorrerem, ou seja, 334 mil casos. Num cenário ideal, todas essas chamadas seriam evitadas, possibilitando uma redução de custos substancial para a empresa, bem como um consequente aumento na satisfação do cliente em relação ao serviço.O CatBoost foi também o modelo que mostrou melhores tempos de treino e menor exigência de memória, conseguindo ao mesmo tempo um melhor desempenho do que as diferentes arquitecturas de deepneuralnetworks propostas. Apenas o TabNet conseguiu um desempenho semelhante, apesar de manter um tempo de treino superior. Contudo, em utilizações futuras, onde o modelo CatBoost atinge um patamar de performance e já não beneficie com o aumento de dados, poderá ser útil utilizar o TabNet como modelo em produção. O TabNet tem a vantagem de ser uma rede neural e, por essa razão, ser mais capaz de quebrar o patamar de performance que os modelos clássicos frequentemente alcançam e não conseguem quebrar.
Tipo:	Dissertação de mestrado
Descrição:	Dissertação de mestrado integrado em Informatics Engineering
URI:	https://hdl.handle.net/1822/84185
Acesso:	Acesso aberto
Aparece nas coleções:	BUM - Dissertações de Mestrado DI - Dissertações de Mestrado