Please use this identifier to cite or link to this item: http://hdl.handle.net/1822/58341

TitleMining social media sentiment to forecast stock market behavior
Other titlesAnálise automática do sentimento de redes sociais para a previsão do comportamento dos mercados financeiros
Author(s)Oliveira, Nuno Miguel da Rocha
Advisor(s)Cortez, Paulo
Areal, Nelson
Issue dateSep-2017
Abstract(s)This thesis proposes a novel and fast procedure for creating stock market lexicons based on statistical measures applied over a vast set of labeled messages from a stock market microblog (StockTwits). Using StockTwits, we show that the new lexicons are competitive for measuring investor sentiment when compared with six popular lexicons. This thesis also presents a robust methodology to assess the value of microblogging data to forecast stock market variables: returns, volatility and trading volume of diverse indices and portfolios. The methodology uses sentiment and attention indicators extracted from microblogs. Such indicators were obtained using a large Twitter data set and the proposed financial microblog lexicon. The methodology also includes the usage of survey indices, several forms to aggregate sentiment indicators, a Kalman Filter to merge microblog and survey sources, a realistic rolling windows evaluation, several Machine Learning methods and the Diebold-Mariano test to validate if the sentiment and attention based predictions are valuable when compared with an autoregressive baseline. Experimental results show that Twitter sentiment and posting volume were relevant for forecasting the returns of the S&P 500 index, portfolios of lower market capitalization and some industries. Additionally, Kalman Filter sentiment was informative for the forecasting of returns. Moreover, Twitter and Kalman Filter sentiment indicators were useful for the prediction of some survey sentiment indicators. These results confirm the utility of microblogging data for financial decision support systems, allowing the prediction of stock market behavior and providing a valuable alternative for existing survey measures with advantages (e.g., fast and cheap creation, daily frequency).
Esta tese propõe um novo e rápido procedimento para criar recursos léxicos para mercados financeiros baseado em medidas estatísticas aplicadas num vasto conjunto de mensagens classificadas de um microblog para mercados financeiros (StockTwits). Utilizando StockTwits, demonstrou-se que os novos recursos léxicos são competitivos quando comparados com seis léxicos populares. Esta tese apresenta ainda uma metodologia robusta para avaliar o valor de dados de microblogging para prever variáveis de mercados financeiros: rendibilidades, volatilidade e volume de transação de diversos índices e portefólios. A metodologia usa indicadores de sentimento e atenção extraídos de microblogs. Estes indicadores foram obtidos aplicando dados do Twitter e o recurso léxico financeiro proposto. A metodologia também inclui o uso de índices de surveys, várias formas de agregar os indicadores de sentimento, Kalman Filter para combinar dados de microblogs e surveys, uma avaliação realista de janelas deslizantes, diversos métodos de Machine Learning e o teste Diebold-Mariano para validar as previsões em comparação com um modelo auto-regressivo. Os resultados experimentais mostram que o sentimento e o numero de mensagens do Twitter são relevantes para a previsão das rendibilidades do index S&P 500, portefólios de menor capitalização e algumas industrias. Adicionalmente, o sentimento extraído pelo Kalman Filter foi informativo para a previsão de rendibilidades. Além disso, os indicadores de sentimento do Twitter e do Kalman Filter foram uteis para prever alguns valores de sentimento de surveys. Estes resultados confirmam a utilidade dos dados de microblogging para sistemas financeiros de apoio à decisão, permitindo prever o comportamento dos mercados financeiros e fornecendo uma alternativa para medidas de survey existentes com vantagens adicionais (e.g., criação rápida e económica).
TypeDoctoral thesis
DescriptionTese de Doutoramento (Tecnologias e Sistemas de Informação)
URIhttp://hdl.handle.net/1822/58341
AccessOpen access
Appears in Collections:BUM - Teses de Doutoramento
DSI - Engenharia e Gestão de Sistemas de Informação

Files in This Item:
File Description SizeFormat 
Thesis_Nuno Miguel da Rocha Oliveira_2017.pdf1,01 MBAdobe PDFView/Open

Partilhe no FacebookPartilhe no TwitterPartilhe no DeliciousPartilhe no LinkedInPartilhe no DiggAdicionar ao Google BookmarksPartilhe no MySpacePartilhe no Orkut
Exporte no formato BibTex mendeley Exporte no formato Endnote Adicione ao seu ORCID