Universidade Federal do Rio Grande do Norte Centro de Ciências Exatas e da Terra Departamento de Informática e Matemática Aplicada Programa de Pós-Graduação em Sistemas e Computação Mestrado Acadêmico em Sistemas e Computação Um Estudo Sobre Aprendizado de Máquina Aplicado à Modelagem de Retornos de Ações José Gilmar Alves Santos Júnior Natal - RN Setembro de 2015 José Gilmar Alves Santos Júnior Um Estudo Sobre Aprendizado de Máquina Aplicado à Modelagem de Retornos de Ações Dissertação de Mestrado apresentada ao Pro- grama de Pós-Graduação em Sistemas e Com- putação do Departamento de Informática e Matemática Aplicada da Universidade Fede- ral do Rio Grande do Norte como requisito parcial para a obtenção do grau de Mestre em Sistemas e Computação. Linha de pesquisa: Processamento Gráfico e Inteligência Compu- tacional PPgSC – Programa de Pós-Graduação em Sistemas e Computação DIMAp – Departamento de Informática e Matemática Aplicada CCET – Centro de Ciências Exatas e da Terra UFRN – Universidade Federal do Rio Grande do Norte Orientadora: Profa. Dra. Anne Magály de Paula Canuto Natal - RN Setembro de 2015 UFRN / Biblioteca Central Zila Mamede Catalogação da Publicação na Fonte Santos Júnior, José Gilmar Alves. Um estudo sobre aprendizado de máquina aplicado à modelagem de retornos de ações / José Gilmar Alves Santos Júnior. – Natal, RN, 2015. 125 f. : il. Orientadora: Profa. Dra. Anne Magály de Paula Canuto. Dissertação (Mestrado) – Universidade Federal do Rio Grande do Norte. Centro de Ciências Exatas e da Terra. Programa de Pós-Graduação em Sistemas e Computação. 1. Máquinas de vetores de suporte – Dissertação. 2. Aprendizado de máquina – Dissertação. 3. Mercado de ações – Dissertação. 4. Séries temporais financeiras – Dissertação. I. Canuto, Anne Magály de Paula. II. Universidade Federal do Rio Grande do Norte. III. Título. RN/UF/BCZM CDU 004 JOSÉ GILMAR ALVES SANTOS JÚNIOR Um Estudo Sobre Aprendizado de Máquina Aplicado à Modelagem de Retornos de Ações Esta Dissertação foi julgada adequada para a obtenção do título de Mestre em Sistemas e Computação e aprovada em sua forma final pelo Programa de Pós-Graduação em Sistemas e Computação do Departamento de Informática e Matemática Aplicada da Universidade Federal do Rio Grande do Norte. Profa. Dra. Anne Magály de Paula Canuto – UFRN (Presidente) Profa. Dra. Elizabeth Ferreira Gouvêa – UFRN (Vice-coordenadora do Programa) Banca Examinadora Prof. Dr. João Medeiros de Araújo – UFRN (Coorientador) Prof. Dr. Antônio Carlos Gay Thomé – UFRN (Examinador) Prof. Dr. Ricardo Bastos Cavalcante Prudêncio – UFPE (Examinador) À minha avó, Maria Alves Sobrinha (in memoriam), pelos valiosos ensinamentos e exemplo de bom viver. Agradecimentos Sou imensamente grato pelas muitas oportunidades que tive. Agradeço aos meus pais, José Gilmar Alves Santos e Maria Aparecida Alves Santos, por toda a dedicação, esforço, ensinamentos, valores e apoio. À minha amada esposa, Kelly Lopes de Almeida Santos, por todo o amor, apoio e dedicação. Agradeço muito à minha orientadora, Anne Magály de Paula Canuto, pela forte confiança, valiosos ensinamentos transmitidos e toda a atenção dispensada. Ao meu coorientador João Medeiros de Araújo, pela inspiração, experiência transmitida e disposição. Agradeço ao professor Aluizio Ferreira da Rocha Neto pela confiança e apoio. Aos professores Anderson Luiz Rezende Mol, Ricardo Bastos Cavalcante Prudêncio, Elizabeth Ferreira Gouvêa, Nélio Alessandro Azevedo Cacho e Antônio Carlos Gay Thomé pelos conhecimentos transmitidos e contribuições realizadas à esta pesquisa. Sou muito grato aos meus amigos que direta ou indiretamente contribuíram, e em especial a Antônio de Pádua Melo Neto, pela inspiradora introdução às ciências econômicas. A Roberto Evelim Penha Borges, por ter me apresentado ao mundo do mercado de capitais. A George Gilson Souza de Oliveira e Laura Emmanuella Alves dos Santos Santana, por todo o apoio, incentivo e inspiração. A Charles Novaes de Santana pela inspiração e forte incentivo. A Tajá Costa Pinto pelas diversas e produtivas conversas. A Paulo Sérgio da Câmara Vilela pelo apoio e dicas editoriais. E a Hélida Salles Santos por todo o apoio e presteza. Agradeço ao meu líder de equipe, Romildo Lunguinho Leite, por todo o apoio e compreensão. E à Petróleo Brasileiro S.A. por viabilizar minha participação no programa através das liberações durante o horário núcleo, mediante compensação. Por fim, agradeço muito a todos os autores dos trabalhos referenciados nesta pesquisa, pela dedicação à ciência. A todos que tornaram possível o Coursera, rica fonte de conhe- cimento. E a todos os desenvolvedores e colaboradores de projetos de software livre, em especial do Linux, Debian, Kile, R, Perl, PostgreSQL, VYM, TEX Live e abntex2. “A pergunta certa é geralmente mais importante do que a resposta certa à pergunta errada.” (Alvin Toffler) Resumo O comportamento do preço de ações tem sido objeto de estudo há mais de um século, e as primeiras aplicações de inteligência artificial na previsão de retornos datam da década de 1980. Neste trabalho, foi realizado um estudo sobre a aplicação de máquinas de vetores de suporte na previsão de aspectos da distribuição de probabilidade de taxas de retorno futuras dos preços de ações do mercado brasileiro: com base em valores anteriores das taxas de retorno e volatilidades, ambas extraídas dos preços, deseja-se verificar se a sua utilização é vantajosa em relação a modelos estatísticos mais simples. Através da comparação do desempenho de diversos modelos (lineares, não lineares baseados em máquinas de vetores de suporte e híbridos) em séries temporais com amostragens semanal, diária e intraday de dez minutos, foi evidenciado que: (a) modelos híbridos geram previsões mais precisas do que os demais nas séries de volatilidades; (b) a aplicação de máquinas de vetores de suporte na previsão de valores esperados e intervalos de previsão para taxas de retorno não leva a ganhos em relação a modelos lineares; e (c) a abordagem de tratar a evolução de séries temporais como função pode levar a resultados similares aos alcançados (e muito aquém do melhor possível), caso as séries sejam não lineares contaminadas por ruído aditivo de grande magnitude. Palavras-chaves: máquinas de vetores de suporte, aprendizado de máquina, mercado de ações, séries temporais financeiras. Abstract Stock prices behavior has been subject of research for over a century, and artificial intelligence techniques has been applied to forecast returns since the 1980s. In the present research, we examine the performance of support vector machines to forecast Brazilian stock returns and predictions intervals: based on past values of stock returns and volatilities, both extracted from prices series, we want to figure out if there is some gain over traditional statistical models. Our findings are based on analysis of linear, support vector and hybrid models applied to weekly, daily and intraday data. The empirical evidence suggests that (a) hybrid models performs better on forecasting volatilities series; (b) linear models performs better on forecasting stock returns expected values and prediction intervals; and (c) the approach of treating time series dynamics as a function may lead to results like the ones we’ve got (far bellow the best possible) if the time series is nonlinear with large additive noise. Keywords: support vector machines, machine learning, stock market, financial time series. Lista de ilustrações Figura 1 – Exemplo de hiperplano de decisão com respectivas margens . . . . . . 22 Figura 2 – Arquitetura geral de uma SVM . . . . . . . . . . . . . . . . . . . . . . 26 Figura 3 – Rede neural artificial com topologia feedforward . . . . . . . . . . . . . 29 Figura 4 – Rede recorrente de Jordan . . . . . . . . . . . . . . . . . . . . . . . . . 31 Figura 5 – Rede recorrente de Elman . . . . . . . . . . . . . . . . . . . . . . . . . 31 Figura 6 – Gráficos das funções ACF e PACF para séries AR e MA . . . . . . . . 41 Figura 7 – Função de auto correlação: AR x ARFIMA . . . . . . . . . . . . . . . . 43 Figura 8 – Série aleatória x determinística não linear . . . . . . . . . . . . . . . . 48 Figura 9 – Preços brutos x corrigidos – PETR4 . . . . . . . . . . . . . . . . . . . 72 Figura 10 – Séries temporais em estudo: amostragem semanal . . . . . . . . . . . . 75 Figura 11 – Distribuição dos erros absolutos: PETR4_VL_W e PETR4_VB_W . . . . . . 85 Figura 12 – Distribuição dos erros absolutos: VALE3_VL_W e VALE3_VB_W . . . . . . 87 Figura 13 – Distribuição dos erros absolutos: PETR4_VL_D e PETR4_VB_D . . . . . . 88 Figura 14 – Distribuição dos erros absolutos: VALE3_VL_D e VALE3_VB_D . . . . . . 89 Figura 15 – Distribuição dos erros absolutos: PETR4_VL_I e PETR4_VB_I . . . . . . 90 Figura 16 – Distribuição dos erros absolutos: VALE3_VL_I e VALE3_VB_I . . . . . . 91 Figura 17 – Distribuição dos erros absolutos: PETR4_RN_I . . . . . . . . . . . . . . 95 Figura 18 – Distribuição dos erros absolutos: VALE3_RN_I . . . . . . . . . . . . . . 96 Figura 19 – Distribuição dos erros absolutos: PETR4_RL_I . . . . . . . . . . . . . . 102 Lista de tabelas Tabela 1 – Métricas de erros de previsão . . . . . . . . . . . . . . . . . . . . . . . 53 Tabela 2 – Índice de Negociabilidade . . . . . . . . . . . . . . . . . . . . . . . . . 73 Tabela 3 – Descrição das séries temporais utilizadas nos experimentos . . . . . . . 76 Tabela 4 – Descrição dos modelos considerados no estudo . . . . . . . . . . . . . . 79 Tabela 5 – Tamanhos de janela de otimização/treinamento por taxa de amostragem 79 Tabela 6 – Desempenho Relativo – Volatilidade Semanal – PETR4 . . . . . . . . . 86 Tabela 7 – Desempenho Relativo – Volatilidade Semanal – VALE3 . . . . . . . . . 87 Tabela 8 – Desempenho Relativo – Volatilidade Diária – PETR4 . . . . . . . . . . 88 Tabela 9 – Desempenho Relativo – Volatilidade Diária – VALE3 . . . . . . . . . . 90 Tabela 10 – Desempenho Relativo – Volatilidade Intraday – PETR4 . . . . . . . . 91 Tabela 11 – Desempenho Relativo – Volatilidade Intraday – VALE3 . . . . . . . . . 92 Tabela 12 – Desempenho Relativo – Placar Geral . . . . . . . . . . . . . . . . . . . 93 Tabela 13 – Teste de Kruskal-Wallis – Taxa de Retorno Normalizada . . . . . . . . 95 Tabela 14 – Desempenho Relativo – Taxa de Retorno Normalizada Intraday – PETR4 96 Tabela 15 – Desempenho Relativo – Taxa de Retorno Normalizada Intraday – VALE3 96 Tabela 16 – Intervalos de Previsão Inválidos por Modelo – Taxa de Retorno Norma- lizada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97 Tabela 17 – Acuidade direcional – Taxas de Retorno Normalizadas . . . . . . . . . 98 Tabela 18 – Teste de Kruskal-Wallis – Taxa de Retorno Logarítmicas . . . . . . . . 100 Tabela 19 – Desempenho Relativo – Taxa de Retorno Logarítmica Intraday – PETR4101 Tabela 20 – Intervalos de Previsão Inválidos por Modelo – Taxa de Retorno Logarítmica103 Tabela 21 – Intervalos de Previsão: Cobertura Realizada Aquém da Esperada – Taxa de Retorno Logarítmica . . . . . . . . . . . . . . . . . . . . . . . . . . 104 Tabela 22 – Acuidade direcional – Taxas de Retorno Logarítmicas – PETR4 . . . . 105 Tabela 23 – Acuidade direcional – Taxas de Retorno Logarítmicas – VALE3 . . . . 106 Tabela 24 – Resíduos Inadequados Produzidos por Modelo – Taxas de Retorno Logarítmica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108 Tabela 25 – R2max x R2SVM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111 Tabela 26 – Teste BDS de independência por SNR . . . . . . . . . . . . . . . . . . 113 Lista de abreviaturas e siglas ACF Função de Autocorrelação (do inglês Autocorrelation Function) AIC Critério de Informação de Akaike (do inglês Akaike Information Crite- rion) AR Auto Regressivo (modelo estocástico linear) ARFIMA Auto Regressivo-Média Móvel com Integração Fracionária (modelo es- tocástico linear. A sigla vem do inglês Auto Regressive Fractionally Integrated Moving Average) ARIMA Auto Regressivo-Média Móvel com Integração (modelo estocástico linear. A sigla vem do inglês Auto Regressive Integrated Moving Average) ARMA Auto Regressivo-Média Móvel (modelo estocástico linear. A sigla vem do inglês Auto Regressive Moving Average) BIC Critério de Informação Bayesiano (do inglês Bayesian Information Criterion) DFA Análise de Flutuação Destendenciada (do inglês Detrended Fluctuation Analysis) HME Hipótese do Mercado Eficiente iid Independentes e Igualmente Distribuídos MA Média Móvel (modelo estocástico linear. A sigla vem do inglês Moving Average) MLP Perceptron Multicamadas (do inglês Multilayer Perceptron) PACF Função de Autocorrelação Parcial (do inglês Partial Autocorrelation Function) RBF Função de Base Radial (do inglês Radial Basis Function) RNA Rede Neural Artificial SNR Relação Sinal-Ruído (do inglês Signal to Noise Ratio) SVM Máquina de Vetor de Suporte (do inglês Support Vector Machine) SVR Máquina de Vetor de Suporte para Regressão (do inglês Support Vector Regression) Sumário 1 INTRODUÇÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 1.1 Considerações Iniciais . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 1.2 Motivação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 1.3 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 1.4 Organização do Trabalho . . . . . . . . . . . . . . . . . . . . . . . . . 18 2 APRENDIZADO DE MÁQUINA . . . . . . . . . . . . . . . . . . . . 20 2.1 Considerações Iniciais . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 2.2 Máquinas de Vetores de Suporte . . . . . . . . . . . . . . . . . . . . . 20 2.3 Redes Neurais Artificiais . . . . . . . . . . . . . . . . . . . . . . . . . . 27 2.4 Relações entre SVMs e RNAs . . . . . . . . . . . . . . . . . . . . . . 30 3 SÉRIES TEMPORAIS FINANCEIRAS . . . . . . . . . . . . . . . . . 33 3.1 Considerações Iniciais . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 3.2 Mercado de Ações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 3.2.1 Hipótese do Mercado Eficiente . . . . . . . . . . . . . . . . . . . . . . . . 35 3.2.2 Estimativa de Volatilidade . . . . . . . . . . . . . . . . . . . . . . . . . . 37 3.3 Modelos Estocásticos Tradicionais . . . . . . . . . . . . . . . . . . . . 39 3.3.1 Modelos Estocásticos Lineares . . . . . . . . . . . . . . . . . . . . . . . . 39 3.3.2 Modelos Estocásticos Não Lineares . . . . . . . . . . . . . . . . . . . . . . 42 3.4 Análise de Séries Temporais . . . . . . . . . . . . . . . . . . . . . . . 44 3.4.1 Análise Linear . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 3.4.1.1 Correlações de Longo Prazo . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 3.4.2 Análise Não Linear . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 3.4.2.1 Sistemas Caóticos Determinísticos . . . . . . . . . . . . . . . . . . . . . . . . . 47 3.4.2.2 Teste BDS de Independência . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 3.4.3 Análise Baseada em Teoria da Informação . . . . . . . . . . . . . . . . . . 50 3.5 Avaliação de Previsões . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 3.5.1 Regressão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 3.5.1.1 Métricas do Erro de Previsão . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 3.5.1.2 Análise de Resíduos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54 3.5.2 Intervalos de Previsão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 3.5.3 Classificação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 3.5.4 Avaliações Específicas do Contexto . . . . . . . . . . . . . . . . . . . . . . 56 4 TRABALHOS RELACIONADOS . . . . . . . . . . . . . . . . . . . . 58 SUMÁRIO 13 4.1 Considerações Iniciais . . . . . . . . . . . . . . . . . . . . . . . . . . . 58 4.2 Aplicações de Redes Neurais Artificiais . . . . . . . . . . . . . . . . . 59 4.3 Aplicações de Máquinas de Vetores de Suporte . . . . . . . . . . . . 62 4.4 Características de Séries Temporais Financeiras . . . . . . . . . . . . 64 4.5 Principais Diferenciais desta Pesquisa . . . . . . . . . . . . . . . . . . 66 5 ESTUDO PROPOSTO . . . . . . . . . . . . . . . . . . . . . . . . . 68 5.1 Considerações Iniciais . . . . . . . . . . . . . . . . . . . . . . . . . . . 68 5.2 Formulação do Problema de Previsão . . . . . . . . . . . . . . . . . . 68 5.3 Séries Temporais em Estudo . . . . . . . . . . . . . . . . . . . . . . . 69 5.3.1 Tratamento dos Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70 5.3.2 Descrição das Séries Temporais . . . . . . . . . . . . . . . . . . . . . . . 74 5.4 Construção dos Modelos de Previsão . . . . . . . . . . . . . . . . . . 74 5.5 Avaliação dos Resultados . . . . . . . . . . . . . . . . . . . . . . . . . 82 6 RESULTADOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84 6.1 Considerações Iniciais . . . . . . . . . . . . . . . . . . . . . . . . . . . 84 6.2 Séries de Volatilidade . . . . . . . . . . . . . . . . . . . . . . . . . . . 84 6.3 Séries de Taxas de Retorno Normalizadas . . . . . . . . . . . . . . . 94 6.3.1 Precisão das Previsões . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95 6.3.2 Validade dos Intervalos de Previsão . . . . . . . . . . . . . . . . . . . . . 97 6.3.3 Taxa de Acerto da Direção . . . . . . . . . . . . . . . . . . . . . . . . . . 97 6.3.4 Análise de Resíduos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98 6.3.5 Síntese das Avaliações – Taxas de Retorno Normalizadas . . . . . . . . . . 99 6.4 Séries de Taxa de Retorno Logarítmica . . . . . . . . . . . . . . . . . 99 6.4.1 Precisão das Previsões . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100 6.4.2 Validade dos Intervalos de Previsão . . . . . . . . . . . . . . . . . . . . . 100 6.4.3 Acuidade Direcional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104 6.4.4 Análise de Resíduos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106 6.4.5 Síntese das Avaliações – Taxas de Retorno Logarítmicas . . . . . . . . . . 107 6.5 Análise do Desempenho das Máquinas de Vetores de Suporte . . . 109 6.5.1 Séries Temporais e Aproximação de Funções . . . . . . . . . . . . . . . . . 110 7 CONSIDERAÇÕES FINAIS . . . . . . . . . . . . . . . . . . . . . . . 114 7.1 Principais Contribuições . . . . . . . . . . . . . . . . . . . . . . . . . . 115 7.2 Limitações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115 7.3 Trabalhos Futuros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115 REFERÊNCIAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117 14 1 Introdução 1.1 Considerações Iniciais O comportamento do preço de ações tem sido objeto de estudo há mais de um século. Em seu trabalho clássico sobre mercados eficientes, Fama (1970) apresenta uma revisão de trabalhos teóricos e empíricos, sendo o mais antigo de 1900. Dentre as aplicações de inteligência artificial, o pioneiro aparenta ser o de White (1988), que usa redes neurais artificiais para modelar a taxa diária de retornos das ações de uma grande empresa de informática. A literatura de inteligência artificial é bastante rica em aplicações ao mercado de ações, por exemplo: a) previsão de preços ou taxas de retorno: o problema é normalmente modelado como regressão com base no histórico de preços e/ou taxas de retorno, podendo incluir também indicadores exógenos, como taxas de juros, câmbio, preços de commodities, etc. (WHITE, 1988; TRAFALIS; INCE, 2000; CAO; TAY, 2001; TAY; CAO, 2002a; ROUAI; AHMED, 2002; PAI; LIN, 2005; OLIVEIRA et al., 2011); b) previsão dos sinais das taxas de retornos: utiliza tipicamente os mesmos insu- mos do caso anterior, porém a previsão é tratada como um problema de classificação: desde indicar apenas entre positivo e negativo até uma de várias classes, como “for- temente negativo”, “moderadamente negativo”, “neutro”, “moderadamente positivo” e “fortemente positivo” (KIM, 2003; HUANG; NAKAMORI; WANG, 2005); c) previsão de tendências: tal como no caso anterior, o problema é modelado como classificação, mas a previsão diz respeito normalmente a um horizonte maior e até variável: uma previsão de tendência de alta pode ser válida de poucos dias até semanas, por exemplo (SAAD; PROKHOROV; WUNSCH, 1998; ABRAHAM; NATH; MAHANTI, 2001; TAN; QUEK; NG, 2005; VICENTE, 2011); d) seleção de ativos: diferente das demais aplicações, o foco desta é classificar as ações entre boas e más opções de investimento, em vez de fornecer previsões para uma ação específica (ATIYA; TALAAT; SHAHEEN, 1997). A Hipótese do Mercado Eficiente (HME) de Fama (1970) é tomada como base ou objeto de estudo por diversos trabalhos aplicados ao mercado de ações. Segundo essa hipótese, os preços das ações refletem completamente todas as informações disponíveis: E[Pt+1|Φt] = (1 + E[Rt+1|Φt])Pt (1.1) Nesta equação, E[Pt+1|Φt] é o valor esperado para o preço futuro Pt+1, com base nas informações Φt disponíveis até o momento t, e E[Rt+1|Φt] é o valor esperado para Capítulo 1. Introdução 15 a taxa de retorno simples com base nas mesmas informações Φt. A HME não especifica um modelo para o termo E[Rt+1|Φt], porém evidências empíricas apontam, considerando Φt como os preços até o momento t, que um modelo válido em muitos casos é que E[Rt+1|Pt, Pt−1, Pt−2, . . .] = µ, sendo µ uma constante tipicamente positiva e aproxima- damente nula, ou seja, nesses casos os preços de ações se comportam como um processo martingal. Considerando a HME, seja xt = Pt−E[Pt|Φt−1] o excesso de preço em relação ao valor esperado com base nas informações Φt−1. Se tais informações são “totalmente refletidas” nos preços, então E[xt] = 0. De forma equivalente, seja zt = Rt−E[Rt|Φt−1] a taxa de retorno em excesso ao valor esperado, então, num mercado eficiente, se tem que E[zt] = 0. Em outras palavras, qualquer modelo desenvolvido com base nas informações Φt−1 num mercado eficiente não resultará em retornos maiores do que o de equilíbrio do mercado. Em especial, se E[Rt|Φt−1] ≥ 0, então não existe estratégia de negociação baseada nas informações Φt−1 que leve a lucros maiores do que comprar e manter. Entretanto, considerado um determinado modelo para E[Rt|Φt−1], se for verificado empiricamente que existe uma estratégia de negociação baseada em Φt−1 com E[zt] > 0, então não necessariamente o mercado em questão é ineficiente: pode ser que o modelo para E[Rt|Φt−1] em consideração seja inadequado, conforme análise de Fama (1991). Apesar do foco da HME em valores esperados, outros aspectos da distribuição de probabilidade de Rt são relevantes na tomada de decisão de investimentos, em especial a variância, que está relacionada ao risco: se um investidor pode escolher um entre dois ativos e ambos têm o mesmo valor esperado, a decisão pode ser por aquele com menor variância, caso o investidor deseje minimizar sua exposição a risco. Logo, além de valores esperados, intervalos de previsão para a taxa de retorno podem ser bastante úteis para a tomada de decisão de investimentos. A construção de intervalos de previsão é trivial em séries temporais compostas por valores independentes e igualmente distribuídos (iid): basta utilizar a média dos valores anteriores como previsão para o próximo e formar o intervalo de previsão com base nos quantis obtidos empiricamente a partir dos valores anteriores. No caso da série temporal em questão não formar uma sequência iid, um modelo adequado seria capaz de capturar todas as características da série, de modo que seus resíduos seriam independentes e igualmente distribuídos. De posse de um modelo assim, a construção de intervalos de previsão pode ser realizada combinando a saída do mesmo com os quantis de seus resíduos. No caso das séries temporais formadas pelas sucessivas taxas de retorno dos preços de ações, estudos empíricos apontam que tipicamente não há correlação linear serial, ou essa é muito pequena quando significante, de modo que é de pouca utilidade para fornecer previsões melhores do que a média de taxas anteriores. Além disso, se considerados apenas os sinais algébricos das taxas, há pouco indício de qualquer tipo de dependência. Por outro lado, os valores absolutos das taxas de retorno apresentam correlação linear serial Capítulo 1. Introdução 16 significativa por grandes períodos de tempo e é evidente também que há heteroscedasticidade na sequência de taxas de retorno, ou seja, a variância muda ao longo do tempo. Juntamente a isso, a hipótese de que as taxas compõem uma série temporal com valores independentes e igualmente distribuídos é comumente rejeitada quando testada estatisticamente. A proposta deste trabalho é o estudo da aplicação de máquinas de vetores de suporte na previsão de aspectos da distribuição de probabilidade da taxa de retorno, especificamente o valor esperado acompanhado de intervalos de previsão ou quantis da distribuição, respondendo a perguntas como: a) com 95% de chance, qual a menor taxa de retorno possível para amanhã? b) qual o valor mais provável para a taxa de retorno da semana que vem? c) a aplicação de máquinas de vetores de suporte melhora os resultados alcançados com modelos tradicionais de séries temporais estocásticas? Assim sendo, este estudo fornece subsídios para a tomada de decisões de investimentos, verificando se é vantajosa a aplicação de máquinas de vetores de suporte na tarefa. A aplicação de técnicas de inteligência artificial na modelagem do comportamento de preço de ações se justifica principalmente pela capacidade de detecção automática de relações, lineares e não lineares, entre os dados. Desse modo, as técnicas podem fornecer valiosas contribuições na construção de modelos adequados, capturando todas as relações presentes nas séries de tempo, de modo que os resíduos sejam independentes e igualmente distribuídos e, assim, seja viabilizada a construção de intervalos de previsão válidos. O principal diferencial deste trabalho em relação aos demais está no objetivo de prever aspectos da distribuição de probabilidade da taxa de retorno futura, além do valor esperado ou seu sinal mais provável. Há diferença também na aplicação dos resultados: este trabalho visa fornecer apoio à tomada de decisão de investimentos em vez de emissão automática de ordens de compra e venda. Dado que o foco do trabalho é na aplicação de máquinas de vetores de suporte na previsão de aspectos da distribuição de probabilidade, não é parte do escopo a interpretação econômica dos modelos. Por exemplo, se determinada característica na série temporal leva a previsões melhores, o mecanismo ou razão que leva à existência da característica ou mesmo seu significado econômico são deliberadamente ignorados. Na modelagem são utilizadas sucessivas taxas de retorno e volatilidade, extraídas dos preços de ações negociadas na bolsa de valores do Brasil, a BM&F-Bovespa. A proposta é aplicada considerando diferentes intervalos para tomada de decisão: semanal, diário e a cada dez minutos. Especificamente, o trabalho se dá com ações da Petrobras (PETR4) e Vale do Rio Doce (VALE3), no período de Jan/1999 a Dez/2012 para os intervalos diário e semanal, e Dez/2007 a Dez/2009 para o intervalo de 10 minutos. Capítulo 1. Introdução 17 1.2 Motivação A previsão de séries temporais financeiras é um campo de estudo bastante fértil e tem sido tema de pesquisa por mais de um século. Novos avanços em áreas diversas de conhecimento como estatística, física ou ciência da computação, eventualmente são aplicados a este problema, colaborando assim com a construção de conhecimento acerca do tema. Considerando a série temporal formada por sucessivas taxas de retorno do preço de ações, tipicamente a hipótese de ser uma sequência com dados independentes e igualmente distribuídos é rejeitada, ou seja, há dependência de um valor em relação aos seus anteces- sores e/ou os valores não vêm de uma mesma distribuição de probabilidade. Observa-se também pouca ou nenhuma correlação linear serial na sequência, indicando que caso haja dependência entre os dados, esta é não linear. A capacidade de modelos de inteligência artificial de reconhecer relações, mesmo não lineares, torna interessante sua aplicação neste contexto. Além da fraca correlação linear serial, observa-se também que comumente há heteros- cedasticidade nas taxas de retorno, ou seja, a rejeição da hipótese de dados iid pode ser devida a tal variação na distribuição de probabilidade ao longo do tempo. Assim, é essencial considerar esse fenômeno na previsão de aspectos da distribuição de probabilidade futura. Além disso, há fortes indícios de dependências entre os valores absolutos das sucessivas taxas de retorno, indicando que a mudança na variância não ocorre de forma puramente aleatória. Numa distribuição de probabilidade, o valor esperado é apenas um aspecto e não é o único relevante: outras informações, como a variância, podem ter um papel importante no processo de tomada de decisão por parte do investidor. O sinal algébrico da taxa de retorno futura é muito valioso para a tomada de decisão de investimentos, mais até que o valor futuro em si, pois pode levar ao aproveitamento das valorizações ao mesmo tempo em que se evitam as perdas nas desvalorizações. Entretanto há poucas evidências de dependência dos sinais algébricos em relação a valores anteriores da série temporal e a maioria dos resultados encontrados na literatura são pouco ou nada melhores que um preditor aleatório, apresentando taxas de acerto muito próximas a 50%. Considere-se ainda que a maioria das pesquisas envolvendo aplicações de inteligência artificial na previsão de séries temporais financeiras tem como foco a previsão do valor esperado ou sinal algébrico futuro. Sendo assim, a principal motivação deste trabalho para a construção de intervalos de previsão ou quantis da distribuição de probabilidade da taxa de retorno futura é a importância de tal informação para o investidor e o fato deste aspecto do problema ser pouco explorado na literatura de inteligência artificial. Dentre as linhas de pesquisa mencionadas anteriormente, este trabalho pode ser visto como uma aplicação de inteligência artificial na previsão de preço de ações, diferenciando-se dos demais da mesma categoria em seu objetivo de efetuar previsões de mais aspectos da distribuição de probabilidade além Capítulo 1. Introdução 18 do valor esperado. É desejado também conhecer se a aplicação de técnicas de inteligência artificial, em especial máquinas de vetores de suporte, de fato melhora os resultados que podem ser obtidos com modelos clássicos mais simples. 1.3 Objetivos O principal objetivo deste trabalho é o estudo da aplicação de máquinas de vetores de suporte na previsão de aspectos da distribuição de probabilidade da taxa de retorno futura dos preços de ações negociadas na bolsa de valores brasileira, a BM&F-Bovespa. Toma-se como base da previsão valores anteriores da taxa de retorno e volatilidade, ambos extraídos dos preços da ação em questão e espera-se verificar se a aplicação de máquinas de vetores de suporte a este problema é vantajosa em relação a modelos estatísticos mais simples. Muitos trabalhos que abordam aplicações de inteligência artificial na previsão de séries temporais de preços de ações utilizam dados disponibilizados por vendors, que não requerem processamento adicional para formar as séries temporais. Tem-se como premissa deste trabalho a utilização de dados disponíveis pública e gratuitamente, de modo que qualquer um possa aplicar as técnicas aqui descritas mesmo os que não dispõem de assinaturas com vendors. A presente pesquisa é realizada com os preços das ações preferenciais da Petrobras (PETR4) e das ações ordinárias da Vale do Rio Doce (VALE3) em diferentes taxas de amostragem: semanal e diária no período de janeiro de 1999 a dezembro de 2012 e intraday de dez minutos no período de dezembro de 2007 a dezembro de 2009. Com este trabalho pretende-se contribuir com as pesquisas sobre inteligência artificial aplicada à previsão de séries temporais financeiras, estendendo a aplicação a outras características da distribuição de probabilidade além da sua média. 1.4 Organização do Trabalho O restante deste trabalho está organizado da seguinte forma: Capítulo 2: Aprendizado de Máquina São apresentados os conceitos essenciais sobre máquinas de vetores de suporte, parte integrante do objeto de estudo, como também sobre redes neurais artificiais, que são bastante relevantes dentro da Inteligência Artificial e possuem diversas aplicações ao mercado financeiro. Serão abordadas também as relações entre esses dois modelos. Capítulo 3: Séries Temporais Financeiras Neste capítulo, serão introduzidos os conceitos sobre o domínio de aplicação do trabalho, bem como modelos tradicionais para a modelagem de séries temporais, algumas técnicas de análise e metodologias comumente encontradas na literatura para avaliação de previsões. Capítulo 1. Introdução 19 Capítulo 4: Trabalhos Relacionados Serão listados alguns trabalhos com aplicações de inteligência artificial ao mercado de ações, em especial os que utilizam máquinas de vetores de suporte e redes neurais artificiais. Além disso, serão considerados também estudos de variadas áreas de conhecimento que contribuem para o entendimento das características sobre as séries temporais financeiras. Capítulo 5: Estudo Proposto A seguir, será apresentada a formulação do problema de previsão, bem como serão detalhadas informações sobre os dados utilizados e a forma como foram tratados, sobre a aplicação de máquinas de vetores de suporte e modelos estatísticos na previsão das séries temporais e finalmente sobre a metodologia de avaliação dos resultados. Capítulo 6: Resultados Neste capítulo serão apresentados tanto os resultados alcançados pelos modelos na previsão das séries quanto uma discussão dos mesmos de acordo com a metodologia proposta e, em especial, o impacto da utilização de máquinas de vetores de suporte. Capítulo 7: Considerações Finais Serão apresentados os principais resultados e contribuições da pesquisa, assim como as limitações identificadas e propostas de trabalhos futuros. 20 2 Aprendizado de Máquina 2.1 Considerações Iniciais Há um campo da Inteligência Artificial que lida com o aprendizado automático. Segundo Mitchell (1997, p. 2, tradução nossa): “Um programa de computador aprende da experiência E, com relação a uma classe de tarefas T e medida de desempenho P, se seu desempenho nas tarefas T, tal como medido por P, melhora com a experiência E”. No contexto do mercado de ações, pode-se ter, por exemplo, a classes de tarefas T como a previsão de taxas de retorno futuras, a medida P como a rentabilidade obtida através de negociações realizadas com base nas previsões e a experiência E como os dados históricos. No Capítulo 4 estão listadas diversas formas encontradas na literatura de aplicação de aprendizado de máquina ao contexto de mercado de ações. Nas seções seguintes são apresentados de forma breve alguns conceitos relevantes para o entendimento deste trabalho. Inicialmente os fundamentos das máquinas de vetores de suporte, que são parte integrante do objeto deste estudo. Devido à larga aplicação e importância na literatura, as redes neurais artificiais serão abordadas na sequência. Por fim, algumas considerações sobre a relação entre ambas. 2.2 Máquinas de Vetores de Suporte Quando se deseja obter uma função a partir de um conjunto de dados, é importante que a função obtida represente bem tal conjunto. Entretanto, é mais importante ainda que tenha um bom poder de generalização, ou seja, quando aplicada a pontos não pertencentes ao conjunto inicial, é desejado que a função obtida forneça boas aproximações. O princípio da minimização do risco estrutural, construído sobre fundamentos teóricos do aprendizado estatístico, pauta a construção de modelos considerando simultaneamente o risco empírico e o risco de generalização. O primeiro pode ser medido diretamente através de uma função de penalidade para os erros observados no conjunto dado inicialmente. Como exemplos de funções de penalidade pode-se citar o erro quadrático médio e o erro absoluto médio, que serão abordados com mais detalhes na subseção 3.5.1.1, junto a outras. O risco de generalização tem relação com o poder de representação ou capacidade do modelo obtido: de forma simplificada, quanto maior a capacidade de um modelo, maior a complexidade das funções que podem ser aproximadas pelo modelo. Tipicamente o risco de generalização não pode ser medido diretamente, então se utilizam estimativas ou limites superiores demonstrados formalmente. Para um determinado conjunto de dados, os modelos obtidos podem variar entre Capítulo 2. Aprendizado de Máquina 21 dois extremos: um seria o modelo mais simples possível, que não representa uma boa aproximação para o conjunto, ou seja, para o qual se observa sub-ajuste (underfit). Outro extremo seria um modelo que representa perfeitamente os dados do conjunto inicial, porém apresenta muitos erros em dados inicialmente ausentes, ou seja, há situação de superajuste (overfit). A minimização do risco estrutural fornece um equilíbrio entre esses dois extremos, levando a um modelo que represente o conjunto inicial de forma razoável e com bom poder de generalização. Máquinas de vetores de suporte ou SVMs1, implementam o princípio da minimização de risco estrutural, podendo ser aplicadas tanto para problemas de classificação quanto de regressão. Apesar do foco deste trabalho em regressão, considerando que ambas aplicações são muito comuns na literatura de inteligência artificial aplicada à previsão de séries temporais financeiras e que Vapnik (1998, p. 1) ressalta a importância do problema de classificação para a introdução dos conceitos fundamentais, optou-se por abordar nesta breve apresentação tanto a aplicação de SVMs para classificação quanto para regressão, iniciando pela primeira. Pode-se definir o problema de classificação entre duas classes como encontrar uma função f : Rd → {−1, 1} dados l pares (x d1, y1), (x2, y2), . . . , (xl, yl), com xi ∈ R e yi ∈ {−1, 1}. A máquina de vetor de suporte, nesse caso, é uma função de decisão da forma D(x) = w · x + b, com w ∈ Rd e b ∈ R, de modo que se D(x) > 0 então se toma y = 1 e, caso contrário, y = −1. Assim, a SVM define um hiperplano em Rd que separa os pontos entre as duas classes. Dentre todos os hiperplanos possíveis, o treinamento da máquina de vetor de suporte escolhe aquele cuja margem é máxima, conforme ilustrado na Figura 1. A margem M é a menor distância entre o hiperplano w · x+ b = 0 e qualquer ponto xi do conjunto dado (BOSER; GUYON; VAPNIK, 1992): ( ) = min |D(xi)|M (2.1) xi ∥w∥ A aplicação do princípio da minimização do risco estrutural se dá da seguinte forma: o risco empírico é nulo, uma vez que todos os pontos são classificados corretamente, e o risco estrutural é minimizado através da maximização da margem M do hiperplano (que é equivalente à minimização de ∥w∥), ou seja, as duas classes são separadas pela maior distância possível, o que reduz a probabilidade de erros de generalização. Se não existe um hiperplano w · x+ b = 0 em Rd que separe as classes corretamente, o conjunto não é linearmente separável. Para tratar casos assim, o algoritmo de treinamento deve permitir violações à margem, ou seja, pontos xi cuja distância ao hiperplano sejam menores do que a margem, entretanto tais violações devem ser minimizadas. 1 Abreviação do inglês Support Vector Machines. Capítulo 2. Aprendizado de Máquina 22 Figura 1 – Exemplo de hiperplano de decisão com respectivas margens Fonte: Boser, Guyon e Vapnik (1992) É possível ainda construir funções de decisão não lineares aplicando-se um mapeamento não linear ϕ : Rd → H aos pontos xi do conjunto e então construindo-se um hiperplano no espaço H de Hilbert. Tem-se então que o treinamento de uma máquina de vetor de suporte para o problema de classificação entre duas classes consiste em encontrar a solução para o seguinte problema de otimização2 (CORTES; VAPNIK, 1995): ∑l minimizar 12⎧∥w∥ 2 + C ξi (2.2) w, ξi ⎨ i=1y (w · ϕ(x ) + b) ≥ 1− ξ sujeito a ⎩ i i i (2.3)ξi ≥ 0 onde ξi é a medida da violação à margem cometida para o ponto xi e C > 0 é uma constante que ajusta a relação entre o tamanho da margem e as violações cometidas: quanto menor o valor de C maior a margem obtida, ao custo de violações maiores, e quanto maior o valor de C, menor a margem obtida. O problema de programação quadrática acima pode ser resolvido em sua forma dual, aplicando multiplicadores de Lagrange, estabelecendo as restrições para minimização 2 Nessa formulação considera-se que ϕ tanto pode ser um mapeamento não linear quanto o operador identidade: ϕ(x) = x, assim é possível obter funções de decisão lineares ou não lineares. Capítulo 2. Aprendizado de Máquina 23 nas variáveis primais e encontrando o máximo considerando as variáveis duais, ou seja (VAPNIK, 1998, p. 411–412): ∑l ∑l ∑l maximizar ⎧ αi − 1 2 αiαjyiyj(ϕ(xi) · ϕ(xj)) (2.4)αi ⎨i=1 i=1 j=10 ≤ α ≤ C sujeito a ⎩ ∑ i (2.5)l i=1 αiyi = 0 onde αi são multiplicadores de Lagrange. A vantagem de resolver o problema nessa forma é que apenas produtos internos em H são necessários, assim é possível utilizar uma função kernel K : Rd × Rd → R para calcular os produtos internos, em vez de utilizar o mapeamento ϕ explicitamente: K(xi,xj) = ϕ(xi) · ϕ(xj) (2.6) A função kernel deve satisfazer às condições de Mercer para que haja garantia de que existe um espaço H e um mapeamento ϕ para os quais a função representa o produto i∫nterno em tal espaço (VAPNIK, 1998, p. 423–424), ou seja, para toda função g(x) tal que g(x)2 dx seja finita, deve-se ter: ∫ K(xi,xj)g(xi)g(xj) dxi dxj ≥ 0 (2.7) A seguir alguns exemplos de funções kernel: a) linear: K(x,y) = x · y ∥x−y∥ b) RBF: K(x,y) = e(− γ ) c) polinomial: K(x,y) = (v(x · y) + c)d d) sigmoide: K(x,y) = (1 + e(v(x·y)−c))−1 O treinamento de máquinas de vetores de suporte possui algumas propriedades bastante interessantes (BOSER; GUYON; VAPNIK, 1992): a) é um problema de otimização convexo, ou seja, possui solução única. Assim, não há a complicação de obter mínimos locais e a solução é determinística; b) pelas condições de Karush-Kuhn-Tucker para a solução ótima, o vetor w pode ser expresso como uma combinação linear de alguns elementos do conjunto de treinamento, de modo que: w · ϕ(x) = ∑li=1 αiyiK(xi,x). Apenas alguns αi são maiores que 0, daí os xi correspondentes são os chamados vetores de suporte. É importante lembrar que a formulação acima é válida para problemas de classificação entre duas classes. No contexto específico de aplicação na previsão de séries temporais de taxas de retorno, as duas classes podem ser os possíveis sinais algébricos da taxa seguinte. Entretanto é comum a necessidade de classificar entre mais de duas classes, por exemplo “forte baixa”, “neutro” e “forte alta” nesse mesmo contexto. Para tais casos existem várias Capítulo 2. Aprendizado de Máquina 24 abordagens: Vapnik (1998, p. 437–440) e Weston e Watkins (1998) propuseram de forma independente a extensão do problema de encontrar um hiperplano com margem máxima entre duas classes para encontrar um conjunto de hiperplanos cuja soma das margens seja máxima, o que aumenta a complexidade do problema de otimização. Hsu e Lin (2002) compararam algumas abordagens, dentre elas: a) otimização estendida: a proposta de Vapnik (1998) e Weston e Watkins (1998); b) um contra todos: são construídos k classificadores binários, onde cada um deles separa uma classe das demais e a classe final é escolhida como aquela que teve maior valor da função de decisão entre os k classificadores; c) um contra um: são construídos k(k − 1)/2 classificadores binários entre cada par possível dentre as classes. Um novo padrão a ser classificado é apresentado a cada classificador e a classe “vencedora” recebe um voto. A classe final escolhida é a que possui o maior número de votos; d) DAGSVM: Do inglês Directed Acyclic Graph Support Vector Machine. Consiste em montar uma árvore binária com k folhas correspondendo a cada classe e k(k− 1)/2 nós internos que são treinados para distinguir entre as classes que estão na direita e na esquerda. A avaliação de um novo padrão começa com o classificador na raiz da árvore e então a depender do resultado o classificador à esquerda ou direita é utilizado até chegar à classe final, correspondente à folha encontrada. Essa abordagem tem a mesma quantidade de classificadores da abordagem “um contra um”, porém não avalia todos para encontrar a solução. Das abordagens avaliadas, Hsu e Lin (2002) relatam que a estratégia “um contra um” e “DAGSVM” são as com maior potencial de aplicação prática, considerando em conjunto a taxa de acerto e os tempos de treinamento e teste. Posteriormente, Duan e Keerthi (2005) avaliaram as abordagens “um contra todos”, “um contra um” e mais duas baseadas na avaliação de probabilidades a posteriori produzidas por máquinas de vetores de suporte modificadas. Uma dessas, proposta por Platt (1999 apud DUAN; KEERTHI, 2005), é apontada como consistentemente superior às demais avaliadas. Conforme mencionado anteriormente, máquinas de vetores de suporte podem ser aplicadas também para problemas de regressão (VAPNIK, 2000; VAPNIK, 1998; VAPNIK; GOLOWICH; SMOLA, 1997): seja f : Rd → R a função desconhecida que gerou os dados (xi, yi), com i = 1, 2, . . . , l e ε > 0 a precisão de aproximação desejada, então a máquina de vetor de suporte para regressão, SVR3, aproxima f com f̂(x) = w · x + b, de modo que, para a aproximação ε ≥ 0 desejada, |yi − f̂(xi)| ≤ ε, para todos os pares no conjunto de treinamento e o vetor w possui a menor norma possível4. Assim como no caso da classificação, nem sempre há solução factível para esta formulação do problema, então há 3 Abreviação do inglês Support Vector Regression. 4 Assim como no caso da classificação, a norma de w está relacionada à capacidade do modelo, ou seja, de acordo com o princípio da minimização do risco estrutural, deve ser a menor possível. Capítulo 2. Aprendizado de Máquina 25 ainda uma função de penalidade associada a erros de regressão maiores que ε e um fator C cuja finalidade é ajustar o peso entre tolerância a erros e a norma de w. Tem-se então que o treinamento da SVR consiste em (SMOLA; SCHÖLKOPF, 2004): ∑l minimizar 12∥w∥ 2 + C (ξ + ξ∗i i ) (2.8)w, ξ ∗i, ξi ⎪⎧ i=1⎨⎪⎪ yi −w · xi − b ≤ ε+ ξi sujeito a ⎪⎪⎩⎪ w · x ∗ i + b− yi ≤ ε+ ξi (2.9) ξ ,ξ∗i i ≥ 0 Esta formulação foi construída utilizando a função ε-insensitive para quantificar o risco empírico: ⎨⎧ 0 se |yi − f̂(xi)| ≤ ε L(yi − f̂(xi)) = ⎩ (2.10)|yi − f̂(xi)| − ε caso contrário ou seja, não há penalidade para erros menores que ε e, para desvios maiores, o módulo do erro além de ε é considerado. Vapnik (1998, p. 443–454) ressalta que esta função possui diversas características em comum com a função robusta de penalidade de Huber, com a vantagem de que leva a SVMs com menor número de vetores de suporte. De maneira análoga ao problema de classificação, a regressão de funções não lineares é possível através de um mapeamento não linear ϕ para outro espaço e, nesse, tem-se que f̂(x) = w ·Φ(x) + b. A resolução do problema de otimização acima dependeria de calcular ϕ(x) explicitamente, então, conforme demonstrado por Smola e Schölkopf (2004) e de forma análoga ao caso da classificação, é conveniente aplicar a técnica de multiplicadores de Lagrange e resolver o problema dual usando funções kernel K(xi,xj) = ϕ(xi) · ϕ(xj) para calcular produtos internos no espaço mapeado: ⎧ ⎪⎪⎪⎨⎪⎪ − 1∑ l ∑l 2 (α ∗ ∗ i − αi )(αj − αj )K(xi,xj)− maximizar α , α∗i ⎩⎪i ⎪⎪ i=1 j=1 ⎪⎪ ∑l ∗ ∑ (2.11)l⎧ ε (αi + αi ) + yi(α − α ∗ i i ) ⎪⎪ ∑i=1 i=1⎨⎪ l⎪ (αi − α ∗ sujeito a ⎪ i ) = 0 ⎩⎪ i=1 (2.12)0 ≤ αi,α∗i ≤ C A máquina de vetor de suporte, conforme ilustrado na Figura 2, aproxima a função f̂ da seguinte forma5: ∑l f̂(x) = (αi − α∗i )K(xi,x) + b (2.13) i=1 Capítulo 2. Aprendizado de Máquina 26 Figura 2 – Arquitetura geral de uma SVM Fonte: adaptado de Smola e Schölkopf (2004) Suykens e Vandewalle (1999) apontam que o treinamento da SVM através da resolução de um problema de programação quadrática pode ser custoso e propõem uma nova formulação, a LS-SVM 6, baseada numa função de penalidade quadrática com restrições de igualdade, de modo a reduzir o treinamento à resolução de um sistema linear. A desvantagem desta abordagem é que todos os pontos do conjunto de treinamento se tornam vetores de suporte, enquanto que na formulação clássica com função de penalidade ε-insensitive, a solução pode ser esparsa. Vapnik (1998, p. 427–425) apresenta uma formulação linear para o treinamento das SVMs que conta também com a vantagem de que a função kernel não precisa satisfazer às condições de Mercer, entretanto as máquinas construídas desta forma não possuem diversas das boas propriedades estatísticas da formulação padrão. A aplicação prática de máquinas de vetores de suporte consiste inicialmente em definir o parâmetro C, o kernel a ser aplicado e seus parâmetros. Especificamente no caso de problemas de regressão, é preciso também escolher a aproximação desejada, ε. Schölkopf et al. (2000) introduziram modificações na formulação das máquinas de vetores de suporte de modo que, para problemas de classificação, em vez de definir o parâmetro C, deve-se escolher ν e para problemas de regressão, em vez do par (C, ε), se define o par (C, ν), com 0 ≤ ν ≤ 1. A escolha de ν no lugar de C ou ε é conveniente, conforme demonstrado pelos autores, pois representa um limite superior na fração de erros7 e um limite inferior 5 Os pontos xi para os quais αi − α∗i ̸= 0 são os vetores de suporte. 6 Abreviação do inglês Least Squares Support Vector Machine. 7 No caso de regressão, um erro é um par (xi, yi) do conjunto de treinamento para o qual |yi− f̂(x)| > ε e no caso de classificação um par do conjunto de treinamento cuja distância ao hiperplano de separação é menor que a margem. Capítulo 2. Aprendizado de Máquina 27 na fração de vetores de suporte8, ou seja, o valor de ν é mais fácil de interpretar do que os parâmetros originais. Deve-se ainda destacar que a máquina de vetor de suporte modificada, ν-SVM, leva às mesmas funções de decisão (para classificação) e aproximação (para regressão) se os parâmetros originais C (para classificação) e ε (para regressão) forem ajustados adequadamente. 2.3 Redes Neurais Artificiais Apesar do foco deste trabalho na aplicação de máquinas de vetores de suporte ao problema de previsão de aspectos da distribuição de probabilidade futura em séries temporais financeiras, as redes neurais artificiais ou RNAs têm grande relevância na literatura de inteligência artificial, bem como diversas aplicações ao problema de previsão de séries temporais. O primeiro marco na história das redes neurais artificiais foi a introdução do modelo de neurônio artificial por McCulloch e Pitts (1943), que foi inspirado em neurônios biológicos e na forma como interagem: unidades de processamento (neurônios artificiais) ligados em rede. As unidades eram formadas por um corpo e um axônio, e as ligações se davam entre o axônio de uma unidade e o corpo de outra ou de si própria. Tais ligações poderiam ser excitatórias ou inibitórias, de modo que uma certa quantidade de ligações excitatórias recebendo impulsos era necessária para que a unidade fosse exitada e passasse um impulso adiante. Impulsos chegando através de ligações inibitórias impediam completamente a excitação da unidade. Os neurônios operavam de forma binária: ou estavam exitados ou não estavam e a excitação não dependia de excitações anteriores. Os autores demonstraram que tais redes eram equivalentes a expressões de lógica proposicional temporal. Mais tarde, Rosenblatt (1962) compilou os resultados de suas pesquisas com percep- trons: modelos compostos por neurônios artificiais com foco na construção de máquinas inteligentes. Na época9, os perceptrons eram formados por uma retina, composta por unidades especializadas em captar sinais/condições do ambiente externo, unidades associa- tivas e unidades de resposta, responsáveis por gerar sinais para o ambiente externo. Havia pesos correspondentes às ligações entre os neurônios associativos e de resposta, cujo efeito era intensificar ou amenizar o sinal enviado pela ligação. Os neurônios geravam um sinal quando a soma dos sinais de entrada ultrapassava um determinado limiar. Uma das formas de treinar o perceptron era ajustar os pesos entre as unidades associativas e de resposta10, 8 Tais propriedades são válidas na presença de algumas condições, que são razoavelmente genéricas. Consultar (SCHÖLKOPF et al., 2000) para detalhes. 9 Nos anos 50 e começo da década de 60 a arquitetura de Von Neumann ainda não era dominante como atualmente, de modo que a implementação dos perceptrons não se limitava a modelos matemáticos e softwares, mas considerava também a construção de hardware com processamento paralelo em vez de uma unidade central de processamento. Mais tarde o termo “perceptron” passou a se referir ao modelo matemático. Este e outros detalhes sobre a história dos perceptrons são abordados por Olazaran (1996). 10 Os pesos das ligações entre unidades sensoriais, na retina, e neurônios associativos não eram ajustáveis. Capítulo 2. Aprendizado de Máquina 28 de acordo com a diferença entre o sinal gerado pelo perceptron e o esperado. Rosenblatt (1962, p. 99–101) demonstrou que os perceptrons poderiam reconhecer qualquer padrão que pudesse ser codificado adequadamente através da retina. Minsky e Papert (1969) expuseram algumas limitações desse modelo, em especial que um perceptron de ordem d com uma camada de pesos ajustáveis não era capaz de resolver o problema da paridade para d+ 1 pontos11 (MINSKY; PAPERT, 1969, p. 56– 57) e que o valor dos coeficientes entre os neurônios associativos e de resposta crescem exponencialmente, de modo que a memória necessária para armazená-los é equivalente a uma tabela com todas as sequências possíveis de paridade ímpar (MINSKY; PAPERT, 1969, p. 153). Posteriormente, modelos mais sofisticados foram propostos, alcançando bons resultados em diversas aplicações, incluindo previsão de séries temporais (ZHANG; PATUWO; HU, 1998). Dentre os mais usados estão as redes MLP12, RBF13 ou ainda redes recorrentes como de Jordan e Elman. As redes MLP (RUMELHART; HINTON; WILLIAMS, 1986, p. 324–325) possuem topologia feedforward, conforme ilustrado na Figura 3. Seus neurônios são organizados em camadas de modo que os neurônios de uma camada estão ligados apenas a neurônios em camadas posteriores. As camadas entre as de entrada e de saída são chamadas de intermediárias ou escondidas. O neurônio i da camada de entrada propaga, através das ligações com os neurônios seguintes, o valor si que recebeu. Cada ligação de um neurônio i para um j tem um peso wij associado. Um neurônio j toma como entrada a soma ∑ i siwij e gera como saída sj o resultado de uma função fj, não linear e diferenciável, aplicada ao somatório de entrada. O resultado da rede corresponde ao vetor cujos componentes são os sinais so gerados pelos neurônios na camada de saída. Dado um conjunto de treinamento formado por entradas e saídas esperadas correspondentes, o treinamento da rede é um problema de otimização que consiste em minimizar a divergência entre as saídas da rede e as esperadas através do ajuste dos pesos wij. Vários algoritmos de treinamento foram propostos ao longo do tempo, dentre eles: backpropagation padrão (RUMELHART; HINTON; WILLIAMS, 1986), quickprop (FAHL- MAN, 1988), rprop (RIEDMILLER; BRAUN, 1993), sarprop (TREADGOLD; GEDEON, 1998) e irprop (IGEL; HÜSKEN, 2000), cada um com objetivo de reduzir o tempo de treinamento requerido pelos anteriores e evitar a convergência para mínimos locais. O uso de funções de ativação não lineares é fundamental para o poder de representação das RNAs14 e os algoritmos de treinamento dependem que tais funções sejam deriváveis, assim 11 Em especial, perceptrons de ordem 1 não conseguem representar a função XOR entre 2 pontos. Apesar desta versão da limitação de perceptrons ser bastante difundida, a demonstração de Minsky e Papert (1969) foi mais geral. 12 Abreviação do inglês Multilayer Perceptron. 13 Abreviação do inglês Radial Basis Function. 14 Caso todas as funções de ativação sejam lineares, a saída de uma rede neural artificial nada mais é que uma combinação linear das entradas, ou seja, relações não lineares como a função XOR não são Capítulo 2. Aprendizado de Máquina 29 Figura 3 – Rede neural artificial com topologia feedforward Fonte: adaptado de Broomhead e Lowe (1988) como a função de penalidade do erro empírico. De modo geral, os algoritmos implementam o gradiente descendente, aplicando alterações nos pesos de forma iterativa, de modo a fazer com que a saída da rede seja cada vez menos divergente da saída esperada. Uma propriedade bastante relevante das redes MLP é que, com apenas uma camada intermediária, é possível aproximar qualquer função contínua tão bem quanto se deseje, desde que haja um número suficiente de neurônios (CYBENKO, 1989; HORNIK; STIN- CHCOMBE; WHITE, 1989; FUNAHASHI, 1989; HARTMAN; KEELER; KOWALSKI, 1990). As redes RBF (BROOMHEAD; LOWE, 1988) normalmente possuem 3 camadas e, assim como as MLP, apresentam topologia feedforward, entretanto apenas os pesos da camada intermediária para a de saída são ajustáveis15. A característica fundamental das redes RBF é que a função de ativação dos neurônios escondidos considera a distância do ponto cujas coordenadas são os valores recebidos através das ligações dos neurônios de entrada para um centro correspondente ao neurônio, ou seja, sh = fh(∥x− ch∥), onde: sh é a saída do neurônio escondido h, x é o vetor cujas componentes são os valores recebidos dos neurônios de entrada, ch é o vetor cujas componentes são as coordenadas do centro associado ao neurônio h e ∥a∥ é a norma do vetor a. Considerando como exemplo uma rede com apenas um neurônio na camada de saída com a função identidade como ativação, representáveis por esta abordagem. 15 No trabalho original de Broomhead e Lowe (1988) os centros são fixos, distribuídos uniformemente sobre o espaço de entrada ou são um subconjunto dos dados. Nesse contexto apenas os pesos entre as camadas intermediária e de saída são ajustáveis. Capítulo 2. Aprendizado de Máquina 30 tem-se que o resultado da rede para uma entrada x será: ∑ so = whofh(∥x− ch∥) (2.14) h Com who sendo o peso da ligação entre os neurônios h e o. Definidos os centros, o treinamento das redes RBF é um problema de otimização que consiste em minimizar uma função de penalidade para o erro empírico através de ajustes nos pesos who. Tal problema pode ser reduzido a resolver um sistema de equações lineares, ou seja, diferente de redes MLP, cujo ajuste de pesos é feito através de métodos iterativos de otimização não linear, o treinamento de redes RBF é bastante rápido e Broomhead e Lowe (1988) demonstram que a solução encontrada é o ótimo global16. As redes RBF, assim como as MLP, são aproximadores universais de funções (PARK; SANDBERG, 1991). Redes neurais com topologia na qual há formação de ciclos entre os neurônios, ou seja, quando existe um caminho a partir de um neurônio para ele próprio, são chamadas de redes recorrentes. Dois exemplos são as redes de Jordan (1986), ilustrada na Figura 4, e de Elman (1990), ilustrada na Figura 5. Ambas são organizadas em três camadas, como as redes RBF, e possuem neurônios de contexto. Na primeira, os neurônios de contexto recebem como entrada uma cópia da saída da rede e são ligados aos da camada escondida juntamente com os de entrada. Já na segunda, os neurônios de contexto recebem uma cópia da saída dos neurônios escondidos e, também em conjunto com os neurônios de entrada, alimentam os escondidos. Em ambas as redes, a saída gerada para um padrão apresentado no tempo t é influenciada pelo estado no tempo t− 1, que por sua vez considera o estado no tempo t−2 e assim por diante, ou seja, os resultados gerados por essas redes recorrentes são sensíveis ao contexto (histórico), característica interessante para previsão de séries temporais. Assim como para redes MLP, o backpropagation (RUMELHART; HINTON; WILLIAMS, 1986) pode ser usado para o treinamento de redes recorrentes de Jordan e Elman. 2.4 Relações entre SVMs e RNAs Nesta pesquisa optou-se pela utilização de máquinas de vetores de suporte devido a diversas de suas características que são bastante interessantes. Conforme mencionando anterior- mente, as máquinas de vetores de suporte têm sua fundação na teoria do aprendizado estatístico e implementam o princípio da minimização do risco estrutural, que considera tanto o risco empírico quanto o risco de generalização. Outra característica importante é que o treinamento de uma SVM é um problema de otimização convexo, ou seja, possui apenas uma solução ótima. 16 Novamente considerando que os centros estão fixados, ou seja, a solução encontrada é o ótimo global com relação aos centros em questão. Encontrar o subconjunto ótimo de centros ficou fora do escopo considerado no trabalho original. Capítulo 2. Aprendizado de Máquina 31 Figura 4 – Rede recorrente de Jordan Fonte: adaptado de Jordan (1986) Figura 5 – Rede recorrente de Elman Fonte: adaptado de Elman (1990) Capítulo 2. Aprendizado de Máquina 32 Por outro lado, o backpropagation e diversas das modificações propostas implementam a minimização do risco empírico e, portanto, mais suscetíveis ao problema de superajuste (overfit). No caso das redes MLP, o problema de otimização associado ao treinamento apresenta diversos ótimos locais, ou seja, o treinamento de uma MLP corre o risco de convergir para um ótimo local muito diferente do ótimo global. Máquinas de vetores de suporte com kernel RBF e redes neurais RBF são bastante similares, entretanto Vapnik (1998, p. 431–432) ressalta que no caso da segunda é preciso escolher previamente a quantidade de neurônios e os centros associados, uma vez que seu treinamento ajusta apenas os pesos da combinação linear na saída. Já numa SVM com kernel RBF, todas estas escolhas são feitas automaticamente: os vetores de suporte determinam simultaneamente a quantidade de neurônios e seus centros, enquanto os coeficientes associados aos vetores são os pesos. Schölkopf et al. (1997) comparam SVMs baseadas em kernel RBF com redes neurais RBF e apontam que as primeiras apresentam menor taxa de erro tanto no conjunto de treinamento quanto no conjunto de teste. Já Schwenker, Kestler e Palm (2001) analisam um conjunto mais amplo de métodos de escolha de arquitetura de redes neurais RBF e comparam com SVMs, concluindo que estas apresentam desempenho comparável ao melhor método de escolha de arquitetura considerado. Comparação similar pode ser aplicada entre máquinas de vetores de suporte e redes neurais MLP: Vapnik (1998, p. 432–433) mostra que a SVM com kernel sigmoide é equivalente a uma rede neural MLP com uma camada escondida, com as vantagens que a quantidade de neurônios escondidos (vetores de suporte) é escolhida automaticamente e o treinamento converge para o ótimo global. É importante ainda destacar que máquinas de vetores de suporte, assim como redes neurais MLP e RBF, são aproximadoras universais de funções (HAMMER; GERSMANN, 2003). Apesar das vantagens das SVMs sobre as RNAs, Burges (1998) aponta algumas limitações, como o problema da escolha da função kernel e o de desempenho e consumo de memória, tanto para treinamento quanto para teste, principalmente em conjuntos com muitos dados. 33 3 Séries Temporais Financeiras 3.1 Considerações Iniciais A área de aplicação deste estudo é a previsão de séries temporais financeiras. Este é um campo bastante fértil, com diversos desafios. O objetivo deste capítulo é introduzir alguns conceitos essenciais para o entendimento da proposta, que será detalhada no Capítulo 5. Os temas aqui abordados aparecem frequentemente na literatura de inteligência artificial aplicada ao mercado de ações. Inicialmente são apresentados alguns conceitos básicos da dinâmica das bolsas de valores. Em seguida, uma abordagem dos modelos estatísticos de séries de tempo normalmente encontrados na literatura de inteligência artificial e, posteriormente, alguns métodos de análise de séries de tempo baseados em diversas áreas de conhecimento. 3.2 Mercado de Ações Nesta seção são apresentados os conceitos básicos sobre o mercado de ações e algumas considerações sobre seu funcionamento que são relevantes no contexto da proposta deste trabalho. Optou-se pela inclusão desta breve apresentação considerando que muitas das informações aqui presentes não são plenamente difundidas entre os pesquisadores da área de inteligência artificial. O conceito mais fundamental é de ação, que representa uma pequena fração do capital social de uma empresa que tem constituição jurídica de sociedade anônima. As ações de empresas de capital aberto são negociadas nas bolsas de valores. O preço de uma ação é determinado pelo equilíbrio no entendimento entre demandantes e ofertantes: 1. Aqueles interessados em adquirir determinada quantidade de uma ação emitem ofertas de compra, especificando a quantidade desejada e preço; 2. Aqueles que desejam vender parte ou a totalidade das ações que possuem emitem ofertas de venda, especificando quantidade e preço; 3. Quando há igualdade no preço entre uma oferta de compra e uma oferta de venda, o negócio é realizado e o preço da ação corresponde ao valor acordado nesta transação. Assim, o preço da ação é o valor praticado na transação mais recente. Cada transação pode mudar ou não o preço anterior da ação, dependendo do consenso entre compradores e vendedores. A observação dos preços de ações pode ser feita em diferentes taxas de amostragem: desde o valor a cada negócio realizado até observações diárias, semanais, Capítulo 3. Séries Temporais Financeiras 34 mensais ou anuais, por exemplo. Em cada período tem-se os preços de abertura (valor praticado na primeira transação), máximo (maior valor praticado), mínimo (menor valor praticado), e de fechamento (valor da última transação). Normalmente quando o preço é mencionado sem especificação, entende-se que a referência é ao preço de fechamento. Fixada uma taxa de amostragem, seja P = {Pt}, t ∈ N a série temporal formada pelo preço P da ação no período t. A taxa de retorno simples, R = {Rt}, é dada por: = Pt − Pt−1Rt , t ∈ N (3.1) Pt−1 Como Pt > 0, tem-se que Rt > −1. A taxa de retorno logarítmica, r = {rt}, é calculada como:( ) Pt rt = log , t ∈ N (3.2) Pt−1 onde log(x) é o logaritmo natural de x. Percebe-se que rt pode assumir qualquer valor real. O uso desta última é bastante comum na literatura, em detrimento da primeira. Uma das premissas deste trabalho é a utilização de dados do mercado de ações brasileiro disponíveis pública e gratuitamente, ou seja, acessíveis por qualquer pesquisador interessado na área. Assim, algumas informações complementares, tipicamente não abordadas em trabalhos na área, se fazem necessárias. A análise das séries temporais financeiras obtidas a partir dos dados disponíveis pública e gratuitamente deve levar em conta que há mudanças de preços que são causadas por eventos corporativos1: a) desdobramentos: quando cada ação é convertida em duas ou mais; b) grupamentos: quando cada grupo de duas ou mais ações é unido em apenas uma ação; c) bonificação em ações: quando é distribuída aos acionistas uma determinada quantidade de ações para cada lote (normalmente de 100 ações) possuído; d) subscrição: quando o acionista recebe o direito de adquirir mais ações, em quanti- dade proporcional ao total que possui, do mesmo tipo a um determinado preço; e) distribuição de dividendos: quando é depositada uma quantia em dinheiro para cada acionista, proporcionalmente ao número de ações que cada um possui. A distribuição de dividendos é isenta de imposto de renda; f) pagamento de juros sobre capital próprio: similar à distribuição de dividendos, mas sujeito a tributação; g) cisão: quando uma empresa é desmembrada em duas ou mais; h) fusão: quando duas ou mais empresas passam a ser uma. 1 Esta lista não é exaustiva, contemplando apenas os eventos mais comuns. Capítulo 3. Séries Temporais Financeiras 35 Tais eventos geram mudanças nos preços praticados, mas essas são diferentes da flutuação normal. Tomando como exemplo o caso de um desdobramento de cada ação em duas, o preço observado passa a ser metade do valor original, entretanto o acionista passa a ter o dobro das ações, de modo que a queda de 50% observada na série de preços brutos não é percebida pelo acionista. A cada evento é associada uma data com, que informa até quando as ações negociadas possuem o direito em questão. O dia seguinte à data com é chamada de data ex. Por exemplo, o anúncio de distribuição de dividendos inclui a data com. As ações negociadas no pregão seguinte à data com não fazem mais jus aos dividendos, portanto observa-se uma queda no preço bruto, porém para o acionista que tinha a ação na data com, tal queda é compensada pelos dividendos recebidos. Nos trabalhos com aplicações de inteligência artificial ao mercado de ações, um conceito bastante citado é o de índice de ações, que consiste em uma carteira teórica contendo ações de diversas empresas, segundo algum critério de seleção e peso. O IBOVESPA, por exemplo, foi implantado em 1968 e é o índice mais importante na representação do mercado brasileiro, composto pelas principais ações negociadas na BM&F-Bovespa2. Existem índices similares em outros países, como o S&P 500 nos Estados Unidos e o TOPIX no Japão. Na tomada de decisão de investimentos é comum a avaliação de indicadores técnicos ou grafistas, obtidos com base em preços e volumes de negociação anteriores. Além desses, há ainda os indicadores fundamentalistas, calculados com base nas informações dos balanços das empresas. É comum também levar em conta informações como inflação, taxas de juros, preços de commodities, câmbio, etc. 3.2.1 Hipótese do Mercado Eficiente Considerando o objetivo de realizar previsões de aspectos da distribuição de probabilidade da taxa de retorno futura de uma ação, é importante tecer algumas considerações sobre a Hipótese do Mercado Eficiente (HME) e o posicionamento deste trabalho em relação a ela. Conforme já mencionado anteriormente, segundo essa hipótese, os preços das ações refletem completamente todas as informações disponíveis (FAMA, 1970): E[Pt+1|Φt] = (1 + E[Rt+1|Φt])Pt (3.3) onde E[Pt+1|Φt] é o valor esperado para o preço futuro Pt+1, com base nas informações Φt disponíveis até o momento t, e E[Rt+1|Φt] é o valor esperado para a taxa de retorno simples com base nas mesmas informações Φt. A depender do que compõe o conjunto Φt, a HME pode ser classificada entre3: 2 . Acesso em 11 nov. 2013. 3 Posteriormente, a classificação da HME foi revisada (FAMA, 1991), porém a essência foi mantida, de modo que a definição original é suficiente para o propósito desta breve discussão. Capítulo 3. Séries Temporais Financeiras 36 a) fraca: apenas preços anteriores são considerados no conjunto Φt; b) semi-forte: além de preços anteriores, qualquer informação publicamente disponível também é considerada, por exemplo, informações sobre eventos corporativos, taxas de juros, inflação, etc.; c) forte: além das informações públicas, são consideradas também as privilegiadas, acessíveis exclusivamente por um limitado grupo de participantes do mercado. É considerado que as informações Φt são “completamente refletidas” se é nulo o valor esperado para o excesso de preço em relação ao equilíbrio de mercado projetado com base em Φt, ou seja: E[Pt+1 − E[Pt+1|Φt]] = 0 (3.4) De forma equivalente, seja zt = Rt − E[Rt|Φt−1] a taxa de retorno em excesso ao valor esperado, então, num mercado eficiente, se tem que E[zt] = 0. Em especial, se E[Rt|Φt−1] ≥ 0, então não existe estratégia de negociação baseada nas informações Φt−1 que leve a lucros maiores do que comprar e manter. É importante destacar que a HME não especifica um modelo para o valor de equilíbrio E[Rt+1|Φt], porém há evidências empíricas, considerando especialmente as versões fraca e semi-forte da HME, que um modelo válido em muitos casos é que E[Rt+1|Φt] = µ, sendo µ uma constante tipicamente positiva e aproximadamente nula, ou seja, nesses casos os preços de ações se comportam como um processo martingal. Entretanto, fixado um determinado modelo para E[Rt+1|Φt], se for verificado empirica- mente que existe uma estratégia de negociação baseada em Φt com E[Rt+1−E[Rt+1|Φt]] > 0, então não necessariamente o mercado em questão é ineficiente: pode ser que o modelo para E[Rt+1|Φt] em consideração seja inadequado, conforme análise de Fama (1991). Neste contexto, a inteligência artificial pode fornecer ferramentas para a construção de modelos de previsão de Rt+1. Apesar do foco da HME em valores esperados, outros aspectos da distribuição de probabilidade de Rt são relevantes na tomada de decisão de investimentos, em especial a variância, que está relacionada ao risco: se um investidor pode escolher um entre dois ativos e ambos têm o mesmo valor esperado, a decisão pode ser por aquele com menor variância, caso o investidor deseje minimizar sua exposição a risco. Logo, além de valores esperados, intervalos de previsão para a taxa de retorno podem ser bastante úteis para a tomada de decisão de investimentos. Assim sendo, a proposta deste trabalho não é explorar oportunidades de lucro em um suposto mercado ineficiente, mas sim, através da construção de modelos válidos, efetuar previsões de aspectos da distribuição de probabilidade da taxa de retorno futura, em especial intervalos de previsão. Capítulo 3. Séries Temporais Financeiras 37 3.2.2 Estimativa de Volatilidade Em séries temporais de taxas de retorno logarítmico é comum que haja heteroscedasticidade condicional, ou seja, a variância muda ao longo do tempo e tal mudança depende das variâncias anteriores. Neste trabalho, considera-se o desvio padrão σt da distribuição de rt como medida de volatilidade. No contexto do problema de construir intervalos de previsão para a taxa de retorno futura, a estimativa da volatilidade seguinte pode ser de grande utilidade. Infelizmente, as volatilidades não são observáveis diretamente, pois a heteroscedasti- cidade implica que tipicamente σt ̸= σt−1 e para cada período t há apenas uma taxa de retorno r 4t . Entretanto, se for admitida a premissa de que a volatilidade varia lentamente, então σt pode ser aproximada considerando n retornos anteriores. Se n for muito grande, a volatilidade média da janela de n períodos pode não ser uma boa aproximação para σt. Por outro lado, se n for muito pequeno a estimativa pode não ser boa por falta de dados. Ao longo do tempo, diversos estimadores de volatilidade foram propostos. Em geral eles assumem que o preço logarítmico segue um caminho aleatório contínuo no tempo e nos valores (um movimento Browniano) e então calculam a volatilidade com base nos preços de abertura, mínimo, máximo e de fechamento, ou seja, consideram tanto o começo e final do caminho quanto os extremos atingidos. Neste trabalho é adotado o estimador VY Z proposto por Yang e Zhang (2000): VY Z = VO + kVC + (1− k)VRS (3.5) onde: 1 ∑n V 2O = 1 (oi − o) (3.6)n− 1 ∑i=1n VC = 1 (ci − c) 2 (3.7) n−∑ i=11 n VRS = [ui(ui − ci) + di(di − ci)] (3.8) n i=1 = α− 1k α + n+1 (3.9) n−1 e considere-se ainda que: Ci é o preço de fechamento do período i, Oi é o preço de abertura do período i, 4 O estimador clássico de desvio padrão é baseado numa amostra aleatória tomada de uma mesma população. Como o desvio padrão muda ao longo do tempo, cada rt vem de uma população diferente, logo o estimador clássico, que é definido para amostras com pelo menos dois elementos, não se aplica. Capítulo 3. Séries Temporais Financeiras 38 Hi é o preço máximo do período i, Li é o preço mínimo do período i, oi = lnOi − lnCi−1 é o preço normalizado de abertura, ui = lnHi − lnOi é o preço normalizado máximo, di = lnLi − lnOi é o preço normalizado mínimo, ci = lnCi − lnOi é o preço normalizado de fechamento, o = 1 ∑ni=1 oi é a média do preço normalizado de abertura,n c = 1 ∑n n i=1 ci é a média do preço normalizado de fechamento, n é a quantidade de períodos considerados na estimativa, e α = 1,34 é sugerido pelos autores. Segundo os autores, o estimador VY Z possui as seguintes propriedades: a) não é enviesado assintoticamente, mesmo se E[rt] ̸= 0; b) é tolerante a gaps de abertura5; c) possui variância mínima6. Na prática, os preços logarítmicos não seguem exatamente um caminho aleatório contínuo, pois as variações possíveis de preço são discretas7 e a evolução não é contínua e sim negócio a negócio. Quando os preços das ações são muito baixos, de modo que uma variação mínima é relativamente grande, ou quando há poucos negócios no período considerado, o estimador é enviesado. Os autores propõem uma correção no estimador para esses casos, porém sua variância aumenta. Como as ações estudadas neste trabalho apresentam alto volume de negociação8 e valores de preços razoavelmente altos em relação à variação mínima permitida, o viés no estimador não corrigido é pequeno, exceto talvez pelas séries com taxa de amostragem de 10 minutos. É importante destacar que os estimadores de volatilidade são calculados considerando uma janela de tamanho n > 1. Se durante a janela o preço variar de forma monótona (não decrescente ou não crescente), a volatilidade é nula, dado que a mudança pode ser explicada apenas por uma constante. Entretanto dado que a estimativa é baseada nos preços de 5 A expressão gap de abertura descreve a situação na qual o preço de abertura é maior que a máxima ou menor que a mínima do período anterior. 6 Seja µ o valor desconhecido que se deseja estimar e µ̂ o valor estimado. Definindo ϵ = µ− µ̂ como o erro cometido, a variância do estimador é Var(ϵ), ou seja, quanto menor a variância do estimador, mais precisas as estimativas fornecidas por ele. 7 A variação mínima no preço de uma ação no Brasil é R$ 0,01. 8 Quanto maior o número de negócios, menor o erro causado pela suposição de evolução contínua de preços. Capítulo 3. Séries Temporais Financeiras 39 abertura, mínimo, máximo e de fechamento, caso a abertura coincida com o mínimo (máximo) e o fechamento com o máximo (mínimo), o estimador apontará volatilidade nula, mesmo que durante o pregão a variação de preço não seja monótona, o que é um erro. Sendo assim, nos casos em que a volatilidade estimada for nula, considerar-se-á o dado como desconhecido na série. 3.3 Modelos Estocásticos Tradicionais Na literatura de inteligência artificial aplicada ao mercado de ações, é comum a utilização de modelos estocásticos de série de tempo, seja como referência de comparação ou aplicação de forma combinada através de modelos híbridos. Existem diversos modelos estocásticos para séries temporais, entretanto nesta seção estão listados apenas os mais comuns entre as pesquisas de inteligência artificial. 3.3.1 Modelos Estocásticos Lineares Uma série temporal at é dita linear se pode ser escrita na forma (TSAY, 2010, p. 36): ∑∞ at = µ+ ψiϵt−i (3.10) i=0 Onde ψ0 = 1 e ϵt é ruído branco (do inglês, white noise), ou seja, uma sequência de variáveis aleatórias independentes e igualmente distribuídas (iid), com média 0 e variância finita. A série é dita estritamente estacionária se a distribuição conjunta de probabilidade de (at1 , . . . , at ) for invariante ao longo do tempo, onde k é um inteiro positivo arbitrário e tk k uma coleção de k inteiros. A série é dita fracamente estacionária se a média e a covariância Cov(at, at−l) forem constantes ao longo do tempo, onde l é um inteiro arbitrário (TSAY, 2010, p. 30). A estacionariedade da série é uma propriedade importante, pois garante, por exemplo, que um modelo ajustado usando uma parte suficientemente grande da série seja válido para todas as demais partes. Há dois modelos básicos para séries temporais lineares: AR(p) (auto regressivo de ordem p) e MA(q) (média móvel9 de ordem q), que podem ser escritos respectivamente como: ∑p AR(p): at = ϕ0 + ϕiat−i + ϵt (3.11) i=1 ∑q MA(q): at = θ0 − θiϵt−i + ϵt (3.12) i=1 9 A sigla MA vem do inglês Moving Average. Capítulo 3. Séries Temporais Financeiras 40 Dada uma série linear, a escolha da estrutura do modelo e sua respectiva ordem pode ser auxiliada pela função de autocorrelação ACF(l). Ela mede a correlação linear entre elementos com distância l entre si. É definida como10: ACF( ): = √ Cov(at, at−l) = Cov(at, at−l)l ρl V ar(a )V ar(a − ) V ar(at) (3.13) t t l No caso de modelos MA(q), o valor da ACF(l) é significantemente diferente de 0 para l ≤ q e 0 para l > q. Assim, se a função de autocorrelação apresenta valores significantes até um certo q e 0 em seguida, a série temporal em questão é MA(q). Já no caso das séries auto regressivas, o valor da ACF(l) decai exponencialmente e passa a ter insignificância estatística para l grandes. Nesse caso o uso da função de autocorrelação parcial PACF(l) é mais interessante. Considerando a sequência de modelos: AR(1): at = µ+ ϕ1,1at−1 + ϵt AR(2): at = µ+ ϕ2,1at−1 + ϕ2,2at−2 + ϵt . . . AR(l): at = µ+ ϕl,1at−1 + . . . + ϕl,lat−l + ϵt A função de autocorrelação parcial é definida como: PACF(l) = ϕl,l (3.14) Ou seja, o valor de PACF(l) é o coeficiente do termo at−l considerando um modelo AR(l) ajustado à série. Então se a função de autocorrelação apresenta decaimento exponencial com o aumento de l e PACF(l) apresenta valor significantemente diferente de 0 para l = p e 0 para l > p, tem-se uma série AR(p). Na Figura 6 estão os gráficos das funções de autocorrelação e autocorrelação parcial para séries AR(3) e MA(3): no canto superior esquerdo observa-se o decaimento exponencial da função ACF para a série auto regressiva, enquanto no canto superior direito a função PACF possui valores significantes11 até a defasagem 3, como esperado. Na parte de baixo os gráficos para a série de média móvel: à esquerda a função ACF com valores significativos até a defasagem 3, conforme esperado, e à direita a função PACF. É possível combinar os dois modelos básicos, formando o seguinte modelo: ∑p ∑q ARMA(p, q): at − ϕiat−i = θ0 + ϵt − θiϵt−i (3.15) i=1 i=1 A identificação das ordens p e q pode ser feita, por exemplo, através de busca exaustiva de combinações de p e q limitados a uma pequena faixa: para cada par de valores é avaliado um critério de informação que leva em consideração a verossimilhança, ou seja, quão provável é que os dados tenham sido gerados pelo modelo, e a quantidade de 10 A última igualdade é válida supondo que at seja estacionaria, ou seja V ar(at) = V ar(at−l) 11 Nos gráficos, as linhas horizontais tracejadas indicam o intervalo de confiança de 95% no caso de autocorrelação nula. Logo, valores entre elas não possuem significância estatística. Capítulo 3. Séries Temporais Financeiras 41 Figura 6 – Gráficos das funções ACF e PACF para séries AR e MA at = 0,5at−1 + 0,1at−2 + 0,2at−3 + ϵt at = 0,5at−1 + 0,1at−2 + 0,2at−3 + ϵt 0 5 10 15 20 25 30 35 0 5 10 15 20 25 30 35 Defasagem Defasagem at = 0,5ϵt−1 + 0,1ϵt−2 + 0,2ϵt−3 + ϵt at = 0,5ϵt−1 + 0,1ϵt−2 + 0,2ϵt−3 + ϵt 0 5 10 15 20 25 30 35 0 5 10 15 20 25 30 35 Defasagem Defasagem Fonte: Produzido pelo autor parâmetros do mesmo. A ordem é escolhida como a que apresenta menor valor para o critério de informação. Dentre os critérios, merecem destaque o AIC (AKAIKE, 1974), AICc (HURVICH; TSAI, 1989) e BIC (SCHWARZ, 1978). O objetivo da utilização de critérios de informação para a seleção de modelos é evitar superajuste devido à eventual complexidade do modelo, de modo a aceitar modelos mais complexos apenas se a redução do erro empírico for significativa. Esta ideia é bastante similar ao princípio de minimização do risco estrutural implementado pelas máquinas de vetores de suporte, entretanto o conceito de “complexidade” dos modelos é diferente entre estes critérios de informação e o utilizado pelas SVMs, o que leva a resultados significantemente diferentes (VAPNIK, 1998, p. 524–529). Há ainda o modelo ARIMA(p, d, q) (BOX; JENKINS; REINSEL, 2008) que é uma generalização do ARMA(p, q) na qual é incorporada a operação de diferenciação: ▽zt = zt− zt−1. O parâmetro d(indic)a quantas vezes a diferenciação é aplicada. Por exemplo, supondo que a série r = log Ptt = log(Pt)− log(Pt−1) de retornos logarítmicos siga um modeloPt−1 ARMA(p, q), a série de preços logarítmicos log(Pt) segue um modelo ARIMA(p, 1, q). ACF ACF 0,0 0,4 0,8 0,0 0,4 0,8 Partial ACF Partial ACF -0,1 0,1 0,3 0,0 0,2 0,4 0,6 Capítulo 3. Séries Temporais Financeiras 42 De forma geral pode-se escrever: ∑p ∑q ARIMA(p, d, q): (1− ϕ Bi)▽da = θ ii t 0 + (1− θiB )ϵt (3.16) i=1 i=1 Onde B é o operador defasagem: Bizt = zt−i. Tem-se então ▽dzt = (1 − B)dzt. Observa-se ainda que se zt segue um modelo ARIMA(p, d, q), então a série wt = ▽zt segue ARIMA(p, d− 1, q) e que o modelo ARIMA(p, 0, q) é equivalente a ARMA(p, q). O modelo de Caminho Aleatório pode ser expresso como um ARIMA(0, 1, 0). Se {xt} segue um caminho aleatório, então E[xt+1] = xt e a variância de xt+1 é constante e não depende do valor de xt+1. No caso de preços de ações, é de se esperar que a variância de preços maiores seja maior que a de preços menores, ou seja, o caminho aleatório não representa bem essa característica. Então é comum que se modele o logaritmo dos preços como um caminho aleatório em vez do preço em si. Assim há também a vantagem de que a operação de diferenciação leva ao retorno logarítmico12: se o logaritmo dos preços segue um ARIMA(0, 1, 0) então os retornos logarítmicos seguem um ARMA(0, 0). Caso se abra mão do requisito de variância constante, tem-se um martingal, ou seja, se E[xt+1] = xt então {xt} apresenta comportamento martingal, independente da variância ser constante ou proporcional ao valor de cada elemento da série. Algumas séries temporais apresentam a propriedade de correlações de longo prazo: valores da série separados por intervalos de tempo arbitrariamente grandes apresentam correlação significativa. Hosking (1981) propôs uma extensão do ARIMA(p, d, q) que permite que o parâmetro d seja fracionário: o ARFIMA(p, d, q). Esta extensão permite simultaneamente a modelagem de correlações de longo prazo (expressas no d fracionário) e curto prazo (expressas nos parâmetros p e q, tal como no ARIMA). A equação que define o ARFIMA(p, d, q) é igual à do ARIMA, tomando a diferenciação fracionária como uma expansão binomial: ∑⎛ ⎞∞ ▽d d = (1− 1 1B)d = ⎝ ⎠ (−B)k = 1−dB− 2d(1−d)B2− 6d(1−d)(2−d)B3−. . . (3.17)k=0 k Na Figura 7 é ilustrado o comportamento da função de auto correlação para uma série AR(3) em contraste com uma ARFIMA(3; 0,3; 0). A única diferença entre elas é a diferenciação fracionária na segunda, resultando em auto correlações significativas mesmo para defasagens grandes. 3.3.2 Modelos Estocásticos Não Lineares Além dos modelos lineares apresentados, alguns modelos não lineares aparecem recor- rentemente no estudo de séries financeiras com inteligência artificial: os que consideram 12 Vide definição de retorno logarítmico na Equação 3.2. Capítulo 3. Séries Temporais Financeiras 43 Figura 7 – Função de auto correlação: AR x ARFIMA at = 0,5at−1 + 0,1at−2 + 0,2at−3 + ϵt 0 50 100 150 Defasagem (1− 0,5B − 0,1B2 − 0,2B3)▽0,3at = ϵt 0 50 100 150 Defasagem Fonte: Produzido pelo autor que a variância muda ao longo do tempo, ou seja, lidam com séries que apresentam heteroscedasticidade. Nesta classe inicialmente tem-se o ARCH(q)13 (ENGLE, 1982): ∑q σ2t = α0 + αia2t−i i=1 (3.18) at = σtϵt Onde ϵt possui média 0 e variância unitária. σ2t é a variância condicional, que muda ao longo do tempo enquanto a variância incondicional Var( ∑at) = α q0/(1− i=1 αi) permanece constante. A detecção da presença de heteroscedasticidade condicional se dá pela análise da função de auto correlação dos quadrados dos retornos ou de seus valores absolutos. O quadrado de um retorno pode ser usado como primeira aproximação de sua variância, assim como seu valor absoluto uma aproximação para o desvio padrão. Correlações significativas indicam então que a volatilidade de um retorno depende das volatilidades anteriores. 13 Do inglês Autoregressive Conditional Heteroskedasticity. ACF ACF 0,0 0,4 0,8 0,0 0,4 0,8 Capítulo 3. Séries Temporais Financeiras 44 Bollerslev (1986) aponta que o ARCH(q) requer grandes valores de q para representar adequadamente a persistência de volatilidade encontrada normalmente em séries temporais financeiras. Propõe então uma generalização, o GARCH(p, q)14: ∑q ∑p σ2t = α + α 20 iat−i + βiσ2t−i i=1 i=1 (3.19) at = σtϵt Posteriormente, o EGARCH(p, q)15 (NELSON, 1991) foi introduzido, permitindo rea- ções assimétricas na volatilidade dependendo do sinal dos valores passados da série. Ele é linear no logaritmo das volatilidades passadas e não no quadrado, como os modelos anteriores: q∑+1 ∑p ln(σ2) = ω + α 2t ig(ϵt−i) + βiln(σt−i) i=1 i=1 (3.20) at = σtϵt onde ∑α p1 = 1, ω = (1− i=1 βi)α0, g(ϵt) = θϵt + γ(|ϵt| − E[|ϵt|]). Além da família de modelos ARCH, no contexto de aplicações de inteligência artificial na previsão de séries temporais financeiras, é relevante também o modelo de volatilidade estocástica SV16 (TSAY, 2010, p. 153): ∑p ln(σ2) = α + α ln(σ2t 0 i t−i) + νt i=1 (3.21) at = σtϵt onde ϵt são independentes e igualmente distribuídos (iid) de acordo com uma distribuição normal padrão, νt são iid e normalmente distribuídos e ϵt e νt são independentes entre si. Considerando o entendimento da proposta deste trabalho, os modelos não lineares listados acima são suficientes, especialmente o de volatilidade estocástica, cuja essência faz parte da modelagem adotada. 3.4 Análise de Séries Temporais Diversas pesquisas, cujo objeto de estudo é a aplicação de inteligência artificial na previsão de séries temporais financeiras, dedicam uma parte à análise de previsibilidade das séries em estudo. Ferramentas de variadas áreas de conhecimento são aplicadas para este fim. Nesta 14 Do inglês Generalized Autoregressive Conditional Heteroskedasticity. 15 Do inglês Exponential Generalized Autoregressive Conditional Heteroskedasticity. 16 Do inglês Stochastic Volatility. Capítulo 3. Séries Temporais Financeiras 45 seção são apresentadas algumas delas, contemplando as técnicas recorrentemente presentes na literatura. Os frutos da etapa de análise são o respaldo para os modelos de previsão propostos, construídos para tomar proveito das características evidenciadas. Inicialmente são abordadas as ferramentas para análise de relações lineares entre os elementos das séries de tempo e, em seguida, técnicas mais gerais com objetivo de detectar qualquer tipo de relação, inclusive não lineares. 3.4.1 Análise Linear O cálculo de média, desvio padrão, assimetria e curtose, em conjunto com um histograma e um gráfico de valores ao longo do tempo, fornecem as primeiras informações sobre a série temporal em estudo. De posse dessas informações é possível, por exemplo, ter noções sobre como é a distribuição dos dados ou evidenciar se há valores destoantes dos demais (outliers). Em seguida, pode-se verificar as propriedades lineares, através das funções de auto correlação (ACF) e auto correlação parcial (PACF), investigando se apresentam seme- lhanças com modelos simples (AR(p) ou MA(q)) ou ainda se é necessário aplicar algum tipo de diferenciação para tornar a série estacionária ou remover efeitos de sazonalidade. Normalmente no gráfico das funções ACF e PACF se indicam os valores críticos, sob a hipótese nula de ausência de correlação, para um determinado intervalo de confiança, tipicamente de 95%. Eventualmente aparecem correlações fora da faixa entre os valores críticos, mesmo quando não é significativa, principalmente quando se avaliam muitos valores de defasagem. Box e Pierce (1970) propuseram um teste estatístico para verificar se os dados apresentam correlação serial significativa para pelo menos algum valor de defasagem até um dado limite. Considerando duas aproximações para a distribuição dos resíduos sob a hipótese nula, adotaram a mais simples. Mais tarde, Ljung e Box (1978) estudaram as propriedades da outra aproximação e demonstraram que com ela o teste fica mais poderoso. Caso os dados apresentem correlação serial, pode-se ajustar um modelo ARIMA(p, d, q), minimizando um critério de informação como AIC, AICc ou BIC. A adequação do modelo pode ser avaliada através da aplicação do teste de Ljung e Box aos resíduos. Caso ainda haja correlação serial significativa, talvez seja preciso revisar a ordem do modelo ou remover eventuais efeitos de sazonalidade. 3.4.1.1 Correlações de Longo Prazo Nem todo tipo de correlação serial pode ser capturada por modelos ARIMA, em especial as séries que apresentam correlações de longo prazo, ou seja, quando há correlação entre valores separados por defasagens arbitrariamente longas. Séries temporais com essa característica são comuns em hidrologia (MANDELBROT; WALLIS, 1968) e tem sido estudadas há pelo menos meio século. Aparentemente o estudo pioneiro nessa área foi o de Hurst (1951 apud Capítulo 3. Séries Temporais Financeiras 46 MANDELBROT; WALLIS, 1968), que notou que a grandeza R(s)/S(s) é proporcional a sH , com 0.5 ≤ H ≤ 1, “tipicamente” 0,7. H é comumente conhecido como expoente de Hurst ou coeficiente de Hurst. R(s) é a capacidade “ideal” que uma represa deveria ter em s anos, onde por “ideal” entende-se uma capacidade mínima tal que: o fluxo de saída seja uniforme, a represa nunca transborde e ao final do período deve estar tão cheia quanto no início. Considerando {xt} a série anual de descargas do rio recebidas pela represa e tomando as somas parciais X∗(j) = ∑ji=1 xi com j no intervalo [1, s], tem-se (MANDELBROT; WALLIS, 1969): { } { } R( a bs) = max X∗(a)− X∗(s) − min X∗(b)− X∗(s) (3.22) 1≤a≤s s 1≤b≤s s Ou seja, se a represa tem a capacidade ideal ao longo de s anos, há momentos em que está muito cheia, quase transbordando, e outros em que está quase seca. S(s) é o desvio padrão do fluxo que chega à represa ao longo dos s anos. A análise R/S clássica foi formalizada por Mandelbrot (1972) e consiste em avaliar o comportamento da razão R(s)/S(s) em relação a s: em séries sem correlações de longo prazo, a razão é proporcional a sH , com H = 0,5. Reciprocamente, não há correlação de longo prazo se H = 0,5. O comportamento da estatística R(s)/S(s) foi estudado através de simulações de computador (MANDELBROT; WALLIS, 1969) e posteriormente com maior rigor matemático (MANDELBROT, 1975). Lo (1991) aponta que a estatística R(s)/S(s) pode ser superestimada quando há presença de correlações de curto prazo e propõe uma modificação para desconsiderar as correlações com alcance q. Com q = 0 o valor da estatística modificada é igual à clássica. Taqqu, Teverovsky e Willinger (1999) mostram a dificuldade em escolher um valor de q: muito pequeno pode não compensar todas as correlações de curto prazo e muito grande pode tornar o teste muito conservador, não detectando correlações de longo prazo que genuinamente existam. Propõem então que o valor de H seja obtido de outra forma. Peng et al. (1994) introduziram a análise de flutuação destendenciada, DFA (do inglês detrendend fluctuation analysis), que estima H com base na variância dos resíduos do ajustes de polinômios, tipicamente de ordem 1, a blocos de diferentes tamanhos da série. É um método bastante popular de estimativa do expoente de Hurst, mas apresenta alguns problemas em amostras de tamanho finito, conforme detalhado por Bryce e Sprague (2012). Taqqu, Teverovsky e Willinger (1995) comparam o comportamento de diversos esti- madores de H em séries que se sabe haver correlações de longo prazo: ruído gaussiano fracionário e processos ARMA com integração fracionária (ARFIMA). Taqqu e Teverovsky (1998) estenderam o trabalho anterior, incluindo mais alguns estimadores e considerando distribuições com variância maior que a normal, até mesmo infinita. Concluem que os métodos são razoavelmente robustos diante de desvios da distribuição Gaussiana e que são fortemente influenciados pelos componentes AR e MA. Neste trabalho, considerando o objetivo de previsão em detrimento de análise, foi adotado um método direto: o ajuste de um modelo ARFIMA(p, d, q) que minimize o risco Capítulo 3. Séries Temporais Financeiras 47 empírico e levando em conta o critério de informação AIC. 3.4.2 Análise Não Linear Ausência de correlação serial de curto ou longo prazos não quer dizer que os dados são independentes: podem existir relações não lineares. Com as ferramentas apresentadas na subseção anterior não é possível distinguir entre algumas séries caóticas e aleatórias. Kantz e Schreiber (2004, p. 29) dão um exemplo como exercício: gerar duas séries artificiais, a primeira {ηn, n = 1, . . . , 4096} aleatória com distribuição uniforme entre 0 e 1 e a segunda {sn, n = 1, . . . , 4096} baseada na evolução de xn, com x0 = 0,1 e x 2n+1 = 1 − 2xn, onde sn = arccos(−xn)/π. A média, desvio padrão, histograma e função de autocorrelação de {ηn} e {sn} são muito similares e ambas rejeitam a hipótese de correlação serial com o teste de Ljung-Box, entretanto {ηn} é aleatória e {sn} é determinística. Na Figura 8 estão ilustrados, de cima para baixo: a série ao longo do tempo, o histograma de valores e a função de auto correlação. As imagens à esquerda são referentes à série aleatória ηn e as da direita à série determinística não linear sn. Em tais gráficos não fica evidente qualquer diferença significativa. 3.4.2.1 Sistemas Caóticos Determinísticos Seja F : Rn → Rn a função que define as transições num espaço de estados, ou seja st+1 = F (st), com s ∈ Rni . O subconjunto invariante Λ ⊂ Rn tal que si ∈ Λ⇒ F (si) ∈ Λ é chamado atrator (KANTZ; SCHREIBER, 2004, p .33). Exemplos simples de atratores são pontos fixos, que descrevem sistemas em um estado estacionário, ou ciclos limitados, que descrevem movimentos periódicos. Um sistema caótico determinístico possui atrator com geometria complicada, tipica- mente apresentando estrutura fractal (KANTZ; SCHREIBER, 2004, p. 34). Dentre as características destes sistemas pode-se destacar que não são periódicos, apesar de que dado um estado si, eventualmente o sistema atingirá um estado sj arbitrariamente próximo de si. Além disso são extremamente sensíveis às condições iniciais, ou seja, duas trajetórias no espaço de estados partindo de pontos arbitrariamente próximos divergem em taxa exponencial. Devido a isso, apesar do determinismo, apenas previsões de curto prazo são viáveis, pois o erro na estimativa do estado atual, por menor que seja, é expandido exponencialmente com o tempo. Através da série {xt} formada por xt = f(st), onde f : Rn → R é uma função de observação, é possível estudar as propriedades de Λ e F , evidenciando por exemplo se {xt} é aleatória ou se possui algum tipo de estrutura. Na base de tal estudo está a reconstrução do espaço de estados17, que pode ser feita através do método de coordenadas 17 Ressalta-se que normalmente o espaço de estados original não é observável diretamente e se tem a disposição apenas a série temporal {xt}. Capítulo 3. Séries Temporais Financeiras 48 Figura 8 – Série aleatória x determinística não linear Evolução de ηn Evolução de sn 0 1000 2000 3000 4000 0 1000 2000 3000 4000 n n Histograma de ηn Histograma de sn 0,0 0,2 0,4 0,6 0,8 1,0 0,0 0,2 0,4 0,6 0,8 1,0 ηn sn Auto correlação: ηn Auto correlação: sn 0 5 10 15 20 25 30 35 0 5 10 15 20 25 30 35 Defasagem Defasagem Fonte: Produzido pelo autor, com base em Kantz e Schreiber (2004, p. 29) ACF Frequência ηn 0,0 0,2 0,4 0,6 0,8 1,0 0 100 200 300 400 0,0 0,2 0,4 0,6 0,8 1,0 ACF Frequência sn 0,0 0,2 0,4 0,6 0,8 1,0 0 100 200 300 400 0,0 0,2 0,4 0,6 0,8 1,0 Capítulo 3. Séries Temporais Financeiras 49 defasadas (KANTZ; SCHREIBER, 2004, p. 35), formando vetores m-dimensionais xi = (xi−(m−1)τ , xi−(m−2)τ , . . . , xi−τ , xi), onde τ é a separação de coordenadas. O valor de τ é irrelevante quando a amostra é grande e livre de ruídos, condições que normalmente não acontecem, então pode-se tomar como ponto de partida a primeira defasagem com autocorrelação nula (KANTZ; SCHREIBER, 2004, p. 38). Se m for suficientemente grande, o atrator no espaço reconstruído é equivalente ao original (KANTZ; SCHREIBER, 2004, p.143–148), assim suas propriedades podem ser estudadas e é possível, por exemplo, verificar se há dependências, lineares ou não, em {xt}, caracterizadas pela formação de estruturas limitadas no espaço reconstruído, mesmo quando o valor de m cresce, ou se a série em questão é aleatória, situação que leva os vetores xt a ficarem espalhados por todo o espaço para qualquer valor de m18. 3.4.2.2 Teste BDS de Independência Baseado no comportamento de dados aleatórios em espaços reconstruídos com coordenadas defasadas, Broock et al. (1996) propuseram o teste BDS para detectar desvios da hipótese nula de que os dados são independentes e igualmente distribuídos (iid). O teste não depende da distribuição dos dados, então os autores apontam a vantagem de ser bastante genérico e a desvantagem que pode não ser tão poderoso quanto um teste que leve em consideração a distribuição dos dados. Os autores alertam que a consistência do teste é melhor em amostras grandes, com mais de 500 observações. Para aplicar o teste, é preciso determinar alguns valores de dimensão (m) e uma distância máxima para considerar que dois pontos são vizinhos (ϵ). Tipicamente se escolhe valores de m entre 2 e 5 e de ϵ entre 0,5σ e 1,5σ, onde σ é o desvio padrão dos dados. Valores muito grandes de m podem levar à falsas rejeições, dado que o tamanho da série em análise é finito. Hsieh (1991) conduziu diversos experimentos e relata que o teste BDS é bastante poderoso com relação à detecção de muitos tipos de desvios da hipótese iid, exceto para modelos GARCH e EGARCH, ou seja, muitas vezes o teste não rejeita a hipótese nula em dados gerados artificialmente segundo o modelo GARCH e EGARCH. Para estes casos é recomendável o abandono da distribuição assintótica do teste em favor de valores críticos obtidos através de simulação. Hsieh (1993) aponta que no caso dos resíduos de modelos de volatilidade estocástica (SV), a distribuição assintótica do teste BDS se aplica. Para este trabalho, o teste BDS de independência é fundamental principalmente na avaliação de resultados com base na análise de resíduos dos modelos: ruídos iid indicam que o modelo que os gerou capturou todas as relações existentes adequadamente. 18 Dado que a série temporal em estudo é uma amostra finita, se o valor de m for muito grande não é possível que os vetores xt ocupem todo o espaço, ou seja, o poder de análise da técnica de reconstrução do espaço de estados por meio de coordenadas defasadas é limitado pelo tamanho da amostra. Capítulo 3. Séries Temporais Financeiras 50 3.4.3 Análise Baseada em Teoria da Informação Caos determinístico não é a única possibilidade de relação não linear. Alguns trabalhos investigam as propriedades de séries temporais com auxílio da entropia de Shannon (1948), que quantifica a incerteza ou quantidade de informação associada a uma variável aleatória. Considerando variáveis discretas, a entropia H é dada por: ∑ H(x) = − p(i) log p(i) (3.23) i Onde x é uma variável aleatória discreta, p(i) é a probabilidade de ocorrência da classe i e a base do logaritmo determina a unidade de medida da entropia: se for 2 a quantidade de informação é medida em bits, por exemplo. Dentre as propriedades da entropia listadas por Shannon (1948), merecem destaque no contexto deste trabalho: a) H(x) ≥ 0, com igualdade apenas no caso em que para algum i tem-se p(i) = 1 e p(j) = 0 para j ≠ i, ou seja, quando não há incerteza no valor de x; b) para uma dada quantidade n de classes, a entropia é máxima quando p(i) = 1 para n toda classe i; c) considerando duas variáveis aleatórias x e y com m e n valores possíveis respectiva- mente, tem-se a entropia conjunta H(x,y) = −∑i,j p(i,j) log p(i,j), onde p(i,j) é a probabilidade conjun∑ta de x tomar∑o valor da classe i e y∑da classe j. É possível calcu-lar entãoH(x) = − ∑i,j p(i,j) log j p(i,j) eH(y) = − i,j p(i,j) log i p(i,j). Tem- se que H(x,y) ≤ H(x)+H(y), com a igualdade ocorrendo apena se p(i,j) = p(i)p(j), ou seja, caso x e y sejam independentes; d) a entropia condicional de y dado x é dada por H(y|x) = −∑i,j p(i,j) log p(j|x = i) e representa a incerteza média a respeito de y caso se conheça o valor x. Tem-se que H(x,y) = H(x) +H(y|x) = H(x|y) +H(y) e H(y|x) ≤ H(y), com igualdade neste último caso apenas quando o conhecimento do valor de x não reduz a incerteza sobre y, ou seja, quando y não depende de x. No contexto de séries temporais, H(xt) representa a incerteza associada a xt. Caso H(xt|xt−1) = H(xt), conclui-se que xt não depende de xt−1, por exemplo. Fica claro então que a entropia pode ser uma ferramenta valiosa na análise de séries temporais, pois quantifica qualquer tipo de relação que possa existir, enquanto a correlação quantifica apenas relações lineares. No entanto, as séries temporais financeiras não são discretas19 e as definições apresentadas não se aplicam. Shannon (1948) considera também essa situação e define, de forma análoga, para x e y contínuas: 19 Os valores de preços de ações são discretos e no Brasil a variação mínima é de R$ 0,01, portanto os retornos também são discretos. Entretanto a quantidade de valores possíveis é tão grande, ainda mais considerando longos períodos e efeitos de ajustes devidos à ocorrência de eventos corporativos, que o comportamento é similar a quando são contínuos. Capítulo 3. Séries Temporais Financeiras 51 ∫ +∞ H(x) = − ∫∫ p(i) log p(i) di (3.24)−∞ H(x,y) = − ∫∫ p(i,j) log p(i,j) di dj (3.25) H(x|y) = − p(i,j) log p(i,j)( ) di dj (3.26)∫ p j Onde p(j) = p(i,j) di. Lista também algumas propriedades, dentre elas: a) H(x,y) ≤ H(x) +H(y), com igualdade se e somente se x e y são independentes; b) H(x,y) = H(x) +H(y|x) = H(x|y) +H(y) e H(y|x) ≤ H(y), com igualdade se y não depende de x; c) diferente do caso discreto, a entropia de variáveis contínuas é sensível ao sistema de coordenadas, sendo o 0 definido em uma distribuição uniforme confinada a um hipercubo de lado unitário. A entropia então pode ser negativa, caso a distribuição esteja confinada a um espaço menor do que a referência. Granger, Maasoumi e Racine (2004) propõem uma entropia métrica Sρ para medir a dependências entre variáveis aleatórias: = 1 ∫ +∞ ∫ +∞ ( 1/2Sρ 2 f1 − 1/2 f )22 dx dy (3.27) −∞ −∞ E listam algumas propriedades, dentre elas: a) é bem definida para variáveis aleatórias discretas e contínuas; b) é normalizada para 0 se x e y independentes e 1 se há uma relação mensurável exata y = m(x); c) é igual ou tem relação simples com a correlação linear no caso de distribuição normal bivariável. Dado que as funções de densidade f1 e f2 tipicamente são desconhecidas, os autores sugerem implementar o cálculo usando densidades estimadas por funções kernel e determi- nar valores críticos de Sρ, sob a hipótese nula de independência, através de permutações20. Foram realizados alguns testes com a implementação de Hayfield e Racine (2008), que segue as recomendações de Granger, Maasoumi e Racine (2004), e constatou-se que o cálculo consome muitos recursos computacionais e, consequentemente leva bastante tempo, mesmo usando paralelismo, o que dificulta análises que demandem muitas estimativas de Sρ. 20 Dada uma amostra da distribuição conjunta entre x e y contendo diversos pares (xi, yi), tem-se sob a hipótese nula de independência que caso as sequências xi e yi sejam embaralhadas separadamente, os novos pares formados ainda constituem uma amostra válida da distribuição conjunta de x e y. Daí estimando Sρ para cada operação de embaralhamento e tomando diversas operações, os valores críticos de Sρ são obtidos pelos percentis do conjunto formado pelos diversos valores obtidos. Capítulo 3. Séries Temporais Financeiras 52 3.5 Avaliação de Previsões Existem diversas formas possíveis de avaliar as previsões geradas por um modelo. A depender da natureza do problema, regressão ou classificação, há várias ferramentas à disposição. As aplicações de inteligência artificial ao mercado de ações são bastante diversificadas, assim como as ferramentas empregadas na avaliação dos resultados desses estudos. Nesta seção são apresentadas as principais métricas encontradas na literatura, suas características e algumas considerações quanto à interpretação. 3.5.1 Regressão Em problemas de regressão, há duas abordagens básicas para avaliar as previsões produzidas por um modelo: métricas de quão perto os valores previstos foram dos valores reais e análise dos resíduos a fim de atestar se o modelo é adequado. Considerando a primeira, quanto mais próximas são as previsões e os valores observados, melhor o modelo. Ou seja, busca-se o modelo que minimize os erros de previsão. Pela segunda abordagem, o modelo deve ser capaz de capturar adequadamente as características da série temporal. Por exemplo, se os dados da série apresentam correlação serial, então um modelo adequado utiliza essa característica para realizar as previsões, fazendo com que os erros não sejam correlacionados. Ou ainda, se na série há correlações de longo prazo, os resíduos de um modelo adequado não apresentam essa característica. 3.5.1.1 Métricas do Erro de Previsão Considerando a abordagem de construir um modelo que minimize os erros de previsão, é importante conhecer as características de cada métrica21 a fim de avaliá-las adequadamente. A depender do contexto, uma ou outra métrica pode ser mais adequada, de modo que não há uma que seja sempre superior às demais. Na Tabela 1 são apresentadas as métricas mais comuns encontradas na literatura de inteligência artificial aplicada à previsão de séries temporais financeiras. Algumas características são desejáveis a depender do contexto específico, por exemplo: a) robustez na presença de valores extremos: métricas baseadas nos quadrados dos erros (MSE, RMSE e NMSE) são muito sensíveis à presença de valores extremos, de modo que nesses casos os modelos favorecidos podem ser bastante diferentes dos obtidos caso os valores extremos sejam filtrados. Neste contexto é interessante aplicar uma métrica menos sensível, como o MAE22; 21 No contexto do ajuste dos parâmetros de modelos, as métricas são usadas como funções de penalidade para quantificar o risco empírico do modelo nos dados do conjunto de treinamento. 22 Vale destacar que existem outras métricas muito mais robustas a valores extremos que o MAE, porém elas não foram consideradas neste trabalho devido à pouca ou nenhuma utilização na literatura de inteligência artificial aplicada à previsão de séries temporais financeiras. Capítulo 3. Séries Temporais Financeiras 53 Tabela 1 – Métricas de erros de previsão Métrica Sigla Fórmula 1 ∑n Erro Quadrático Médio MSE ϵ2 n ii=1  ∑n Raiz do Erro Quadrático Médio RMSE √ 1 ϵ2 n ii=1 1 ∑n 2 Erro Quadrático Médio Normalizado NMSE ∑n i=1 ϵi1 n −1 i=1(y − ȳ)2n i 1 ∑n Erro Absoluto Médio MAE |ϵi| n i=1 ⏐ ⏐ 100∑n ⏐ ϵ ⏐ Erro Absoluto Percentual Médio MAPE ⏐⏐⏐ i ⏐⏐n ⏐i=1 yi Nas fó∑rmulas acima, tem-se que: ϵi = yi − ŷi representa cada erro de previsão cometido e ȳ = 1 ni=1 yi, a média dos valores.n b) facilidade de comparação: métricas adimensionais (NMSE, MAPE) são as mais interessantes quando se deseja comparar a acurácia de previsões realizadas para séries em diferentes unidades de medida. Já no caso de avaliar as previsões no contexto de apenas uma unidade de medida, métricas na mesma escala dos dados (RMSE, MAE) são desejáveis; c) suavidade: alguns modelos, como é o caso notório de redes neurais MLP, dependem de métricas de erro deriváveis. Nesses casos, normalmente é utilizada a soma dos erros quadráticos, e o erro reportado é o MSE (que não depende diretamente do tamanho dos conjuntos de treinamento/teste). Hyndman e Koehler (2006) destacam algumas características específicas de cada métrica: a) NMSE: não possui escala e compara aproximadamente a variância dos erros e dos dados, de modo que valores acima da unidade indicam que a variância dos erros é maior que a dos dados. Por ser baseado no quadrado dos erros, é sensível a valores extremos; b) MAPE: assim como o NMSE, é adimensional, entretanto em séries contendo Capítulo 3. Séries Temporais Financeiras 54 valores nulos ou muito pequenos, seu valor pode ficar muito elevado ou indefinido; c) MAE: é menos sensível a valores extremos que as métricas baseadas no quadrado dos erros, está na mesma escala dos dados e não apresenta os problemas de indefinição do MAPE. Entretanto não é adequado para comparar a acurácia entre séries diferentes. Métricas como as listadas acima são bastante úteis no ajuste/treinamento dos modelos, entretanto para avaliar os resultados obtidos por diferentes modelos é preciso aplicar testes estatísticos. O teste de Kruskal e Wallis (1952), por exemplo, pode considerar de forma conjunta todos os erros absolutos (e não apenas a média) obtidos por todos os modelos a fim de verificar se há indícios de que os mesmos não seguem a mesma distribuição. A vantagem desse teste não paramétrico em relação a paramétricos é que qualquer diferença na distribuição é considerada, e não apenas a média, ou seja, se um modelo leva a erros absolutos com menor variância do que outro, porém com mesma média, o teste de Kruskal- Wallis detecta a diferença. Uma vez identificada a diferença, pode-se aplicar um teste a posteriori a fim de identificar quais modelos geram erros absolutos consistentemente diferentes dos demais. Neste trabalho foi adotado para este fim o teste de Dunn (1964), com os ajustes propostos por Hochberg (1988) para controlar o nível de significância conjunto. 3.5.1.2 Análise de Resíduos Além da avaliação baseada nas métricas de erro, é importante também considerar as características dos mesmos a fim de atestar a adequação do modelo. Para este fim, pode-se empregar as ferramentas apresentadas na seção 3.4: teste de Ljung-Box para investigar se há correlação serial, análise R/S a fim de detectar a presença de correlações de longo prazo e o teste BDS para verificar se os resíduos são independentes e igualmente distribuídos. Caso um modelo ARIMA(p, d, q) represente adequadamente uma dada série temporal, não deve haver correlação serial nos erros de previsão. Se houver, então a ordem do modelo ou o valor dos coeficientes devem ser alterados. Para séries que apresentem correlações de longo prazo, pode-se ajustar modelos ARFIMA(p, d, q) a fim de capturar tal característica. Caso o modelo seja adequado, os resíduos não devem possuir correlações seriais de longo ou curto prazos, situação que pode ser verificada através do teste de Ljung-Box e análise R/S. Os modelos com objetivo de capturar a heteroscedasticidade condicional existente nas séries normalmente produzem estimativas de valores e volatilidades correspondentes. Assim, se o modelo é adequado, não deve haver heteroscedasticidade condicional na série formada pelos valores normalizados pela volatilidade correspondente: considerando, por exemplo, o modelo ARCH (Equação 3.18), a série ϵt = at/σt não deve apresentar heteroscedasticidade condicional se o modelo for adequado. De maneira geral, se todas as características presentes numa dada série temporal são capturadas por um modelo, então seus resíduos devem ser independentes e igualmente Capítulo 3. Séries Temporais Financeiras 55 distribuídos (iid), hipótese que pode ser verificada com auxílio do teste BDS. 3.5.2 Intervalos de Previsão Alguns modelos de regressão produzem também intervalos de previsão, que é um intervalo para o qual há probabilidade θ (especificada a priori) de conter o valor futuro. São considerados válidos se a cobertura realizada estiver de acordo com a esperada e se não houver dependência serial na sequência induzida de “erros” e “acertos”. A avaliação de adequação da cobertura realizada pode ser feita de forma simples analisando o numero de acertos nac, que expressa quantos dos valores observados ficaram dentro do intervalo previsto. Sob a hipótese nula de adequação da cobertura realizada, esse número segue uma distribuição binomial de probabilidade com n tentativas (cada uma com probabilidade θ de acerto), ou seja, pode variar dentro de uma faixa [amin, amax] sem que haja evidência para rejeitar a adequação da cobertura realizada. A inexistência de dependência serial na sequência induzida de “erros” e “acertos” é condição necessária para que a cobertura dos intervalos de previsão seja constante. Por exemplo: supondo um intervalo de previsão com cobertura esperada de 95%, deve haver 5% de chance de o valor observado estar fora do intervalo e 95% de estar dentro. Considerando uma sequência de intervalos de previsão, a existência de dependência serial entre “erros” e “acertos” é sinônimo de que a probabilidade condicional de se ter a seguir um “erro” ou “acerto” é diferente da probabilidade incondicional23, o que implica que o intervalo de previsão seguinte não possui cobertura de 95%. 3.5.3 Classificação Apesar do foco deste estudo ser em regressão, optou-se por incluir esta breve apresentação sobre avaliação de resultados em problemas de classificação devido à grande quantidade de trabalhos na literatura de inteligência artificial aplicada ao mercado de ações que encaram o problema como classificação. Uma forma usual de avaliar os resultados em problemas de classificação é através da matriz de confusão: uma matriz quadrada cuja ordem c é a quantidade de classes no problema. O elemento aij representa quantos elementos pertencentes à classe i foram classificados como j. Tem-se então que os elementos na diagonal principal representam a quantidade de acertos em cada classe. Num classificador perfeito, teria-se aij = 0 para i ̸= j. A taxa de acerto, Ta, é uma métrica bastante aplicada na avaliação dos resultados produzidos por classificadores. Pode ser definida com base na matriz de confusão como: ∑c aii T = ∑ i∑=1a c c (3.28) i=1 j=1 aij 23 Com efeito, se as probabilidades condicional e incondicional fossem iguais então os valores seriam, por definição, independentes. Capítulo 3. Séries Temporais Financeiras 56 Ou seja, a razão entre a quantidade de acertos e a quantidade total de previsões realizadas. Quanto mais próxima de 1, melhor o classificador. Além do cálculo da taxa de acerto, a matriz de confusão pode ser usada para obter uma aproximação da distribuição conjunta de probabilidade entre as previsões e a realidade. Assim é possível verificar estatisticamente se o classificador em avaliação de fato apresenta poder preditivo melhor que um aleatório: basta aplicar o teste χ2 de Pearson (AGRESTI, 2007, p. 35–37) com (c− 1)2 graus de liberdade. Através da aproximação da distribuição de probabilidade obtida a partir da matiz de confusão, é possível também fazer cálculos de entropia e utilizar a informação mútua, I(y,ŷ) = H(y) + H(ŷ) − H(y,ŷ) entre a variável y e o preditor ŷ, para quantificar a dependência entre elas. Se I(y,ŷ) = 0 então o preditor é equivalente a um aleatório. A entropia métrica S 24ρ pode ser usada para o mesmo fim. Enquanto o teste χ2 de Pearson verifica apenas se o preditor proposto é melhor que um aleatório, a informação mútua e entropia métrica quantificam o poder preditivo desde a independência até o preditor perfeito. Entretanto, a interpretação da quantidade numérica depende do estabelecimento de intervalos de confiança, que podem ser facilmente obtidos para o caso de independência. Nesse caso, a aplicação direta do teste de Pearson é mais simples. Além da taxa de acerto e do teste de independência, no caso de problemas com apenas duas classes, a taxa de falsos positivos, ou erros Tipo I, pode ser muito importante na avaliação dos resultados. Por exemplo: uma oportunidade de lucro não explorada (falso negativo) é menos danosa que um indicativo equivocado de oportunidade (falso positivo), pois este segundo leva a prejuízo. Para um investidor averso a risco, a minimização da taxa de falsos positivos é mais importante que a maximização da taxa de acerto. 3.5.4 Avaliações Específicas do Contexto Considerando especificamente a previsão de retornos em séries temporais financeiras, a taxa de acerto dos sinais pode ser mais relevante para um investidor do que métricas como MSE ou MAE, dado que o sinal da previsão é facilmente convertido em uma ordem de compra ou venda e quanto maior a taxa de acerto, maior o número de operações com lucro. Neste contexto, se o valor do retorno futuro for −0,02, a previsão −0,07 é melhor do que 0,01: a primeira possui erro com magnitude maior porém geraria corretamente uma ordem de venda, evitando uma desvalorização. Já a segunda previsão, apesar de menor erro absoluto (ou quadrático), é pior do que a primeira, pois levaria a uma ordem de compra incorreta. A avaliação da taxa de acerto do sinal algébrico da taxa de retorno futura apresenta 24 Ver Equação 3.27 na página 51 Capítulo 3. Séries Temporais Financeiras 57 uma complicação com relação ao poder25. Sob a hipótese nula de imprevisibilidade, a taxa de acerto esperada é de 50%. Dado que a mesma segue uma distribuição binomial, é possível estimar um intervalo de confiança e testar se a taxa obtida é significativa. Entretanto, se a taxa de acerto real for pouco maior do que 50%, seria necessária uma amostra muito grande para comprovar o poder preditivo com esse teste. Por exemplo, numa amostra com 500 observações, teria-se, sob a hipótese nula, que há chance de 95% de a taxa de acerto observada estar no intervalo [45,6%, 54,4%]. Se a taxa de acerto real das previsões for de 53,8% não haveria evidências para rejeitar a hipótese nula, a não ser que a amostra contasse com cerca de 700 observações ou mais, ou seja, pelo menos 40% maior. Pesaran e Timmermann (1992) propuseram um teste estatístico mais poderoso para verificar se um estimador acerta consistentemente o sinal do valor observado. Com este teste, o poder preditivo superior a 50% do exemplo é detectado mesmo na amostra com 500 observações. Anatolyev e Gerko (2005) apontam que a rentabilidade obtida pode ser diferente do que se esperaria para uma dada taxa de acerto de sinais. Por exemplo, considerando um modelo que leva a 70% de taxa de acerto dos sinais, mas que tais acertos sejam pequenos lucros e os erros grandes prejuízos, então é mais interessante um outro modelo com taxa de acerto menor, porém maior lucro nos acertos e menor prejuízo nos erros. Baseados nesta ideia, propõem um teste estatístico (EP26) para verificar se o retorno obtido com o modelo em avaliação é melhor do que o alcançado com um emissor aleatório de ordens de compra e venda27. Saindo do caso de previsão da direção futura do preço e considerando modelos que produzem diretamente sinais de compra e venda, outras dificuldades são enfrentadas. Existe apenas uma realização da série temporal em estudo e como suas propriedades são desconhecidas, não é possível gerar séries artificiais equivalentes com objetivo de verificar estatisticamente se uma estratégia é superior às demais. Outra dificuldade é que há reaproveitamento da mesma série nos processos de construção e avaliação de tais modelos, o que aumenta a chance de data snooping, ou seja, resultados bons que acontecem por acaso e não de forma consistente. Tendo em vista essas dificuldades, White (2000) propôs um teste de realidade para verificar se dentre várias estratégias há alguma melhor que as demais. O teste é construído de forma a descontar os efeitos de data snooping. 25 O poder de um teste estatístico é a capacidade de rejeitar a hipótese nula quando de fato deve ser rejeitada. 26 Do inglês Excess Predictability. 27 No teste EP, o emissor aleatório de ordens preserva a proporção de compra/venda do modelo em avaliação. 58 4 Trabalhos Relacionados 4.1 Considerações Iniciais A literatura sobre a aplicação de técnicas de inteligência artificial ao mercado de ações é bastante vasta. Há diversas maneiras de formular o problema, iniciando pelo objetivo: pode ser a previsão de taxas de retorno (WHITE, 1988; CAO; TAY, 2001; TAY; CAO, 2001; TAY; CAO, 2002a; TAY; CAO, 2002b), previsão de preços (TRAFALIS; INCE, 2000; ROUAI; AHMED, 2002; PAI; LIN, 2005; BAO et al., 2005; OLIVEIRA et al., 2011), previsão do sinal das taxas de retorno (KIM, 2003; HUANG; NAKAMORI; WANG, 2005), reconhecimento de bons momentos de compra e venda (GRUDNITSKI; OSBURN, 1993), seleção de bons ativos para compor uma carteira de investimentos (ATIYA; TALAAT; SHAHEEN, 1997) e outros. Além do objetivo, é preciso determinar qual será o tipo de ativo financeiro em estudo: ações, índices de ações, opções, commodities, etc. Ainda há que se considerar quais informações utilizar na modelagem para atingir o objetivo escolhido: valores anteriores da série temporal em estudo1, indicadores técnicos, indicadores fundamentalistas, taxas de juros, inflação e câmbio, desempenho de outras bolsas ou ainda dados específicos do negócio em questão, como o uso da previsão de chuvas numa região produtora quando a intenção é prever o preço de commodities agrícolas. Outro aspecto importante na modelagem é a taxa de amostragem dos dados: intraday, diária, semanal, mensal, quadrimestral, etc. A escolha dessa taxa influencia no quesito de quais informações utilizar na modelagem, por exemplo, se o modelo lida com dados amostrados a cada 30 minutos, possivelmente a taxa de inflação, que é normalmente divulgada mensalmente, seria de utilidade questionável dado que permaneceria constante por períodos muito longos quando comparada aos demais dados. Evidentemente a técnica de inteligência artificial empregada é fundamental: redes neurais artificiais, máquinas de vetor suporte, regras fuzzy, sistemas especialistas ou ainda abordagens híbridas. Os modelos baseados em IA podem ainda ser aplicados de maneira isolada ou combinados com modelos estatísticos. Alguns trabalhos inclusive tratam especificamente da tarefa de efetuar previsões do mercado de ações e dos cuidados necessários. Hellström e Holmström (1998) trazem diversas considerações sobre a formulação do problema, sobre modelos estatísticos e de aprendizado de máquina que podem ser usados, sobre como avaliar o desempenho dos modelos e outras. Em especial ressaltam a importância de comparar o desempenho de um modelo mais elaborado com o de um preditor baseado num modelo simples como o caminho aleatório a fim de verificar se de fato há melhoria significativa. Kaastra e Boyd (1996) discutem especificamente a aplicação de redes neurais artificias, propondo uma 1 Desde que aplicável. Por exemplo, se o objetivo é a classificação entre bons e maus ativos, não há uma série temporal envolvida na formulação do problema. Capítulo 4. Trabalhos Relacionados 59 metodologia de modelagem composta por oito passos: seleção de variáveis para usar como entrada, coleta dos dados, pré-processamento, definição de conjuntos de treinamento, teste e validação, definição de arquitetura da rede neural artificial, escolha do critério de avaliação de desempenho, treinamento da rede neural e finalmente sua aplicação prática. Já Hurwitz e Marwala (2012) apontam alguns cuidados que se deve ter ao desenvolver preditores para o mercado baseados em aprendizado de máquina, com intuito de evitar a obtenção de falsos bons resultados, principalmente o uso de vários conjuntos de validação para evitar overfitting. Destaca-se que, além da observação da experiência dos trabalhos de aplicações de inteligência artificial em séries temporais financeiras, o conhecimento das diversas carac- terísticas do comportamento do retorno de ações é fundamental para a construção de modelos adequados. Por isso, são apresentados também trabalhos de variadas áreas de conhecimento contendo análises acerca do comportamento de taxas de retorno de ações. 4.2 Aplicações de Redes Neurais Artificiais Zhang, Patuwo e Hu (1998) apresentam uma síntese sobre a aplicação de redes neurais artificiais para tarefas de previsão, evidenciando a diversidade de aplicações e de decisões de modelagem como tipo de normalização e métrica de avaliação de desempenho. Ressaltam ainda que até a época não era claro se redes neurais artificiais apresentavam resultados melhores do que modelos estatísticos clássicos e lembram de alguns pontos importantes sobre as mesmas, dentre eles: são modelos não lineares, de modo que se o problema for puramente linear talvez um método estatístico clássico seja mais interessante; são bastante suscetíveis a overfitting devido à grande quantidade de parâmetros a ajustar; e demandam mais recursos computacionais para treinamento do que modelos estatísticos clássicos. White (1988) propõe o uso de uma MLP para previsão de retorno diários de ações da IBM com base em retornos anteriores. Justifica o uso deste modelo pela sua capacidade de reconhecer possíveis relações não lineares presentes nos dados. A série temporal é composta por retornos do segundo quadrimestre de 1972 até o primeiro quadrimestre de 1980, totalizando 2000 pontos. O autor dividiu a série em 3 partes, contendo 500, 1000 e 500 pontos respectivamente, sendo a primeira e última partes usadas para validação e a segunda para treinamento. A rede proposta é composta por 1 neurônio na camada de saída, 5 na camada intermediária e 5 na de entrada. O treinamento é realizado de modo que cada retorno é o resultado esperado dados os 5 retornos imediatamente anteriores. A variável2 R2 = 1− var(ϵt)( ) , que estima quanto da variância de rt é capturada pelo preditor 3, var rt 2 var(xt) representa a variância da variável aleatória xt; ϵt = r̂t − rt; e r̂t é a saída produzida pela rede neural. 3 R2 vale 1 no caso de previsões sempre iguais aos valores observados, 0 quando as previsões da rede neural explicam a variância de rt tanto quanto sua média e assume valores negativos caso os erros das previsões possuam variância maior que a dos valores observados. Capítulo 4. Trabalhos Relacionados 60 é utilizada para avaliar o desempenho da MLP proposta. O valor de R2 obtido no conjunto de treinamento foi 0,175, ou seja, a rede neural foi capaz de explicar 17,5% da variância dos retornos usados no treinamento. Já o valor de R2 observado nos conjuntos de validação foi bastante próximo de 0, indicando que a rede proposta não foi capaz de generalizar. O autor considera a possibilidade de overfitting ou de haver relações entre os dados que existiam apenas no período de treinamento. Grudnitski e Osburn (1993) aplicam redes neurais artificiais para emitir sinais, em base mensal, de compra e venda para o índice S&P 500 e contratos futuros de ouro com base em retornos anteriores, volatilidade e indicadores da quantidade de dinheiro em circulação e da intenção de grandes atores do mercado. Emprega duas redes neurais em conjunto: a primeira para efetuar a previsão e a segunda para medir a similaridade do padrão apresentado com os usados no treinamento de ambas redes. Esta última funciona como um indicador de confiabilidade da previsão dada pela primeira, de modo que o sinal só é emitido se: (i) o padrão atual apresentar similaridade maior que 0,54 a pelo menos um dos padrões de treinamento; e (ii) em caso de similaridade com mais de um padrão, o sinal dos retornos entre os padrões similares for igual. De todos os sinais emitidos pelo par de redes, houve acerto de 75% e 61% para o índice S&P 500 e contratos futuros de ouro respectivamente. Os autores empregam matrizes de confusão e simulação de rentabilidade para avaliar os resultados obtidos. Em Atiya, Talaat e Shaheen (1997) indicadores fundamentalistas das empresas são utilizados como entrada para uma rede neural cuja saída é 1 para as ações que apresentam um aumento de 20% em algum momento dos 12 meses seguintes, −1 para as ações que apresentam queda de 20% e 0 se nenhum dos casos anteriores for observado. A rede então funciona como um classificador que indica o desempenho esperado para as ações. Através de simulação de lucro utilizando uma carteira composta pelas ações classificadas como boas pela rede neural comparado ao de uma carteira com todas as ações consideradas, os autores reportam que a rede como seletor de ações para compor uma carteira leva a um resultado muito superior. Kohara et al. (1997) aplicam redes neurais para prever as variações diárias do índice TOPIX da bolsa de Tokyo. Utilizam variação anterior, variação na bolsa de Nova York, taxa de câmbio entre o Dólar e o Yen, preço do barril de petróleo, taxas de juros e indicadores extraídos manualmente de notícias. Utilizando o erro médio de previsão, comparam o desempenho das redes com um modelo de regressão linear múltipla e constatam que as redes apresentam previsões estatisticamente melhores. Apontam ainda que (i) usando apenas 5 variações anteriores na previsão ou (ii) séries de 3 valores anteriores de cada uma das informações como entrada, os resultados iniciais não são superados. Um estudo comparativo entre três tipos de redes neurais para classificação de tendências nos preços diários de ações é apresentado em Saad, Prokhorov e Wunsch (1998). Propõe 4 Numa escala de 0 a 1, sendo 0 completa falta de similaridade e 1 similaridade total. Capítulo 4. Trabalhos Relacionados 61 ainda a investigação de características de sistemas caóticos determinísticos como forma de análise de previsibilidade, em especial o cálculo do expoente de Lyapunov, que deve ser positivo e finito. Considerando como métrica a quantidade relativa de falsos positivos, os autores concluem que todos os três tipos de redes são viáveis para a tarefa, não tendo sido constatado superioridade de uma em relação às demais. Zhang (2003) propõe o uso combinado de ARIMA e MLP para previsão de séries temporais: inicialmente o modelo linear é empregado e então a MLP é aplicada para capturar as não linearidades presentes nos resíduos do primeiro modelo. O modelo híbrido é aplicado a séries temporais compostas por (i) dados anuais sobre manchas solares, (ii) dados anuais de captura de linces num distrito do Canadá e (iii) dados semanais da taxa de câmbio entre o Dólar Americano e a Libra Esterlina. Os experimentos realizados indicam que o uso combinado dos modelos leva a previsões melhores do que as obtidas pelos modelos aplicados isoladamente, considerando o erro quadrático médio e o erro absoluto médio. Em Tan, Quek e Ng (2005) é utilizado um algoritmo de aprendizado especializado para uma rede neuro-fuzzy afim de prever tendências nos preços de ações, baseado nos preços diários de abertura, mínimo, máximo e fechamento anteriores. Da rede neuro-fuzzy podem ser extraídas regras que explicam seu funcionamento, uma vantagem sobre as redes neurais artificias comuns, que são como caixas pretas. Os autores utilizam as taxas de erro Tipo I (falsos negativos) e Tipo II (falsos positivos) para avaliar o desempenho dos modelos e os resultados apontam que a abordagem híbrida proposta é bastante promissora, principalmente em capacidade de generalização. Oliveira et al. (2011) utilizam MLPs para realizar previsão de preços da ação PETR4, negociada na BOVESPA. A previsão é realizada para um determinado horizonte, ou seja, quantos preços futuros são previstos, baseado numa janela de preços anteriores. Os autores então variam o tamanho da janela entre 5 e 22 dias e o horizonte de previsão entre 1 e 110 dias. Considerando o erro quadrático médio e erro percentual médio, concluem que as melhores previsões são obtidas utilizando janelas de 5 dias para horizontes de 1 dia. Vicente (2011) apresenta um estudo detalhado sobre a aplicação de técnicas de inteli- gência computacional ao mercado de ações brasileiro: após a seleção das ações em estudo, estas são agrupadas através do k-means de acordo com seu comportamento de preços. Para cada grupo de ações são treinadas redes neurais artificiais com base em informações de preços (de abertura, mínimo, máximo e fechamento), volume e um indicador técnico dos cinco dias anteriores mais o atual. O autor considerou dois tipos de saída: na primeira o problema é de classificação, de modo que a saída esperada é a indicação de uma dentre cinco classes (“muito baixa”, “baixa”, “estabilidade”, “alta” e “muito alta”) de desempenho para a média de preço dos três dias seguintes em relação ao preço atual, e na segunda o problema é de regressão e a saída esperada é o valor numérico da média. Na abordagem de classificação, o resultado geral foi bastante similar ao de um classificador aleatório, Capítulo 4. Trabalhos Relacionados 62 enquanto que na regressão os resultados foram muito bons. Foi realizada ainda uma simulação de rentabilidade baseada em sinais de compra e venda gerados a partir dos resultados das redes, na qual é constatada a superioridade dos modelos de inteligência computacional em relação à estratégia de “comprar e manter” durante o período em avaliação. 4.3 Aplicações de Máquinas de Vetores de Suporte Além de redes neurais artificias, máquinas de vetores de suporte têm sido aplicadas mais recentemente em problemas relacionados ao mercado de ações. Sapankevych e Sankar (2009) apresentam diversas de suas aplicações em problemas de previsão de séries temporais, incluindo as financeiras. Enumeram vantagens como pequeno número de parâmetros livres e garantia de solução ótima global no treinamento como diferencial em relação às redes neurais artificiais, ao mesmo tempo em que são capazes também de se ajustar automaticamente aos dados, capturando inclusive relações não lineares. Trafalis e Ince (2000) aplicam máquinas de vetores de suporte para a previsão do preço de ações baseada nos três preços anteriores. Fixam ε em 0 e C em 106 e variam o parâmetro σ do kernel gaussiano entre 0,95 e 15, reportando o erro quadrático médio. Comparam o resultado obtido com o apresentado por redes neurais artificiais MLP e RBF. Apontam que com σ ≥ 10 se obtém os menores valores de erro quadrático médio, que é maior do que o apresentado pelas redes MLP e menor do que das redes RBF. Cao e Tay (2001) comparam máquinas de vetores de suporte e redes MLP para previsão de taxas de retorno de ações com base em taxas anteriores e indicadores técnicos. Constatam desempenho superior da máquina de vetor de suporte com respeito ao erro quadrático médio normalizado, erro absoluto médio e taxa de acerto do sinal. Constatam ainda que o desempenho da máquina de vetor de suporte para este problema é pouco sensível a grandes variações nos parâmetros C e ε. Modificações nas máquinas de vetores de suporte foram propostas para lidar com séries temporais não estacionárias. Tay e Cao (2002a) propõem um modelo no qual o parâmetro ε decai exponencialmente em vez de permanecer constante, de modo que pontos “recentes”5 são usados em maior quantidade do que os mais antigos, de modo que a máquina de vetor de suporte resultante está mais ajustada para as condições recentes da série temporal. Os autores aplicam o modelo modificado na previsão de retornos de ações e constatam, baseado no erro quadrático médio normalizado, que o modelo modificado gera previsões melhores do que o modelo com ε constante. Outra modificação, com mesmo objetivo da anterior, é proposta em Tay e Cao (2002b): em vez de manter o parâmetro C constante, ele é multiplicado por um fator que aumenta gradativamente, de modo que os pontos 5 Nesse modelo, a ordem dos exemplos no conjunto de treinamento é importante: deve refletir a mesma ordem em que aparecem na série temporal. Capítulo 4. Trabalhos Relacionados 63 mais “recentes” fora da tolerância determinada pelo ε recebem mais peso no treinamento. O erro quadrático médio normalizado do modelo modificado é comparado ao do modelo padrão e ao de um modelo modificado treinado com os valores invertidos com relação à série temporal original6, evidenciando que o modelo modificado é melhor do que o modelo padrão que por sua vez é melhor do que o modelo modificado invertido. Já Bao et al. (2005) propõem a introdução de um parâmetro de peso associado a cada elemento do conjunto de treinamento, de modo que elementos mais “recentes” recebem peso maior, com efeito similar à abordagem de Tay e Cao (2002b). O erro quadrático médio normalizado evidencia que a máquina de vetor de suporte modificada fornece previsões mais precisas. Os resultados destes trabalhos apontam que as séries de retornos não são estacionárias e que o treinamento com mais peso para os dados recentes leva a previsões mais precisas. Yang et al. (2004) sugerem duas modificações: o uso da largura da margem inferior, εd, diferente da superior, εu, e a variação da(s) largura(s) ao longo do tempo. No caso de previsão de retorno de ações, valores observados acima do previsto, apesar de caracteri- zarem erro de previsão, são muito mais toleráveis do que os erros nos quais se observam valores menores do que a previsão. Considerando esses dois casos, os autores empregam respectivamente o erro absoluto médio superior7 e o erro absoluto médio inferior8 para avaliar os modelos, além do erro absoluto médio. Concluem que quando εd e εu são ajusta- dos de forma independente o erro absoluto médio inferior pode ser bastante reduzido em relação ao modelo com εd = εu. Ressaltam ainda que resultados melhores são obtidos com o modelo que permite variação da(s) largura(s) de margem(ns) ao longo do tempo. Kim (2003) compara o desempenho de máquinas de vetores de suporte, redes neurais artificiais e k-NN na previsão do sinal do retorno do dia seguinte de um índice de ações, utilizando como entrada 12 indicadores técnicos. As maiores taxas de acerto no conjunto de teste foram obtidas pela máquina de vetor de suporte (57,83%), seguida da rede neural (54,73%) e por último k-NN (51,99%). O autor ressalta que há significância estatística apenas do desempenho da máquina de vetor de suporte em relação ao k-NN. Pai e Lin (2005) propõem uma abordagem similar a Zhang (2003), mas utilizando máquinas de vetores de suporte combinadas com ARIMA, em vez de redes neurais MLP. O modelo híbrido foi aplicado para previsão de preços diários de 10 ações e foi melhor que ambos os modelos aplicados individualmente, segundo 4 critérios de avaliação de desempenho no conjunto de teste: erro absoluto médio, erro absoluto percentual médio, erro quadrático médio e raiz do erro quadrático médio. 6 Com essa inversão, os pontos mais antigos r∑ecebem mais peso do que os mais recentes.7 Up side Mean Absolute Error : UMAE = 1 mm i=1,a ≥p (ai − pi), onde m é o número de elementos noi i conjunto de teste, ai é o valor observado e pi é∑o valor previsto.8 Down side Mean Absolute Error : DMAE = 1 mm i=1,a

. Acesso em 22 jul. 2014. 6 Disponível em . Acesso em 14 jul. 2015. A disponibilização iniciou em setembro de 2013, com dados desde julho do mesmo ano e, a partir de julho de 2015, ficarão disponíveis apenas dados referentes aos dois anos anteriores em relação à data de acesso. Capítulo 5. Estudo Proposto 70 codificação, apesar da disponibilidade de arquivos históricos de cotações desde 1986, apenas o período de 01/01/1999 a 31/12/2012 foi considerado neste estudo, para as séries diárias e semanais. Além disso, foram adquiridos7 junto à BM&F-Bovespa os dados negócio a negócio do período de 01/12/2007 a 31/12/2009, dos quais foram extraídas as informações de cotação intraday. No restante desta seção serão abordados alguns aspectos quanto à obtenção das séries temporais em estudo a partir dos dados disponibilizados pela BM&F-Bovespa, bem como algumas informações gerais sobre as mesmas. 5.3.1 Tratamento dos Dados As séries temporais em estudo são formadas principalmente a partir dos arquivos de cotações dos pregões, contudo é preciso considerar também o registro de eventos corporativos8. Os primeiros contém diversas informações como os preços de abertura, máximo, mínimo e fechamento de cada ação em cada pregão, bem como o total de títulos negociados, número de negócios, volume financeiro total e outras. Já o registro de eventos contém informações sobre a natureza (desdobramento, agrupamento, bonificação em ações, proventos em dinheiro, etc.), a data com, a data de deliberação9, a que tipo de ação se aplica (ordinária e/ou preferencial) e outras. O ajuste a eventos é necessário pois a série bruta de preços pode conter efeitos causados pelos eventos. Por exemplo, em caso de desdobramento de uma ação em duas, a série bruta de preços vai apresentar uma queda de cerca de 50%, que não corresponde à variação observada pelo acionista, já que o mesmo passa a ter o dobro da quantidade de ações. A série corrigida é formada por uma ação teórica da empresa, do mesmo tipo da original (ordinária ou preferencial), que não passa por eventos corporativos. A ação teórica é como uma carteira contendo inicialmente uma ação original. Quando acontece um evento, todas as ações dessa carteira teórica são “vendidas” pelo valor do preço com e o valor monetário obtido é integralmente reinvestido na compra de ações pelo preço ex teórico, cujo cálculo se dá de acordo com (BM&F-BOVESPA, 2014): = Pcom + (S × Z)−D − J −R− VPex 1 + + (5.5)B S Onde: Pex: preço ex teórico. 7 Na época da aquisição, os dados negócio a negócio não eram ainda disponibilizados gratuitamente. Após a mudança foi decidido estender este estudo para séries intraday. 8 Para cada empresa listada na bolsa de valores, há uma seção que contém o registro de even- tos corporativos, por exemplo: . Acesso em 22 jul. 2014. 9 Caso seja necessário, a ata da reunião ocorrida na data de deliberação pode ser consultada para obter mais detalhes sobre o evento. Capítulo 5. Estudo Proposto 71 Pcom: preço de fechamento na data com. S: fator de subscrição, normalmente entre 0 e 1. Z: valor de emissão da ação a ser subscrita. D: valor recebido a título de dividendos. J: valor recebido a título de juros sobre capital próprio, líquido de imposto. R: rendimentos líquidos de impostos. V : valor econômico resultante do recebimento de provento em outro tipo/ativo. B: percentual de bonificação, desdobramento ou grupamento10. O efeito do ajuste de preços é ilustrado na Figura 9. Percebe-se que as grandes quedas abruptas observadas no gráfico de preços brutos, correspondentes a eventos como desdobramentos, não aparecem no gráfico de preços ajustados. O cálculo do preço ex teórico para cada data onde há eventos foi auxiliado por um script que extrai do registro de eventos corporativos as variáveis necessárias na Equação 5.5, quando possível. Muitas vezes, entretanto, é necessário consultar a ata da reunião onde aconteceu a deliberação sobre o evento para obter os valores. Considerando o esforço necessário para tratar todos os eventos de todas as empresas listadas na BOVESPA e ainda que o objetivo deste trabalho não é uma análise exaustiva, as empresas foram priorizadas utilizando o mesmo mecanismo aplicado no IBOVESPA para ponderar as ações, o Índice de Negociabilidade (BM&F-BOVESPA, 2014): ∑ √P 3 ni i=1 × ( vi )2IN = Ni Vi (5.6) P Onde: ni: número de negócios no dia i com a ação no mercado a vista (lote-padrão). Ni: número total de negócios no dia i no mercado a vista (lote-padrão). vi: volume financeiro no dia i gerado pelos negócios da ação no mercado a vista (lote- padrão). Vi: volume financeiro total no dia i no mercado a vista (lote-padrão). P : número total de pregões no período. 10 No caso de grupamentos, −1 < B < 0. Por exemplo, se cada 2 ações são agrupadas em 1, então B = −0,5. De forma geral se há um grupamento n:1, então B = 1/n− 1. O valor divulgado no registro de eventos corporativos no caso de desdobramentos e bonificações já é o valor percentual necessário para o cálculo do preço ex teórico. Capítulo 5. Estudo Proposto 72 Figura 9 – Preços brutos x corrigidos – PETR4 PETR4 - Preços Brutos [1999-01-04/2012-12-17] 500 200 100 50 20 Jan 04 Jan 02 Jan 06 Jan 03 Jan 02 Jan 05 Jan 03 Dez 17 1999 2001 2003 2005 2007 2009 2011 2012 PETR4 - Preços Corrigidos [1999-01-04/2012-12-17] 50,0 20,0 10,0 5,0 2,0 1,0 0,5 Jan 04 Jan 02 Jan 06 Jan 03 Jan 02 Jan 05 Jan 03 Dez 17 1999 2001 2003 2005 2007 2009 2011 2012 Fonte: Produzido pelo autor Tomando o Índice de Negociabilidade da empresa como o somatório do IN de suas ações e considerando o período de 01/01/1999 a 31/12/2012, é possível identificar as empresas com maior IN, conforme listagem da Tabela 2. Os cálculos de preço ex teórico foram realizados para as ações das duas primeiras: Petrobras (PETR3 e PETR4) e Vale (VALE3 e VALE5). As empresas escolhidas através do índice de negociabilidade possuem grande quantidade de negócios realizados, bem como são responsáveis pela movimentação de grandes volumes financeiros. Com isso, eventuais efeitos devido ao uso de amostras finitas são reduzidos e a aproximação realizada no cálculo de volatilidade através do estimador de Yang e Zhang (2000) fica mais precisa. Assim, reduz-se o número de fatores a serem considerados no estudo, o que permite tratar mais detalhadamente do foco: a aplicação de máquinas de vetores de suporte na previsão da distribuição de probabilidade da taxa de retorno futura. De posse das cotações corrigidas em relação aos eventos corporativos, é possível construir Capítulo 5. Estudo Proposto 73 Tabela 2 – Índice de Negociabilidade Empresa Índice de Ação Índice de Negociabilidade Negociabilidade −1 Petroleo Brasileiro S.A. 1,7121× 10−1 PETR4 1,3595× 10PETR3 3,5254× 10−2 Vale S.A. 1 0912× 10−1 VALE5 8,6779× 10 −2 , VALE3 2,2344× 10−2 −2 Bco Bradesco S.A. 5 3797× 10−2 BBDC4 5,0565× 10, BBDC3 3,2325× 10−3 −2 Centrais Elet Bras S.A. 4,7977× 10−2 ELET6 3,0956× 10ELET3 1,7021× 10−2 −2 Embratel Participacoes S.A. 3,4536× 10−2 EBTP4 2,6895× 10EBTP3 7,6405× 10−3 −2 Usinas Sid de Minas Gerais S.A. 3 3315× 10−2 USIM5 3,1067× 10, USIM3 2,2476× 10−3 −2 Cia Energetica de Minas Gerais S.A. 3,0945× 10−2 CMIG4 2,9507× 10CMIG3 1,4372× 10−3 Cia Siderurgica Nacinal 2,7136× 10−2 CSNA3 2,7136× 10−2 Gerdau S.A. 2 4163× 10−2 GGBR4 2,3143× 10 −2 , GGBR3 1,0205× 10−3 −2 Itausa Investimentos Itau S.A. 2,0728× 10−2 ITSA4 2,0588× 10ITSA3 1,4062× 10−4 as séries de taxas de retorno {rt}, volatilidades {σt} e taxas de retornos normalizadas {st}, aplicando respectivamente as equações 3.2, 3.5 e 5.3. Nas séries obtidas podem existir tanto valores extremos (outliers) quanto valores des- conhecidos. Valores extremos podem ser resultados da divisão por volatilidades estimadas muito pequenas ou mesmo algum tipo de erro no arquivo de cotações ou no tratamento dos eventos corporativos. Já valores desconhecidos podem ser originados das situações nas quais o movimento de preço acontece em apenas um sentido, de modo que a abertura coincide com um dos extremos e o fechamento com o outro. Nesses casos, uma constante é suficiente para explicar o movimento e a volatilidade estimada é nula. Conforme discutido na subseção 3.2.2, tal estimativa possivelmente é um erro pois, apesar da coincidência dos extremos, é pouco provável que o movimento de preços tenha sido monótono ao longo do período. Para a detecção de valores extremos, foi tomada como referência um intervalo definido em termos da amplitude inter-quartil (IQR11), ou seja, são considerados como extremos os valores maiores do que da soma do terceiro quartil dos dados com cinco vezes a IQR ou aqueles menores do que a subtração de cinco vezes a IQR do primeiro quartil. Tal abordagem é muito simples considerando que os dados em questão formam uma série temporal, ou seja, há o risco de tratar como extremo um valor normal ou o contrário. Por outro lado, métodos mais sofisticados para detecção de valores extremos em séries temporais, como o de Chen e Liu (1993), supõem alguma estrutura específica para a série. Considerando que um dos objetivos da aplicação de técnicas de inteligência artificial na 11 Do inglês Interquartile Range: um intervalo que abrange 50% dos valores considerados. Capítulo 5. Estudo Proposto 74 previsão de séries temporais é justamente dispensar suposições a priori sobre a estrutura das mesmas e que, caso haja alguma relação não considerada, o modelo mais sofisticado apresenta os mesmos riscos, optou-se pela definição mais simples. Neste estudo, o tratamento de valores desconhecidos e de valores extremos é o mesmo: são substituídos pelo valor obtido por interpolação linear com base nos valores dos pontos adjacentes. Outros critérios seriam aplicáveis, como substituir o valor desconhecido/extremo pela média dos demais ou pelo valor anterior, entretanto, dado que nas séries em estudo há poucos valores extremos ou desconhecidos em relação ao tamanho da série, conforme descrito mais a frente na tabela 3, e considerando a presença dos termos estocásticos, tem-se que o critério de tratamento utilizado tem pouco impacto nos resultados. 5.3.2 Descrição das Séries Temporais Das quatro ações com cotações tratadas, foram escolhidas duas para o estudo, uma prefe- rencial e outra ordinária: PETR4 e VALE3. Para cada ação, foram consideradas três taxas de amostragem: semanal, diária e intraday de 10 minutos. Para cada taxa de amostragem, foram montados quatro tipos de séries: retornos logarítmicos (Equação 3.2), retornos normalizados (Equação 5.3), volatilidade logarítmica (tal como aparece na Equação 5.2) ou volatilidade bruta (Equação 3.5). As séries foram nomeadas de acordo com a seguinte convenção: AÇÃO_TIPO_AMOS- TRAGEM, ou seja, o primeiro campo indica qual ação originou a série, o segundo indica o tipo: taxa de retornos logarítmica (RL), taxa de retornos normalizada (RN), volatilidade logarítmica (VL) ou volatilidade bruta (VB), e o último campo a taxa de amostragem: semanal (W), diária (D) ou intraday de 10 minutos (I). Na Tabela 3 estão listadas algumas informações básicas das séries temporais em estudo e na Figura 10 os gráficos das séries semanais. 5.4 Construção dos Modelos de Previsão Neste estudo, são aplicados alguns modelos de previsão às séries descritas anteriormente e então os resultados são comparados com intuito de identificar se há algum modelo melhor que os demais com respeito a cada cenário de uso das previsões. Em especial, deseja-se verificar se a utilização de máquinas de vetores de suporte, de forma isolada ou combinada com outros modelos, leva a ganhos significativos. Como entradas para os modelos de previsão são fornecidos os valores anteriores da série e como saída se espera uma estimativa para o próximo valor e intervalos de previsão12 com variados níveis de cobertura esperados. Neste estudo, foram construídos intervalos 12 Intervalos de previsão são construídos apenas para os modelos aplicados às séries de retornos, normalizados ou não, uma vez que o escopo deste trabalho é a previsão da distribuição de probabilidade apenas da taxa de retorno futura e não da volatilidade. Capítulo 5. Estudo Proposto 75 Figura 10 – Séries temporais em estudo: amostragem semanal PETR4_VB_W PETR4_VL_W Jan 04 Jan 02 Jan 03 Jan 02 Jan 03 Jan 04 Jan 02 Jan 03 Jan 02 Jan 03 1999 2002 2005 2008 2011 1999 2002 2005 2008 2011 PETR4_RL_W PETR4_RN_W Jan 04 Jan 02 Jan 03 Jan 02 Jan 03 Jan 04 Jan 02 Jan 03 Jan 02 Jan 03 1999 2002 2005 2008 2011 1999 2002 2005 2008 2011 VALE3_VB_W VALE3_VL_W Jan 04 Jan 02 Jan 03 Jan 02 Jan 03 Jan 04 Jan 02 Jan 03 Jan 02 Jan 03 1999 2002 2005 2008 2011 1999 2002 2005 2008 2011 VALE3_RL_W VALE3_RN_W Jan 04 Jan 02 Jan 03 Jan 02 Jan 03 Jan 04 Jan 02 Jan 03 Jan 02 Jan 03 1999 2002 2005 2008 2011 1999 2002 2005 2008 2011 Fonte: Produzido pelo autor -0,1 0,1 0,3 0,05 0,20 -0,2 0,0 0,2 0,05 0,20 -4 0 2 4 -4.5 -3.0 -1.5 -4 0 4 -4.0 -2.5 Capítulo 5. Estudo Proposto 76 Tabela 3 – Descrição das séries temporais utilizadas nos experimentos Série Período Comprimento Desconhecidos Outliers PETR4_RL_W 728 0 0 PETR4_RN_W 01/01/1999 31/12/2012 727 0 0 PETR4_VL_W 727 0 0 PETR4_VB_W 727 0 5 PETR4_RL_D 3.463 0 3 PETR4_RN_D 01/01/1999 31/12/2012 3.462 0 1 PETR4_VL_D 3.462 0 0 PETR4_VB_D 3.462 0 22 PETR4_RL_I 25.224 0 258 PETR4_RN_I 01/12/2007 31/12/2009 25.223 0 17 PETR4_VL_I 25.223 0 26 PETR4_VB_I 25.223 0 288 VALE3_RL_W 728 0 0 VALE3_RN_W 01/01/1999 31/12/2012 727 1 0 VALE3_VL_W 727 1 0 VALE3_VB_W 727 1 4 VALE3_RL_D 3.455 0 2 VALE3_RN_D 01/01/1999 31/12/2012 3.454 45 5 VALE3_VL_D 3.454 45 4 VALE3_VB_D 3.454 45 23 VALE3_RL_I 24.746 0 203 VALE3_RN_I 01/12/2007 31/12/2009 24.745 653 21 VALE3_VL_I 24.745 653 24 VALE3_VB_I 24.745 653 236 Nota: As séries são nomeadas de acordo com a convenção AÇÃO_TIPO_AMOSTRAGEM, onde o TIPO pode ser: a taxa de retorno logarítmica (RL), taxa de retorno norma- lizada (RN), volatilidade logarítmica (VL) ou volatilidade bruta (VB), e AMOS- TRAGEM pode ser: semanal (W), diária (D) ou intraday de 10 minutos (I). de previsão bilaterais e unilaterais do tipo “maior que”, com coberturas esperadas de 90%, 95% e 99%. O intervalo de previsão bilateral com cobertura de 95%, por exemplo, define um intervalo [a, b] tal que, com 95% de probabilidade, a ≤ rt+1 ≤ b. Já o intervalo de previsão do tipo “maior que” com cobertura de 99%, por exemplo, define um valor a tal que, com 99% de probabilidade, rt+1 ≥ a. Para um investidor, esse segundo tipo de intervalo é de especial importância, dado que identifica uma taxa de retorno mínima com determinada probabilidade. Para todos os modelos, os intervalos de previsão são formados com base na distribuição empírica dos resíduos dos mesmos. A construção dos modelos se dá de forma iterativa, utilizando janelas deslizantes: para cada grupo de séries com mesma taxa de amostragem, é definido um tamanho de janela para otimização dos parâmetros13 do modelo e posterior ajuste/treinamento com base no 13 No caso dos modelos estatísticos de séries temporais, a otimização consiste em escolher a ordem do modelo, enquanto os valores dos parâmetros, fixada uma ordem, são encontrados no processo de Capítulo 5. Estudo Proposto 77 resultado da otimização. As previsões são realizadas para o horizonte de um valor além da janela de ajuste/treinamento e então, após realizada a previsão, a janela é deslizada adiante, incluindo o próximo valor da série e descartando o primeiro, e então é realizado um novo ajuste/treinamento e nova previsão. Este mecanismo de janelas deslizantes simula a aplicação prática, ou seja, quando a previsão é realizada, o valor real ainda é desconhecido. Por exemplo, supondo uma série com 1.000 elementos e uma janela de 500: inicialmente os valores de 1 a 500 são utilizados para formar o conjunto de otimização e assim determina- se a ordem de modelos lineares e os parâmetros dos modelos baseados em SVM, dentre eles a quantidade de elementos a utilizar como entrada. No passo seguinte o mesmo conjunto é usado para treinamento/ajuste e então é realizada uma previsão para o elemento 501, que é armazenada num vetor de previsões. A janela é então deslizada, de modo que passa a contar com os elementos 2 a 501 da série, e é realizado novo treinamento (com os parâmetros encontrados na etapa de otimização anterior) e previsão do elemento 502, que é acrescentado ao vetor de previsões. A janela desliza novamente para conter os elementos 3 a 502 e realizar a previsão do elemento 503 e assim sucessivamente até que seja realizada a previsão do elemento 1.000. Os valores no vetor de previsões podem ser considerados “fora de amostra”, dado que são totalmente desconhecidos para os processos de otimização e treinamento no momento em que são gerados. Os modelos considerados no estudo, listados na Tabela 4, são construídos e aplicados de duas formas: otimização única e otimizações múltiplas. Na primeira forma, apenas uma etapa de otimização de parâmetros acontece, na primeira janela, e então todos os ajustes/treinamentos que acontecem nas janelas seguintes utilizam os parâmetros da primeira otimização. Já na segunda forma, os resultados de cada etapa de otimização são utilizados em uma quantidade fixa de ajustes/treinamentos subsequentes e então é realizada uma nova etapa de otimização. Complementando o exemplo do parágrafo anterior: caso seja determinado que os parâmetros encontrados na otimização sejam usados 20 vezes, então a primeira otimização (feita com os elementos 1 a 500 da série) vale até a previsão do elemento 520 e uma nova otimização é feita na janela de 21 a 520, de modo que a previsão do elemento 521 se dá com os parâmetros da segunda otimização e não da primeira. Caso os resultados da aplicação com múltiplas otimizações sejam significantemente melhores, então as séries em questão não são estritamente estacionárias e fica evidenciada a importância desta característica na construção de modelos de previsão. A escolha do tamanho da janela e validade da etapa de otimização merece algumas considerações. Janelas pequenas implicam em poucos dados para ajuste/treinamento, de modo que os modelos construídos potencialmente seriam pouco precisos. Por outro lado, caso as séries não sejam estritamente estacionárias, janelas menores são preferidas a fim de explorar melhor as características específicas de cada período com o mínimo de “ajuste”. Já no caso das máquinas de vetores de suporte, mais especificamente ν-SVR com kernel RBF, a otimização consiste em escolher os valores dos parâmetros C, ν e γ, enquanto no “treinamento” são determinados os vetores de suporte e seus respectivos coeficientes. Capítulo 5. Estudo Proposto 78 contaminação de características de outros períodos, além de que janelas pequenas implicam em mais previsões realizadas14. Com janelas maiores há mais dados para treinamento e, assim, os modelos construídos potencialmente são mais precisos. Entretanto, ajustar/treinar modelos em janelas muito grandes tem alto custo computacional, principalmente na etapa de otimização, além de reduzir o número de previsões realizadas e, com isso, reduzir a precisão da avaliação de resultados. Já com relação à validade de cada etapa de otimização, valem observações similares: validades muito curtas requerem em alto custo computacional porém potencialmente leva a resultados melhores, enquanto validades mais longas levam à situação oposta. Considerando que não foi encontrado na literatura um método para a escolha desses tamanhos e que não faz parte do escopo deste estudo a busca de tamanhos ótimos, então foram arbitrados os valores listados na Tabela 5. Os modelos naivemean, naivesd, randwalk e vrandwalk são os mais triviais e são considerados no estudo para estabelecer uma referência para os demais. O modelo naivesd é aplicado às séries de retornos logarítmicos, no entanto seu resultado é avaliado com relação às séries de volatilidade bruta correspondentes. Como esses modelos não possuem parâmetros para otimizar, não há sentido em ter versões diferentes para otimização única e otimizações múltiplas. A etapa de otimização dos modelos ar_mopt, ar_sopt, var_mopt e var_sopt consiste em determinar a ordem p do modelo AR(p) subjacente. Isso é feito realizando ajustes na janela de otimização com diversos valores para p e então a ordem do modelo mais adequado é escolhida como ótima. Tal como mencionado na subseção 3.3.1, o modelo mais adequado é aquele que apresenta o menor valor para um critério de informação: neste trabalho é utilizado o AIC. Nas janelas seguintes, nas quais acontece apenas o ajuste, o valor de p é determinado pela otimização anterior. Assim, no caso dos modelos de otimização única, o primeiro valor de p é utilizado em todas as janelas subsequentes da série. Modelos baseados em AR(p) são considerados no estudo por duas razões: a) Hsieh (1991) os aplica na modelagem de séries de volatilidade e seus resultados indicaram que foi suficiente para capturar adequadamente as características das séries; b) as máquinas de vetores de suporte podem ser interpretadas como uma extensão não linear dos modelos AR(p), do mesmo modo que White (1988) aponta para redes neurais artificiais, uma vez que apenas valores anteriores da série (e não seus erros estocásticos) são considerados. Assim, ao comparar os resultados dos modelos baseados em AR(p) e SVM, é possível evidenciar se a série apresenta relações não lineares e se tal característica é importante na construção de modelos de previsão. Modelos baseados em ARMA(p, q) também foram considerados, por ser mais gerais que os baseados em AR(p). A etapa de otimização é similar aos modelos baseados em 14 Dado que as séries em estudo possuem tamanho finito e o primeiro valor para o qual é realizada uma previsão é o que está imediatamente após a primeira janela. Capítulo 5. Estudo Proposto 79 Tabela 4 – Descrição dos modelos considerados no estudo Nome Descrição Tipos de Séries Fornece a média dos valores anteriores como previsão para o pró- naivemean ximo e constrói intervalos de previsão baseados na distribuição RL, RN e VL empírica dos valores anteriores Fornece como previsão da volatilidade o desvio padrão estimado naivesd considerando os valores anteriores como amostra da população RL(VB) randwalk Fornece o valor anterior como estimativa para o próximo VL ar_sopt AR(p) com otimização única RL, RN e VL ar_mopt AR(p) com otimizações múltiplas RL, RN e VL arma_sopt ARMA(p, q) com otimização única RL, RN e VL arma_mopt ARMA(p, q) com otimizações múltiplas RL, RN e VL ARFIMA(p, d, q) com otimizações múltiplas. Utiliza todos os valores anteriores, e não somente os da janela corrente, para arfima_mopt ajustar d. p e q são ajustados sempre considerando a janela VL corrente. ARFIMA(p, d, q) com otimizações múltiplas. Todos os parâme- sarfima_mopt tros são ajustados considerando apenas a janela corrente. VL svm_sopt ν-SVR(C, ν) e kernel RBF de largura γ, com otimização única RL, RN e VL ν-SVR(C, ν) e kernel RBF de largura γ, com otimizações múl- svm_mopt tiplas RL, RN e VL Híbrido: linear (ARMA ou ARFIMA) e então não linear (ν-SVR) hlinsvm_sopt aplicado aos resíduos, com otimização única RL, RN e VL hlinsvm_mopt Similar ao anterior, porém com otimizações múltiplas RL, RN e VL Híbrido: não linear (ν-SVR) e então linear (ARMA ou ARFIMA) hsvmlin_sopt aplicado aos resíduos, com otimização única RL, RN e VL hsvmlin_mopt Similar ao anterior, porém com otimizações múltiplas RL, RN e VL vnaivemean Similar ao naivemean. Aplicado apenas à volatilidade bruta VB vrandwalk Similar ao randwalk. Aplicado apenas à volatilidade bruta VB var_sopt Similar ao ar_sopt. Aplicado apenas à volatilidade bruta VB var_mopt Similar ao ar_mopt. Aplicado apenas à volatilidade bruta VB varma_sopt Similar ao arma_sopt. Aplicado apenas à volatilidade bruta VB varma_mopt Similar ao arma_mopt. Aplicado apenas à volatilidade bruta VB varfima_mopt Similar ao arfima_mopt. Aplicado apenas à volatilidade bruta VB vsarfima_mopt Similar ao sarfima_mopt. Aplicado apenas à volatilidade bruta VB vsvm_sopt Similar ao svm_sopt. Aplicado apenas à volatilidade bruta VB vsvm_mopt Similar ao svm_mopt. Aplicado apenas à volatilidade bruta VB vhlinsvm_sopt Similar ao hlinsvm_sopt. Aplicado apenas à volatilidade bruta VB vhlinsvm_mopt Similar ao hlinsvm_mopt. Aplicado apenas à volatilidade bruta VB vhsvmlin_sopt Similar ao hsvmlin_sopt. Aplicado apenas à volatilidade bruta VB vhsvmlin_mopt Similar ao hsvmlin_mopt. Aplicado apenas à volatilidade bruta VB Tabela 5 – Tamanhos de janela de otimização/treinamento por taxa de amostragem Taxa de Amostragem Tamanho da Janela Validade da Otimização Previsões Realizadas Semanal 300 (6 anos) 9 (2 meses) 429 Diária 500 (2 anos) 22 (1 mês) 2.964 Intraday de 10 minutos 1000 (1 mês) 240 (1 semana) 24.225 Nota: Os períodos (quantidades de anos, meses e semanas) são aproximados. Capítulo 5. Estudo Proposto 80 AR(p), ou seja, são realizados ajustes para diferentes valores de p e q e o modelo mais adequado é escolhido observando o AIC. Nas janelas seguintes são realizados novos ajustes, porém utilizando a ordem identificada na etapa de otimização. A otimização dos modelos baseados em ARFIMA(p, d, q) é realizada através do método de Hyndman e Khandakar (2008): inicialmente um valor preliminar de d é estimado através do método de Haslett e Raftery (1989)15 supondo um modelo ARFIMA(2, d, 0). Então é aplicada a diferenciação fracionária à série com o valor de d encontrado. Em seguida, os valores de p e q são encontrados de forma similar a como é feito para modelos ARMA(p, q) considerando a série diferenciada. O valor final de d é estimado considerando os valores de p e q encontrados para a série diferenciada com valor preliminar de d. Para os modelos arfima_mopt e varfima_mopt, todos os valores anteriores (e não apenas os da janela de otimização corrente) são utilizados para estimar o valor de d, enquanto que os modelos sarfima_mopt e vsarfima_mopt utilizam apenas os valores na janela de otimização corrente. O intuito de considerar no estudo as duas variações é verificar o impacto do tamanho da janela no desempenho da modelagem de correlações de longo prazo. Para aplicar máquinas de vetores de suporte na previsão de séries temporais, esse problema é reduzido ao problema de aproximar uma função f : Rn → R, onde valores anteriores da série são utilizados como entradas e o próximo como saída desejada. Tem-se então que para os modelos baseados em ν-SVR com kernel RBF, é preciso determinar, no processo de otimização, os valores dos parâmetros C, ν e γ, além da quantidade n de valores anteriores da série a utilizar na previsão. Conforme mencionado anteriormente, esta forma de aplicação pode ser entendida como uma extensão não linear do modelo AR(p), na qual o formato da função f é determinado automaticamente com base nos dados e, especialmente no caso das máquinas de vetores de suporte, considerando o princípio da minimização do risco estrutural, conforme discutido na seção 2.2. Na etapa de otimização dos modelos baseados em SVMs, optou-se por aplicar a meta- heurística de Tsallis e Stariolo (1996) – o Arrefecimento Simulado Generalizado (GSA16) – para encontrar os valores de C, ν, γ e n. O GSA é uma técnica de otimização probabilística inspirada em termodinâmica: parte de uma solução inicial (um ponto em Rd, onde d é a quantidade de variáveis reais ajustáveis) e então, com auxílio de uma distribuição de probabilidade de visitação, determina um vizinho. Uma transição é realizada se o valor da função no ponto vizinho for menor que no atual ou, caso contrário, conforme uma distribuição de probabilidade de aceitação que muda ao longo do processo de acordo com uma temperatura T . No começo da otimização, o valor de T é alto e, com isso, maior a probabilidade de aceitar soluções piores do que a corrente. Em cada etapa o valor de T é reduzido, assim vai diminuindo gradativamente a probabilidade de aceitar soluções 15 Esse método encontra o valor de d dentro de um intervalo dado em conjunto com os valores de p e q. 16 Do inglês Generalized Simulated Annealing. Capítulo 5. Estudo Proposto 81 piores e então a busca realizada pelo GSA vai se aproximando à feita por um gradiente descendente. Outras meta-heurísticas podem ser aplicadas no lugar do GSA, mas este foi escolhido por ser baseado em uma solução por vez, em contraste com algorítimos genéticos, por exemplo, que dependem de avaliar diversas soluções a cada iteração e, com isso, o tempo e os recursos computacionais necessários na otimização seriam maiores. Além disso, um experimento preliminar baseado em 10.000 soluções geradas aleatoriamente apontou que o GSA chega a soluções muito boas após 200 iterações17. Uma dificuldade de aplicação do GSA é que ele supõe que as variáveis são reais, o que não é o caso da quantidade n de valores anteriores a utilizar. Então a otimização é aplicada fixando alguns valores18 de n (2, 5 e 8) e o melhor resultado global é escolhido. Os dados da janela de otimização/treinamento são organizados de modo que a entrada correspondente a um elemento é formada pelos n anteriores. Se n = 2, por exemplo, então os elementos 1 e 2 da janela são colocados como entrada e o elemento 3 como saída esperada correspondente, tal como os elementos 2 e 3 são colocados como entrada enquanto o elemento 4 como saída esperada e assim por diante. Através de experimentos preliminares, foi constatado que há diversas soluções possíveis para as quais não há diferença estatística significativa em seus erros absolutos médios, então o número de vetores de suporte foi considerado como critério de desempate, ou seja, a função a ser minimizada na etapa de otimização leva em conta tanto o erro absoluto médio obtido através de validação cruzada na janela de otimização quanto a quantidade de vetores de suporte. Os modelos híbridos, aqueles cujo nome começa com h ou vh, consistem da combinação de um modelo linear com um não linear. O primeiro modelo é aplicado aos dados e então o segundo é aplicado aos resíduos gerados pelo primeiro. Eles foram considerados no estudo devido a evidências na literatura de que tais combinações podem apresentar resultados melhores que cada um dos modelos aplicados individualmente (ZHANG, 2003; PAI; LIN, 2005). A fim de verificar se a ordem dos componentes faz diferença, foram incluídas ambas as possibilidades na ordem de combinação. O componente linear utilizado depende do tipo da série em questão: o modelo ARMA é utilizado nas séries de taxas de retorno (normalizadas ou não), enquanto o ARFIMA19 nas séries de volatilidade. A etapa de otimização de cada componente é da mesma forma que nos modelos simples. Por fim, vale mencionar que os modelos aplicados às séries de logaritmos da volatilidade são também aplicados às séries de volatilidade sem qualquer transformação. Convencionou- 17 Foram utilizados os valores sugeridos pelos autores para os parâmetros qA e qV : −5 e 2,7 respectiva- mente. 18 Apenas três valores para n foram escolhidos pois a execução dos modelos com otimizações múltiplas levariam um tempo proibitivamente longo para este trabalho. Dada essa limitação, foram escolhidos valores abrangendo então uma faixa razoável de possibilidades. 19 Nos modelos híbridos, aplicados à séries de volatilidade, cujo primeiro componente é linear, o valor do parâmetro d de diferenciação fracionária é calculado da mesma forma que no modelo arfima_mopt. Nos outros modelos híbridos aplicados à séries de volatilidade, o valor do parâmetro d é encontrado tal como no modelo sarfima_mopt. Capítulo 5. Estudo Proposto 82 se neste estudo nomear modelos aplicados diretamente à volatilidade com o prefixo v seguido do mesmo nome do modelo aplicado aos logaritmos. O intuito é verificar se é vantajoso ou não aplicar a transformação aos valores da volatilidade para realizar previsões. 5.5 Avaliação dos Resultados Há diversas formas de avaliar os resultados alcançados pelos modelos de previsão de séries temporais. Neste estudo, os testes são determinados de acordo com as seguintes perguntas de interesse: a) qual a precisão das previsões realizadas? Há diferença significativa entre os modelos considerados? b) os intervalos de previsão propostos são válidos? Ou seja, para o intervalos de previsão bilateral de 95%, por exemplo, de fato essa proporção de valores ficou dentro das estimativas e tal proporção é constante ao longo do tempo? c) quantos dos sinais das previsões coincidem com os observados? d) todas as relações lineares e não lineares foram capturadas adequadamente? e) de forma geral, qual o resultado alcançado pelas máquinas de vetores de suporte em relação aos demais modelos em estudo? Conforme apresentado na subseção 3.5.1, há diversas maneiras de quantificar o erro das previsões efetuadas e, portanto, de responder a primeira pergunta. Para fins de comparação entre os modelos, optou-se por aplicar testes estatísticos diretamente aos erros absolutos, ao invés de comparar suas médias (MAE). Foi aplicado o teste não paramétrico de Kruskal e Wallis (1952) a fim de verificar se algum dos modelos em avaliação possui erros absolutos significantemente diferente dos demais. Em caso positivo, é aplicado o teste não paramétrico de Dunn (1964) entre todos os pares de modelos a fim de identificar quais são mais ou menos precisos que os demais. Com intuito de manter o nível de significância do teste, é aplicada a correção de Hochberg (1988) aos valores p. Além da precisão das previsões, o intervalo de previsão (segunda pergunta) e a taxa de acerto de sinais (terceira pergunta) são informações bastante relevantes do pondo de vista dos investidores: intervalos de previsão válidos20 podem subsidiar decisões de investimento tendo em vista algum objetivo, como minimizar o risco. Sob a hipótese nula de validade dos intervalos de previsão, o número de acertos nac observado segue uma distribuição binomial de probabilidade com n tentativas e probabilidade θ de acerto, onde n é o total de intervalos estimados e θ é o nível de cobertura especificado. Para responder a segunda pergunta e atestar se os intervalos de previsão estimados são válidos, basta verificar se o número de acertos está dentro do 20 Um intervalo de previsão é dito “válido” se o nível de cobertura observado for constante e não for estatisticamente diferente do requisitado, conforme discutido na subseção 3.5.2. Capítulo 5. Estudo Proposto 83 esperado (CLOPPER; PEARSON, 1934) e se não há dependência serial na sequência induzida de “erros” e “acertos” entre os intervalos previstos e os valores de fato observados, conforme exposto na subseção 3.5.2. Assim como na verificação dos erros absolutos, a avaliação de validade dos intervalos de previsão requer a realização de diversos testes. Do mesmo modo, a correção de Hochberg (1988) é aplicada para corrigir os valores p e preservar o nível de significância do teste. Uma boa taxa de acertos dos sinais algébricos das taxas de retorno permitiria montar regras simples de negociação de forma a aproveitar as oportunidades de lucro ao mesmo tempo em que se evitam as perdas decorrentes de desvalorizações. Conforme discutido na subseção 3.5.4, são empregados os testes de Pesaran e Timmermann (1992) e Anatolyev e Gerko (2005) para avaliar este aspecto e responder à terceira pergunta. Com respeito à quarta pergunta, os resíduos dos modelos são avaliados através dos testes de Ljung-Box e BDS para verificar se todas as relações lineares e não lineares, respectivamente, foram capturadas adequadamente pelos respectivos modelos. Por fim, através dos testes realizados, atinge-se o principal objetivo deste trabalho ao avaliar se a aplicação de máquinas de vetores de suporte, de forma isolada ou combinada, leva a ganhos significativos na previsão da distribuição de probabilidade em séries temporais de taxas de retornos de ações. 84 6 Resultados 6.1 Considerações Iniciais Neste capítulo são apresentados os resultados da aplicação dos diversos modelos listados na Tabela 4 às séries temporais de volatilidades e taxas de retorno listadas na Tabela 3. Foram considerados no estudo alguns modelos estocásticos lineares, outros baseados em máquinas de vetores de suporte e ainda versões híbridas. A avaliação dos resultados é realizada com relação a diferentes aspectos: precisão das previsões dos valores, proporção de acertos do sinal algébrico das taxas de retorno, validade dos intervalos de previsão e adequação do modelo com relação aos resíduos produzidos. Com base nos resultados alcançados, são apresentados alguns comentários acerca da aplicação de máquinas de vetores de suporte na previsão da distribuição de probabilidade da taxa de retorno de ações e também, de forma mais geral, sobre as implicações de tratar o problema de previsão de séries temporais como aproximação de uma função que toma como entrada apenas os valores anteriores. 6.2 Séries de Volatilidade A previsão de volatilidade, no contexto do objetivo desta pesquisa, é útil em conjunto com a previsão da taxa de retorno normalizada, a fim de estimar valor e intervalo de previsão para a taxa de retorno logarítmica futura, conforme a Equação 5.4. Considerando que apenas o valor esperado da volatilidade é utilizado, o critério de avaliação de precisão das previsões é o de maior interesse. As séries de volatilidades bruta e logarítmica em cada taxa de amostragem e ação são avaliadas em conjunto, com intuito de evidenciar se é vantajosa a modelagem de uma forma ou de outra para realizar previsões, ou seja, as doze séries temporais de volatilidades da Tabela 3 são agrupadas por empresa e taxa de amostragem, resultando em seis séries ao final. No restante desta seção estão listados os resultados alcançados pelos vinte e nove modelos da Tabela 4 em cada uma das seis séries de volatilidade. A distribuição dos erros absolutos correspondentes a cada modelo, quando aplicados às séries de volatilidade de PETR4 em amostragem semanal, está ilustrada na Figura 11. As extremidades inferior e superior de cada retângulo demarcam o primeiro e terceiro quartis respectivamente, ou seja, 50% dos erros absolutos produzidos por cada modelo estão entre os valores marcados pelas extremidades do retângulo correspondente. A linha horizontal no interior de cada retângulo corresponde à mediana dos valores e as linhas pontilhadas acima e abaixo se estendem até os erros que distam do primeiro e terceiro quartis não Capítulo 6. Resultados 85 mais que cinco vezes o tamanho do intervalo inter quartil (IQR). Figura 11 – Distribuição dos erros absolutos: PETR4_VL_W e PETR4_VB_W 0,08 0,06 0,04 0,02 0,00 Fonte: Produzido pelo autor Percebe-se que há bastante semelhança entre os erros absolutos gerados pelos modelos, exceto por naivemean, naivesd e vnaivemean. Para esses três, as medianas são conside- ravelmente maiores que os demais e os erros absolutos se estendem por faixas maiores. A aplicação do teste de Kruskal-Wallis leva a k = 669,591, que corresponde a um valor p praticamente nulo1, ou seja, há indícios suficientes para rejeitar a hipótese nula de que os erros absolutos produzidos pelos modelos seguem a mesma distribuição. Diante da rejeição da hipótese nula de que todos os erros absolutos seguem a mesma distribuição, foi aplicado o teste de Dunn entre todos os pares distintos possíveis, a fim de identificar quais modelos geram erros absolutos maiores ou menores que os demais. O desempenho relativo está listado na Tabela 6. Os vinte e seis primeiros modelos relacionados empatam entre si e produzem erros absolutos significantemente menores que os três últimos. Já o modelo naivesd empatou apenas com o vnaivemean e foi derrotado por todos os demais. Nas séries de volatilidade de VALE3 em amostragem semanal, a distribuição dos erros absolutos foi bastante similar à observada em PETR4, conforme ilustrado na Figura 12. O teste de Kurskal-Wallis leva a k = 558,314, que também corresponde a um valor p praticamente nulo, ou seja, é rejeitada a hipótese de que os erros absolutos produzidos pelos modelos seguem a mesma distribuição. A aplicação do teste de Dunn revela algu- mas diferenças no desempenho relativo dos modelos, conforme listado na Tabela 7: os 1 O valor k calculado pelo teste de Kruskal-Wallis possui distribuição assintótica χ2. Dado que há 29 modelos em análise, a distribuição do teste deve considerar 28 graus de liberdade. Sob a hipótese nula, espera-se que k < 41,337 (para nível de significância α = 5%). arfima_mopt arma_mopt arma_sopt ar_mopt ar_sopt hlinsvm_mopt hlinsvm_sopt hsvmlin_mopt hsvmlin_sopt naivemean naivesd randwalk sarfima_mopt svm_mopt svm_sopt varfima_mopt varma_mopt varma_sopt var_mopt var_sopt vhlinsvm_mopt vhlinsvm_sopt vhsvmlin_mopt vhsvmlin_sopt vnaivemean vrandwalk vsarfima_mopt vsvm_mopt vsvm_sopt Capítulo 6. Resultados 86 Tabela 6 – Desempenho Relativo – Volatilidade Semanal – PETR4 Modelo Vitórias Empates Derrotas randwalk 3 25 0 ar_sopt 3 25 0 ar_mopt 3 25 0 arma_sopt 3 25 0 arma_mopt 3 25 0 arfima_mopt 3 25 0 sarfima_mopt 3 25 0 svm_sopt 3 25 0 svm_mopt 3 25 0 hlinsvm_sopt 3 25 0 hlinsvm_mopt 3 25 0 hsvmlin_sopt 3 25 0 hsvmlin_mopt 3 25 0 vrandwalk 3 25 0 var_sopt 3 25 0 var_mopt 3 25 0 varma_sopt 3 25 0 varma_mopt 3 25 0 varfima_mopt 3 25 0 vsarfima_mopt 3 25 0 vsvm_sopt 3 25 0 vsvm_mopt 3 25 0 vhlinsvm_sopt 3 25 0 vhlinsvm_mopt 3 25 0 vhsvmlin_sopt 3 25 0 vhsvmlin_mopt 3 25 0 naivemean 1 1 26 vnaivemean 0 2 26 naivesd 0 1 27 Nota: Uma vitória (derrota) indica que o modelo produz erros absolutos que tendem a ser menores (maiores) que os de outro modelo. Empates acontecem quando não há indícios de diferença significante entre os valores absolutos dos dois modelos em comparação. modelos varfima_mopt e vhlinsvm_mopt foram superiores aos quatro últimos listados, enquanto empataram com os demais. Os três últimos, vnaivemean, naivesd e vnaivemean, empataram entre si e geraram erros absolutos significantemente maiores que todos os demais. Tal como nas séries em amostragem semanal, os erros absolutos gerados pelos modelos naivemean, naivesd e vnaivemean nas séries em amostragem diária possuem mediana acima dos demais, conforme pode ser observado na Figura 13 e comprovado pela rejeição de hipótese nula de que os erros absolutos gerados por todos os modelos seguem a mesma distribuição: o teste de Kruskal-Wallis leva a k = 3.029,379, que corresponde a um valor p praticamente nulo. O teste de Dunn, resumido na Tabela 8, se mostra bastante similar ao resultado em amostragem semanal: vinte e seis modelos melhores que naivemean, vnaivemean e naivesd e empatados entre si. Capítulo 6. Resultados 87 Figura 12 – Distribuição dos erros absolutos: VALE3_VL_W e VALE3_VB_W 0,08 0,06 0,04 0,02 0,00 Fonte: Produzido pelo autor Tabela 7 – Desempenho Relativo – Volatilidade Semanal – VALE3 Modelo Vitórias Empates Derrotas varfima_mopt 4 24 0 vhlinsvm_mopt 4 24 0 randwalk 3 25 0 ar_sopt 3 25 0 ar_mopt 3 25 0 arma_sopt 3 25 0 arma_mopt 3 25 0 arfima_mopt 3 25 0 sarfima_mopt 3 25 0 svm_sopt 3 25 0 svm_mopt 3 25 0 hlinsvm_sopt 3 25 0 hlinsvm_mopt 3 25 0 hsvmlin_sopt 3 25 0 hsvmlin_mopt 3 25 0 vrandwalk 3 25 0 var_sopt 3 25 0 var_mopt 3 25 0 varma_sopt 3 25 0 varma_mopt 3 25 0 vsarfima_mopt 3 25 0 vsvm_mopt 3 25 0 vhlinsvm_sopt 3 25 0 vhsvmlin_sopt 3 25 0 vhsvmlin_mopt 3 25 0 vsvm_sopt 3 23 2 naivemean 0 2 26 naivesd 0 2 26 vnaivemean 0 2 26 arfima_mopt arma_mopt arma_sopt ar_mopt ar_sopt hlinsvm_mopt hlinsvm_sopt hsvmlin_mopt hsvmlin_sopt naivemean naivesd randwalk sarfima_mopt svm_mopt svm_sopt varfima_mopt varma_mopt varma_sopt var_mopt var_sopt vhlinsvm_mopt vhlinsvm_sopt vhsvmlin_mopt vhsvmlin_sopt vnaivemean vrandwalk vsarfima_mopt vsvm_mopt vsvm_sopt Capítulo 6. Resultados 88 Figura 13 – Distribuição dos erros absolutos: PETR4_VL_D e PETR4_VB_D 0,04 0,03 0,02 0,01 0,00 Fonte: Produzido pelo autor Tabela 8 – Desempenho Relativo – Volatilidade Diária – PETR4 Modelo Vitórias Empates Derrotas randwalk 3 25 0 ar_sopt 3 25 0 ar_mopt 3 25 0 arma_sopt 3 25 0 arma_mopt 3 25 0 arfima_mopt 3 25 0 sarfima_mopt 3 25 0 svm_sopt 3 25 0 svm_mopt 3 25 0 hlinsvm_sopt 3 25 0 hlinsvm_mopt 3 25 0 hsvmlin_sopt 3 25 0 hsvmlin_mopt 3 25 0 vrandwalk 3 25 0 var_sopt 3 25 0 var_mopt 3 25 0 varma_sopt 3 25 0 varma_mopt 3 25 0 varfima_mopt 3 25 0 vsarfima_mopt 3 25 0 vsvm_sopt 3 25 0 vsvm_mopt 3 25 0 vhlinsvm_sopt 3 25 0 vhlinsvm_mopt 3 25 0 vhsvmlin_sopt 3 25 0 vhsvmlin_mopt 3 25 0 naivemean 2 0 26 vnaivemean 1 0 27 naivesd 0 0 28 arfima_mopt arma_mopt arma_sopt ar_mopt ar_sopt hlinsvm_mopt hlinsvm_sopt hsvmlin_mopt hsvmlin_sopt naivemean naivesd randwalk sarfima_mopt svm_mopt svm_sopt varfima_mopt varma_mopt varma_sopt var_mopt var_sopt vhlinsvm_mopt vhlinsvm_sopt vhsvmlin_mopt vhsvmlin_sopt vnaivemean vrandwalk vsarfima_mopt vsvm_mopt vsvm_sopt Capítulo 6. Resultados 89 Tal como nos demais casos analisados, o teste de Kruskal-Wallis, nas séries de volatili- dade de VALE3 em amostragem diária, produz valor p ≃ 0 (k = 2.124,507). A distribuição dos erros absolutos foi bastante similar ao resultado em PETR4, conforme ilustrado na Figura 14. Figura 14 – Distribuição dos erros absolutos: VALE3_VL_D e VALE3_VB_D 0,05 0,04 0,03 0,02 0,01 0,00 Fonte: Produzido pelo autor Os desempenhos relativos foram mais heterogêneos: o resultado resumido do teste de Dunn, listado na Tabela 9, revela que os modelos hlinsvm_mopt e hlinsvm_sopt se destacaram em relação aos demais, ao vencer seis comparações e empatar as outras vinte e duas. O modelo naivesd foi derrotado pelos demais vinte e oito modelos. Nas séries de volatilidade em amostragem intraday, os modelos naivemean, naivesd e vnaivemean apresentaram comportamento similar ao observado nas séries em outras taxas de amostragem: geraram erros absolutos significantemente maiores que os demais modelos, conforme pode ser constatado na Figura 15 para as séries de PETR4 e na Figura 16 para VALE3. O teste de Kruskal-Wallis produziu k = 25.990,273 para PETR4 e k = 20.019,106 para VALE3, ou seja, para ambas as ações, rejeita-se fortemente a hipótese de que os erros absolutos gerados pelos modelos aplicados às séries de volatilidade em amostragem intraday seguem a mesma distribuição. O teste de Dunn, resumido nas Tabelas 10 e 11 para PETR4 e VALE3 respectivamente, indica a superioridade dos modelos vhlinsvm_sopt e hlinsvm_mopt em relação aos demais, bem como o desempenho ruim dos modelos naivemean, naivesd e vnaivemean. Observa-se que nas séries com amostragem semanal aconteceram diversos empates entre os modelos e que este número diminuiu na amostragem diária e ainda mais com os dados intraday. Entretanto, apenas com os dados em estudo e os testes realizados, não é arfima_mopt arma_mopt arma_sopt ar_mopt ar_sopt hlinsvm_mopt hlinsvm_sopt hsvmlin_mopt hsvmlin_sopt naivemean naivesd randwalk sarfima_mopt svm_mopt svm_sopt varfima_mopt varma_mopt varma_sopt var_mopt var_sopt vhlinsvm_mopt vhlinsvm_sopt vhsvmlin_mopt vhsvmlin_sopt vnaivemean vrandwalk vsarfima_mopt vsvm_mopt vsvm_sopt Capítulo 6. Resultados 90 Tabela 9 – Desempenho Relativo – Volatilidade Diária – VALE3 Modelo Vitórias Empates Derrotas hlinsvm_sopt 6 22 0 hlinsvm_mopt 6 22 0 arma_sopt 4 24 0 arma_mopt 4 24 0 arfima_mopt 4 24 0 sarfima_mopt 4 24 0 hsvmlin_sopt 4 24 0 hsvmlin_mopt 4 24 0 vhlinsvm_sopt 4 24 0 vhlinsvm_mopt 4 24 0 ar_sopt 3 25 0 ar_mopt 3 25 0 svm_sopt 3 25 0 svm_mopt 3 25 0 var_sopt 3 25 0 var_mopt 3 25 0 varma_sopt 3 25 0 varma_mopt 3 25 0 varfima_mopt 3 25 0 vsarfima_mopt 3 25 0 vsvm_mopt 3 25 0 vhsvmlin_sopt 3 25 0 vhsvmlin_mopt 3 25 0 randwalk 3 23 2 vrandwalk 3 23 2 vsvm_sopt 3 15 10 naivemean 1 1 26 vnaivemean 1 1 26 naivesd 0 0 28 Figura 15 – Distribuição dos erros absolutos: PETR4_VL_I e PETR4_VB_I 0,008 0,006 0,004 0,002 0,000 Fonte: Produzido pelo autor arfima_mopt arma_mopt arma_sopt ar_mopt ar_sopt hlinsvm_mopt hlinsvm_sopt hsvmlin_mopt hsvmlin_sopt naivemean naivesd randwalk sarfima_mopt svm_mopt svm_sopt varfima_mopt varma_mopt varma_sopt var_mopt var_sopt vhlinsvm_mopt vhlinsvm_sopt vhsvmlin_mopt vhsvmlin_sopt vnaivemean vrandwalk vsarfima_mopt vsvm_mopt vsvm_sopt Capítulo 6. Resultados 91 Figura 16 – Distribuição dos erros absolutos: VALE3_VL_I e VALE3_VB_I 0,010 0,008 0,006 0,004 0,002 0,000 Fonte: Produzido pelo autor Tabela 10 – Desempenho Relativo – Volatilidade Intraday – PETR4 Modelo Vitórias Empates Derrotas vhlinsvm_sopt 22 6 0 hlinsvm_mopt 21 7 0 vhlinsvm_mopt 19 9 0 hlinsvm_sopt 17 11 0 hsvmlin_sopt 16 12 0 vsvm_sopt 16 12 0 hsvmlin_mopt 15 13 0 svm_mopt 13 14 1 svm_sopt 11 15 2 vhsvmlin_sopt 11 15 2 vsvm_mopt 9 16 3 vhsvmlin_mopt 9 16 3 arfima_mopt 9 15 4 sarfima_mopt 9 13 6 arma_sopt 9 12 7 arma_mopt 9 12 7 ar_sopt 9 11 8 ar_mopt 9 11 8 randwalk 9 9 10 vrandwalk 9 9 10 var_sopt 3 5 20 var_mopt 3 5 20 varma_sopt 3 5 20 varma_mopt 3 5 20 varfima_mopt 3 5 20 vsarfima_mopt 3 5 20 naivemean 2 0 26 vnaivemean 1 0 27 naivesd 0 0 28 arfima_mopt arma_mopt arma_sopt ar_mopt ar_sopt hlinsvm_mopt hlinsvm_sopt hsvmlin_mopt hsvmlin_sopt naivemean naivesd randwalk sarfima_mopt svm_mopt svm_sopt varfima_mopt varma_mopt varma_sopt var_mopt var_sopt vhlinsvm_mopt vhlinsvm_sopt vhsvmlin_mopt vhsvmlin_sopt vnaivemean vrandwalk vsarfima_mopt vsvm_mopt vsvm_sopt Capítulo 6. Resultados 92 Tabela 11 – Desempenho Relativo – Volatilidade Intraday – VALE3 Modelo Vitórias Empates Derrotas hlinsvm_mopt 23 5 0 vhlinsvm_sopt 23 5 0 hlinsvm_sopt 20 8 0 hsvmlin_sopt 15 13 0 hsvmlin_mopt 14 14 0 vhlinsvm_mopt 14 14 0 arfima_mopt 12 14 2 svm_sopt 12 14 2 svm_mopt 12 14 2 arma_sopt 12 13 3 sarfima_mopt 12 13 3 vsvm_mopt 12 13 3 vhsvmlin_sopt 12 13 3 vhsvmlin_mopt 12 13 3 arma_mopt 12 12 4 ar_sopt 10 12 6 ar_mopt 5 17 6 randwalk 3 10 15 varma_sopt 3 10 15 vrandwalk 3 9 16 varma_mopt 3 9 16 varfima_mopt 3 9 16 vsarfima_mopt 3 9 16 vsvm_sopt 3 9 16 var_sopt 3 8 17 var_mopt 3 8 17 naivemean 2 0 26 vnaivemean 1 0 27 naivesd 0 0 28 possível saber se este fenômeno acontece somente devido ao aumento de poder dos testes estatísticos com o aumento do tamanho das séries ou se em diferentes taxas de amostragem determinadas características se manifestam de forma mais ou menos intensa. Em cada uma das seis séries, cada um dos vinte e nove modelos foram comparados com os demais, totalizando cento e sessenta e oito comparações por modelo. O número total de vitórias, empates e derrotas de cada modelo está listado na Tabela 12. Seis deles não sofreram derrotas, todos híbridos: hlinsvm_mopt, hlinsvm_sopt, vhlinsvm_mopt, vhlinsvm_sopt, hsvmlin_sopt e hsvmlin_mopt. Os quatro primeiros possuem o compo- nente linear aplicado inicialmente e o não linear (SVM) aos resíduos gerados enquanto o contrário se aplica aos outros dois, com a diferença que neste segundo caso não são consideradas correlações de longo prazo. O conjunto é composto essencialmente por três modelos, cada um com as variantes de otimização única e otimizações múltiplas. Entre aplicar um modelo de previsão à volatilidade bruta ou à logarítmica há uma ten- dência da segunda abordagem levar a previsões melhores: com exceção do vhlinsvm_sopt que foi superior no placar geral ao hlinsvm_sopt, todos os modelos aplicados à volatilidade logarítmica obtiveram melhor resultado geral que seus equivalentes aplicados à bruta. Capítulo 6. Resultados 93 Tabela 12 – Desempenho Relativo – Placar Geral Modelo Vitórias Empates Derrotas hlinsvm_mopt 59 109 0 vhlinsvm_sopt 58 110 0 hlinsvm_sopt 52 116 0 vhlinsvm_mopt 47 121 0 hsvmlin_sopt 44 124 0 hsvmlin_mopt 42 126 0 svm_mopt 37 128 3 svm_sopt 35 129 4 vhsvmlin_sopt 35 128 5 arfima_mopt 34 128 6 vsvm_mopt 33 129 6 vhsvmlin_mopt 33 129 6 sarfima_mopt 34 125 9 arma_sopt 34 124 10 arma_mopt 34 123 11 ar_sopt 31 123 14 ar_mopt 26 128 14 randwalk 24 117 27 vsvm_sopt 31 109 28 vrandwalk 24 116 28 varma_sopt 18 115 35 varfima_mopt 19 113 36 varma_mopt 18 114 36 vsarfima_mopt 18 114 36 var_sopt 18 113 37 var_mopt 18 113 37 naivemean 8 4 156 vnaivemean 4 5 159 naivesd 0 3 165 Comparando modelos similares com etapa de otimização múltipla ou única, observa- se uma tendência de modelos com otimização única alcançarem placar geral superior aos modelos com múltiplas otimizações, sendo hlinsvm_mopt, svm_mopt e vsvm_mopt as exceções2. Assim, não há evidências suficientes para concluir que as séries de volatilidade não sejam estritamente estacionárias ou, caso sejam, a exploração de tal característica não é vantajosa na construção de modelos de previsão. Com relação ao impacto da diferenciação fracionária, o resultado nas séries de vola- tilidade logarítmica favorece claramente os modelos arfima_mopt e sarfima_mopt sobre os demais lineares, enquanto nas séries de volatilidade bruta a vantagem de uso de dife- renciação fracionária diminui bastante, sendo o varma_sopt melhor que todos os demais lineares, seguido pelo varfima_mopt. Analisando todas as séries de volatilidade, os modelos arfima_mopt e sarfima_mopt obtiveram placar melhor que todos os lineares sem diferen- ciação fracionária (arma_mopt, varma_mopt, arma_sopt, varma_sopt, ar_mopt, ar_sopt, var_mopt e var_sopt). Ou seja, considerando apenas modelos lineares, os melhores resul- 2 Não fazem parte desta comparação os modelos arfima_mopt, varfima_mopt, sarfima_mopt, vsarfima_mopt, naivemean, vnaivemean, randwalk, vrandwalk e naivesd, dado que não possuem simultaneamente variantes _mopt e _sopt. Capítulo 6. Resultados 94 tados são alcançados utilizando volatilidade logarítmica e levando em conta correlações de longo prazo. Além disso, a utilização de todos os dados disponíveis na estimativa do parâmetro d de diferenciação fracionária leva a resultados melhores do que utilizar apenas os valores da janela de otimização corrente. Os modelos híbridos apresentaram placares superiores aos equivalentes formados pelo primeiro componente, com exceção do vhsvmlin_mopt, que empatou com o vsvm_mopt. Ou seja, salvo nesse caso listado, a aplicação do segundo componente aos resíduos do primeiro melhorou os resultados, tanto nas séries de volatilidade bruta quanto nas de volatilidade logarítmica. De forma geral, considerando as séries de volatilidade, a utilização de máquinas de vetores de suporte em modelos de previsão de séries temporais levou a bons resultados, em especial de forma combinada com modelos lineares: hlinsvm_mopt, vhlinsvm_sopt, hlinsvm_sopt, vhlinsvm_mopt, hsvmlin_sopt e hsvmlin_mopt. Além disso, dentre as aplicações de modelos de forma isolada, as máquinas de vetores de suporte obtiveram os melhores resultados. 6.3 Séries de Taxas de Retorno Normalizadas Conforme mencionado anteriormente, a previsão da taxa de retorno normalizada é uti- lizada em conjunto com a previsão de volatilidade, a fim de estimar valor e intervalo de previsão para a taxa de retorno logarítmica futura, de acordo com a Equação 5.4. Entretanto, diferente da volatilidade, os resíduos produzidos pelos modelos aplicados às séries de taxa de retorno normalizada são empregados na construção dos intervalos de previsão. Assim, é importante avaliar os modelos com relação à precisão das previsões realizadas, bem como quanto à validade dos intervalos de previsão gerados e se os modelos capturam adequadamente todas as relações, gerando resíduos independentes e igualmente distribuídos. Considerando também que a volatilidade é sempre positiva, faz sentido avaliar a proporção de acertos do sinal algébrico da taxa de retorno futura com o teste de Pesaran e Timmermann (1992)3. Nas séries de taxas de retorno normalizadas foram considerados os seguintes onze modelos: naivemean, ar_mopt, ar_sopt, arma_mopt, arma_sopt, svm_mopt, svm_sopt, hlinsvm_mopt, hlinsvm_sopt, hsvmlin_mopt e hsvmlin_sopt, sendo que o componente linear dos modelos híbridos não leva em conta eventuais correlações de longo prazo. Nas subseções seguintes são listados os resultados da aplicação dos modelos às séries de taxas de retorno normalizadas com relação a cada aspecto de avaliação. 3 O teste de Anatolyev e Gerko (2005) não se aplica para séries normalizadas pois leva em consideração tanto os sinais quanto as magnitudes dos valores previstos e observados, e a normalização pela volatilidade altera fortemente as magnitudes envolvidas. Capítulo 6. Resultados 95 6.3.1 Precisão das Previsões Dentre as seis séries de taxas de retorno normalizadas em estudo, apenas nas de amostragem intraday foi rejeitada a hipótese nula de que os erros absolutos gerados por todos os modelos seguem a mesma distribuição, conforme pode-se constatar pelos valores da aplicação do teste de Kruskal-Wallis, listados na Tabela 13. Tabela 13 – Teste de Kruskal-Wallis – Taxa de Retorno Normalizada Série Kruskal-Wallis χ2 Valor p PETR4_RN_W 0,573 1,00 VALE3_RN_W 0,257 1,00 PETR4_RN_D 1,104 1,00 VALE3_RN_D 10,772 0,38 PETR4_RN_I 39,548 0,00 VALE3_RN_I 25,410 0,00 Nota: Considerando que são onze modelos em avaliação, a distribuição para o teste de Kruskal-Wallis é χ2 com dez graus de liberdade, de modo que sob a hipótese nula se espera k < 18,307. Nas Figuras 17 e 18 estão ilustradas as distribuições dos erros absolutos gerados pelos modelos nas séries PETR4_RN_I e VALE3_RN_I respectivamente. Não ficam evidentes grandes diferenças, entretanto, a aplicação do teste de Dunn, resumido nas Tabelas 14 e 15, demonstra que os modelos lineares são iguais ou superiores aos não lineares e híbridos. Figura 17 – Distribuição dos erros absolutos: PETR4_RN_I 5 4 3 2 1 0 Fonte: Produzido pelo autor arma_mopt arma_sopt ar_mopt ar_sopt hlinsvm_mopt hlinsvm_sopt hsvmlin_mopt hsvmlin_sopt naivemean svm_mopt svm_sopt Capítulo 6. Resultados 96 Figura 18 – Distribuição dos erros absolutos: VALE3_RN_I 6 5 4 3 2 1 0 Fonte: Produzido pelo autor Tabela 14 – Desempenho Relativo – Taxa de Retorno Normalizada Intraday – PETR4 Modelo Vitórias Empates Derrotas naivemean 2 8 0 ar_sopt 2 8 0 ar_mopt 2 8 0 arma_sopt 2 8 0 arma_mopt 2 8 0 svm_mopt 0 10 0 hlinsvm_mopt 0 10 0 hsvmlin_sopt 0 10 0 hsvmlin_mopt 0 10 0 svm_sopt 0 5 5 hlinsvm_sopt 0 5 5 Tabela 15 – Desempenho Relativo – Taxa de Retorno Normalizada Intraday – VALE3 Modelo Vitórias Empates Derrotas naivemean 1 9 0 ar_sopt 1 9 0 ar_mopt 1 9 0 arma_sopt 0 10 0 arma_mopt 0 10 0 svm_sopt 0 10 0 svm_mopt 0 10 0 hlinsvm_mopt 0 10 0 hsvmlin_sopt 0 10 0 hsvmlin_mopt 0 10 0 hlinsvm_sopt 0 7 3 arma_mopt arma_sopt ar_mopt ar_sopt hlinsvm_mopt hlinsvm_sopt hsvmlin_mopt hsvmlin_sopt naivemean svm_mopt svm_sopt Capítulo 6. Resultados 97 6.3.2 Validade dos Intervalos de Previsão Cada um dos modelos gera, além da previsão para o valor seguinte da série temporal, intervalos de previsão bilaterais e unilaterais do tipo “maior que”, com coberturas esperadas de 90%, 95% e 99%, conforme mencionado na seção 5.4, ou seja, para cada uma das seis séries, cada modelo gera seis intervalos de previsão, totalizando trinta e seis intervalos por modelo e, contando os onze modelos, trezentos e noventa e seis intervalos ao todo. Uma sequência de intervalos de previsão gerada por um modelo é considerada “válida” se a proporção de valores dentro dos intervalos for compatível com a cobertura esperada, considerando que tal proporção segue uma distribuição binomial de probabilidade, e se não houver dependência serial na série induzida de “erros” e “acertos” do valor observado em relação ao intervalo de previsão correspondente, conforme discutido na subseção 3.5.2. É realizado, então, um teste com respeito à cobertura para cada intervalo de previsão. Nos casos em que a cobertura realizada foi compatível com a esperada, foi feito um teste com relação à presença de dependência serial na série induzida de “erros” e “acertos”. Observa-se, na Tabela 16, que os modelos svm_sopt, hsvmlin_sopt e hsvmlin_mopt geraram o menor número de intervalos de previsão inválidos. Tabela 16 – Intervalos de Previsão Inválidos por Modelo – Taxa de Retorno Normalizada Modelo Cobertura Inválida Dependência Serial Total svm_sopt 0 2 2 hsvmlin_sopt 1 1 2 hsvmlin_mopt 1 1 2 naivemean 2 1 3 ar_sopt 2 1 3 ar_mopt 2 1 3 arma_sopt 1 2 3 arma_mopt 2 1 3 svm_mopt 2 1 3 hlinsvm_sopt 1 2 3 hlinsvm_mopt 1 2 3 6.3.3 Taxa de Acerto da Direção O teste de Pesaran e Timmermann (1992) de acuidade direcional foi realizado entre as sequências de previsões e respectivos valores para cada modelo em estudo em cada uma das séries temporais de taxas de retorno normalizadas. Dos sessenta e seis resultados, nenhum foi significativo após o ajuste dos valores p, conforme pode ser constatado na Tabela 17. É importante mencionar que o teste não produziu resposta para alguns dos modelos quando aplicados às séries em amostragem semanal. Isso se deve ao fato de que, nessas séries, o sinal da previsão dos modelos em questão foi sempre o mesmo, o que ocasiona uma divisão Capítulo 6. Resultados 98 por zero no cálculo da estatística. A falta de resposta do teste pode ser interpretada então como ausência de poder preditivo da direção. Tabela 17 – Acuidade direcional – Taxas de Retorno Normalizadas Modelo PETR4_RN_I PETR4_RN_D PETR4_RN_W ar_mopt 47,14% (1,000) 51,52% (1,000) 53,15% ( -) ar_sopt 47,18% (1,000) 51,15% (1,000) 53,15% ( -) arma_mopt 45,14% (1,000) 51,75% (1,000) 53,38% (1,000) arma_sopt 34,23% (1,000) 51,15% (1,000) 53,15% ( -) hlinsvm_mopt 46,84% (1,000) 52,33% (1,000) 54,55% (1,000) hlinsvm_sopt 46,88% (1,000) 52,67% (0,653) 55,71% (1,000) hsvmlin_mopt 47,11% (1,000) 51,35% (1,000) 51,28% (1,000) hsvmlin_sopt 46,72% (1,000) 52,63% (0,618) 53,38% (1,000) naivemean_mopt 47,22% (1,000) 51,55% (1,000) 53,15% ( -) svm_mopt 46,82% (1,000) 52,06% (1,000) 53,38% (1,000) svm_sopt 46,36% (1,000) 51,55% (1,000) 55,01% (1,000) Modelo VALE3_RN_I VALE3_RN_D VALE3_RN_W ar_mopt 48,01% (1,000) 49,63% (1,000) 52,21% (1,000) ar_sopt 47,41% (1,000) 50,14% (1,000) 52,45% ( -) arma_mopt 46,21% (1,000) 50,14% (1,000) 51,75% (1,000) arma_sopt 45,65% (1,000) 50,61% (1,000) 52,45% ( -) hlinsvm_mopt 47,95% (1,000) 50,03% (1,000) 53,15% (1,000) hlinsvm_sopt 46,87% (1,000) 50,10% (1,000) 50,82% (1,000) hsvmlin_mopt 47,20% (1,000) 49,86% (1,000) 51,75% (1,000) hsvmlin_sopt 47,31% (1,000) 50,44% (1,000) 50,82% (1,000) naivemean_mopt 48,22% (1,000) 50,51% (1,000) 52,45% ( -) svm_mopt 48,20% (1,000) 50,00% (1,000) 51,52% (1,000) svm_sopt 47,57% (1,000) 50,27% (1,000) 51,52% (1,000) Nota: Entre parênteses estão os valores-p gerados pela aplicação do teste de Pesaran e Timmermann (1992), corrigidos pelo método de Hochberg (1988). Os hifens no lugar de alguns valores-p indicam os casos nos quais o modelo produziu todas as saídas com o mesmo sinal, ocasionando uma divisão por zero no cálculo da estatística. Diante de tal resultado, não há indício que nenhum dos onze modelos tenha poder preditivo superior ao acaso, com respeito ao sinal algébrico da taxa de retorno seguinte. 6.3.4 Análise de Resíduos Os resíduos resultantes da aplicação de cada modelo em cada série foram avaliados quanto à presença de correlação linear serial e com respeito à hipótese de formar uma sequência de valores independentes e igualmente distribuídos. Das sessenta e seis avaliações de correlação linear (resíduos de onze modelos em seis séries temporais), três apresentaram resultado significativo, ou seja, os modelos correspondentes não capturaram as relações lineares das séries específicas. São eles: a) naivemean aplicado à PETR4_RN_D e VALE3_RN_D; b) svm_sopt aplicado à PETR4_RN_D. Capítulo 6. Resultados 99 Como o modelo naivemean faz apenas um ajuste da série à média incondicional, há indícios de que nas séries de taxas de retorno normalizadas em amostragem diária há correlação serial significativa e que, além do naivemean, o modelo svm_sopt não capturou as correlações lineares na série PETR4_RN_D. Considerando que três das sessenta e seis avaliações de correlação linear apresentaram resultado significativo, as outras sessenta e três séries de resíduos foram avaliadas quanto à hipótese de formar sequências iid e em nenhuma delas houve indícios contrários. 6.3.5 Síntese das Avaliações – Taxas de Retorno Normalizadas O conjunto de melhores modelos variou dependendo dos critérios de avaliação. Pela precisão das previsões, os lineares apresentaram resultados melhores que os demais. Quanto à validade dos intervalos de previsão, os destaques foram o svm_sopt, hsvmlin_sopt e hsvmlin_mopt. Já com relação à análise de resíduos, os modelos naivemean, svm_sopt e hsvmlin_sopt foram desfavorecidos. Tem-se então que os modelos ar_sopt, ar_mopt e hsvmlin_mopt estão entre os com melhor resultado4. O aspecto de poder preditivo do sinal algébrico da taxa de retorno seguinte não trouxe contribuições à avaliação nesse tipo de série, dado que não há indícios de superioridade de qualquer dos modelos quando comparados ao acaso. Vale destacar que os modelos baseados em máquinas de vetores de suporte são não lineares5 e, portanto, caso as séries em questão apresentem apenas relações lineares, era esperado que não houvesse superioridade desses em relação aos modelos lineares. 6.4 Séries de Taxa de Retorno Logarítmica O principal objetivo deste trabalho é o estudo da aplicação de máquinas de vetores de suporte na previsão de distribuição de probabilidade em séries de taxas de retorno logarítmicas. Cada modelo em avaliação gera previsões da taxa de retorno futura e intervalos de previsão com variadas coberturas esperadas. Através da Equação 5.4, os resultados da aplicação dos modelos nas séries de volatilidade e taxa de retorno normalizada podem ser combinados para realizar previsões para a taxa de retorno logarítmica. Na construção dos modelos combinados, foi escolhido utilizar o ar_mopt na série de taxas de retorno normalizadas, devido ao bom resultado geral alcançado, simplicidade do modelo e capacidade de se adequar a eventuais mudanças de regime (sem prejuízo caso elas não existam). Para as séries de volatilidade, todos os vinte e nove modelos foram 4 Os modelos arma_sopt e arma_mopt também foram bem, entretanto o atribuiu-se destaque ao ar_sopt e ar_mopt pois estes estiveram entre os melhores, na avaliação de precisão, nas séries das duas empresas em consideração. 5 No presente estudo, são utilizadas SVRs com kernel RBF. Para obter máquinas de vetores de suporte lineares, basta trocar o kernel por um linear, entretanto essa possibilidade não fez parte do escopo do estudo. Capítulo 6. Resultados 100 utilizados. Além desses, são considerados também os mesmos onze modelos avaliados para as séries de taxas de retorno normalizadas. Nas subseções seguintes são apresentados os resultados da avaliação dos quarenta modelos com relação à precisão das previsões, validade dos intervalos de previsão, acuidade direcional e análise de resíduos. 6.4.1 Precisão das Previsões Considerando a hipótese nula de que todos os vinte e três modelos, quando aplicados às seis séries temporais, geram erros absolutos que seguem a mesma distribuição de probabilidade, segundo o teste de Kruskal-Wallis, há evidências contrárias em apenas uma das séries com amostragem intraday, conforme listado na Tabela 18. Tabela 18 – Teste de Kruskal-Wallis – Taxa de Retorno Logarítmicas Série Kruskal-Wallis χ2 Valor p PETR4_RL_W 4,512 1,00 VALE3_RL_W 0,915 1,00 PETR4_RL_D 1,452 1,00 VALE3_RL_D 4,572 1,00 PETR4_RL_I 60,104 0,02 VALE3_RL_I 25,178 0,96 Nota: Considerando que são quarenta modelos em avalia- ção, a distribuição para o teste de Kruskal-Wallis é χ2 com trinta e nove graus de liberdade, de modo que sob a hipótese nula se espera k < 54,572. As distribuições dos erros absolutos gerados pelos modelos estão ilustradas na Figura 19. Não há diferença alguma que seja grande o suficiente para ser identificada por inspeção visual, entretanto, diante da rejeição da hipótese de que erros absolutos seguem a mesma distribuição, foi realizado o teste de Dunn, resumido na Tabela 19, entre todos os pares de modelos a fim de identificar individualmente as diferenças. Em geral não houve diferença entre os modelos, exceto pelo hlinsvm_sopt, que gerou erros absolutos significantemente maiores que onze outros modelos. Dentre estes há apenas dois que não tratam heteroscedasticidade condicional: ar_sopt e ar_mopt. 6.4.2 Validade dos Intervalos de Previsão A avaliação dos intervalos de previsão gerados pelos modelos, quando aplicados às séries de taxas de retorno logarítmicas, é feita nesta subseção da mesma forma que anteriormente para as taxas de retornos normalizadas: cada um dos vinte e três modelos produziu seis sequências de intervalos de previsão (três bilaterais e três unilaterais do tipo “maior que”, com coberturas esperadas de 90%, 95% e 99%) para cada uma das seis séries, totalizando Capítulo 6. Resultados 101 Tabela 19 – Desempenho Relativo – Taxa de Retorno Logarítmica Intraday – PETR4 Modelo Vitórias Empates Derrotas ar_mopt+svm_sopt 1 38 0 ar_mopt+svm_mopt 1 38 0 ar_mopt+vrandwalk 1 38 0 ar_mopt+vsvm_sopt 1 38 0 ar_mopt+vsvm_mopt 1 38 0 ar_mopt+vhlinsvm_sopt 1 38 0 ar_mopt+vhlinsvm_mopt 1 38 0 ar_mopt+vhsvmlin_sopt 1 38 0 ar_mopt+vhsvmlin_mopt 1 38 0 ar_sopt 1 38 0 ar_mopt 1 38 0 ar_mopt+naivemean 0 39 0 ar_mopt+naivesd 0 39 0 ar_mopt+randwalk 0 39 0 ar_mopt+ar_sopt 0 39 0 ar_mopt+ar_mopt 0 39 0 ar_mopt+arma_sopt 0 39 0 ar_mopt+arma_mopt 0 39 0 ar_mopt+arfima_mopt 0 39 0 ar_mopt+sarfima_mopt 0 39 0 ar_mopt+hlinsvm_sopt 0 39 0 ar_mopt+hlinsvm_mopt 0 39 0 ar_mopt+hsvmlin_sopt 0 39 0 ar_mopt+hsvmlin_mopt 0 39 0 ar_mopt+vnaivemean 0 39 0 ar_mopt+var_sopt 0 39 0 ar_mopt+var_mopt 0 39 0 ar_mopt+varma_sopt 0 39 0 ar_mopt+varma_mopt 0 39 0 ar_mopt+varfima_mopt 0 39 0 ar_mopt+vsarfima_mopt 0 39 0 naivemean 0 39 0 arma_sopt 0 39 0 arma_mopt 0 39 0 svm_sopt 0 39 0 svm_mopt 0 39 0 hlinsvm_mopt 0 39 0 hsvmlin_sopt 0 39 0 hsvmlin_mopt 0 39 0 hlinsvm_sopt 0 28 11 Capítulo 6. Resultados 102 Figura 19 – Distribuição dos erros absolutos: PETR4_RL_I 0,015 0,010 0,005 0,000 Fonte: Produzido pelo autor oitocentos e vinte e oito sequências de intervalos de previsão (trinta e seis por modelo). Tal como antes, uma sequência de intervalos de previsão é considerada “válida” se: a) a cobertura realizada estiver de acordo com a esperada (considerando que a co- bertura realizada é uma variável aleatória que segue uma distribuição binomial de probabilidade); b) não existir dependência serial na sequência de “acertos” e “erros” induzida quando os intervalos de previsão são comparados aos valores observados na série temporal de taxas de retornos logarítmicas. Inicialmente são contabilizadas as sequências consideradas inválidas por apresentar cobertura realizada significantemente diferente da esperada e então, dentre as que sobram, as que apresentam dependência serial. Os resultados estão resumidos na Tabela 20. Diferente das análises anteriores, nesta existem duas grandes famílias de modelos: os vinte e nove compostos através da Equação 5.4, que consideram heteroscedasticidade condicional, e os outros onze, que supõem implicitamente homoscedasticidade. É bastante evidente que os modelos compostos geraram muito mais intervalos de previsão com cobertura inválida do que os demais, entretanto a situação é invertida pelo critério de dependência serial na sequência induzida de “erros” e “acertos”. De forma geral, os modelos que consideram heteroscedasticidade condicional produziram menos intervalos inválidos, sendo exceções ar_mopt+naivesd e ar_mopt+vnaivemean. Os modelos compostos podem ser divididos de acordo com o tipo de volatilidade na qual são baseados. A utilização da volatilidade bruta levou à produção de menos intervalos de previsão inválidos em relação aos modelos similares que utilizam volatilidade logarítmica. É importante ressaltar que uma possível causa para a produção de intervalos de ar_mopt+arfima_mopt ar_mopt+arma_mopt ar_mopt+arma_sopt ar_mopt+ar_mopt ar_mopt+ar_sopt ar_mopt+hlinsvm_mopt ar_mopt+hlinsvm_sopt ar_mopt+hsvmlin_mopt ar_mopt+hsvmlin_sopt ar_mopt+naivemean ar_mopt+naivesd ar_mopt+randwalk ar_mopt+sarfima_mopt ar_mopt+svm_mopt ar_mopt+svm_sopt ar_mopt+varfima_mopt ar_mopt+varma_mopt ar_mopt+varma_sopt ar_mopt+var_mopt ar_mopt+var_sopt ar_mopt+vhlinsvm_mopt ar_mopt+vhlinsvm_sopt ar_mopt+vhsvmlin_mopt ar_mopt+vhsvmlin_sopt ar_mopt+vnaivemean ar_mopt+vrandwalk ar_mopt+vsarfima_mopt ar_mopt+vsvm_mopt ar_mopt+vsvm_sopt arma_mopt arma_sopt ar_mopt ar_sopt hlinsvm_mopt hlinsvm_sopt hsvmlin_mopt hsvmlin_sopt naivemean svm_mopt svm_sopt Capítulo 6. Resultados 103 Tabela 20 – Intervalos de Previsão Inválidos por Modelo – Taxa de Retorno Logarítmica Modelo Cobertura Inválida Dependência Serial Total ar_mopt+vsarfima_mopt 9 1 10 ar_mopt+vsvm_mopt 10 0 10 ar_mopt+varma_mopt 10 1 11 ar_mopt+varfima_mopt 11 0 11 ar_mopt+vsvm_sopt 10 1 11 ar_mopt+vhlinsvm_mopt 11 0 11 ar_mopt+var_mopt 10 2 12 ar_mopt+varma_sopt 11 1 12 ar_mopt+vhlinsvm_sopt 12 0 12 ar_mopt+vhsvmlin_sopt 10 2 12 ar_mopt+vhsvmlin_mopt 11 1 12 ar_mopt+ar_mopt 12 1 13 ar_mopt+arma_mopt 12 1 13 ar_mopt+arfima_mopt 12 1 13 ar_mopt+sarfima_mopt 12 1 13 ar_mopt+hlinsvm_sopt 13 0 13 ar_mopt+var_sopt 9 4 13 ar_mopt+arma_sopt 13 1 14 ar_mopt+svm_sopt 14 0 14 ar_mopt+hlinsvm_mopt 13 1 14 ar_mopt+hsvmlin_sopt 13 1 14 ar_mopt+hsvmlin_mopt 13 1 14 ar_mopt+svm_mopt 13 2 15 ar_mopt+ar_sopt 13 3 16 ar_mopt+randwalk 17 1 18 ar_mopt+vrandwalk 17 1 18 ar_mopt+naivemean 20 6 26 ar_sopt 5 22 27 naivemean 6 22 28 ar_mopt 6 22 28 arma_sopt 6 22 28 svm_mopt 5 24 29 hlinsvm_sopt 4 25 29 ar_mopt+naivesd 12 18 30 arma_mopt 7 23 30 svm_sopt 5 25 30 ar_mopt+vnaivemean 12 19 31 hlinsvm_mopt 5 26 31 hsvmlin_sopt 7 24 31 hsvmlin_mopt 6 25 31 Nota: Cada modelo produziu 36 sequências de intervalos de previsão, sendo 6 para cada uma das 6 séries, variando a cobertura esperada. Capítulo 6. Resultados 104 previsão com cobertura aquém do esperado é o fato de a Equação 5.4 utilizar apenas o valor esperado da volatilidade futura, desprezando a incerteza associada. Do total de intervalos inválidos observados, quatrocentos e dezessete possuem cober- tura realizada significantemente menor que a esperada. O quantitativo destes casos está discriminado por tipo e cobertura esperada na Tabela 21. Observa-se que há mais interva- los inválidos tanto para coberturas esperadas maiores quanto para intervalos bilaterais em relação aos unilaterais. Como os intervalos de previsão são construídos com base na distribuição empírica dos resíduos na janela de treinamento, há duas causas prováveis para este fenômeno: superajuste no treinamento ou tamanho inadequado de janela. Tabela 21 – Intervalos de Previsão: Cober- tura Realizada Aquém da Es- perada – Taxa de Retorno Lo- garítmica “Maior que” Bilaterais Cobertura Inválidos Cobertura Inválidos 90% 30 90% 56 95% 58 95% 82 99% 80 99% 111 Caso haja super ajuste na etapa de treinamento, apesar da utilização de validação cruzada para os modelos de inteligência artificial e critérios de informação para os estocás- ticos paramétricos, os resíduos observados tendem a ter variância menor do que a real, levando à produção de intervalos mais estreitos do que deveriam ser. Por outro lado, a estimativa correta dos extremos da distribuição com base em dados empíricos depende da disponibilidade de uma amostra grande: quanto mais extrema a cobertura esperada, maior deve ser a amostra. Portanto, o tamanho da janela de treinamento pode ter sido um fator limitante na produção de intervalos de cobertura com a largura correta. A dificuldade maior nos intervalos bilaterais pode ser mapeada diretamente para a modelagem dos extremos. Por exemplo, a produção de um intervalo de previsão bilateral com cobertura esperada de 90% requer estimar os 5% menores e os 5% maiores, enquanto o unilateral “maior que” de 90% depende de estimar os 10% menores, ou seja, o ponto necessário no segundo caso é menos extremo que no primeiro. 6.4.3 Acuidade Direcional Nas séries de taxas de retorno logarítmicas, tanto o teste PT de Pesaran e Timmermann (1992) quanto o AG de Anatolyev e Gerko (2005) se aplicam: o primeiro pode atestar a capacidade do modelo em prever se o preço futuro será maior ou menor que o atual, e o segundo a rentabilidade obtida a mais em relação a um emissor aleatório de ordens de compra e venda. Capítulo 6. Resultados 105 Ao todo são duzentos e quarenta avaliações para cada teste, dado que cada um dos quarenta modelos é aplicado a cada uma das seis séries. Do total, apenas cinco resultados para o teste PT foram significantes e quarenta e dois para o AG, entretanto, em ambos os casos, após o ajuste dos valores p através do método de Hochberg, não houve qualquer indício de poder de previsão do sinal algébrico seguinte ou de superioridade na rentabilidade em relação a um emissor aleatório, conforme pode ser constatado nas Tabelas 22 e 23. Tabela 22 – Acuidade direcional – Taxas de Retorno Logarítmicas – PETR4 Modelo PETR4_RL_I PETR4_RL_D PETR4_RL_W ar_mopt+ar_mopt 47,14% (1,0; 0,977) 51,52% (1,0; 0,977) 53,15% ( -; -) ar_mopt+ar_sopt 47,14% (1,0; 0,977) 51,52% (1,0; 0,977) 53,15% ( -; -) ar_mopt+arfima_mopt 47,14% (1,0; 0,977) 51,52% (1,0; 0,977) 53,15% ( -; -) ar_mopt+arma_mopt 47,14% (1,0; 0,977) 51,52% (1,0; 0,977) 53,15% ( -; -) ar_mopt+arma_sopt 47,14% (1,0; 0,977) 51,52% (1,0; 0,977) 53,15% ( -; -) ar_mopt+hlinsvm_mopt 47,14% (1,0; 0,977) 51,52% (1,0; 0,977) 53,15% ( -; -) ar_mopt+hlinsvm_sopt 47,14% (1,0; 0,977) 51,52% (1,0; 0,977) 53,15% ( -; -) ar_mopt+hsvmlin_mopt 47,14% (1,0; 0,977) 51,52% (1,0; 0,977) 53,15% ( -; -) ar_mopt+hsvmlin_sopt 47,14% (1,0; 0,977) 51,52% (1,0; 0,977) 53,15% ( -; -) ar_mopt+naivemean 47,14% (1,0; 0,977) 51,52% (1,0; 0,977) 53,15% ( -; -) ar_mopt+naivesd 47,14% (1,0; 0,977) 51,52% (1,0; 0,977) 53,15% ( -; -) ar_mopt+randwalk 47,14% (1,0; 0,977) 51,52% (1,0; 0,977) 53,15% ( -; -) ar_mopt+sarfima_mopt 47,14% (1,0; 0,977) 51,52% (1,0; 0,977) 53,15% ( -; -) ar_mopt+svm_mopt 47,14% (1,0; 0,977) 51,52% (1,0; 0,977) 53,15% ( -; -) ar_mopt+svm_sopt 47,14% (1,0; 0,977) 51,52% (1,0; 0,977) 53,15% ( -; -) ar_mopt+var_mopt 47,15% (1,0; 0,977) 51,52% (1,0; 0,977) 53,15% ( -; -) ar_mopt+var_sopt 47,14% (1,0; 0,977) 51,52% (1,0; 0,977) 53,15% ( -; -) ar_mopt+varfima_mopt 47,14% (1,0; 0,977) 51,52% (1,0; 0,977) 53,15% ( -; -) ar_mopt+varma_mopt 47,15% (1,0; 0,977) 51,52% (1,0; 0,977) 53,15% ( -; -) ar_mopt+varma_sopt 47,15% (1,0; 0,977) 51,52% (1,0; 0,977) 53,15% ( -; -) ar_mopt+vhlinsvm_mopt 47,13% (1,0; 0,977) 51,52% (1,0; 0,977) 53,15% ( -; -) ar_mopt+vhlinsvm_sopt 47,15% (1,0; 0,977) 51,52% (1,0; 0,977) 53,15% ( -; -) ar_mopt+vhsvmlin_mopt 47,15% (1,0; 0,977) 51,52% (1,0; 0,977) 53,15% ( -; -) ar_mopt+vhsvmlin_sopt 47,14% (1,0; 0,977) 51,52% (1,0; 0,977) 53,15% ( -; -) ar_mopt+vnaivemean 47,14% (1,0; 0,977) 51,52% (1,0; 0,977) 53,15% ( -; -) ar_mopt+vrandwalk 47,14% (1,0; 0,977) 51,52% (1,0; 0,977) 53,15% ( -; -) ar_mopt+vsarfima_mopt 47,15% (1,0; 0,977) 51,52% (1,0; 0,977) 53,15% ( -; -) ar_mopt+vsvm_mopt 47,14% (1,0; 0,977) 51,52% (1,0; 0,977) 53,15% ( -; -) ar_mopt+vsvm_sopt 47,14% (1,0; 0,977) 51,52% (1,0; 0,977) 53,15% ( -; -) ar_mopt 47,12% (1,0; 0,977) 52,26% (1,0; 0,977) 53,15% (1,0; 0,977) ar_sopt 47,08% (1,0; 0,977) 52,26% (1,0; 0,977) 50,82% (1,0; 0,977) arma_mopt 46,77% (1,0; 0,977) 51,45% (1,0; 0,977) 49,18% (1,0; 0,977) arma_sopt 46,28% (1,0; 0,977) 52,26% (1,0; 0,977) 50,58% (1,0; 0,977) hlinsvm_mopt 47,05% (1,0; 0,977) 51,89% (1,0; 0,271) 50,12% (1,0; 0,977) hlinsvm_sopt 46,63% (1,0; 0,977) 51,25% (1,0; 0,977) 44,76% (1,0; 0,977) hsvmlin_mopt 47,54% (1,0; 0,977) 51,08% (1,0; 0,977) 51,52% (1,0; 0,977) hsvmlin_sopt 47,31% (1,0; 0,977) 51,42% (1,0; 0,977) 51,98% (1,0; 0,977) naivemean_mopt 47,16% (1,0; 0,977) 51,01% (1,0; 0,977) 53,15% ( -; -) svm_mopt 46,93% (1,0; 0,977) 50,07% (1,0; 0,977) 55,71% (1,0; 0,977) svm_sopt 47,29% (1,0; 0,977) 51,08% (1,0; 0,977) 52,21% (1,0; 0,977) Nota: Entre parênteses estão os valores-p gerados pela aplicação do teste de Pesaran e Timmermann (1992) e Anatolyev e Gerko (2005) respectivamente, corrigidos pelo método de Hochberg (1988). Os hifens no lugar de alguns valores-p indicam os casos nos quais o modelo produziu todas as saídas com o mesmo sinal, ocasionando uma divisão por zero no cálculo das estatísticas. Capítulo 6. Resultados 106 Tabela 23 – Acuidade direcional – Taxas de Retorno Logarítmicas – VALE3 Modelo VALE3_RL_I VALE3_RL_D VALE3_RL_W ar_mopt+ar_mopt 47,57% (1,0; 0,977) 49,70% (1,0; 0,977) 52,21% (1,0; 0,977) ar_mopt+ar_sopt 47,57% (1,0; 0,977) 49,70% (1,0; 0,977) 52,21% (1,0; 0,977) ar_mopt+arfima_mopt 47,57% (1,0; 0,977) 49,70% (1,0; 0,977) 52,21% (1,0; 0,977) ar_mopt+arma_mopt 47,57% (1,0; 0,977) 49,70% (1,0; 0,977) 52,21% (1,0; 0,977) ar_mopt+arma_sopt 47,57% (1,0; 0,977) 49,70% (1,0; 0,977) 52,21% (1,0; 0,977) ar_mopt+hlinsvm_mopt 47,57% (1,0; 0,977) 49,70% (1,0; 0,977) 52,21% (1,0; 0,977) ar_mopt+hlinsvm_sopt 47,57% (1,0; 0,977) 49,70% (1,0; 0,977) 52,21% (1,0; 0,977) ar_mopt+hsvmlin_mopt 47,57% (1,0; 0,977) 49,70% (1,0; 0,977) 52,21% (1,0; 0,977) ar_mopt+hsvmlin_sopt 47,57% (1,0; 0,977) 49,70% (1,0; 0,977) 52,21% (1,0; 0,977) ar_mopt+naivemean 47,57% (1,0; 0,977) 49,70% (1,0; 0,977) 52,21% (1,0; 0,977) ar_mopt+naivesd 47,57% (1,0; 0,977) 49,70% (1,0; 0,977) 52,21% (1,0; 0,977) ar_mopt+randwalk 47,57% (1,0; 0,977) 49,70% (1,0; 0,977) 52,21% (1,0; 0,977) ar_mopt+sarfima_mopt 47,57% (1,0; 0,977) 49,70% (1,0; 0,977) 52,21% (1,0; 0,977) ar_mopt+svm_mopt 47,57% (1,0; 0,977) 49,70% (1,0; 0,977) 52,21% (1,0; 0,977) ar_mopt+svm_sopt 47,57% (1,0; 0,977) 49,70% (1,0; 0,977) 52,21% (1,0; 0,977) ar_mopt+var_mopt 47,58% (1,0; 0,977) 49,70% (1,0; 0,977) 52,21% (1,0; 0,977) ar_mopt+var_sopt 47,58% (1,0; 0,977) 49,70% (1,0; 0,977) 52,21% (1,0; 0,977) ar_mopt+varfima_mopt 47,57% (1,0; 0,977) 49,70% (1,0; 0,977) 52,21% (1,0; 0,977) ar_mopt+varma_mopt 47,57% (1,0; 0,977) 49,70% (1,0; 0,977) 52,21% (1,0; 0,977) ar_mopt+varma_sopt 47,57% (1,0; 0,977) 49,70% (1,0; 0,977) 52,21% (1,0; 0,977) ar_mopt+vhlinsvm_mopt 47,58% (1,0; 0,977) 49,70% (1,0; 0,977) 52,21% (1,0; 0,977) ar_mopt+vhlinsvm_sopt 47,58% (1,0; 0,977) 49,70% (1,0; 0,977) 52,21% (1,0; 0,977) ar_mopt+vhsvmlin_mopt 47,57% (1,0; 0,977) 49,70% (1,0; 0,977) 52,21% (1,0; 0,977) ar_mopt+vhsvmlin_sopt 47,57% (1,0; 0,977) 49,70% (1,0; 0,977) 52,21% (1,0; 0,977) ar_mopt+vnaivemean 47,57% (1,0; 0,977) 49,70% (1,0; 0,977) 52,21% (1,0; 0,977) ar_mopt+vrandwalk 47,57% (1,0; 0,977) 49,70% (1,0; 0,977) 52,21% (1,0; 0,977) ar_mopt+vsarfima_mopt 47,58% (1,0; 0,977) 49,70% (1,0; 0,977) 52,21% (1,0; 0,977) ar_mopt+vsvm_mopt 47,57% (1,0; 0,977) 49,70% (1,0; 0,977) 52,21% (1,0; 0,977) ar_mopt+vsvm_sopt 47,57% (1,0; 0,977) 49,70% (1,0; 0,977) 52,21% (1,0; 0,977) ar_mopt 48,17% (1,0; 0,977) 50,17% (1,0; 0,977) 51,98% (1,0; 0,977) ar_sopt 49,09% (1,0; 0,977) 49,36% (1,0; 0,977) 51,52% (1,0; 0,977) arma_mopt 48,64% (1,0; 0,977) 51,18% (1,0; 0,977) 51,52% (1,0; 0,977) arma_sopt 48,58% (1,0; 0,977) 49,83% (1,0; 0,977) 51,52% (1,0; 0,977) hlinsvm_mopt 48,40% (1,0; 0,977) 50,68% (1,0; 0,977) 50,58% (1,0; 0,977) hlinsvm_sopt 48,09% (1,0; 0,977) 49,83% (1,0; 0,977) 53,61% (1,0; 0,977) hsvmlin_mopt 48,41% (1,0; 0,977) 50,24% (1,0; 0,977) 53,85% (1,0; 0,977) hsvmlin_sopt 48,02% (1,0; 0,977) 51,01% (1,0; 0,977) 51,28% (1,0; 0,977) naivemean_mopt 47,48% (1,0; 0,977) 49,70% (1,0; 0,977) 52,45% ( -; -) svm_mopt 47,67% (1,0; 0,977) 48,88% (1,0; 0,977) 53,85% (1,0; 0,977) svm_sopt 46,65% (1,0; 0,977) 49,59% (1,0; 0,977) 53,85% (1,0; 0,977) Nota: Entre parênteses estão os valores-p gerados pela aplicação do teste de Pesaran e Timmermann (1992) e Anatolyev e Gerko (2005) respectivamente, corrigidos pelo método de Hochberg (1988). Os hifens no lugar de alguns valores-p indicam os casos nos quais o modelo produziu todas as saídas com o mesmo sinal, ocasionando uma divisão por zero no cálculo das estatísticas. 6.4.4 Análise de Resíduos Através da análise de resíduos é possível verificar se as características presentes nas séries temporais são capturadas adequadamente pelos modelos. A definição do que vem a ser um “resíduo” depende do modelo: tipicamente, pela formulação do modelo se identificada Capítulo 6. Resultados 107 o trecho formado por uma sequência de valores independentes e igualmente distribuídos. Para os onze modelos que supõem implicitamente homoscedasticidade, os resíduos são simplesmente as diferenças entre os valores previsto e observado. Já para os doze compostos através da Equação 5.4, pode-se obter os resíduos rearrumando os termos: = rt − E[st|Ωt−1]E[σt|Ψt−1]ξt E[σt|Ψ ] (6.1) t−1 Após formar as duzentas e quarenta sequências de resíduos (uma para cada um dos quarenta modelos aplicados à cada uma das seis séries de taxas de retorno logarítmicas), é realizado o teste de Ljung-Box a fim de evidenciar possíveis correlações seriais. Para as sequências sem correlação linear evidenciada, é aplicado novamente o teste de Ljung-Box, mas desta vez aos valores absolutos dos resíduos, com intuito de identificar a presença de heteroscedasticidade condicional. Às sequências restantes é aplicado o teste BDS para verificar se há algum outro tipo de violação à hipótese da sequência ser formada por resíduos independentes e igualmente distribuídos. Conforme listado na Tabela 24, apenas o modelo composto ar_mopt+var_mopt foi capaz de capturar adequadamente as relações em todas as séries, produzindo resíduos independentes e igualmente distribuídos. Chama atenção o fato de que nenhum dos modelos (lineares, não lineares, híbridos ou os compostos ar_mopt+naivesd6) com suposição implícita de homoscedasticidade foi capaz de capturar adequadamente as características de qualquer uma das séries, o que é evidenciado pela presença de correlações lineares nos resíduos ou em seus valores absolutos. Além destes, os modelos ar_mopt+naivemean e ar_mopt+vnaivemean também não foram capazes de capturar as relações em qualquer uma das séries. 6.4.5 Síntese das Avaliações – Taxas de Retorno Logarítmicas Pelo critério de precisão das previsões, tem-se que alguns modelos compostos e lineares se destacam positivamente em relação ao híbrido hlinsvm_sopt, enquanto os demais não apresentam vitórias nem derrotas. Observa-se que, por este critério, os modelos que consideram heteroscedasticidade condicional não sofreram derrotas. A avaliação de validade dos intervalos de previsão revela um ponto fraco para os modelos compostos com relação à cobertura realizada quando comparada à esperada, mas ao mesmo tempo indica que os intervalos de previsão gerados cometem “erros” de forma aleatória, o que é uma característica desejada na aplicação prática e é também responsável pela superioridade de forma geral dos modelos compostos sobre os que supõem homosce- dasticidade. Merece investigação posterior a possibilidade de incrementar a Equação 5.4 para levar em conta a incerteza na estimativa de volatilidade: tal incremento pode fazer 6 Este modelo fornece como estimativa para a volatilidade seguinte o desvio padrão das taxas de retorno anteriores, que por sua vez é calculado com a suposição implícita de que há homoscedasticidade. Capítulo 6. Resultados 108 Tabela 24 – Resíduos Inadequados Produzidos por Modelo – Taxas de Retorno Logarítmica Modelo Correlação Linear Heteroscedasticidade Não IID Total ar_mopt+var_mopt 0 0 0 0 ar_mopt+svm_mopt 1 0 0 1 ar_mopt+varma_sopt 0 1 0 1 ar_mopt+varma_mopt 0 1 0 1 ar_mopt+ar_sopt 0 2 0 2 ar_mopt+ar_mopt 0 2 0 2 ar_mopt+arma_sopt 0 2 0 2 ar_mopt+arma_mopt 0 2 0 2 ar_mopt+arfima_mopt 0 2 0 2 ar_mopt+sarfima_mopt 0 2 0 2 ar_mopt+hlinsvm_sopt 0 2 0 2 ar_mopt+hlinsvm_mopt 0 2 0 2 ar_mopt+hsvmlin_sopt 0 2 0 2 ar_mopt+hsvmlin_mopt 0 2 0 2 ar_mopt+var_sopt 2 0 0 2 ar_mopt+varfima_mopt 1 0 1 2 ar_mopt+vsarfima_mopt 1 0 1 2 ar_mopt+vsvm_mopt 1 1 0 2 ar_mopt+vhlinsvm_sopt 1 0 1 2 ar_mopt+vhlinsvm_mopt 2 0 0 2 ar_mopt+vhsvmlin_sopt 1 1 0 2 ar_mopt+vhsvmlin_mopt 1 1 0 2 ar_mopt+randwalk 0 2 1 3 ar_mopt+svm_sopt 0 3 0 3 ar_mopt+vrandwalk 2 1 0 3 ar_mopt+vsvm_sopt 1 2 0 3 ar_mopt+naivemean 3 3 0 6 ar_mopt+naivesd 2 4 0 6 ar_mopt+vnaivemean 3 3 0 6 naivemean 4 2 0 6 ar_sopt 4 2 0 6 ar_mopt 4 2 0 6 arma_sopt 4 2 0 6 arma_mopt 2 4 0 6 svm_sopt 4 2 0 6 svm_mopt 2 4 0 6 hlinsvm_sopt 2 4 0 6 hlinsvm_mopt 2 4 0 6 hsvmlin_sopt 2 4 0 6 hsvmlin_mopt 2 4 0 6 Capítulo 6. Resultados 109 com que os modelos compostos produzam intervalos de previsão com cobertura realizada mais próxima da esperada. Tal como para as séries de taxas de retornos normalizadas, a avaliação de acuidade direcional não revela diferenças entre os modelos ou superioridade dos mesmos em relação a um preditor aleatório. Na sequência, a análise dos resíduos indica claramente a superioridade dos modelos compostos sobre os demais, com destaque para o ar_mopt+var_mopt, que capturaram completamente todas as relações em todas as séries. Cabe salientar que, para modelos compostos, a qualidade das previsões de volatilidade possui impacto muito forte na avaliação da validade dos intervalos de previsão e análise de resíduos. Através dos resultados alcançados, não foi possível identificar uma relação direta entre os modelos de volatilidade mais precisos e os que, quando parte de um modelo composto, levam a resultados melhores com respeito aos dois critério mencionados. Dentre os fatores que podem gerar tal situação estão: a) as séries de volatilidades são compostas por estimativas, de modo que previsões precisas das estimativas não necessariamente são previsões precisas da volatilidade de fato, que não é observável diretamente; b) as características dos resíduos produzidos nas séries de volatilidade, apesar de não considerados neste estudo, podem ter influência significativa, especialmente na produção dos intervalos de previsão: caso sejam consideradas na Equação 5.4, podem reduzir o número de intervalos de previsão com cobertura realizada significantemente aquém da esperada. 6.5 Análise do Desempenho das Máquinas de Vetores de Suporte Diante dos experimentos realizados e resultados obtidos, cabem algumas considerações gerais sobre a aplicação de máquinas de vetores de suporte na previsão da séries temporais de taxas de retorno de ações. Nas considerações iniciais do presente trabalho, foram feitas as seguintes perguntas: a) com 95% de chance, qual a menor taxa de retorno possível para amanhã? b) qual o valor mais provável para a taxa de retorno da semana que vem? c) a aplicação de máquinas de vetores de suporte melhora os resultados alcançados com modelos tradicionais de séries temporais estocásticas? A resposta para a primeira depende da construção de intervalos de previsão válidos, ou seja, com cobertura realizada compatível com a esperada e tal que a observação de valores fora do intervalo aconteça de forma independente das observações anteriores. Dentre os modelos que geraram menos intervalos de previsão inválidos, está um construído com uma Capítulo 6. Resultados 110 SVM aplicada à série de volatilidades brutas. Entretanto, resultado similar foi alcançado com um modelo linear que considera correlações de longo prazo. Quanto à segunda pergunta, há evidências de que os modelos lineares são iguais ou superiores às máquinas de vetores de suporte, conforme discutido nas subseções 6.3.1 e 6.4.1. Finalmente, com relação à terceira pergunta, observa-se que a aplicação de máquinas de vetores de suporte pode levar a resultados muito bons, mas similares aos alcançados por modelos tradicionais com respeito à previsão da distribuição de probabilidade de taxas de retorno de ações. No caso de previsões de volatilidade, as mais precisas foram alcançadas por modelos híbridos, ou seja, a aplicação de máquinas de vetores de suporte melhorou os resultados nesse caso, entretanto surpreendentemente os modelos mais precisos de volatilidade, quando combinados com as taxas de retorno normalizada não levaram aos melhores resultados para a taxa de retorno logarítmica. 6.5.1 Séries Temporais e Aproximação de Funções Durante a etapa de avaliação dos resultados obtidos nesta pesquisa, foi realizada uma análise quanto à adequação de técnicas de inteligência artificial, em especial das máquinas de vetores de suporte, para o problema de previsão de séries temporais. Desde o trabalho de White (1988), foram realizados diversos estudos cujo objeto é a aplicação de técnicas de inteligência artificial na previsão de séries temporais financeiras. Tipicamente, a evolução da série é tratada como uma função: xt = f(xt−1, xt−2, . . . , xt−i) + ϵt (6.2) Logo, o problema de previsão pode ser resolvido através da criação de um estima- dor f̂ , etapa na qual são aplicadas as técnicas de inteligência artificial. É comum ainda incluir variáveis exógenas na formulação do problema, tais como indicadores técnicos, fundamentalistas, taxas de juros, inflação, câmbio, preços de commodities, etc. Se a função f na Equação 6.2 for linear, então a série temporal descrita é puramente auto regressiva (Equação 3.11). Assim, a aplicação de máquinas de vetores de suporte ou redes neurais artificiais na obtenção do estimador f̂ pode ser entendida como uma extensão não linear do modelo AR(p)7: o valor esperado do próximo ponto na série temporal é função dos valores dos pontos anteriores. Ou seja, cada ponto na série temporal segue uma distribuição de probabilidade de modo que a média da distribuição associada a um ponto depende dos valores observados em pontos anteriores. No caso de séries temporais nas quais a média da distribuição associada a um ponto dependa das médias (e não dos valores) anteriores, a extensão não linear do modelo auto regressivo pode não ser uma boa aproximação. A série não linear determinística usada 7 White (1988) fez essa observação para redes neurais artificiais, que também se aplica para máquinas de vetores de suporte e, de forma geral, para qualquer modelo não paramétrico para aproximação de funções não lineares. Capítulo 6. Resultados 111 como exemplo na subseção 3.4.2 pode ser tomada como base para ilustrar tais situações8: seja {sn, n = 1, . . . , 1000} baseada na evolução de xn, com x0 = 0,1 e x 2n+1 = 1 − 2xn, sendo sn = arccos(−xn)/π. É evidente que sn é livre de ruído, depende apenas de sn−1 e, conforme demonstrado anteriormente, não apresenta correlações lineares. Além de sn, considera-se na ilustração mais seis séries, compostas pela soma de sn com ηn, aleatória com distribuição uniforme e média zero. Nessas seis séries, ηn foi gerada de modo que a relação sinal ruído (SNR) da soma fosse respectivamente: 10:1, 4:1, 2:1, 1:1, 1:2 e 1:4. Entende-se, nesse contexto, a relação sinal ruído como a razão entre as variâncias dos componentes determinístico e aleatório: SNR = V ar(sn)( ) . E, por fim, considera-se uma sérieV ar ηn puramente aleatória, também com distribuição uniforme. Convenciona-se a relação sinal ruído de sn como 1:0 e da última série, puramente aleatória, como 0:1. Após geradas, todas as oito séries foram normalizadas para variância uniforme9. Nas séries mistas tem-se então que cada ponto possui uma distribuição de probabilidade cuja média (que é o valor livre de ruído correspondente) depende da média da distribuição associada ao ponto anterior. Para cada uma das séries, foi construída uma máquina de vetor de suporte usando método similar à construção do modelo svm_sopt10, ou seja, kernel RBF e valores dos parâmetros C, ν e γ ajustados por arrefecimento simulado nos primeiros quinhentos valores da série. Fixados os parâmetros, foram realizadas previsões para os quinhentos valores seguintes usando o mecanismo de janelas deslizantes, de modo que cada previsão foi realizada como base no treinamento da ν-SVR nos quinhentos valores anteriores usando os parâmetros encontrados na etapa inicial. Na Tabela 25 estão listados, para cada série (identificada por sua relação sinal ruído), o valor teórico máximo R2 V ar(ηn)max = 1− V ar(sn+ηn) da fração da variância da série que pode ser capturada por um modelo e o valor R2SVM = 1− V ar(ϵn)( + ) alcançado pela máquina de vetor de suporte, sendo ϵn = xn− x̂n, xn = sn+ηV ar s η nn n e x̂n a série de previsões realizadas. Tabela 25 – R2max x R2SVM SNR R2max R2SVM 1:0 1,0000 0,9969 10:1 0,9091 0,6458 4:1 0,8000 0,3495 2:1 0,6667 0,1316 1:1 0,5000 0,0285 1:2 0,3333 0,0085 1:4 0,2000 0,0015 0:1 0,0000 −0,0023 8 No exemplo original, a série possui 4096 pontos. A redução para 1000 diminui o tempo necessário para a execução dos experimentos, sem acarretar em perdas para a ilustração em questão. 9 A normalização consiste em dividir cada valor pelo desvio padrão da série original. Tal transformação preserva a relação sinal ruído. 10 Diferente do svm_sopt, para esta ilustração a entrada do modelo é apenas o valor anterior ao que se deseja ser previsto, em vez de ser realizada uma busca da quantidade que leva aos melhores resultados. Capítulo 6. Resultados 112 Observa-se que a ν-SVR alcançou um resultado muito bom para a série livre de ruído, entretanto o desempenho cai drasticamente conforme aumenta o nível de ruído11: com SNR 4:1, é capturada menos da metade da variância possível e com SNR 1:1, apesar do componente determinístico representar metade da variância total, a máquina de vetor de suporte não o captura, produzindo previsões praticamente tão efetivas quanto a média dos valores anteriores. A queda no poder de previsão com aumento da variância do ruído não acontece apenas com máquinas de vetores de suporte, mas com qualquer método que trate a evolução da série temporal como função: tomando xn como alguma das série mistas apresentadas anteriormente, tem-se xn = f(xn−1), ou seja, sn+ηn = f(sn−1+ηn−1). Quando a variância do ruído é pequena, sn + ηn ≃ sn, e assim a evolução da série temporal pode ser bem aproximada por uma função. Entretanto, se a variância for grande o suficiente, podem haver situações nas quais st1 e st2 sejam muito diferentes ao mesmo tempo em que ηt1 e ηt2 sejam tais que st1 + ηt1 = st2 + ηt2 . Logo, não é possível diferenciar f(st1 + ηt1) e f(st2 + ηt2). Tais situações ficam cada vez mais frequentes com o aumento da variância do ruído, levando à construção de estimadores f̂(x) que tendem cada vez mais à média dos valores do conjunto de treinamento, conforme se observa no resultado da ilustração apresentada. A presença de ruído numa série temporal não linear não interfere apenas em modelos de previsão que tratam a evolução da série como função, mas também pode camuflar o componente determinístico perante testes estatísticos, levando à inexistência de evidências suficientes para rejeitar a hipótese nula de que os dados são independentes e igualmente distribuídos. Na Tabela 26 estão listados os resultados da aplicação do teste BDS aos quinhentos últimos valores de cada uma das séries utilizadas anteriormente, que é a parte para a qual as máquinas de vetor de suporte produziram previsões. Para todas as séries, exceto a última, a média da distribuição de probabilidade associada a cada ponto depende da média da distribuição associada ao ponto anterior, portanto os valores não são independentes. Das sete séries nas quais há dependência, a partir da relação sinal ruído 1:1, o teste BDS não indica rejeição da hipótese nula de que os pontos são independentes e igualmente distribuídos. O efeito da presença de ruído em uma série temporal não linear pode ser levado em conta na interpretação de alguns resultados obtidos anteriormente, em especial quanto à previsibilidade das séries de taxas de retorno normalizadas: a) não houve evidências de modelos que gerassem previsões significantemente melhores que o naivemean; b) o teste de Ljung-Box não detectou dependências lineares nos resíduos do modelo naivemean, exceto nas taxas com resolução diária; 11 O valor negativo de R2 na série puramente aleatória indica que as previsões realizadas introduziram mais ruído ao que já existia. Capítulo 6. Resultados 113 Tabela 26 – Teste BDS de independência por SNR SNR ϵ m = 2 m = 3 m = 4 m = 5 1:0 1,0σ 81,47 (0,0000) 78,78 (0,0000) 83,21 (0,0000) 86,99 (0,0000)1,5σ 14,70 (0,0000) 11,75 (0,0000) 8,19 (0,0000) 6,64 (0,0000) 10:1 1,0σ 52,01 (0,0000) 53,72 (0,0000) 54,87 (0,0000) 57,01 (0,0000)1,5σ 11,21 (0,0000) 11,46 (0,0000) 10,46 (0,0000) 9,88 (0,0000) 4:1 1,0σ 24,36 (0,0000) 26,60 (0,0000) 25,76 (0,0000) 25,57 (0,0000)1,5σ 8,01 (0,0000) 9,21 (0,0000) 8,89 (0,0000) 8,75 (0,0000) 2:1 1,0σ 6,16 (0,0000) 6,99 (0,0000) 7,56 (0,0000) 7,58 (0,0000)1,5σ 5,09 (0,0000) 5,78 (0,0000) 5,87 (0,0000) 5,63 (0,0000) 1:1 1,0σ 2,31 (0,6493) 2,37 (0,5639) 2,17 (0,8629) 1,70 (0,9705)1,5σ 1,68 (0,9705) 1,73 (0,9705) 1,54 (0,9705) 1,47 (0,9705) 1:2 1,0σ -1,69 (0,9705) -1,21 (0,9705) -1,56 (0,9705) -1,58 (0,9705)1,5σ -2,29 (0,6589) -1,35 (0,9705) -1,37 (0,9705) -1,28 (0,9705) 1:4 1,0σ 0,35 (0,9705) 0,80 (0,9705) 0,47 (0,9705) 0,19 (0,9705)1,5σ 0,90 (0,9705) 0,99 (0,9705) 0,62 (0,9705) 0,33 (0,9705) 0:1 1,0σ -1,33 (0,9705) -1,62 (0,9705) -0,79 (0,9705) -0,97 (0,9705)1,5σ -0,11 (0,9705) -0,04 (0,9705) 0,40 (0,9705) 0,23 (0,9705) Nota: O teste BDS toma como parâmetro um valor m para a dimensão na qual deve ser realizado o teste, bem como um valor ϵ que determina se dois pontos são vizinhos ou não. Estão listados, para cada combinação (m, ϵ), a estatística W do teste e entre parêntese o valor-p, após a correção de Hochberg, aplicada a fim de manter o nível de significância do teste como um todo. c) o teste BDS não apontou evidências para rejeição da hipótese que os resíduos do modelo naivemean formam uma sequência de valores independentes e igualmente distribuídos. Os resíduos do modelo naivemean possuem média nula, e nos demais aspectos são iguais à série original. Pelas evidências apontadas, poderia-se concluir que as taxas de retorno normalizadas são puramente aleatórias, e que o motivo para rejeição da hipótese de dados iid nas taxas de retorno logarítmicas é apenas a presença de heteroscedasticidade condicional. Porém, foi demonstrado que as evidências seriam as mesmas em séries compostas pela soma de um componente determinístico não linear com outro de ruído. Assim, de posse dessas evidências, não é possível afirmar que as séries de taxas de retorno normalizadas são puramente aleatórias. Já no caso das séries de volatilidade, a aplicação de máquinas de vetores de suporte aos resíduos de modelos lineares melhoraram a precisão das previsões, ainda que discretamente. Tal situação também é compatível com a de uma série não linear contaminada com ruído aditivo, porém de menor magnitude do que seria necessário para se ter o resultado observado nas séries de taxas de retorno normalizadas. 114 7 Considerações Finais Séries temporais de taxas de retornos de ações frequentemente não são formadas por valores independentes e igualmente distribuídos, ao mesmo tempo em que apresentam correlação serial praticamente nula, indicando que eventuais dependências existentes são não lineares. Tal situação é aparentemente bastante propícia para a aplicação de modelos baseados em inteligência artificial, dada a capacidade dos mesmos de detectar automaticamente relações a partir dos dados, mesmo as não lineares. Máquinas de vetores de suporte com kernel RBF foram escolhidas para este estudo. Elas são equivalentes a redes neurais RBF, com a vantagem de determinar a arquitetura (número de funções radiais e respectivos centros) automaticamente com base no princípio da minimização de risco estrutural. O estudo realizado teve intuito de verificar o desempenho das máquinas de vetores de suporte, em relação a modelos estocásticos lineares, quando aplicadas na construção de intervalos de previsão e estimativas de valor esperado de taxas de retorno de ações do mercado brasileiro. Os modelos em avaliação foram aplicados às séries de volatilidade, taxas de retorno normalizadas e taxas de retorno logarítmicas. Os resultados nos dois primeiros tipos de séries foram combinados para realizar previsões no terceiro tipo, de forma a tratar a heteroscedasticidade condicional. Além disso, os modelos aplicados direta e somente ao terceiro tipo de série assumem implicitamente que há homoscedasticidade nos dados. Os resultados obtidos foram avaliados com relação à precisão das previsões, validade dos intervalos de previsão, acuidade direcional e análise de resíduos. Nas séries de volatilidade, as previsões mais precisas foram alcançadas por modelos híbridos, formados por um componente linear e outro baseado em máquina de vetor de suporte. Com relação às séries de taxas de retorno normalizadas, as previsões dos modelos lineares foram levemente mais precisas que os demais. Três dos modelos baseados em máquinas de vetores de suporte produziram o menor número de intervalos de previsão inválidos, mas de forma geral houve pouca diferença entre os modelos com relação a esse aspecto e todos alcançaram bons resultados. A avaliação de resíduos gerou resultados similares. Com respeito ao sinal algébrico das taxas, não houve evidência, por parte de nenhum dos modelos, de poder preditivo superior a um preditor aleatório. Nas séries de taxas de retorno logarítmicas, os critérios de precisão das previsões e acuidade direcional não destacaram grandes diferenças entre os modelos. Já quanto à validade dos intervalos de previsão, os modelos que tratam heteroscedasticidade condicional se mostraram superiores aos que supõem homoscedasticidade, com destaque positivo para um modelo composto que possui como componente para a volatilidade um modelo baseado em máquinas de vetores de suporte. Entretanto, desempenho similar foi observado num Capítulo 7. Considerações Finais 115 modelo composto com componente linear para volatilidade. Através da análise de resíduos, fica reforçada a importância do tratamento adequado da heteroscedasticidade condicional. 7.1 Principais Contribuições Com esta pesquisa, ficou evidente que há ganhos significativos decorrentes da aplicação de máquinas de vetores de suporte no problema de previsão de séries temporais de volatilidade do preço de ações, entretanto tal superioridade não implica na produção de menor número de intervalos de previsão inválidos e nem na captura adequada de todas as relações presentes nas séries de taxas de retorno de ações, de modo que o uso de máquinas de vetores de suporte leva a resultados muito bons porém não superiores aos alcançados com modelos lineares, com respeito à previsão da distribuição de probabilidade de taxas de retornos de ações. Os resultados obtidos indicam que a heteroscedasticidade condicional deve ser tratada adequadamente. Uma forma é através da combinação de previsões realizadas separadamente para séries de taxa de retorno normalizada e volatilidade. Não há evidências de vantagens na aplicação de máquinas de vetores de suporte no primeiro tipo de série, situação que se inverte na previsão de volatilidades quando aplicadas de forma combinada com modelos lineares que tratam correlações tanto de curto quanto de longo prazos. 7.2 Limitações Apesar dos bons resultados alcançados, há oportunidades de melhorias quanto aos intervalos de previsão: vários apresentaram cobertura realizada aquém da esperada. Foi identificado que uma possível causa para essa situação é a aproximação utilizada na combinação de previsões da taxa de retorno normalizada com a de volatilidade, que desconsiderou a incerteza na previsão desta última. Além disso, conforme ilustrado com séries geradas artificialmente, a abordagem de tratar a evolução de uma série temporal como função pode levar a resultados muito aquém do possível se a série for não linear contaminada por ruído aditivo, ou que de alguma forma sua dinâmica seja diferente do modelo puramente auto regressivo. 7.3 Trabalhos Futuros Diante do aprendizado obtido com esta pesquisa e das limitações identificadas, propõe-se como trabalhos futuros: a) investigar o impacto de considerar a imprecisão na previsão de volatilidade para formar intervalos de previsão para taxas de retorno correspondentes; Capítulo 7. Considerações Finais 116 b) adequar o modelo de máquinas de vetores de suporte para séries temporais, a fim de superar as possíveis limitações geradas pela presença de ruído; c) investigar se há variação nos resultados causadas por mudanças no tamanho da janela de ajuste/treinamento; d) considerar variáveis exógenas, tais como inflação, taxas de juros, preços de commo- dities e outras, nos modelos de previsão e avaliar se há ganhos significativos; e) aplicar as técnicas desta pesquisa a outros tipos de séries financeiras, como preços de títulos públicos. 117 Referências ABRAHAM, A.; NATH, B.; MAHANTI, P. K. Hybrid intelligent systems for stock market analysis. In: ALEXANDROV, V. et al. (Ed.). Computational Science - ICCS 2001. [S.l.]: Springer Berlin Heidelberg, 2001, (Lecture Notes in Computer Science, v. 2074). p. 337–345. ISBN 978-3-540-42233-4. ADRANGI, B. et al. Chaos in oil prices? evidence from futures markets. Energy Economics, v. 23, n. 4, p. 405–425, 2001. ISSN 0140-9883. AGRESTI, A. An introduction to categorical data analysis. Hoboken, NJ, USA: Wiley-Interscience, 2007. ISBN 978-0-471-22618-5. AKAIKE, H. A new look at the statistical model identification. IEEE Transactions on Automatic Control, v. 19, n. 6, p. 716–723, dez. 1974. ISSN 0018-9286. ANATOLYEV, S.; GERKO, A. A trading approach to testing for predictability. Journal of Business & Economic Statistics, v. 23, n. 4, p. 455–461, 2005. ATIYA, A.; TALAAT, N.; SHAHEEN, S. An efficient stock market forecasting model using neural networks. In: Neural Networks,1997., International Conference on. [S.l.: s.n.], 1997. v. 4, p. 2112–2115. BAO, Y. et al. Forecasting stock composite index by fuzzy support vector machines regression. In: Proceedings of International Conference on Machine Learning and Cybernetics. [S.l.: s.n.], 2005. v. 6, p. 3535–3540. BLANK, S. C. “chaos” in futures markets? A nonlinear dynamical analysis. Journal of Futures Markets, Wiley Subscription Services, Inc., A Wiley Company, v. 11, n. 6, p. 711–728, 1991. ISSN 1096-9934. BM&F-BOVESPA.Manual de Definições e Procedimentos dos Índices da BM&FBOVESPA. São Paulo, SP, 2014. BOLLERSLEV, T. Generalized autoregressive conditional heteroskedasticity. Journal of Econometrics, v. 31, n. 3, p. 307–327, 1986. ISSN 0304-4076. BOSER, B. E.; GUYON, I. M.; VAPNIK, V. N. A training algorithm for optimal margin classifiers. In: Proceedings of the Fifth Annual Workshop on Computational Learning Theory. New York, NY, USA: ACM, 1992. (COLT ’92), p. 144–152. ISBN 0-89791-497-X. BOX, G. E. P.; JENKINS, G. M.; REINSEL, G. C. Time Series Analysis: Forecasting and Control. 4. ed. [S.l.]: John Wiley & Sons, 2008. 784 p. ISBN 978-0-470-27284-8. BOX, G. E. P.; PIERCE, D. A. Distribution of residual autocorrelations in autoregressive- integrated moving average time series models. Journal of the American Statistical Association, v. 65, n. 332, p. 1509–1526, 1970. BROCK, W. A.; SAYERS, C. L. Is the business cycle characterized by deterministic chaos? Journal of Monetary Economics, v. 22, n. 1, p. 71–90, 1988. ISSN 0304-3932. Referências 118 BROOCK, W. A. et al. A test for independence based on the correlation dimension. Econometric Reviews, v. 15, n. 3, p. 197–235, 1996. BROOMHEAD, D. S.; LOWE, D. Radial Basis Functions, Multi-Variable Functional Interpolation and Adaptive Networks. London, United Kingdom, 1988. BRYCE, R. M.; SPRAGUE, K. B. Revisiting detrended fluctuation analysis. Scientific Reports 2, Macmillan Publishers Limited., v. 2, mar. 2012. BURGES, C. C. A tutorial on support vector machines for pattern recognition. Data Mining and Knowledge Discovery, Kluwer Academic Publishers, v. 2, n. 2, p. 121–167, 1998. ISSN 1384-5810. CAO, L.; TAY, F. E. H. Financial forecasting using support vector machines. Neural Computing & Applications, Springer-Verlag London Limited, v. 10, p. 184–192, 2001. ISSN 0941-0643. CHEN, C.; LIU, L.-M. Joint estimation of model parameters and outlier effects in time series. Journal of the American Statistical Association, v. 88, n. 421, p. 284–297, 1993. CLOPPER, C. J.; PEARSON, E. S. The use of confidence or fiducial limits illustrated in the case of the binomial. Biometrika, v. 26, n. 4, p. 404–413, 1934. CORTES, C.; VAPNIK, V. Support-vector networks. Machine Learning, Kluwer Academic Publishers, v. 20, n. 3, p. 273–297, 1995. ISSN 0885-6125. CYBENKO, G. Approximation by superpositions of a sigmoidal function. Mathematics of Control, Signals and Systems, Springer-Verlag, v. 2, n. 4, p. 303–314, 1989. ISSN 0932-4194. DARBELLAY, G. A.; WUERTZ, D. The entropy as a tool for analysing statistical dependences in financial time series. Physica A: Statistical Mechanics and its Applications, v. 287, n. 3-4, p. 429–439, 2000. ISSN 0378-4371. DECOSTER, G. P.; LABYS, W. C.; MITCHELL, D. W. Evidence of chaos in commodity futures prices. Journal of Futures Markets, Wiley Subscription Services, Inc., A Wiley Company, v. 12, n. 3, p. 291–305, 1992. ISSN 1096-9934. DING, Z.; GRANGER, C. W. J.; ENGLE, R. F. A long memory property of stock market returns and a new model. Journal of Empirical Finance, v. 1, n. 1, p. 83–106, 1993. ISSN 0927-5398. DUAN, K.-B.; KEERTHI, S. S. Which is the best multiclass SVM method? an empirical study. In: OZA, N. et al. (Ed.). Multiple Classifier Systems. [S.l.]: Springer Berlin Heidelberg, 2005, (Lecture Notes in Computer Science, v. 3541). p. 278–285. ISBN 978-3-540-26306-7. DUNN, O. J. Multiple comparisons using rank sums. Technometrics, v. 6, n. 3, p. 241–252, 1964. ELMAN, J. L. Finding structure in time. Cognitive Science, Lawrence Erlbaum Associates, Inc., v. 14, n. 2, p. 179–211, 1990. ISSN 1551-6709. Referências 119 ENGLE, R. F. Autoregressive conditional heteroscedasticity with estimates of the variance of united kingdom inflation. Econometrica, The Econometric Society, v. 50, n. 4, p. 987–1007, 1982. FAHLMAN, S. E. An Empirical Study of Learning Speed in Back-Propagation Networks. Pittsburgh, Pennsylvania, USA, 1988. FAMA, E. F. Efficient capital markets: A review of theory and empirical work. The Journal of Finance, Blackwell Publishing Ltd, v. 25, n. 2, p. 383–417, 1970. ISSN 1540-6261. FAMA, E. F. Efficient capital markets: II. The Journal of Finance, Blackwell Publishing Ltd, v. 46, n. 5, p. 1575–1617, 1991. ISSN 1540-6261. FANG, H.; LAI, K. S.; LAI, M. Fractal structure in currency futures price dynamics. Journal of Futures Markets, Wiley Subscription Services, Inc., A Wiley Company, v. 14, n. 2, p. 169–181, 1994. ISSN 1096-9934. FRANK, M.; STENGOS, T. Measuring the strangeness of gold and silver rates of return. The Review of Economic Studies, v. 56, n. 4, p. 553–567, 1989. FUNAHASHI, K. On the approximate realization of continuous mappings by neural networks. Neural Networks, v. 2, n. 3, p. 183–192, 1989. ISSN 0893-6080. GRANGER, C. W.; MAASOUMI, E.; RACINE, J. A dependence metric for possibly nonlinear processes. Journal of Time Series Analysis, Blackwell Publishing Ltd, v. 25, n. 5, p. 649–669, 2004. ISSN 1467-9892. GRUDNITSKI, G.; OSBURN, L. Forecasting S&P and gold futures prices: An application of neural networks. Journal of Futures Markets, Wiley Subscription Services, Inc., A Wiley Company, v. 13, n. 6, p. 631–643, 1993. ISSN 1096-9934. HAMMER, B.; GERSMANN, K. A note on the universal approximation capability of support vector machines. Neural Processing Letters, Kluwer Academic Publishers, v. 17, n. 1, p. 43–53, 2003. ISSN 1370-4621. HARTMAN, E. J.; KEELER, J. D.; KOWALSKI, J. M. Layered neural networks with gaussian hidden units as universal approximations. Neural Computation, M.I.T. Press, Cambridge, Massachusetts, USA, v. 2, n. 2, p. 210–215, jun. 1990. ISSN 0899-7667. HASLETT, J.; RAFTERY, A. E. Space-time modelling with long-memory dependence: Assessing ireland’s wind power resource. Journal of the Royal Statistical Society. Series C (Applied Statistics), v. 38, n. 1, p. 1–50, 1989. HAYFIELD, T.; RACINE, J. S. Nonparametric econometrics: The np package. Journal of Statistical Software, v. 27, n. 5, 2008. HELLSTRÖM, T.; HOLMSTRÖM, K. Predicting the stock market. Sweden: Department of Mathematics and Physics, Mälardalen University, 1998. HOCHBERG, Y. A sharper bonferroni procedure for multiple tests of significance. Biometrika, v. 75, n. 4, p. 800–802, 1988. Referências 120 HORNIK, K.; STINCHCOMBE, M.; WHITE, H. Multilayer feedforward networks are universal approximators. Neural Networks, v. 2, n. 5, p. 359–366, 1989. ISSN 0893-6080. HOSKING, J. R. M. Fractional differencing. Biometrika, v. 68, n. 1, p. 165–176, 1981. HSIEH, D. A. Chaos and nonlinear dynamics: Application to financial markets. The Journal of Finance, Blackwell Publishing Ltd, v. 46, n. 5, p. 1839–1877, 1991. ISSN 1540-6261. HSIEH, D. A. Implications of nonlinear dynamics for financial risk management. Journal of Financial and Quantitative Analysis, v. 28, p. 41–64, mar. 1993. ISSN 1756-6916. HSU, C.-W.; LIN, C.-J. A comparison of methods for multiclass support vector machines. IEEE Transactions on Neural Networks, v. 13, n. 2, p. 415–425, mar. 2002. ISSN 1045-9227. HUANG, W.; NAKAMORI, Y.; WANG, S.-Y. Forecasting stock market movement direction with support vector machine. Computers & Operations Research, v. 32, n. 10, p. 2513–2522, 2005. ISSN 0305-0548. HURVICH, C. M.; TSAI, C.-L. Regression and time series model selection in small samples. Biometrika, v. 76, n. 2, p. 297–307, 1989. HURWITZ, E.; MARWALA, T. Common Mistakes when Applying Computational Intelligence and Machine Learning to Stock Market modelling. [S.l.], 2012. HYNDMAN, R. J.; KHANDAKAR, Y. Automatic time series forecasting: the forecast package for R. Journal of Statistical Software, v. 26, n. 3, p. 1–22, 2008. HYNDMAN, R. J.; KOEHLER, A. B. Another look at measures of forecast accuracy. International Journal of Forecasting, v. 22, n. 4, p. 679–688, 2006. ISSN 0169-2070. IGEL, C.; HÜSKEN, M. Improving the rprop learning algorithm. In: Proceedings of the Second International Symposium on Neural Computation (NC 2000). [S.l.]: ICSC Academic Press, 2000. p. 115–121. JORDAN, M. I. Serial Order: A Parallel Distributed Processing Approach. La Jolla, California, 1986. 40 p. KAASTRA, I.; BOYD, M. Designing a neural network for forecasting financial and economic time series. Neurocomputing, v. 10, n. 3, p. 215–236, 1996. ISSN 0925-2312. KANTZ, H.; SCHREIBER, T. Nonlinear Time Series Analysis. 2. ed. Cambridge, UK: Cambridge University Press, 2004. 386 p. ISBN 978-0-521-82150-6. KIM, K. Financial time series forecasting using support vector machines. Neurocomputing, v. 55, n. 1&2, p. 307–319, 2003. ISSN 0925-2312. KOHARA, K. et al. Stock price prediction using prior knowledge and neural networks. Intelligent Systems in Accounting, Finance & Management, John Wiley & Sons, Ltd., v. 6, n. 1, p. 11–22, 1997. ISSN 1099-1174. KOHZADI, N.; BOYD, M. S. Testing for chaos and nonlinear dynamics in cattle prices. Canadian Journal of Agricultural Economics/Revue canadienne d’agroeconomie, Blackwell Publishing Ltd, v. 43, n. 3, p. 475–484, 1995. ISSN 1744-7976. Referências 121 KRUSKAL, W. H.; WALLIS, W. A. Use of ranks in one-criterion variance analysis. Journal of the American Statistical Association, v. 47, n. 260, p. 583–621, 1952. LJUNG, G. M.; BOX, G. E. P. On a measure of lack of fit in time series models. Biometrika, v. 65, n. 2, p. 297–303, 1978. LO, A. W. Long-term memory in stock market prices. Econometrica, The Econometric Society, v. 59, n. 5, p. 1279–1313, 1991. MAASOUMI, E.; RACINE, J. Entropy and predictability of stock market returns. Journal of Econometrics, v. 107, n. 1-2, p. 291–312, 2002. ISSN 0304-4076. Information and Entropy Econometrics. MANDELBROT, B. Statistical methodology for nonperiodic cycles: from the covariance to R/S analysis. In: Annals of Economic and Social Measurement. [S.l.]: National Bureau of Economic Research, 1972. v. 1, n. 3, p. 259–290. MANDELBROT, B. Limit theorems on the self-normalized range for weakly and strongly dependent processes. Probability Theory and Related Fields, Springer-Verlag, v. 31, n. 4, p. 271–285, 1975. ISSN 0044-3719. MANDELBROT, B. B.; WALLIS, J. R. Noah, joseph, and operational hydrology. Water Resources Research, v. 4, n. 5, p. 909–918, 1968. ISSN 1944-7973. MANDELBROT, B. B.; WALLIS, J. R. Computer experiments with fractional gaussian noises: Part 2, rescaled ranges and spectra. Water Resources Research, v. 5, n. 1, p. 242–259, 1969. ISSN 1944-7973. MCCULLOCH, W. S.; PITTS, W. A logical calculus of the ideas immanent in nervous activity. The bulletin of mathematical biophysics, Kluwer Academic Publishers, v. 5, n. 4, p. 115–133, 1943. ISSN 0007-4985. MINSKY, M.; PAPERT, S. Perceptrons: An introduction to computational geometry. Cambridge, Massachusetts, USA: M.I.T. Press, 1969. 258 p. MITCHELL, T. M. Machine Learning. New York, USA: McGraw-Hill, 1997. 432 p. ISBN 0-07-042807-7. MOLGEDEY, L.; EBELING, W. Local order, entropy and predictability of financial time series. The European Physical Journal B - Condensed Matter and Complex Systems, EDP Sciences, Springer-Verlag, v. 15, n. 4, p. 733–737, 2000. ISSN 1434-6028. NELSON, D. B. Conditional heteroskedasticity in asset returns: A new approach. Econometrica, The Econometric Society, v. 59, n. 2, p. 347–370, 1991. OLAZARAN, M. A sociological study of the official history of the perceptrons controversy. Social Studies of Science, v. 26, n. 3, p. 611–659, 1996. OLIVEIRA, F. A. de et al. The use of artificial neural networks in the analysis and prediction of stock prices. In: Systems, Man, and Cybernetics (SMC), 2011 IEEE International Conference on. [S.l.: s.n.], 2011. p. 2151–2155. ISSN 1062-922X. PAI, P.-F.; LIN, C.-S. A hybrid ARIMA and support vector machines model in stock price forecasting. Omega, v. 33, n. 6, p. 497–505, 2005. ISSN 0305-0483. Referências 122 PANAS, E.; NINNI, V. Are oil markets chaotic? A non-linear dynamic analysis. Energy Economics, v. 22, n. 5, p. 549–568, 2000. ISSN 0140-9883. PARK, J.; SANDBERG, I. W. Universal approximation using radial-basis-function networks. Neural Computation, MIT Press, v. 3, n. 2, p. 246–257, 1991. ISSN 0899-7667. PENG, C. et al. Mosaic organization of DNA nucleotides. Phys. Rev. E, American Physical Society, v. 49, p. 1685–1689, fev. 1994. PESARAN, M. H.; TIMMERMANN, A. A simple nonparametric test of predictive performance. Journal of Business & Economic Statistics, v. 10, n. 4, p. 461–465, 1992. PESARAN, M. H.; TIMMERMANN, A. Predictability of stock returns: Robustness and economic significance. The Journal of Finance, Blackwell Publishing Ltd, v. 50, n. 4, p. 1201–1228, 1995. ISSN 1540-6261. QI, M. Nonlinear predictability of stock returns using financial and economic variables. Journal of Business & Economic Statistics, v. 17, n. 4, p. 419–429, 1999. QIAN, B.; RASHEED, K. Hurst exponent and financial market predictability. In: Proceedings of The 2nd IASTED international conference on financial engineering and applications. [S.l.: s.n.], 2004. p. 203–209. REBOREDO, J. C. et al. How fast do stock prices adjust to market efficiency? evidence from a detrended fluctuation analysis. Physica A: Statistical Mechanics and its Applications, v. 392, n. 7, p. 1631–1637, 2013. ISSN 0378-4371. RIEDMILLER, M.; BRAUN, H. A direct adaptive method for faster backpropagation learning: the RPROP algorithm. In: IEEE International Conference on Neural Networks. [S.l.: s.n.], 1993. v. 1, p. 586–591. ROSENBLATT, F. Principles of neurodynamics. Washington, USA: Spartan Book, 1962. 616 p. ROUAI, F. A.; AHMED, M. B. An efficient combination of traditional financial time series and neurofuzzy techniques for stock market forecasting and modeling. In: Systems, Man and Cybernetics, 2002 IEEE International Conference on. [S.l.: s.n.], 2002. v. 1, p. 385–390. ISSN 1062-922X. RUMELHART, D. E.; HINTON, G. E.; WILLIAMS, R. J. Learning internal representations by error propagation. In: . Parallel Distributed Processing: Explorations in the Microstructure of Cognition. Cambridge, Massachusetts, USA: MIT Press, 1986. v. 1, p. 318–362. ISBN 0-262-18120-7. SAAD, E. W.; PROKHOROV, D. V.; WUNSCH, D. C. Comparative study of stock trend prediction using time delay, recurrent and probabilistic neural networks. IEEE Transactions on Neural Networks, v. 9, n. 6, p. 1456–1470, nov. 1998. ISSN 1045-9227. SAPANKEVYCH, N.; SANKAR, R. Time series prediction using support vector machines: A survey. Computational Intelligence Magazine, IEEE, v. 4, n. 2, p. 24–38, maio 2009. ISSN 1556-603X. SCHEINKMAN, J. A.; LEBARON, B. Nonlinear dynamics and stock returns. The Journal of Business, v. 62, n. 3, p. 311–337, 1989. Referências 123 SCHÖLKOPF, B. et al. New support vector algorithms. Neural Computation, M.I.T. Press, Cambridge, Massachusetts, USA, v. 12, n. 5, p. 1207–1245, maio 2000. SCHÖLKOPF, B. et al. Comparing support vector machines with gaussian kernels to radial basis function classifiers. IEEE Transactions on Signal Processing, v. 45, n. 11, p. 2758–2765, nov. 1997. ISSN 1053-587X. SCHWARZ, G. Estimating the dimension of a model. The Annals of Statistics, The Institute of Mathematical Statistics, v. 6, n. 2, p. 461–464, mar. 1978. SCHWENKER, F.; KESTLER, H. A.; PALM, G. Three learning phases for radial- basis-function networks. Neural Networks, v. 14, n. 4–5, p. 439–458, maio 2001. ISSN 0893-6080. SHANNON, C. E. A mathematical theory of communication. The Bell System Technical Journal, v. 27, n. 3, p. 379–423, jul. 1948. ISSN 0005-8580. SHMILOVICI, A.; ALON-BRIMER, Y.; HAUSER, S. Using a stochastic complexity measure to check the efficient market hypothesis. Computational Economics, Kluwer Academic Publishers, v. 22, n. 2-3, p. 273–284, 2003. ISSN 0927-7099. SMOLA, A.; SCHÖLKOPF, B. A tutorial on support vector regression. Statistics and Computing, Kluwer Academic Publishers, v. 14, n. 3, p. 199–222, 2004. ISSN 0960-3174. SUYKENS, J. A. K.; VANDEWALLE, J. Least squares support vector machine classifiers. Neural Processing Letters, Kluwer Academic Publishers, v. 9, n. 3, p. 293–300, 1999. ISSN 1370-4621. TAN, T. Z.; QUEK, C.; NG, G. S. Brain-inspired genetic complementary learning for stock market prediction. In: The IEEE Congress on Evolutionary Computation. [S.l.: s.n.], 2005. v. 3, p. 2653–2660. TAQQU, M. S.; TEVEROVSKY, V. On estimating the intensity of long-range dependence in finite and infinite variance time series. In: . A Practical Guide To Heavy Tails: Statistical Techniques and Applications. Boston, USA: Birkhauser, 1998. p. 177–217. ISBN 0-8176-3951-9. TAQQU, M. S.; TEVEROVSKY, V.; WILLINGER, W. Etimators for long-range dependence: an empirical study. Fractals, v. 03, n. 04, p. 785–798, 1995. TAQQU, M. S.; TEVEROVSKY, V.; WILLINGER, W. A critical look at lo’s modified R/S statistic. Journal of Statistical Planning and Inference, v. 80, p. 211–227, ago. 1999. TAY, F. E. H.; CAO, L. J. Improved financial time series forecasting by combining support vector machines with self-organizing feature map. Intelligent Data Analysis, IOS Press, v. 5, n. 4, p. 339–354, 2001. TAY, F. E. H.; CAO, L. J. e-descending support vector machines for financial time series forecasting. Neural Process. Lett., Kluwer Academic Publishers, Hingham, MA, USA, v. 15, n. 2, p. 179–195, abr. 2002. ISSN 1370-4621. TAY, F. E. H.; CAO, L. J. Modified support vector machines in financial time series forecasting. Neurocomputing, v. 48, n. 1-4, p. 847–861, 2002. ISSN 0925-2312. Referências 124 TRAFALIS, T. B.; INCE, H. Support vector machine for regression and applications to financial forecasting. In: Neural Networks, 2000. IJCNN 2000, Proceedings of the IEEE-INNS-ENNS International Joint Conference on. [S.l.: s.n.], 2000. v. 6, p. 348–353. ISSN 1098-7576. TREADGOLD, N. K.; GEDEON, T. D. Simulated annealing and weight decay in adaptive learning: the SARPROP algorithm. IEEE Transactions on Neural Networks, v. 9, n. 4, p. 662–668, jul. 1998. ISSN 1045-9227. TSALLIS, C.; STARIOLO, D. A. Generalized simulated annealing. Physica A: Statistical Mechanics and its Applications, v. 233, n. 1–2, p. 395–406, 1996. ISSN 0378-4371. TSAY, R. S. Analysis of financial time series. 3. ed. New York, USA: John Wiley & Sons, 2010. 712 p. ISBN 978-0-470-41435-4. VAPNIK, V.; GOLOWICH, S. E.; SMOLA, A. J. Support vector method for function approximation, regression estimation and signal processing. In: MOZER, M. C.; JORDAN, M. I.; PETSCHE, T. (Ed.). Advances in Neural Information Processing Systems 9. Cambridge, Massachusetts, USA: M.I.T. Press, 1997. p. 281–287. VAPNIK, V. N. Statistical Learning Theory. New York, USA: John Wiley & Sons, Inc., 1998. 736 p. (Adaptive and Learning Systems for Signal Processing, Communications, and Control). ISBN 0-471-03003-1. VAPNIK, V. N. The Nature of Statistical Learning Theory. 2. ed. [S.l.]: Springer, 2000. 314 p. ISBN 0-387-98780-0. VICENTE, L. C. Simulador Inteligente Aplicado ao Mercado de Ações Brasileiro (Perceptron Trader). 80 f. Dissertação (Mestrado Profissional em Pesquisa Operacional e Inteligência Computacional) — Universidade Candido Mendes, Campos dos Goytacazes, RJ, 2011. WESTON, J.; WATKINS, C. Multi-class support vector machines. Egham, Surrey, England, 1998. WHITE, H. Economic prediction using neural networks: the case of IBM daily stock returns. In: IEEE International Conference on Neural Networks. [S.l.: s.n.], 1988. v. 2, p. 451–458. WHITE, H. A reality check for data snooping. Econometrica, Blackwell Publishers Ltd, v. 68, n. 5, p. 1097–1126, 2000. ISSN 1468-0262. YANG, D.; ZHANG, Q. Drift independent volatility estimation based on high, low, open, and close prices. The Journal of Business, The University of Chicago Press, v. 73, n. 3, p. 477–492, jul. 2000. ISSN 0021-9398. YANG, H. et al. Financial time series prediction using non-fixed and asymmetrical margin setting with momentum in support vector regression. STUDIES IN FUZZINESS AND SOFT COMPUTING, PHYSICA-VERLAG, v. 152, p. 334–350, 2004. YANG, S.-R.; BRORSEN, B. W. Nonlinear dynamics of daily futures prices: Conditional heteroskedasticity or chaos? Journal of Futures Markets, Wiley Subscription Services, Inc., A Wiley Company, v. 13, n. 2, p. 175–191, 1993. ISSN 1096-9934. Referências 125 ZHANG, G.; PATUWO, B. E.; HU, M. Y. Forecasting with artificial neural networks:: The state of the art. International Journal of Forecasting, v. 14, n. 1, p. 35–62, 1998. ISSN 0169-2070. ZHANG, G. P. Time series forecasting using a hybrid ARIMA and neural network model. Neurocomputing, v. 50, n. 0, p. 159–175, 2003. ISSN 0925-2312. ZUNINO, L. et al. Forbidden patterns, permutation entropy and stock market inefficiency. Physica A: Statistical Mechanics and its Applications, v. 388, n. 14, p. 2854–2864, 2009. ISSN 0378-4371.