Universidade Federal do Rio Grande do Norte
Centro de Ciências Exatas e da Terra
Departamento de Informática e Matemática Aplicada
Programa de Pós-Graduação em Sistemas e Computação
Mestrado Acadêmico em Sistemas e Computação
Um Estudo Sobre Aprendizado de Máquina
Aplicado à Modelagem de Retornos de
Ações
José Gilmar Alves Santos Júnior
Natal - RN
Setembro de 2015
José Gilmar Alves Santos Júnior
Um Estudo Sobre Aprendizado de Máquina Aplicado à
Modelagem de Retornos de Ações
Dissertação de Mestrado apresentada ao Pro-
grama de Pós-Graduação em Sistemas e Com-
putação do Departamento de Informática e
Matemática Aplicada da Universidade Fede-
ral do Rio Grande do Norte como requisito
parcial para a obtenção do grau de Mestre
em Sistemas e Computação.
Linha de pesquisa:
Processamento Gráfico e Inteligência Compu-
tacional
PPgSC – Programa de Pós-Graduação em Sistemas e Computação
DIMAp – Departamento de Informática e Matemática Aplicada
CCET – Centro de Ciências Exatas e da Terra
UFRN – Universidade Federal do Rio Grande do Norte
Orientadora: Profa. Dra. Anne Magály de Paula Canuto
Natal - RN
Setembro de 2015
UFRN / Biblioteca Central Zila Mamede
Catalogação da Publicação na Fonte
Santos Júnior, José Gilmar Alves.
Um estudo sobre aprendizado de máquina aplicado à modelagem de retornos
de ações / José Gilmar Alves Santos Júnior. – Natal, RN, 2015.
125 f. : il.
Orientadora: Profa. Dra. Anne Magály de Paula Canuto.
Dissertação (Mestrado) – Universidade Federal do Rio Grande do Norte.
Centro de Ciências Exatas e da Terra. Programa de Pós-Graduação em Sistemas
e Computação.
1. Máquinas de vetores de suporte – Dissertação. 2. Aprendizado de máquina
– Dissertação. 3. Mercado de ações – Dissertação. 4. Séries temporais financeiras
– Dissertação. I. Canuto, Anne Magály de Paula. II. Universidade Federal do
Rio Grande do Norte. III. Título.
RN/UF/BCZM CDU 004
JOSÉ GILMAR ALVES SANTOS JÚNIOR
Um Estudo Sobre Aprendizado de Máquina Aplicado à Modelagem
de Retornos de Ações
Esta Dissertação foi julgada adequada para a obtenção do título de Mestre em Sistemas
e Computação e aprovada em sua forma final pelo Programa de Pós-Graduação em Sistemas
e Computação do Departamento de Informática e Matemática Aplicada da Universidade
Federal do Rio Grande do Norte.
Profa. Dra. Anne Magály de Paula Canuto – UFRN
(Presidente)
Profa. Dra. Elizabeth Ferreira Gouvêa – UFRN
(Vice-coordenadora do Programa)
Banca Examinadora
Prof. Dr. João Medeiros de Araújo – UFRN
(Coorientador)
Prof. Dr. Antônio Carlos Gay Thomé – UFRN
(Examinador)
Prof. Dr. Ricardo Bastos Cavalcante Prudêncio – UFPE
(Examinador)
À minha avó, Maria Alves Sobrinha (in
memoriam), pelos valiosos ensinamentos
e exemplo de bom viver.
Agradecimentos
Sou imensamente grato pelas muitas oportunidades que tive. Agradeço aos meus pais,
José Gilmar Alves Santos e Maria Aparecida Alves Santos, por toda a dedicação, esforço,
ensinamentos, valores e apoio. À minha amada esposa, Kelly Lopes de Almeida Santos,
por todo o amor, apoio e dedicação.
Agradeço muito à minha orientadora, Anne Magály de Paula Canuto, pela forte
confiança, valiosos ensinamentos transmitidos e toda a atenção dispensada. Ao meu
coorientador João Medeiros de Araújo, pela inspiração, experiência transmitida e disposição.
Agradeço ao professor Aluizio Ferreira da Rocha Neto pela confiança e apoio. Aos professores
Anderson Luiz Rezende Mol, Ricardo Bastos Cavalcante Prudêncio, Elizabeth Ferreira
Gouvêa, Nélio Alessandro Azevedo Cacho e Antônio Carlos Gay Thomé pelos conhecimentos
transmitidos e contribuições realizadas à esta pesquisa.
Sou muito grato aos meus amigos que direta ou indiretamente contribuíram, e em
especial a Antônio de Pádua Melo Neto, pela inspiradora introdução às ciências econômicas.
A Roberto Evelim Penha Borges, por ter me apresentado ao mundo do mercado de capitais.
A George Gilson Souza de Oliveira e Laura Emmanuella Alves dos Santos Santana, por
todo o apoio, incentivo e inspiração. A Charles Novaes de Santana pela inspiração e forte
incentivo. A Tajá Costa Pinto pelas diversas e produtivas conversas. A Paulo Sérgio da
Câmara Vilela pelo apoio e dicas editoriais. E a Hélida Salles Santos por todo o apoio e
presteza.
Agradeço ao meu líder de equipe, Romildo Lunguinho Leite, por todo o apoio e
compreensão. E à Petróleo Brasileiro S.A. por viabilizar minha participação no programa
através das liberações durante o horário núcleo, mediante compensação.
Por fim, agradeço muito a todos os autores dos trabalhos referenciados nesta pesquisa,
pela dedicação à ciência. A todos que tornaram possível o Coursera, rica fonte de conhe-
cimento. E a todos os desenvolvedores e colaboradores de projetos de software livre, em
especial do Linux, Debian, Kile, R, Perl, PostgreSQL, VYM, TEX Live e abntex2.
“A pergunta certa é geralmente mais importante
do que a resposta certa à pergunta errada.”
(Alvin Toffler)
Resumo
O comportamento do preço de ações tem sido objeto de estudo há mais de um século, e as
primeiras aplicações de inteligência artificial na previsão de retornos datam da década de
1980. Neste trabalho, foi realizado um estudo sobre a aplicação de máquinas de vetores
de suporte na previsão de aspectos da distribuição de probabilidade de taxas de retorno
futuras dos preços de ações do mercado brasileiro: com base em valores anteriores das taxas
de retorno e volatilidades, ambas extraídas dos preços, deseja-se verificar se a sua utilização
é vantajosa em relação a modelos estatísticos mais simples. Através da comparação do
desempenho de diversos modelos (lineares, não lineares baseados em máquinas de vetores
de suporte e híbridos) em séries temporais com amostragens semanal, diária e intraday de
dez minutos, foi evidenciado que: (a) modelos híbridos geram previsões mais precisas do
que os demais nas séries de volatilidades; (b) a aplicação de máquinas de vetores de suporte
na previsão de valores esperados e intervalos de previsão para taxas de retorno não leva a
ganhos em relação a modelos lineares; e (c) a abordagem de tratar a evolução de séries
temporais como função pode levar a resultados similares aos alcançados (e muito aquém
do melhor possível), caso as séries sejam não lineares contaminadas por ruído aditivo de
grande magnitude.
Palavras-chaves: máquinas de vetores de suporte, aprendizado de máquina, mercado de
ações, séries temporais financeiras.
Abstract
Stock prices behavior has been subject of research for over a century, and artificial
intelligence techniques has been applied to forecast returns since the 1980s. In the present
research, we examine the performance of support vector machines to forecast Brazilian
stock returns and predictions intervals: based on past values of stock returns and volatilities,
both extracted from prices series, we want to figure out if there is some gain over traditional
statistical models. Our findings are based on analysis of linear, support vector and hybrid
models applied to weekly, daily and intraday data. The empirical evidence suggests that (a)
hybrid models performs better on forecasting volatilities series; (b) linear models performs
better on forecasting stock returns expected values and prediction intervals; and (c) the
approach of treating time series dynamics as a function may lead to results like the ones
we’ve got (far bellow the best possible) if the time series is nonlinear with large additive
noise.
Keywords: support vector machines, machine learning, stock market, financial time
series.
Lista de ilustrações
Figura 1 – Exemplo de hiperplano de decisão com respectivas margens . . . . . . 22
Figura 2 – Arquitetura geral de uma SVM . . . . . . . . . . . . . . . . . . . . . . 26
Figura 3 – Rede neural artificial com topologia feedforward . . . . . . . . . . . . . 29
Figura 4 – Rede recorrente de Jordan . . . . . . . . . . . . . . . . . . . . . . . . . 31
Figura 5 – Rede recorrente de Elman . . . . . . . . . . . . . . . . . . . . . . . . . 31
Figura 6 – Gráficos das funções ACF e PACF para séries AR e MA . . . . . . . . 41
Figura 7 – Função de auto correlação: AR x ARFIMA . . . . . . . . . . . . . . . . 43
Figura 8 – Série aleatória x determinística não linear . . . . . . . . . . . . . . . . 48
Figura 9 – Preços brutos x corrigidos – PETR4 . . . . . . . . . . . . . . . . . . . 72
Figura 10 – Séries temporais em estudo: amostragem semanal . . . . . . . . . . . . 75
Figura 11 – Distribuição dos erros absolutos: PETR4_VL_W e PETR4_VB_W . . . . . . 85
Figura 12 – Distribuição dos erros absolutos: VALE3_VL_W e VALE3_VB_W . . . . . . 87
Figura 13 – Distribuição dos erros absolutos: PETR4_VL_D e PETR4_VB_D . . . . . . 88
Figura 14 – Distribuição dos erros absolutos: VALE3_VL_D e VALE3_VB_D . . . . . . 89
Figura 15 – Distribuição dos erros absolutos: PETR4_VL_I e PETR4_VB_I . . . . . . 90
Figura 16 – Distribuição dos erros absolutos: VALE3_VL_I e VALE3_VB_I . . . . . . 91
Figura 17 – Distribuição dos erros absolutos: PETR4_RN_I . . . . . . . . . . . . . . 95
Figura 18 – Distribuição dos erros absolutos: VALE3_RN_I . . . . . . . . . . . . . . 96
Figura 19 – Distribuição dos erros absolutos: PETR4_RL_I . . . . . . . . . . . . . . 102
Lista de tabelas
Tabela 1 – Métricas de erros de previsão . . . . . . . . . . . . . . . . . . . . . . . 53
Tabela 2 – Índice de Negociabilidade . . . . . . . . . . . . . . . . . . . . . . . . . 73
Tabela 3 – Descrição das séries temporais utilizadas nos experimentos . . . . . . . 76
Tabela 4 – Descrição dos modelos considerados no estudo . . . . . . . . . . . . . . 79
Tabela 5 – Tamanhos de janela de otimização/treinamento por taxa de amostragem 79
Tabela 6 – Desempenho Relativo – Volatilidade Semanal – PETR4 . . . . . . . . . 86
Tabela 7 – Desempenho Relativo – Volatilidade Semanal – VALE3 . . . . . . . . . 87
Tabela 8 – Desempenho Relativo – Volatilidade Diária – PETR4 . . . . . . . . . . 88
Tabela 9 – Desempenho Relativo – Volatilidade Diária – VALE3 . . . . . . . . . . 90
Tabela 10 – Desempenho Relativo – Volatilidade Intraday – PETR4 . . . . . . . . 91
Tabela 11 – Desempenho Relativo – Volatilidade Intraday – VALE3 . . . . . . . . . 92
Tabela 12 – Desempenho Relativo – Placar Geral . . . . . . . . . . . . . . . . . . . 93
Tabela 13 – Teste de Kruskal-Wallis – Taxa de Retorno Normalizada . . . . . . . . 95
Tabela 14 – Desempenho Relativo – Taxa de Retorno Normalizada Intraday – PETR4 96
Tabela 15 – Desempenho Relativo – Taxa de Retorno Normalizada Intraday – VALE3 96
Tabela 16 – Intervalos de Previsão Inválidos por Modelo – Taxa de Retorno Norma-
lizada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
Tabela 17 – Acuidade direcional – Taxas de Retorno Normalizadas . . . . . . . . . 98
Tabela 18 – Teste de Kruskal-Wallis – Taxa de Retorno Logarítmicas . . . . . . . . 100
Tabela 19 – Desempenho Relativo – Taxa de Retorno Logarítmica Intraday – PETR4101
Tabela 20 – Intervalos de Previsão Inválidos por Modelo – Taxa de Retorno Logarítmica103
Tabela 21 – Intervalos de Previsão: Cobertura Realizada Aquém da Esperada – Taxa
de Retorno Logarítmica . . . . . . . . . . . . . . . . . . . . . . . . . . 104
Tabela 22 – Acuidade direcional – Taxas de Retorno Logarítmicas – PETR4 . . . . 105
Tabela 23 – Acuidade direcional – Taxas de Retorno Logarítmicas – VALE3 . . . . 106
Tabela 24 – Resíduos Inadequados Produzidos por Modelo – Taxas de Retorno
Logarítmica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
Tabela 25 – R2max x R2SVM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
Tabela 26 – Teste BDS de independência por SNR . . . . . . . . . . . . . . . . . . 113
Lista de abreviaturas e siglas
ACF Função de Autocorrelação (do inglês Autocorrelation Function)
AIC Critério de Informação de Akaike (do inglês Akaike Information Crite-
rion)
AR Auto Regressivo (modelo estocástico linear)
ARFIMA Auto Regressivo-Média Móvel com Integração Fracionária (modelo es-
tocástico linear. A sigla vem do inglês Auto Regressive Fractionally
Integrated Moving Average)
ARIMA Auto Regressivo-Média Móvel com Integração (modelo estocástico linear.
A sigla vem do inglês Auto Regressive Integrated Moving Average)
ARMA Auto Regressivo-Média Móvel (modelo estocástico linear. A sigla vem
do inglês Auto Regressive Moving Average)
BIC Critério de Informação Bayesiano (do inglês Bayesian Information
Criterion)
DFA Análise de Flutuação Destendenciada (do inglês Detrended Fluctuation
Analysis)
HME Hipótese do Mercado Eficiente
iid Independentes e Igualmente Distribuídos
MA Média Móvel (modelo estocástico linear. A sigla vem do inglês Moving
Average)
MLP Perceptron Multicamadas (do inglês Multilayer Perceptron)
PACF Função de Autocorrelação Parcial (do inglês Partial Autocorrelation
Function)
RBF Função de Base Radial (do inglês Radial Basis Function)
RNA Rede Neural Artificial
SNR Relação Sinal-Ruído (do inglês Signal to Noise Ratio)
SVM Máquina de Vetor de Suporte (do inglês Support Vector Machine)
SVR Máquina de Vetor de Suporte para Regressão (do inglês Support Vector
Regression)
Sumário
1 INTRODUÇÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.1 Considerações Iniciais . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.2 Motivação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.3 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.4 Organização do Trabalho . . . . . . . . . . . . . . . . . . . . . . . . . 18
2 APRENDIZADO DE MÁQUINA . . . . . . . . . . . . . . . . . . . . 20
2.1 Considerações Iniciais . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.2 Máquinas de Vetores de Suporte . . . . . . . . . . . . . . . . . . . . . 20
2.3 Redes Neurais Artificiais . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.4 Relações entre SVMs e RNAs . . . . . . . . . . . . . . . . . . . . . . 30
3 SÉRIES TEMPORAIS FINANCEIRAS . . . . . . . . . . . . . . . . . 33
3.1 Considerações Iniciais . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
3.2 Mercado de Ações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
3.2.1 Hipótese do Mercado Eficiente . . . . . . . . . . . . . . . . . . . . . . . . 35
3.2.2 Estimativa de Volatilidade . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.3 Modelos Estocásticos Tradicionais . . . . . . . . . . . . . . . . . . . . 39
3.3.1 Modelos Estocásticos Lineares . . . . . . . . . . . . . . . . . . . . . . . . 39
3.3.2 Modelos Estocásticos Não Lineares . . . . . . . . . . . . . . . . . . . . . . 42
3.4 Análise de Séries Temporais . . . . . . . . . . . . . . . . . . . . . . . 44
3.4.1 Análise Linear . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
3.4.1.1 Correlações de Longo Prazo . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
3.4.2 Análise Não Linear . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
3.4.2.1 Sistemas Caóticos Determinísticos . . . . . . . . . . . . . . . . . . . . . . . . . 47
3.4.2.2 Teste BDS de Independência . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
3.4.3 Análise Baseada em Teoria da Informação . . . . . . . . . . . . . . . . . . 50
3.5 Avaliação de Previsões . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
3.5.1 Regressão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
3.5.1.1 Métricas do Erro de Previsão . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
3.5.1.2 Análise de Resíduos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
3.5.2 Intervalos de Previsão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
3.5.3 Classificação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
3.5.4 Avaliações Específicas do Contexto . . . . . . . . . . . . . . . . . . . . . . 56
4 TRABALHOS RELACIONADOS . . . . . . . . . . . . . . . . . . . . 58
SUMÁRIO 13
4.1 Considerações Iniciais . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
4.2 Aplicações de Redes Neurais Artificiais . . . . . . . . . . . . . . . . . 59
4.3 Aplicações de Máquinas de Vetores de Suporte . . . . . . . . . . . . 62
4.4 Características de Séries Temporais Financeiras . . . . . . . . . . . . 64
4.5 Principais Diferenciais desta Pesquisa . . . . . . . . . . . . . . . . . . 66
5 ESTUDO PROPOSTO . . . . . . . . . . . . . . . . . . . . . . . . . 68
5.1 Considerações Iniciais . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
5.2 Formulação do Problema de Previsão . . . . . . . . . . . . . . . . . . 68
5.3 Séries Temporais em Estudo . . . . . . . . . . . . . . . . . . . . . . . 69
5.3.1 Tratamento dos Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
5.3.2 Descrição das Séries Temporais . . . . . . . . . . . . . . . . . . . . . . . 74
5.4 Construção dos Modelos de Previsão . . . . . . . . . . . . . . . . . . 74
5.5 Avaliação dos Resultados . . . . . . . . . . . . . . . . . . . . . . . . . 82
6 RESULTADOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
6.1 Considerações Iniciais . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
6.2 Séries de Volatilidade . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
6.3 Séries de Taxas de Retorno Normalizadas . . . . . . . . . . . . . . . 94
6.3.1 Precisão das Previsões . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
6.3.2 Validade dos Intervalos de Previsão . . . . . . . . . . . . . . . . . . . . . 97
6.3.3 Taxa de Acerto da Direção . . . . . . . . . . . . . . . . . . . . . . . . . . 97
6.3.4 Análise de Resíduos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
6.3.5 Síntese das Avaliações – Taxas de Retorno Normalizadas . . . . . . . . . . 99
6.4 Séries de Taxa de Retorno Logarítmica . . . . . . . . . . . . . . . . . 99
6.4.1 Precisão das Previsões . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
6.4.2 Validade dos Intervalos de Previsão . . . . . . . . . . . . . . . . . . . . . 100
6.4.3 Acuidade Direcional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
6.4.4 Análise de Resíduos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
6.4.5 Síntese das Avaliações – Taxas de Retorno Logarítmicas . . . . . . . . . . 107
6.5 Análise do Desempenho das Máquinas de Vetores de Suporte . . . 109
6.5.1 Séries Temporais e Aproximação de Funções . . . . . . . . . . . . . . . . . 110
7 CONSIDERAÇÕES FINAIS . . . . . . . . . . . . . . . . . . . . . . . 114
7.1 Principais Contribuições . . . . . . . . . . . . . . . . . . . . . . . . . . 115
7.2 Limitações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
7.3 Trabalhos Futuros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
REFERÊNCIAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
14
1 Introdução
1.1 Considerações Iniciais
O comportamento do preço de ações tem sido objeto de estudo há mais de um século.
Em seu trabalho clássico sobre mercados eficientes, Fama (1970) apresenta uma revisão
de trabalhos teóricos e empíricos, sendo o mais antigo de 1900. Dentre as aplicações de
inteligência artificial, o pioneiro aparenta ser o de White (1988), que usa redes neurais
artificiais para modelar a taxa diária de retornos das ações de uma grande empresa de
informática.
A literatura de inteligência artificial é bastante rica em aplicações ao mercado de ações,
por exemplo:
a) previsão de preços ou taxas de retorno: o problema é normalmente modelado
como regressão com base no histórico de preços e/ou taxas de retorno, podendo
incluir também indicadores exógenos, como taxas de juros, câmbio, preços de
commodities, etc. (WHITE, 1988; TRAFALIS; INCE, 2000; CAO; TAY, 2001; TAY;
CAO, 2002a; ROUAI; AHMED, 2002; PAI; LIN, 2005; OLIVEIRA et al., 2011);
b) previsão dos sinais das taxas de retornos: utiliza tipicamente os mesmos insu-
mos do caso anterior, porém a previsão é tratada como um problema de classificação:
desde indicar apenas entre positivo e negativo até uma de várias classes, como “for-
temente negativo”, “moderadamente negativo”, “neutro”, “moderadamente positivo”
e “fortemente positivo” (KIM, 2003; HUANG; NAKAMORI; WANG, 2005);
c) previsão de tendências: tal como no caso anterior, o problema é modelado como
classificação, mas a previsão diz respeito normalmente a um horizonte maior e
até variável: uma previsão de tendência de alta pode ser válida de poucos dias
até semanas, por exemplo (SAAD; PROKHOROV; WUNSCH, 1998; ABRAHAM;
NATH; MAHANTI, 2001; TAN; QUEK; NG, 2005; VICENTE, 2011);
d) seleção de ativos: diferente das demais aplicações, o foco desta é classificar as
ações entre boas e más opções de investimento, em vez de fornecer previsões para
uma ação específica (ATIYA; TALAAT; SHAHEEN, 1997).
A Hipótese do Mercado Eficiente (HME) de Fama (1970) é tomada como base ou
objeto de estudo por diversos trabalhos aplicados ao mercado de ações. Segundo essa
hipótese, os preços das ações refletem completamente todas as informações disponíveis:
E[Pt+1|Φt] = (1 + E[Rt+1|Φt])Pt (1.1)
Nesta equação, E[Pt+1|Φt] é o valor esperado para o preço futuro Pt+1, com base
nas informações Φt disponíveis até o momento t, e E[Rt+1|Φt] é o valor esperado para
Capítulo 1. Introdução 15
a taxa de retorno simples com base nas mesmas informações Φt. A HME não especifica
um modelo para o termo E[Rt+1|Φt], porém evidências empíricas apontam, considerando
Φt como os preços até o momento t, que um modelo válido em muitos casos é que
E[Rt+1|Pt, Pt−1, Pt−2, . . .] = µ, sendo µ uma constante tipicamente positiva e aproxima-
damente nula, ou seja, nesses casos os preços de ações se comportam como um processo
martingal.
Considerando a HME, seja xt = Pt−E[Pt|Φt−1] o excesso de preço em relação ao valor
esperado com base nas informações Φt−1. Se tais informações são “totalmente refletidas” nos
preços, então E[xt] = 0. De forma equivalente, seja zt = Rt−E[Rt|Φt−1] a taxa de retorno
em excesso ao valor esperado, então, num mercado eficiente, se tem que E[zt] = 0. Em
outras palavras, qualquer modelo desenvolvido com base nas informações Φt−1 num mercado
eficiente não resultará em retornos maiores do que o de equilíbrio do mercado. Em especial,
se E[Rt|Φt−1] ≥ 0, então não existe estratégia de negociação baseada nas informações
Φt−1 que leve a lucros maiores do que comprar e manter. Entretanto, considerado um
determinado modelo para E[Rt|Φt−1], se for verificado empiricamente que existe uma
estratégia de negociação baseada em Φt−1 com E[zt] > 0, então não necessariamente o
mercado em questão é ineficiente: pode ser que o modelo para E[Rt|Φt−1] em consideração
seja inadequado, conforme análise de Fama (1991).
Apesar do foco da HME em valores esperados, outros aspectos da distribuição de
probabilidade de Rt são relevantes na tomada de decisão de investimentos, em especial
a variância, que está relacionada ao risco: se um investidor pode escolher um entre dois
ativos e ambos têm o mesmo valor esperado, a decisão pode ser por aquele com menor
variância, caso o investidor deseje minimizar sua exposição a risco. Logo, além de valores
esperados, intervalos de previsão para a taxa de retorno podem ser bastante úteis para a
tomada de decisão de investimentos.
A construção de intervalos de previsão é trivial em séries temporais compostas por
valores independentes e igualmente distribuídos (iid): basta utilizar a média dos valores
anteriores como previsão para o próximo e formar o intervalo de previsão com base nos
quantis obtidos empiricamente a partir dos valores anteriores. No caso da série temporal em
questão não formar uma sequência iid, um modelo adequado seria capaz de capturar todas
as características da série, de modo que seus resíduos seriam independentes e igualmente
distribuídos. De posse de um modelo assim, a construção de intervalos de previsão pode
ser realizada combinando a saída do mesmo com os quantis de seus resíduos.
No caso das séries temporais formadas pelas sucessivas taxas de retorno dos preços
de ações, estudos empíricos apontam que tipicamente não há correlação linear serial, ou
essa é muito pequena quando significante, de modo que é de pouca utilidade para fornecer
previsões melhores do que a média de taxas anteriores. Além disso, se considerados apenas
os sinais algébricos das taxas, há pouco indício de qualquer tipo de dependência. Por
outro lado, os valores absolutos das taxas de retorno apresentam correlação linear serial
Capítulo 1. Introdução 16
significativa por grandes períodos de tempo e é evidente também que há heteroscedasticidade
na sequência de taxas de retorno, ou seja, a variância muda ao longo do tempo. Juntamente
a isso, a hipótese de que as taxas compõem uma série temporal com valores independentes
e igualmente distribuídos é comumente rejeitada quando testada estatisticamente.
A proposta deste trabalho é o estudo da aplicação de máquinas de vetores de suporte na
previsão de aspectos da distribuição de probabilidade da taxa de retorno, especificamente
o valor esperado acompanhado de intervalos de previsão ou quantis da distribuição,
respondendo a perguntas como:
a) com 95% de chance, qual a menor taxa de retorno possível para amanhã?
b) qual o valor mais provável para a taxa de retorno da semana que vem?
c) a aplicação de máquinas de vetores de suporte melhora os resultados alcançados
com modelos tradicionais de séries temporais estocásticas?
Assim sendo, este estudo fornece subsídios para a tomada de decisões de investimentos,
verificando se é vantajosa a aplicação de máquinas de vetores de suporte na tarefa.
A aplicação de técnicas de inteligência artificial na modelagem do comportamento
de preço de ações se justifica principalmente pela capacidade de detecção automática de
relações, lineares e não lineares, entre os dados. Desse modo, as técnicas podem fornecer
valiosas contribuições na construção de modelos adequados, capturando todas as relações
presentes nas séries de tempo, de modo que os resíduos sejam independentes e igualmente
distribuídos e, assim, seja viabilizada a construção de intervalos de previsão válidos.
O principal diferencial deste trabalho em relação aos demais está no objetivo de prever
aspectos da distribuição de probabilidade da taxa de retorno futura, além do valor esperado
ou seu sinal mais provável. Há diferença também na aplicação dos resultados: este trabalho
visa fornecer apoio à tomada de decisão de investimentos em vez de emissão automática
de ordens de compra e venda.
Dado que o foco do trabalho é na aplicação de máquinas de vetores de suporte na
previsão de aspectos da distribuição de probabilidade, não é parte do escopo a interpretação
econômica dos modelos. Por exemplo, se determinada característica na série temporal leva
a previsões melhores, o mecanismo ou razão que leva à existência da característica ou
mesmo seu significado econômico são deliberadamente ignorados.
Na modelagem são utilizadas sucessivas taxas de retorno e volatilidade, extraídas dos
preços de ações negociadas na bolsa de valores do Brasil, a BM&F-Bovespa. A proposta é
aplicada considerando diferentes intervalos para tomada de decisão: semanal, diário e a
cada dez minutos. Especificamente, o trabalho se dá com ações da Petrobras (PETR4) e
Vale do Rio Doce (VALE3), no período de Jan/1999 a Dez/2012 para os intervalos diário
e semanal, e Dez/2007 a Dez/2009 para o intervalo de 10 minutos.
Capítulo 1. Introdução 17
1.2 Motivação
A previsão de séries temporais financeiras é um campo de estudo bastante fértil e tem sido
tema de pesquisa por mais de um século. Novos avanços em áreas diversas de conhecimento
como estatística, física ou ciência da computação, eventualmente são aplicados a este
problema, colaborando assim com a construção de conhecimento acerca do tema.
Considerando a série temporal formada por sucessivas taxas de retorno do preço de
ações, tipicamente a hipótese de ser uma sequência com dados independentes e igualmente
distribuídos é rejeitada, ou seja, há dependência de um valor em relação aos seus anteces-
sores e/ou os valores não vêm de uma mesma distribuição de probabilidade. Observa-se
também pouca ou nenhuma correlação linear serial na sequência, indicando que caso haja
dependência entre os dados, esta é não linear. A capacidade de modelos de inteligência
artificial de reconhecer relações, mesmo não lineares, torna interessante sua aplicação neste
contexto.
Além da fraca correlação linear serial, observa-se também que comumente há heteros-
cedasticidade nas taxas de retorno, ou seja, a rejeição da hipótese de dados iid pode ser
devida a tal variação na distribuição de probabilidade ao longo do tempo. Assim, é essencial
considerar esse fenômeno na previsão de aspectos da distribuição de probabilidade futura.
Além disso, há fortes indícios de dependências entre os valores absolutos das sucessivas
taxas de retorno, indicando que a mudança na variância não ocorre de forma puramente
aleatória.
Numa distribuição de probabilidade, o valor esperado é apenas um aspecto e não é o
único relevante: outras informações, como a variância, podem ter um papel importante no
processo de tomada de decisão por parte do investidor.
O sinal algébrico da taxa de retorno futura é muito valioso para a tomada de decisão
de investimentos, mais até que o valor futuro em si, pois pode levar ao aproveitamento das
valorizações ao mesmo tempo em que se evitam as perdas nas desvalorizações. Entretanto
há poucas evidências de dependência dos sinais algébricos em relação a valores anteriores
da série temporal e a maioria dos resultados encontrados na literatura são pouco ou nada
melhores que um preditor aleatório, apresentando taxas de acerto muito próximas a 50%.
Considere-se ainda que a maioria das pesquisas envolvendo aplicações de inteligência
artificial na previsão de séries temporais financeiras tem como foco a previsão do valor
esperado ou sinal algébrico futuro.
Sendo assim, a principal motivação deste trabalho para a construção de intervalos
de previsão ou quantis da distribuição de probabilidade da taxa de retorno futura é
a importância de tal informação para o investidor e o fato deste aspecto do problema
ser pouco explorado na literatura de inteligência artificial. Dentre as linhas de pesquisa
mencionadas anteriormente, este trabalho pode ser visto como uma aplicação de inteligência
artificial na previsão de preço de ações, diferenciando-se dos demais da mesma categoria
em seu objetivo de efetuar previsões de mais aspectos da distribuição de probabilidade além
Capítulo 1. Introdução 18
do valor esperado. É desejado também conhecer se a aplicação de técnicas de inteligência
artificial, em especial máquinas de vetores de suporte, de fato melhora os resultados que
podem ser obtidos com modelos clássicos mais simples.
1.3 Objetivos
O principal objetivo deste trabalho é o estudo da aplicação de máquinas de vetores de
suporte na previsão de aspectos da distribuição de probabilidade da taxa de retorno futura
dos preços de ações negociadas na bolsa de valores brasileira, a BM&F-Bovespa. Toma-se
como base da previsão valores anteriores da taxa de retorno e volatilidade, ambos extraídos
dos preços da ação em questão e espera-se verificar se a aplicação de máquinas de vetores
de suporte a este problema é vantajosa em relação a modelos estatísticos mais simples.
Muitos trabalhos que abordam aplicações de inteligência artificial na previsão de
séries temporais de preços de ações utilizam dados disponibilizados por vendors, que
não requerem processamento adicional para formar as séries temporais. Tem-se como
premissa deste trabalho a utilização de dados disponíveis pública e gratuitamente, de
modo que qualquer um possa aplicar as técnicas aqui descritas mesmo os que não dispõem
de assinaturas com vendors.
A presente pesquisa é realizada com os preços das ações preferenciais da Petrobras
(PETR4) e das ações ordinárias da Vale do Rio Doce (VALE3) em diferentes taxas de
amostragem: semanal e diária no período de janeiro de 1999 a dezembro de 2012 e intraday
de dez minutos no período de dezembro de 2007 a dezembro de 2009.
Com este trabalho pretende-se contribuir com as pesquisas sobre inteligência artificial
aplicada à previsão de séries temporais financeiras, estendendo a aplicação a outras
características da distribuição de probabilidade além da sua média.
1.4 Organização do Trabalho
O restante deste trabalho está organizado da seguinte forma:
Capítulo 2: Aprendizado de Máquina
São apresentados os conceitos essenciais sobre máquinas de vetores de suporte, parte
integrante do objeto de estudo, como também sobre redes neurais artificiais, que são
bastante relevantes dentro da Inteligência Artificial e possuem diversas aplicações ao
mercado financeiro. Serão abordadas também as relações entre esses dois modelos.
Capítulo 3: Séries Temporais Financeiras
Neste capítulo, serão introduzidos os conceitos sobre o domínio de aplicação do trabalho,
bem como modelos tradicionais para a modelagem de séries temporais, algumas técnicas de
análise e metodologias comumente encontradas na literatura para avaliação de previsões.
Capítulo 1. Introdução 19
Capítulo 4: Trabalhos Relacionados
Serão listados alguns trabalhos com aplicações de inteligência artificial ao mercado de
ações, em especial os que utilizam máquinas de vetores de suporte e redes neurais artificiais.
Além disso, serão considerados também estudos de variadas áreas de conhecimento que
contribuem para o entendimento das características sobre as séries temporais financeiras.
Capítulo 5: Estudo Proposto
A seguir, será apresentada a formulação do problema de previsão, bem como serão
detalhadas informações sobre os dados utilizados e a forma como foram tratados, sobre a
aplicação de máquinas de vetores de suporte e modelos estatísticos na previsão das séries
temporais e finalmente sobre a metodologia de avaliação dos resultados.
Capítulo 6: Resultados
Neste capítulo serão apresentados tanto os resultados alcançados pelos modelos na previsão
das séries quanto uma discussão dos mesmos de acordo com a metodologia proposta e, em
especial, o impacto da utilização de máquinas de vetores de suporte.
Capítulo 7: Considerações Finais
Serão apresentados os principais resultados e contribuições da pesquisa, assim como as
limitações identificadas e propostas de trabalhos futuros.
20
2 Aprendizado de Máquina
2.1 Considerações Iniciais
Há um campo da Inteligência Artificial que lida com o aprendizado automático. Segundo
Mitchell (1997, p. 2, tradução nossa): “Um programa de computador aprende da experiência
E, com relação a uma classe de tarefas T e medida de desempenho P, se seu desempenho
nas tarefas T, tal como medido por P, melhora com a experiência E”. No contexto do
mercado de ações, pode-se ter, por exemplo, a classes de tarefas T como a previsão de
taxas de retorno futuras, a medida P como a rentabilidade obtida através de negociações
realizadas com base nas previsões e a experiência E como os dados históricos. No Capítulo 4
estão listadas diversas formas encontradas na literatura de aplicação de aprendizado de
máquina ao contexto de mercado de ações.
Nas seções seguintes são apresentados de forma breve alguns conceitos relevantes para
o entendimento deste trabalho. Inicialmente os fundamentos das máquinas de vetores
de suporte, que são parte integrante do objeto deste estudo. Devido à larga aplicação e
importância na literatura, as redes neurais artificiais serão abordadas na sequência. Por
fim, algumas considerações sobre a relação entre ambas.
2.2 Máquinas de Vetores de Suporte
Quando se deseja obter uma função a partir de um conjunto de dados, é importante que
a função obtida represente bem tal conjunto. Entretanto, é mais importante ainda que
tenha um bom poder de generalização, ou seja, quando aplicada a pontos não pertencentes
ao conjunto inicial, é desejado que a função obtida forneça boas aproximações.
O princípio da minimização do risco estrutural, construído sobre fundamentos teóricos
do aprendizado estatístico, pauta a construção de modelos considerando simultaneamente o
risco empírico e o risco de generalização. O primeiro pode ser medido diretamente através
de uma função de penalidade para os erros observados no conjunto dado inicialmente.
Como exemplos de funções de penalidade pode-se citar o erro quadrático médio e o erro
absoluto médio, que serão abordados com mais detalhes na subseção 3.5.1.1, junto a outras.
O risco de generalização tem relação com o poder de representação ou capacidade do
modelo obtido: de forma simplificada, quanto maior a capacidade de um modelo, maior a
complexidade das funções que podem ser aproximadas pelo modelo. Tipicamente o risco
de generalização não pode ser medido diretamente, então se utilizam estimativas ou limites
superiores demonstrados formalmente.
Para um determinado conjunto de dados, os modelos obtidos podem variar entre
Capítulo 2. Aprendizado de Máquina 21
dois extremos: um seria o modelo mais simples possível, que não representa uma boa
aproximação para o conjunto, ou seja, para o qual se observa sub-ajuste (underfit). Outro
extremo seria um modelo que representa perfeitamente os dados do conjunto inicial, porém
apresenta muitos erros em dados inicialmente ausentes, ou seja, há situação de superajuste
(overfit). A minimização do risco estrutural fornece um equilíbrio entre esses dois extremos,
levando a um modelo que represente o conjunto inicial de forma razoável e com bom poder
de generalização.
Máquinas de vetores de suporte ou SVMs1, implementam o princípio da minimização
de risco estrutural, podendo ser aplicadas tanto para problemas de classificação quanto de
regressão. Apesar do foco deste trabalho em regressão, considerando que ambas aplicações
são muito comuns na literatura de inteligência artificial aplicada à previsão de séries
temporais financeiras e que Vapnik (1998, p. 1) ressalta a importância do problema de
classificação para a introdução dos conceitos fundamentais, optou-se por abordar nesta
breve apresentação tanto a aplicação de SVMs para classificação quanto para regressão,
iniciando pela primeira.
Pode-se definir o problema de classificação entre duas classes como encontrar uma
função f : Rd → {−1, 1} dados l pares (x d1, y1), (x2, y2), . . . , (xl, yl), com xi ∈ R e
yi ∈ {−1, 1}. A máquina de vetor de suporte, nesse caso, é uma função de decisão da
forma D(x) = w · x + b, com w ∈ Rd e b ∈ R, de modo que se D(x) > 0 então se toma
y = 1 e, caso contrário, y = −1. Assim, a SVM define um hiperplano em Rd que separa os
pontos entre as duas classes.
Dentre todos os hiperplanos possíveis, o treinamento da máquina de vetor de suporte
escolhe aquele cuja margem é máxima, conforme ilustrado na Figura 1. A margem M é a
menor distância entre o hiperplano w · x+ b = 0 e qualquer ponto xi do conjunto dado
(BOSER; GUYON; VAPNIK, 1992):
( )
= min |D(xi)|M (2.1)
xi ∥w∥
A aplicação do princípio da minimização do risco estrutural se dá da seguinte forma:
o risco empírico é nulo, uma vez que todos os pontos são classificados corretamente, e o
risco estrutural é minimizado através da maximização da margem M do hiperplano (que
é equivalente à minimização de ∥w∥), ou seja, as duas classes são separadas pela maior
distância possível, o que reduz a probabilidade de erros de generalização.
Se não existe um hiperplano w · x+ b = 0 em Rd que separe as classes corretamente, o
conjunto não é linearmente separável. Para tratar casos assim, o algoritmo de treinamento
deve permitir violações à margem, ou seja, pontos xi cuja distância ao hiperplano sejam
menores do que a margem, entretanto tais violações devem ser minimizadas.
1 Abreviação do inglês Support Vector Machines.
Capítulo 2. Aprendizado de Máquina 22
Figura 1 – Exemplo de hiperplano de decisão com respectivas margens
Fonte: Boser, Guyon e Vapnik (1992)
É possível ainda construir funções de decisão não lineares aplicando-se um mapeamento
não linear ϕ : Rd → H aos pontos xi do conjunto e então construindo-se um hiperplano
no espaço H de Hilbert.
Tem-se então que o treinamento de uma máquina de vetor de suporte para o problema
de classificação entre duas classes consiste em encontrar a solução para o seguinte problema
de otimização2 (CORTES; VAPNIK, 1995):
∑l
minimizar 12⎧∥w∥
2 + C ξi (2.2)
w, ξi ⎨ i=1y (w · ϕ(x ) + b) ≥ 1− ξ
sujeito a ⎩ i i i (2.3)ξi ≥ 0
onde ξi é a medida da violação à margem cometida para o ponto xi e C > 0 é uma
constante que ajusta a relação entre o tamanho da margem e as violações cometidas:
quanto menor o valor de C maior a margem obtida, ao custo de violações maiores, e
quanto maior o valor de C, menor a margem obtida.
O problema de programação quadrática acima pode ser resolvido em sua forma dual,
aplicando multiplicadores de Lagrange, estabelecendo as restrições para minimização
2 Nessa formulação considera-se que ϕ tanto pode ser um mapeamento não linear quanto o operador
identidade: ϕ(x) = x, assim é possível obter funções de decisão lineares ou não lineares.
Capítulo 2. Aprendizado de Máquina 23
nas variáveis primais e encontrando o máximo considerando as variáveis duais, ou seja
(VAPNIK, 1998, p. 411–412):
∑l ∑l ∑l
maximizar ⎧ αi −
1
2 αiαjyiyj(ϕ(xi) · ϕ(xj)) (2.4)αi
⎨i=1 i=1 j=10 ≤ α ≤ C
sujeito a ⎩ ∑ i (2.5)l
i=1 αiyi = 0
onde αi são multiplicadores de Lagrange. A vantagem de resolver o problema nessa forma
é que apenas produtos internos em H são necessários, assim é possível utilizar uma
função kernel K : Rd × Rd → R para calcular os produtos internos, em vez de utilizar o
mapeamento ϕ explicitamente:
K(xi,xj) = ϕ(xi) · ϕ(xj) (2.6)
A função kernel deve satisfazer às condições de Mercer para que haja garantia de que
existe um espaço H e um mapeamento ϕ para os quais a função representa o produto
i∫nterno em tal espaço (VAPNIK, 1998, p. 423–424), ou seja, para toda função g(x) tal que
g(x)2 dx seja finita, deve-se ter:
∫
K(xi,xj)g(xi)g(xj) dxi dxj ≥ 0 (2.7)
A seguir alguns exemplos de funções kernel:
a) linear: K(x,y) = x · y
∥x−y∥
b) RBF: K(x,y) = e(− γ )
c) polinomial: K(x,y) = (v(x · y) + c)d
d) sigmoide: K(x,y) = (1 + e(v(x·y)−c))−1
O treinamento de máquinas de vetores de suporte possui algumas propriedades bastante
interessantes (BOSER; GUYON; VAPNIK, 1992):
a) é um problema de otimização convexo, ou seja, possui solução única. Assim, não há
a complicação de obter mínimos locais e a solução é determinística;
b) pelas condições de Karush-Kuhn-Tucker para a solução ótima, o vetor w pode
ser expresso como uma combinação linear de alguns elementos do conjunto de
treinamento, de modo que: w · ϕ(x) = ∑li=1 αiyiK(xi,x). Apenas alguns αi são
maiores que 0, daí os xi correspondentes são os chamados vetores de suporte.
É importante lembrar que a formulação acima é válida para problemas de classificação
entre duas classes. No contexto específico de aplicação na previsão de séries temporais de
taxas de retorno, as duas classes podem ser os possíveis sinais algébricos da taxa seguinte.
Entretanto é comum a necessidade de classificar entre mais de duas classes, por exemplo
“forte baixa”, “neutro” e “forte alta” nesse mesmo contexto. Para tais casos existem várias
Capítulo 2. Aprendizado de Máquina 24
abordagens: Vapnik (1998, p. 437–440) e Weston e Watkins (1998) propuseram de forma
independente a extensão do problema de encontrar um hiperplano com margem máxima
entre duas classes para encontrar um conjunto de hiperplanos cuja soma das margens seja
máxima, o que aumenta a complexidade do problema de otimização. Hsu e Lin (2002)
compararam algumas abordagens, dentre elas:
a) otimização estendida: a proposta de Vapnik (1998) e Weston e Watkins (1998);
b) um contra todos: são construídos k classificadores binários, onde cada um deles
separa uma classe das demais e a classe final é escolhida como aquela que teve
maior valor da função de decisão entre os k classificadores;
c) um contra um: são construídos k(k − 1)/2 classificadores binários entre cada par
possível dentre as classes. Um novo padrão a ser classificado é apresentado a cada
classificador e a classe “vencedora” recebe um voto. A classe final escolhida é a que
possui o maior número de votos;
d) DAGSVM: Do inglês Directed Acyclic Graph Support Vector Machine. Consiste em
montar uma árvore binária com k folhas correspondendo a cada classe e k(k− 1)/2
nós internos que são treinados para distinguir entre as classes que estão na direita
e na esquerda. A avaliação de um novo padrão começa com o classificador na
raiz da árvore e então a depender do resultado o classificador à esquerda ou
direita é utilizado até chegar à classe final, correspondente à folha encontrada. Essa
abordagem tem a mesma quantidade de classificadores da abordagem “um contra
um”, porém não avalia todos para encontrar a solução.
Das abordagens avaliadas, Hsu e Lin (2002) relatam que a estratégia “um contra um” e
“DAGSVM” são as com maior potencial de aplicação prática, considerando em conjunto a
taxa de acerto e os tempos de treinamento e teste. Posteriormente, Duan e Keerthi (2005)
avaliaram as abordagens “um contra todos”, “um contra um” e mais duas baseadas na
avaliação de probabilidades a posteriori produzidas por máquinas de vetores de suporte
modificadas. Uma dessas, proposta por Platt (1999 apud DUAN; KEERTHI, 2005), é
apontada como consistentemente superior às demais avaliadas.
Conforme mencionado anteriormente, máquinas de vetores de suporte podem ser
aplicadas também para problemas de regressão (VAPNIK, 2000; VAPNIK, 1998; VAPNIK;
GOLOWICH; SMOLA, 1997): seja f : Rd → R a função desconhecida que gerou os dados
(xi, yi), com i = 1, 2, . . . , l e ε > 0 a precisão de aproximação desejada, então a máquina
de vetor de suporte para regressão, SVR3, aproxima f com f̂(x) = w · x + b, de modo
que, para a aproximação ε ≥ 0 desejada, |yi − f̂(xi)| ≤ ε, para todos os pares no conjunto
de treinamento e o vetor w possui a menor norma possível4. Assim como no caso da
classificação, nem sempre há solução factível para esta formulação do problema, então há
3 Abreviação do inglês Support Vector Regression.
4 Assim como no caso da classificação, a norma de w está relacionada à capacidade do modelo, ou seja,
de acordo com o princípio da minimização do risco estrutural, deve ser a menor possível.
Capítulo 2. Aprendizado de Máquina 25
ainda uma função de penalidade associada a erros de regressão maiores que ε e um fator
C cuja finalidade é ajustar o peso entre tolerância a erros e a norma de w. Tem-se então
que o treinamento da SVR consiste em (SMOLA; SCHÖLKOPF, 2004):
∑l
minimizar 12∥w∥
2 + C (ξ + ξ∗i i ) (2.8)w, ξ ∗i, ξi
⎪⎧ i=1⎨⎪⎪ yi −w · xi − b ≤ ε+ ξi
sujeito a ⎪⎪⎩⎪ w · x
∗
i + b− yi ≤ ε+ ξi (2.9)
ξ ,ξ∗i i ≥ 0
Esta formulação foi construída utilizando a função ε-insensitive para quantificar o risco
empírico:
⎨⎧ 0 se |yi − f̂(xi)| ≤ ε
L(yi − f̂(xi)) = ⎩ (2.10)|yi − f̂(xi)| − ε caso contrário
ou seja, não há penalidade para erros menores que ε e, para desvios maiores, o módulo do
erro além de ε é considerado. Vapnik (1998, p. 443–454) ressalta que esta função possui
diversas características em comum com a função robusta de penalidade de Huber, com a
vantagem de que leva a SVMs com menor número de vetores de suporte.
De maneira análoga ao problema de classificação, a regressão de funções não lineares é
possível através de um mapeamento não linear ϕ para outro espaço e, nesse, tem-se que
f̂(x) = w ·Φ(x) + b. A resolução do problema de otimização acima dependeria de calcular
ϕ(x) explicitamente, então, conforme demonstrado por Smola e Schölkopf (2004) e de
forma análoga ao caso da classificação, é conveniente aplicar a técnica de multiplicadores
de Lagrange e resolver o problema dual usando funções kernel K(xi,xj) = ϕ(xi) · ϕ(xj)
para calcular produtos internos no espaço mapeado:
⎧
⎪⎪⎪⎨⎪⎪ − 1∑
l ∑l
2 (α
∗ ∗
i − αi )(αj − αj )K(xi,xj)−
maximizar
α , α∗i ⎩⎪i ⎪⎪
i=1 j=1
⎪⎪ ∑l ∗ ∑ (2.11)l⎧ ε (αi + αi ) + yi(α − α
∗
i i )
⎪⎪ ∑i=1 i=1⎨⎪ l⎪ (αi − α
∗
sujeito a ⎪ i
) = 0
⎩⎪ i=1 (2.12)0 ≤ αi,α∗i ≤ C
A máquina de vetor de suporte, conforme ilustrado na Figura 2, aproxima a função f̂
da seguinte forma5:
∑l
f̂(x) = (αi − α∗i )K(xi,x) + b (2.13)
i=1
Capítulo 2. Aprendizado de Máquina 26
Figura 2 – Arquitetura geral de uma SVM
Fonte: adaptado de Smola e Schölkopf (2004)
Suykens e Vandewalle (1999) apontam que o treinamento da SVM através da resolução
de um problema de programação quadrática pode ser custoso e propõem uma nova
formulação, a LS-SVM 6, baseada numa função de penalidade quadrática com restrições de
igualdade, de modo a reduzir o treinamento à resolução de um sistema linear. A desvantagem
desta abordagem é que todos os pontos do conjunto de treinamento se tornam vetores de
suporte, enquanto que na formulação clássica com função de penalidade ε-insensitive, a
solução pode ser esparsa. Vapnik (1998, p. 427–425) apresenta uma formulação linear para
o treinamento das SVMs que conta também com a vantagem de que a função kernel não
precisa satisfazer às condições de Mercer, entretanto as máquinas construídas desta forma
não possuem diversas das boas propriedades estatísticas da formulação padrão.
A aplicação prática de máquinas de vetores de suporte consiste inicialmente em definir
o parâmetro C, o kernel a ser aplicado e seus parâmetros. Especificamente no caso de
problemas de regressão, é preciso também escolher a aproximação desejada, ε. Schölkopf
et al. (2000) introduziram modificações na formulação das máquinas de vetores de suporte
de modo que, para problemas de classificação, em vez de definir o parâmetro C, deve-se
escolher ν e para problemas de regressão, em vez do par (C, ε), se define o par (C, ν),
com 0 ≤ ν ≤ 1. A escolha de ν no lugar de C ou ε é conveniente, conforme demonstrado
pelos autores, pois representa um limite superior na fração de erros7 e um limite inferior
5 Os pontos xi para os quais αi − α∗i ̸= 0 são os vetores de suporte.
6 Abreviação do inglês Least Squares Support Vector Machine.
7 No caso de regressão, um erro é um par (xi, yi) do conjunto de treinamento para o qual |yi− f̂(x)| > ε
e no caso de classificação um par do conjunto de treinamento cuja distância ao hiperplano de separação
é menor que a margem.
Capítulo 2. Aprendizado de Máquina 27
na fração de vetores de suporte8, ou seja, o valor de ν é mais fácil de interpretar do
que os parâmetros originais. Deve-se ainda destacar que a máquina de vetor de suporte
modificada, ν-SVM, leva às mesmas funções de decisão (para classificação) e aproximação
(para regressão) se os parâmetros originais C (para classificação) e ε (para regressão) forem
ajustados adequadamente.
2.3 Redes Neurais Artificiais
Apesar do foco deste trabalho na aplicação de máquinas de vetores de suporte ao problema
de previsão de aspectos da distribuição de probabilidade futura em séries temporais
financeiras, as redes neurais artificiais ou RNAs têm grande relevância na literatura de
inteligência artificial, bem como diversas aplicações ao problema de previsão de séries
temporais.
O primeiro marco na história das redes neurais artificiais foi a introdução do modelo de
neurônio artificial por McCulloch e Pitts (1943), que foi inspirado em neurônios biológicos
e na forma como interagem: unidades de processamento (neurônios artificiais) ligados em
rede. As unidades eram formadas por um corpo e um axônio, e as ligações se davam entre
o axônio de uma unidade e o corpo de outra ou de si própria. Tais ligações poderiam ser
excitatórias ou inibitórias, de modo que uma certa quantidade de ligações excitatórias
recebendo impulsos era necessária para que a unidade fosse exitada e passasse um impulso
adiante. Impulsos chegando através de ligações inibitórias impediam completamente a
excitação da unidade. Os neurônios operavam de forma binária: ou estavam exitados ou
não estavam e a excitação não dependia de excitações anteriores. Os autores demonstraram
que tais redes eram equivalentes a expressões de lógica proposicional temporal.
Mais tarde, Rosenblatt (1962) compilou os resultados de suas pesquisas com percep-
trons: modelos compostos por neurônios artificiais com foco na construção de máquinas
inteligentes. Na época9, os perceptrons eram formados por uma retina, composta por
unidades especializadas em captar sinais/condições do ambiente externo, unidades associa-
tivas e unidades de resposta, responsáveis por gerar sinais para o ambiente externo. Havia
pesos correspondentes às ligações entre os neurônios associativos e de resposta, cujo efeito
era intensificar ou amenizar o sinal enviado pela ligação. Os neurônios geravam um sinal
quando a soma dos sinais de entrada ultrapassava um determinado limiar. Uma das formas
de treinar o perceptron era ajustar os pesos entre as unidades associativas e de resposta10,
8 Tais propriedades são válidas na presença de algumas condições, que são razoavelmente genéricas.
Consultar (SCHÖLKOPF et al., 2000) para detalhes.
9 Nos anos 50 e começo da década de 60 a arquitetura de Von Neumann ainda não era dominante como
atualmente, de modo que a implementação dos perceptrons não se limitava a modelos matemáticos e
softwares, mas considerava também a construção de hardware com processamento paralelo em vez de
uma unidade central de processamento. Mais tarde o termo “perceptron” passou a se referir ao modelo
matemático. Este e outros detalhes sobre a história dos perceptrons são abordados por Olazaran
(1996).
10 Os pesos das ligações entre unidades sensoriais, na retina, e neurônios associativos não eram ajustáveis.
Capítulo 2. Aprendizado de Máquina 28
de acordo com a diferença entre o sinal gerado pelo perceptron e o esperado. Rosenblatt
(1962, p. 99–101) demonstrou que os perceptrons poderiam reconhecer qualquer padrão
que pudesse ser codificado adequadamente através da retina.
Minsky e Papert (1969) expuseram algumas limitações desse modelo, em especial
que um perceptron de ordem d com uma camada de pesos ajustáveis não era capaz de
resolver o problema da paridade para d+ 1 pontos11 (MINSKY; PAPERT, 1969, p. 56–
57) e que o valor dos coeficientes entre os neurônios associativos e de resposta crescem
exponencialmente, de modo que a memória necessária para armazená-los é equivalente a
uma tabela com todas as sequências possíveis de paridade ímpar (MINSKY; PAPERT,
1969, p. 153).
Posteriormente, modelos mais sofisticados foram propostos, alcançando bons resultados
em diversas aplicações, incluindo previsão de séries temporais (ZHANG; PATUWO; HU,
1998). Dentre os mais usados estão as redes MLP12, RBF13 ou ainda redes recorrentes
como de Jordan e Elman.
As redes MLP (RUMELHART; HINTON; WILLIAMS, 1986, p. 324–325) possuem
topologia feedforward, conforme ilustrado na Figura 3. Seus neurônios são organizados
em camadas de modo que os neurônios de uma camada estão ligados apenas a neurônios
em camadas posteriores. As camadas entre as de entrada e de saída são chamadas de
intermediárias ou escondidas. O neurônio i da camada de entrada propaga, através das
ligações com os neurônios seguintes, o valor si que recebeu. Cada ligação de um neurônio i
para um j tem um peso wij associado. Um neurônio j toma como entrada a soma
∑
i siwij
e gera como saída sj o resultado de uma função fj, não linear e diferenciável, aplicada ao
somatório de entrada. O resultado da rede corresponde ao vetor cujos componentes são os
sinais so gerados pelos neurônios na camada de saída. Dado um conjunto de treinamento
formado por entradas e saídas esperadas correspondentes, o treinamento da rede é um
problema de otimização que consiste em minimizar a divergência entre as saídas da rede e
as esperadas através do ajuste dos pesos wij.
Vários algoritmos de treinamento foram propostos ao longo do tempo, dentre eles:
backpropagation padrão (RUMELHART; HINTON; WILLIAMS, 1986), quickprop (FAHL-
MAN, 1988), rprop (RIEDMILLER; BRAUN, 1993), sarprop (TREADGOLD; GEDEON,
1998) e irprop (IGEL; HÜSKEN, 2000), cada um com objetivo de reduzir o tempo de
treinamento requerido pelos anteriores e evitar a convergência para mínimos locais. O
uso de funções de ativação não lineares é fundamental para o poder de representação das
RNAs14 e os algoritmos de treinamento dependem que tais funções sejam deriváveis, assim
11 Em especial, perceptrons de ordem 1 não conseguem representar a função XOR entre 2 pontos. Apesar
desta versão da limitação de perceptrons ser bastante difundida, a demonstração de Minsky e Papert
(1969) foi mais geral.
12 Abreviação do inglês Multilayer Perceptron.
13 Abreviação do inglês Radial Basis Function.
14 Caso todas as funções de ativação sejam lineares, a saída de uma rede neural artificial nada mais é
que uma combinação linear das entradas, ou seja, relações não lineares como a função XOR não são
Capítulo 2. Aprendizado de Máquina 29
Figura 3 – Rede neural artificial com topologia feedforward
Fonte: adaptado de Broomhead e Lowe (1988)
como a função de penalidade do erro empírico. De modo geral, os algoritmos implementam
o gradiente descendente, aplicando alterações nos pesos de forma iterativa, de modo a
fazer com que a saída da rede seja cada vez menos divergente da saída esperada.
Uma propriedade bastante relevante das redes MLP é que, com apenas uma camada
intermediária, é possível aproximar qualquer função contínua tão bem quanto se deseje,
desde que haja um número suficiente de neurônios (CYBENKO, 1989; HORNIK; STIN-
CHCOMBE; WHITE, 1989; FUNAHASHI, 1989; HARTMAN; KEELER; KOWALSKI,
1990).
As redes RBF (BROOMHEAD; LOWE, 1988) normalmente possuem 3 camadas e,
assim como as MLP, apresentam topologia feedforward, entretanto apenas os pesos da
camada intermediária para a de saída são ajustáveis15. A característica fundamental das
redes RBF é que a função de ativação dos neurônios escondidos considera a distância do
ponto cujas coordenadas são os valores recebidos através das ligações dos neurônios de
entrada para um centro correspondente ao neurônio, ou seja, sh = fh(∥x− ch∥), onde: sh
é a saída do neurônio escondido h, x é o vetor cujas componentes são os valores recebidos
dos neurônios de entrada, ch é o vetor cujas componentes são as coordenadas do centro
associado ao neurônio h e ∥a∥ é a norma do vetor a. Considerando como exemplo uma
rede com apenas um neurônio na camada de saída com a função identidade como ativação,
representáveis por esta abordagem.
15 No trabalho original de Broomhead e Lowe (1988) os centros são fixos, distribuídos uniformemente
sobre o espaço de entrada ou são um subconjunto dos dados. Nesse contexto apenas os pesos entre as
camadas intermediária e de saída são ajustáveis.
Capítulo 2. Aprendizado de Máquina 30
tem-se que o resultado da rede para uma entrada x será:
∑
so = whofh(∥x− ch∥) (2.14)
h
Com who sendo o peso da ligação entre os neurônios h e o. Definidos os centros, o
treinamento das redes RBF é um problema de otimização que consiste em minimizar uma
função de penalidade para o erro empírico através de ajustes nos pesos who. Tal problema
pode ser reduzido a resolver um sistema de equações lineares, ou seja, diferente de redes
MLP, cujo ajuste de pesos é feito através de métodos iterativos de otimização não linear,
o treinamento de redes RBF é bastante rápido e Broomhead e Lowe (1988) demonstram
que a solução encontrada é o ótimo global16. As redes RBF, assim como as MLP, são
aproximadores universais de funções (PARK; SANDBERG, 1991).
Redes neurais com topologia na qual há formação de ciclos entre os neurônios, ou seja,
quando existe um caminho a partir de um neurônio para ele próprio, são chamadas de
redes recorrentes. Dois exemplos são as redes de Jordan (1986), ilustrada na Figura 4, e
de Elman (1990), ilustrada na Figura 5. Ambas são organizadas em três camadas, como
as redes RBF, e possuem neurônios de contexto. Na primeira, os neurônios de contexto
recebem como entrada uma cópia da saída da rede e são ligados aos da camada escondida
juntamente com os de entrada. Já na segunda, os neurônios de contexto recebem uma cópia
da saída dos neurônios escondidos e, também em conjunto com os neurônios de entrada,
alimentam os escondidos. Em ambas as redes, a saída gerada para um padrão apresentado
no tempo t é influenciada pelo estado no tempo t− 1, que por sua vez considera o estado
no tempo t−2 e assim por diante, ou seja, os resultados gerados por essas redes recorrentes
são sensíveis ao contexto (histórico), característica interessante para previsão de séries
temporais. Assim como para redes MLP, o backpropagation (RUMELHART; HINTON;
WILLIAMS, 1986) pode ser usado para o treinamento de redes recorrentes de Jordan e
Elman.
2.4 Relações entre SVMs e RNAs
Nesta pesquisa optou-se pela utilização de máquinas de vetores de suporte devido a diversas
de suas características que são bastante interessantes. Conforme mencionando anterior-
mente, as máquinas de vetores de suporte têm sua fundação na teoria do aprendizado
estatístico e implementam o princípio da minimização do risco estrutural, que considera
tanto o risco empírico quanto o risco de generalização. Outra característica importante é
que o treinamento de uma SVM é um problema de otimização convexo, ou seja, possui
apenas uma solução ótima.
16 Novamente considerando que os centros estão fixados, ou seja, a solução encontrada é o ótimo global
com relação aos centros em questão. Encontrar o subconjunto ótimo de centros ficou fora do escopo
considerado no trabalho original.
Capítulo 2. Aprendizado de Máquina 31
Figura 4 – Rede recorrente de Jordan
Fonte: adaptado de Jordan (1986)
Figura 5 – Rede recorrente de Elman
Fonte: adaptado de Elman (1990)
Capítulo 2. Aprendizado de Máquina 32
Por outro lado, o backpropagation e diversas das modificações propostas implementam
a minimização do risco empírico e, portanto, mais suscetíveis ao problema de superajuste
(overfit). No caso das redes MLP, o problema de otimização associado ao treinamento
apresenta diversos ótimos locais, ou seja, o treinamento de uma MLP corre o risco de
convergir para um ótimo local muito diferente do ótimo global.
Máquinas de vetores de suporte com kernel RBF e redes neurais RBF são bastante
similares, entretanto Vapnik (1998, p. 431–432) ressalta que no caso da segunda é preciso
escolher previamente a quantidade de neurônios e os centros associados, uma vez que
seu treinamento ajusta apenas os pesos da combinação linear na saída. Já numa SVM
com kernel RBF, todas estas escolhas são feitas automaticamente: os vetores de suporte
determinam simultaneamente a quantidade de neurônios e seus centros, enquanto os
coeficientes associados aos vetores são os pesos. Schölkopf et al. (1997) comparam SVMs
baseadas em kernel RBF com redes neurais RBF e apontam que as primeiras apresentam
menor taxa de erro tanto no conjunto de treinamento quanto no conjunto de teste. Já
Schwenker, Kestler e Palm (2001) analisam um conjunto mais amplo de métodos de
escolha de arquitetura de redes neurais RBF e comparam com SVMs, concluindo que
estas apresentam desempenho comparável ao melhor método de escolha de arquitetura
considerado.
Comparação similar pode ser aplicada entre máquinas de vetores de suporte e redes
neurais MLP: Vapnik (1998, p. 432–433) mostra que a SVM com kernel sigmoide é
equivalente a uma rede neural MLP com uma camada escondida, com as vantagens que a
quantidade de neurônios escondidos (vetores de suporte) é escolhida automaticamente e o
treinamento converge para o ótimo global.
É importante ainda destacar que máquinas de vetores de suporte, assim como redes
neurais MLP e RBF, são aproximadoras universais de funções (HAMMER; GERSMANN,
2003).
Apesar das vantagens das SVMs sobre as RNAs, Burges (1998) aponta algumas
limitações, como o problema da escolha da função kernel e o de desempenho e consumo
de memória, tanto para treinamento quanto para teste, principalmente em conjuntos com
muitos dados.
33
3 Séries Temporais Financeiras
3.1 Considerações Iniciais
A área de aplicação deste estudo é a previsão de séries temporais financeiras. Este é um
campo bastante fértil, com diversos desafios. O objetivo deste capítulo é introduzir alguns
conceitos essenciais para o entendimento da proposta, que será detalhada no Capítulo 5.
Os temas aqui abordados aparecem frequentemente na literatura de inteligência artificial
aplicada ao mercado de ações. Inicialmente são apresentados alguns conceitos básicos da
dinâmica das bolsas de valores. Em seguida, uma abordagem dos modelos estatísticos
de séries de tempo normalmente encontrados na literatura de inteligência artificial e,
posteriormente, alguns métodos de análise de séries de tempo baseados em diversas áreas
de conhecimento.
3.2 Mercado de Ações
Nesta seção são apresentados os conceitos básicos sobre o mercado de ações e algumas
considerações sobre seu funcionamento que são relevantes no contexto da proposta deste
trabalho. Optou-se pela inclusão desta breve apresentação considerando que muitas das
informações aqui presentes não são plenamente difundidas entre os pesquisadores da área
de inteligência artificial.
O conceito mais fundamental é de ação, que representa uma pequena fração do capital
social de uma empresa que tem constituição jurídica de sociedade anônima. As ações de
empresas de capital aberto são negociadas nas bolsas de valores. O preço de uma ação é
determinado pelo equilíbrio no entendimento entre demandantes e ofertantes:
1. Aqueles interessados em adquirir determinada quantidade de uma ação emitem
ofertas de compra, especificando a quantidade desejada e preço;
2. Aqueles que desejam vender parte ou a totalidade das ações que possuem emitem
ofertas de venda, especificando quantidade e preço;
3. Quando há igualdade no preço entre uma oferta de compra e uma oferta de venda, o
negócio é realizado e o preço da ação corresponde ao valor acordado nesta transação.
Assim, o preço da ação é o valor praticado na transação mais recente. Cada transação
pode mudar ou não o preço anterior da ação, dependendo do consenso entre compradores
e vendedores. A observação dos preços de ações pode ser feita em diferentes taxas de
amostragem: desde o valor a cada negócio realizado até observações diárias, semanais,
Capítulo 3. Séries Temporais Financeiras 34
mensais ou anuais, por exemplo. Em cada período tem-se os preços de abertura (valor
praticado na primeira transação), máximo (maior valor praticado), mínimo (menor valor
praticado), e de fechamento (valor da última transação). Normalmente quando o preço é
mencionado sem especificação, entende-se que a referência é ao preço de fechamento.
Fixada uma taxa de amostragem, seja P = {Pt}, t ∈ N a série temporal formada pelo
preço P da ação no período t. A taxa de retorno simples, R = {Rt}, é dada por:
= Pt − Pt−1Rt , t ∈ N (3.1)
Pt−1
Como Pt > 0, tem-se que Rt > −1.
A taxa de retorno logarítmica, r = {rt}, é calculada como:( )
Pt
rt = log , t ∈ N (3.2)
Pt−1
onde log(x) é o logaritmo natural de x. Percebe-se que rt pode assumir qualquer valor real.
O uso desta última é bastante comum na literatura, em detrimento da primeira.
Uma das premissas deste trabalho é a utilização de dados do mercado de ações brasileiro
disponíveis pública e gratuitamente, ou seja, acessíveis por qualquer pesquisador interessado
na área. Assim, algumas informações complementares, tipicamente não abordadas em
trabalhos na área, se fazem necessárias.
A análise das séries temporais financeiras obtidas a partir dos dados disponíveis pública
e gratuitamente deve levar em conta que há mudanças de preços que são causadas por
eventos corporativos1:
a) desdobramentos: quando cada ação é convertida em duas ou mais;
b) grupamentos: quando cada grupo de duas ou mais ações é unido em apenas uma
ação;
c) bonificação em ações: quando é distribuída aos acionistas uma determinada
quantidade de ações para cada lote (normalmente de 100 ações) possuído;
d) subscrição: quando o acionista recebe o direito de adquirir mais ações, em quanti-
dade proporcional ao total que possui, do mesmo tipo a um determinado preço;
e) distribuição de dividendos: quando é depositada uma quantia em dinheiro para
cada acionista, proporcionalmente ao número de ações que cada um possui. A
distribuição de dividendos é isenta de imposto de renda;
f) pagamento de juros sobre capital próprio: similar à distribuição de dividendos,
mas sujeito a tributação;
g) cisão: quando uma empresa é desmembrada em duas ou mais;
h) fusão: quando duas ou mais empresas passam a ser uma.
1 Esta lista não é exaustiva, contemplando apenas os eventos mais comuns.
Capítulo 3. Séries Temporais Financeiras 35
Tais eventos geram mudanças nos preços praticados, mas essas são diferentes da
flutuação normal. Tomando como exemplo o caso de um desdobramento de cada ação em
duas, o preço observado passa a ser metade do valor original, entretanto o acionista passa
a ter o dobro das ações, de modo que a queda de 50% observada na série de preços brutos
não é percebida pelo acionista.
A cada evento é associada uma data com, que informa até quando as ações negociadas
possuem o direito em questão. O dia seguinte à data com é chamada de data ex. Por
exemplo, o anúncio de distribuição de dividendos inclui a data com. As ações negociadas
no pregão seguinte à data com não fazem mais jus aos dividendos, portanto observa-se
uma queda no preço bruto, porém para o acionista que tinha a ação na data com, tal
queda é compensada pelos dividendos recebidos.
Nos trabalhos com aplicações de inteligência artificial ao mercado de ações, um conceito
bastante citado é o de índice de ações, que consiste em uma carteira teórica contendo
ações de diversas empresas, segundo algum critério de seleção e peso. O IBOVESPA, por
exemplo, foi implantado em 1968 e é o índice mais importante na representação do mercado
brasileiro, composto pelas principais ações negociadas na BM&F-Bovespa2. Existem índices
similares em outros países, como o S&P 500 nos Estados Unidos e o TOPIX no Japão.
Na tomada de decisão de investimentos é comum a avaliação de indicadores técnicos ou
grafistas, obtidos com base em preços e volumes de negociação anteriores. Além desses, há
ainda os indicadores fundamentalistas, calculados com base nas informações dos balanços
das empresas. É comum também levar em conta informações como inflação, taxas de juros,
preços de commodities, câmbio, etc.
3.2.1 Hipótese do Mercado Eficiente
Considerando o objetivo de realizar previsões de aspectos da distribuição de probabilidade
da taxa de retorno futura de uma ação, é importante tecer algumas considerações sobre a
Hipótese do Mercado Eficiente (HME) e o posicionamento deste trabalho em relação a ela.
Conforme já mencionado anteriormente, segundo essa hipótese, os preços das ações
refletem completamente todas as informações disponíveis (FAMA, 1970):
E[Pt+1|Φt] = (1 + E[Rt+1|Φt])Pt (3.3)
onde E[Pt+1|Φt] é o valor esperado para o preço futuro Pt+1, com base nas informações
Φt disponíveis até o momento t, e E[Rt+1|Φt] é o valor esperado para a taxa de retorno
simples com base nas mesmas informações Φt. A depender do que compõe o conjunto Φt,
a HME pode ser classificada entre3:
2 <http://www.bmfbovespa.com.br/indices/ResumoIndice.aspx?Indice=Ibovespa&Idioma=pt-br>.
Acesso em 11 nov. 2013.
3 Posteriormente, a classificação da HME foi revisada (FAMA, 1991), porém a essência foi mantida, de
modo que a definição original é suficiente para o propósito desta breve discussão.
Capítulo 3. Séries Temporais Financeiras 36
a) fraca: apenas preços anteriores são considerados no conjunto Φt;
b) semi-forte: além de preços anteriores, qualquer informação publicamente disponível
também é considerada, por exemplo, informações sobre eventos corporativos, taxas
de juros, inflação, etc.;
c) forte: além das informações públicas, são consideradas também as privilegiadas,
acessíveis exclusivamente por um limitado grupo de participantes do mercado.
É considerado que as informações Φt são “completamente refletidas” se é nulo o valor
esperado para o excesso de preço em relação ao equilíbrio de mercado projetado com base
em Φt, ou seja:
E[Pt+1 − E[Pt+1|Φt]] = 0 (3.4)
De forma equivalente, seja zt = Rt − E[Rt|Φt−1] a taxa de retorno em excesso ao
valor esperado, então, num mercado eficiente, se tem que E[zt] = 0. Em especial, se
E[Rt|Φt−1] ≥ 0, então não existe estratégia de negociação baseada nas informações Φt−1
que leve a lucros maiores do que comprar e manter.
É importante destacar que a HME não especifica um modelo para o valor de equilíbrio
E[Rt+1|Φt], porém há evidências empíricas, considerando especialmente as versões fraca e
semi-forte da HME, que um modelo válido em muitos casos é que E[Rt+1|Φt] = µ, sendo
µ uma constante tipicamente positiva e aproximadamente nula, ou seja, nesses casos os
preços de ações se comportam como um processo martingal.
Entretanto, fixado um determinado modelo para E[Rt+1|Φt], se for verificado empirica-
mente que existe uma estratégia de negociação baseada em Φt com E[Rt+1−E[Rt+1|Φt]] > 0,
então não necessariamente o mercado em questão é ineficiente: pode ser que o modelo
para E[Rt+1|Φt] em consideração seja inadequado, conforme análise de Fama (1991). Neste
contexto, a inteligência artificial pode fornecer ferramentas para a construção de modelos
de previsão de Rt+1.
Apesar do foco da HME em valores esperados, outros aspectos da distribuição de
probabilidade de Rt são relevantes na tomada de decisão de investimentos, em especial
a variância, que está relacionada ao risco: se um investidor pode escolher um entre dois
ativos e ambos têm o mesmo valor esperado, a decisão pode ser por aquele com menor
variância, caso o investidor deseje minimizar sua exposição a risco. Logo, além de valores
esperados, intervalos de previsão para a taxa de retorno podem ser bastante úteis para a
tomada de decisão de investimentos.
Assim sendo, a proposta deste trabalho não é explorar oportunidades de lucro em um
suposto mercado ineficiente, mas sim, através da construção de modelos válidos, efetuar
previsões de aspectos da distribuição de probabilidade da taxa de retorno futura, em
especial intervalos de previsão.
Capítulo 3. Séries Temporais Financeiras 37
3.2.2 Estimativa de Volatilidade
Em séries temporais de taxas de retorno logarítmico é comum que haja heteroscedasticidade
condicional, ou seja, a variância muda ao longo do tempo e tal mudança depende das
variâncias anteriores. Neste trabalho, considera-se o desvio padrão σt da distribuição de rt
como medida de volatilidade. No contexto do problema de construir intervalos de previsão
para a taxa de retorno futura, a estimativa da volatilidade seguinte pode ser de grande
utilidade.
Infelizmente, as volatilidades não são observáveis diretamente, pois a heteroscedasti-
cidade implica que tipicamente σt ̸= σt−1 e para cada período t há apenas uma taxa de
retorno r 4t . Entretanto, se for admitida a premissa de que a volatilidade varia lentamente,
então σt pode ser aproximada considerando n retornos anteriores. Se n for muito grande,
a volatilidade média da janela de n períodos pode não ser uma boa aproximação para σt.
Por outro lado, se n for muito pequeno a estimativa pode não ser boa por falta de dados.
Ao longo do tempo, diversos estimadores de volatilidade foram propostos. Em geral
eles assumem que o preço logarítmico segue um caminho aleatório contínuo no tempo e
nos valores (um movimento Browniano) e então calculam a volatilidade com base nos
preços de abertura, mínimo, máximo e de fechamento, ou seja, consideram tanto o começo
e final do caminho quanto os extremos atingidos.
Neste trabalho é adotado o estimador VY Z proposto por Yang e Zhang (2000):
VY Z = VO + kVC + (1− k)VRS (3.5)
onde:
1 ∑n
V 2O = 1 (oi − o) (3.6)n−
1 ∑i=1n
VC = 1 (ci − c)
2 (3.7)
n−∑ i=11 n
VRS = [ui(ui − ci) + di(di − ci)] (3.8)
n i=1
= α− 1k
α + n+1 (3.9)
n−1
e considere-se ainda que:
Ci é o preço de fechamento do período i,
Oi é o preço de abertura do período i,
4 O estimador clássico de desvio padrão é baseado numa amostra aleatória tomada de uma mesma
população. Como o desvio padrão muda ao longo do tempo, cada rt vem de uma população diferente,
logo o estimador clássico, que é definido para amostras com pelo menos dois elementos, não se aplica.
Capítulo 3. Séries Temporais Financeiras 38
Hi é o preço máximo do período i,
Li é o preço mínimo do período i,
oi = lnOi − lnCi−1 é o preço normalizado de abertura,
ui = lnHi − lnOi é o preço normalizado máximo,
di = lnLi − lnOi é o preço normalizado mínimo,
ci = lnCi − lnOi é o preço normalizado de fechamento,
o = 1 ∑ni=1 oi é a média do preço normalizado de abertura,n
c = 1 ∑n
n i=1 ci é a média do preço normalizado de fechamento,
n é a quantidade de períodos considerados na estimativa, e
α = 1,34 é sugerido pelos autores.
Segundo os autores, o estimador VY Z possui as seguintes propriedades:
a) não é enviesado assintoticamente, mesmo se E[rt] ̸= 0;
b) é tolerante a gaps de abertura5;
c) possui variância mínima6.
Na prática, os preços logarítmicos não seguem exatamente um caminho aleatório
contínuo, pois as variações possíveis de preço são discretas7 e a evolução não é contínua
e sim negócio a negócio. Quando os preços das ações são muito baixos, de modo que
uma variação mínima é relativamente grande, ou quando há poucos negócios no período
considerado, o estimador é enviesado. Os autores propõem uma correção no estimador
para esses casos, porém sua variância aumenta. Como as ações estudadas neste trabalho
apresentam alto volume de negociação8 e valores de preços razoavelmente altos em relação
à variação mínima permitida, o viés no estimador não corrigido é pequeno, exceto talvez
pelas séries com taxa de amostragem de 10 minutos.
É importante destacar que os estimadores de volatilidade são calculados considerando
uma janela de tamanho n > 1. Se durante a janela o preço variar de forma monótona (não
decrescente ou não crescente), a volatilidade é nula, dado que a mudança pode ser explicada
apenas por uma constante. Entretanto dado que a estimativa é baseada nos preços de
5 A expressão gap de abertura descreve a situação na qual o preço de abertura é maior que a máxima
ou menor que a mínima do período anterior.
6 Seja µ o valor desconhecido que se deseja estimar e µ̂ o valor estimado. Definindo ϵ = µ− µ̂ como o
erro cometido, a variância do estimador é Var(ϵ), ou seja, quanto menor a variância do estimador,
mais precisas as estimativas fornecidas por ele.
7 A variação mínima no preço de uma ação no Brasil é R$ 0,01.
8 Quanto maior o número de negócios, menor o erro causado pela suposição de evolução contínua de
preços.
Capítulo 3. Séries Temporais Financeiras 39
abertura, mínimo, máximo e de fechamento, caso a abertura coincida com o mínimo
(máximo) e o fechamento com o máximo (mínimo), o estimador apontará volatilidade nula,
mesmo que durante o pregão a variação de preço não seja monótona, o que é um erro.
Sendo assim, nos casos em que a volatilidade estimada for nula, considerar-se-á o dado
como desconhecido na série.
3.3 Modelos Estocásticos Tradicionais
Na literatura de inteligência artificial aplicada ao mercado de ações, é comum a utilização
de modelos estocásticos de série de tempo, seja como referência de comparação ou aplicação
de forma combinada através de modelos híbridos. Existem diversos modelos estocásticos
para séries temporais, entretanto nesta seção estão listados apenas os mais comuns entre
as pesquisas de inteligência artificial.
3.3.1 Modelos Estocásticos Lineares
Uma série temporal at é dita linear se pode ser escrita na forma (TSAY, 2010, p. 36):
∑∞
at = µ+ ψiϵt−i (3.10)
i=0
Onde ψ0 = 1 e ϵt é ruído branco (do inglês, white noise), ou seja, uma sequência de
variáveis aleatórias independentes e igualmente distribuídas (iid), com média 0 e variância
finita.
A série é dita estritamente estacionária se a distribuição conjunta de probabilidade de
(at1 , . . . , at ) for invariante ao longo do tempo, onde k é um inteiro positivo arbitrário e tk k
uma coleção de k inteiros. A série é dita fracamente estacionária se a média e a covariância
Cov(at, at−l) forem constantes ao longo do tempo, onde l é um inteiro arbitrário (TSAY,
2010, p. 30). A estacionariedade da série é uma propriedade importante, pois garante, por
exemplo, que um modelo ajustado usando uma parte suficientemente grande da série seja
válido para todas as demais partes.
Há dois modelos básicos para séries temporais lineares: AR(p) (auto regressivo de
ordem p) e MA(q) (média móvel9 de ordem q), que podem ser escritos respectivamente
como:
∑p
AR(p): at = ϕ0 + ϕiat−i + ϵt (3.11)
i=1
∑q
MA(q): at = θ0 − θiϵt−i + ϵt (3.12)
i=1
9 A sigla MA vem do inglês Moving Average.
Capítulo 3. Séries Temporais Financeiras 40
Dada uma série linear, a escolha da estrutura do modelo e sua respectiva ordem pode
ser auxiliada pela função de autocorrelação ACF(l). Ela mede a correlação linear entre
elementos com distância l entre si. É definida como10:
ACF( ): = √ Cov(at, at−l) = Cov(at, at−l)l ρl
V ar(a )V ar(a − ) V ar(at)
(3.13)
t t l
No caso de modelos MA(q), o valor da ACF(l) é significantemente diferente de 0 para
l ≤ q e 0 para l > q. Assim, se a função de autocorrelação apresenta valores significantes
até um certo q e 0 em seguida, a série temporal em questão é MA(q). Já no caso das séries
auto regressivas, o valor da ACF(l) decai exponencialmente e passa a ter insignificância
estatística para l grandes. Nesse caso o uso da função de autocorrelação parcial PACF(l) é
mais interessante. Considerando a sequência de modelos:
AR(1): at = µ+ ϕ1,1at−1 + ϵt
AR(2): at = µ+ ϕ2,1at−1 + ϕ2,2at−2 + ϵt
. . .
AR(l): at = µ+ ϕl,1at−1 + . . . + ϕl,lat−l + ϵt
A função de autocorrelação parcial é definida como:
PACF(l) = ϕl,l (3.14)
Ou seja, o valor de PACF(l) é o coeficiente do termo at−l considerando um modelo AR(l)
ajustado à série. Então se a função de autocorrelação apresenta decaimento exponencial
com o aumento de l e PACF(l) apresenta valor significantemente diferente de 0 para l = p
e 0 para l > p, tem-se uma série AR(p).
Na Figura 6 estão os gráficos das funções de autocorrelação e autocorrelação parcial
para séries AR(3) e MA(3): no canto superior esquerdo observa-se o decaimento exponencial
da função ACF para a série auto regressiva, enquanto no canto superior direito a função
PACF possui valores significantes11 até a defasagem 3, como esperado. Na parte de baixo
os gráficos para a série de média móvel: à esquerda a função ACF com valores significativos
até a defasagem 3, conforme esperado, e à direita a função PACF.
É possível combinar os dois modelos básicos, formando o seguinte modelo:
∑p ∑q
ARMA(p, q): at − ϕiat−i = θ0 + ϵt − θiϵt−i (3.15)
i=1 i=1
A identificação das ordens p e q pode ser feita, por exemplo, através de busca exaustiva
de combinações de p e q limitados a uma pequena faixa: para cada par de valores é
avaliado um critério de informação que leva em consideração a verossimilhança, ou seja,
quão provável é que os dados tenham sido gerados pelo modelo, e a quantidade de
10 A última igualdade é válida supondo que at seja estacionaria, ou seja V ar(at) = V ar(at−l)
11 Nos gráficos, as linhas horizontais tracejadas indicam o intervalo de confiança de 95% no caso de
autocorrelação nula. Logo, valores entre elas não possuem significância estatística.
Capítulo 3. Séries Temporais Financeiras 41
Figura 6 – Gráficos das funções ACF e PACF para séries AR e MA
at = 0,5at−1 + 0,1at−2 + 0,2at−3 + ϵt at = 0,5at−1 + 0,1at−2 + 0,2at−3 + ϵt
0 5 10 15 20 25 30 35 0 5 10 15 20 25 30 35
Defasagem Defasagem
at = 0,5ϵt−1 + 0,1ϵt−2 + 0,2ϵt−3 + ϵt at = 0,5ϵt−1 + 0,1ϵt−2 + 0,2ϵt−3 + ϵt
0 5 10 15 20 25 30 35 0 5 10 15 20 25 30 35
Defasagem Defasagem
Fonte: Produzido pelo autor
parâmetros do mesmo. A ordem é escolhida como a que apresenta menor valor para o
critério de informação. Dentre os critérios, merecem destaque o AIC (AKAIKE, 1974),
AICc (HURVICH; TSAI, 1989) e BIC (SCHWARZ, 1978). O objetivo da utilização de
critérios de informação para a seleção de modelos é evitar superajuste devido à eventual
complexidade do modelo, de modo a aceitar modelos mais complexos apenas se a redução
do erro empírico for significativa. Esta ideia é bastante similar ao princípio de minimização
do risco estrutural implementado pelas máquinas de vetores de suporte, entretanto o
conceito de “complexidade” dos modelos é diferente entre estes critérios de informação e o
utilizado pelas SVMs, o que leva a resultados significantemente diferentes (VAPNIK, 1998,
p. 524–529).
Há ainda o modelo ARIMA(p, d, q) (BOX; JENKINS; REINSEL, 2008) que é uma
generalização do ARMA(p, q) na qual é incorporada a operação de diferenciação: ▽zt = zt−
zt−1. O parâmetro d(indic)a quantas vezes a diferenciação é aplicada. Por exemplo, supondo
que a série r = log Ptt = log(Pt)− log(Pt−1) de retornos logarítmicos siga um modeloPt−1
ARMA(p, q), a série de preços logarítmicos log(Pt) segue um modelo ARIMA(p, 1, q).
ACF ACF
0,0 0,4 0,8 0,0 0,4 0,8
Partial ACF Partial ACF
-0,1 0,1 0,3 0,0 0,2 0,4 0,6
Capítulo 3. Séries Temporais Financeiras 42
De forma geral pode-se escrever:
∑p ∑q
ARIMA(p, d, q): (1− ϕ Bi)▽da = θ ii t 0 + (1− θiB )ϵt (3.16)
i=1 i=1
Onde B é o operador defasagem: Bizt = zt−i. Tem-se então ▽dzt = (1 − B)dzt.
Observa-se ainda que se zt segue um modelo ARIMA(p, d, q), então a série wt = ▽zt segue
ARIMA(p, d− 1, q) e que o modelo ARIMA(p, 0, q) é equivalente a ARMA(p, q).
O modelo de Caminho Aleatório pode ser expresso como um ARIMA(0, 1, 0). Se {xt}
segue um caminho aleatório, então E[xt+1] = xt e a variância de xt+1 é constante e não
depende do valor de xt+1. No caso de preços de ações, é de se esperar que a variância
de preços maiores seja maior que a de preços menores, ou seja, o caminho aleatório não
representa bem essa característica. Então é comum que se modele o logaritmo dos preços
como um caminho aleatório em vez do preço em si. Assim há também a vantagem de que
a operação de diferenciação leva ao retorno logarítmico12: se o logaritmo dos preços segue
um ARIMA(0, 1, 0) então os retornos logarítmicos seguem um ARMA(0, 0). Caso se abra
mão do requisito de variância constante, tem-se um martingal, ou seja, se E[xt+1] = xt
então {xt} apresenta comportamento martingal, independente da variância ser constante
ou proporcional ao valor de cada elemento da série.
Algumas séries temporais apresentam a propriedade de correlações de longo prazo:
valores da série separados por intervalos de tempo arbitrariamente grandes apresentam
correlação significativa. Hosking (1981) propôs uma extensão do ARIMA(p, d, q) que
permite que o parâmetro d seja fracionário: o ARFIMA(p, d, q). Esta extensão permite
simultaneamente a modelagem de correlações de longo prazo (expressas no d fracionário) e
curto prazo (expressas nos parâmetros p e q, tal como no ARIMA). A equação que define
o ARFIMA(p, d, q) é igual à do ARIMA, tomando a diferenciação fracionária como uma
expansão binomial:
∑⎛ ⎞∞
▽d
d
= (1− 1 1B)d = ⎝ ⎠ (−B)k = 1−dB− 2d(1−d)B2− 6d(1−d)(2−d)B3−. . . (3.17)k=0 k
Na Figura 7 é ilustrado o comportamento da função de auto correlação para uma
série AR(3) em contraste com uma ARFIMA(3; 0,3; 0). A única diferença entre elas é a
diferenciação fracionária na segunda, resultando em auto correlações significativas mesmo
para defasagens grandes.
3.3.2 Modelos Estocásticos Não Lineares
Além dos modelos lineares apresentados, alguns modelos não lineares aparecem recor-
rentemente no estudo de séries financeiras com inteligência artificial: os que consideram
12 Vide definição de retorno logarítmico na Equação 3.2.
Capítulo 3. Séries Temporais Financeiras 43
Figura 7 – Função de auto correlação: AR x ARFIMA
at = 0,5at−1 + 0,1at−2 + 0,2at−3 + ϵt
0 50 100 150
Defasagem
(1− 0,5B − 0,1B2 − 0,2B3)▽0,3at = ϵt
0 50 100 150
Defasagem
Fonte: Produzido pelo autor
que a variância muda ao longo do tempo, ou seja, lidam com séries que apresentam
heteroscedasticidade. Nesta classe inicialmente tem-se o ARCH(q)13 (ENGLE, 1982):
∑q
σ2t = α0 + αia2t−i
i=1 (3.18)
at = σtϵt
Onde ϵt possui média 0 e variância unitária. σ2t é a variância condicional, que muda ao
longo do tempo enquanto a variância incondicional Var( ∑at) = α q0/(1− i=1 αi) permanece
constante.
A detecção da presença de heteroscedasticidade condicional se dá pela análise da função
de auto correlação dos quadrados dos retornos ou de seus valores absolutos. O quadrado de
um retorno pode ser usado como primeira aproximação de sua variância, assim como seu
valor absoluto uma aproximação para o desvio padrão. Correlações significativas indicam
então que a volatilidade de um retorno depende das volatilidades anteriores.
13 Do inglês Autoregressive Conditional Heteroskedasticity.
ACF ACF
0,0 0,4 0,8 0,0 0,4 0,8
Capítulo 3. Séries Temporais Financeiras 44
Bollerslev (1986) aponta que o ARCH(q) requer grandes valores de q para representar
adequadamente a persistência de volatilidade encontrada normalmente em séries temporais
financeiras. Propõe então uma generalização, o GARCH(p, q)14:
∑q ∑p
σ2t = α + α 20 iat−i + βiσ2t−i
i=1 i=1 (3.19)
at = σtϵt
Posteriormente, o EGARCH(p, q)15 (NELSON, 1991) foi introduzido, permitindo rea-
ções assimétricas na volatilidade dependendo do sinal dos valores passados da série. Ele
é linear no logaritmo das volatilidades passadas e não no quadrado, como os modelos
anteriores:
q∑+1 ∑p
ln(σ2) = ω + α 2t ig(ϵt−i) + βiln(σt−i)
i=1 i=1 (3.20)
at = σtϵt
onde ∑α p1 = 1, ω = (1− i=1 βi)α0, g(ϵt) = θϵt + γ(|ϵt| − E[|ϵt|]).
Além da família de modelos ARCH, no contexto de aplicações de inteligência artificial
na previsão de séries temporais financeiras, é relevante também o modelo de volatilidade
estocástica SV16 (TSAY, 2010, p. 153):
∑p
ln(σ2) = α + α ln(σ2t 0 i t−i) + νt
i=1 (3.21)
at = σtϵt
onde ϵt são independentes e igualmente distribuídos (iid) de acordo com uma distribuição
normal padrão, νt são iid e normalmente distribuídos e ϵt e νt são independentes entre si.
Considerando o entendimento da proposta deste trabalho, os modelos não lineares
listados acima são suficientes, especialmente o de volatilidade estocástica, cuja essência
faz parte da modelagem adotada.
3.4 Análise de Séries Temporais
Diversas pesquisas, cujo objeto de estudo é a aplicação de inteligência artificial na previsão
de séries temporais financeiras, dedicam uma parte à análise de previsibilidade das séries em
estudo. Ferramentas de variadas áreas de conhecimento são aplicadas para este fim. Nesta
14 Do inglês Generalized Autoregressive Conditional Heteroskedasticity.
15 Do inglês Exponential Generalized Autoregressive Conditional Heteroskedasticity.
16 Do inglês Stochastic Volatility.
Capítulo 3. Séries Temporais Financeiras 45
seção são apresentadas algumas delas, contemplando as técnicas recorrentemente presentes
na literatura. Os frutos da etapa de análise são o respaldo para os modelos de previsão
propostos, construídos para tomar proveito das características evidenciadas. Inicialmente
são abordadas as ferramentas para análise de relações lineares entre os elementos das séries
de tempo e, em seguida, técnicas mais gerais com objetivo de detectar qualquer tipo de
relação, inclusive não lineares.
3.4.1 Análise Linear
O cálculo de média, desvio padrão, assimetria e curtose, em conjunto com um histograma
e um gráfico de valores ao longo do tempo, fornecem as primeiras informações sobre a
série temporal em estudo. De posse dessas informações é possível, por exemplo, ter noções
sobre como é a distribuição dos dados ou evidenciar se há valores destoantes dos demais
(outliers).
Em seguida, pode-se verificar as propriedades lineares, através das funções de auto
correlação (ACF) e auto correlação parcial (PACF), investigando se apresentam seme-
lhanças com modelos simples (AR(p) ou MA(q)) ou ainda se é necessário aplicar algum
tipo de diferenciação para tornar a série estacionária ou remover efeitos de sazonalidade.
Normalmente no gráfico das funções ACF e PACF se indicam os valores críticos, sob
a hipótese nula de ausência de correlação, para um determinado intervalo de confiança,
tipicamente de 95%. Eventualmente aparecem correlações fora da faixa entre os valores
críticos, mesmo quando não é significativa, principalmente quando se avaliam muitos
valores de defasagem. Box e Pierce (1970) propuseram um teste estatístico para verificar
se os dados apresentam correlação serial significativa para pelo menos algum valor de
defasagem até um dado limite. Considerando duas aproximações para a distribuição dos
resíduos sob a hipótese nula, adotaram a mais simples. Mais tarde, Ljung e Box (1978)
estudaram as propriedades da outra aproximação e demonstraram que com ela o teste fica
mais poderoso. Caso os dados apresentem correlação serial, pode-se ajustar um modelo
ARIMA(p, d, q), minimizando um critério de informação como AIC, AICc ou BIC. A
adequação do modelo pode ser avaliada através da aplicação do teste de Ljung e Box aos
resíduos. Caso ainda haja correlação serial significativa, talvez seja preciso revisar a ordem
do modelo ou remover eventuais efeitos de sazonalidade.
3.4.1.1 Correlações de Longo Prazo
Nem todo tipo de correlação serial pode ser capturada por modelos ARIMA, em especial as
séries que apresentam correlações de longo prazo, ou seja, quando há correlação entre valores
separados por defasagens arbitrariamente longas. Séries temporais com essa característica
são comuns em hidrologia (MANDELBROT; WALLIS, 1968) e tem sido estudadas há pelo
menos meio século. Aparentemente o estudo pioneiro nessa área foi o de Hurst (1951 apud
Capítulo 3. Séries Temporais Financeiras 46
MANDELBROT; WALLIS, 1968), que notou que a grandeza R(s)/S(s) é proporcional
a sH , com 0.5 ≤ H ≤ 1, “tipicamente” 0,7. H é comumente conhecido como expoente
de Hurst ou coeficiente de Hurst. R(s) é a capacidade “ideal” que uma represa deveria
ter em s anos, onde por “ideal” entende-se uma capacidade mínima tal que: o fluxo de
saída seja uniforme, a represa nunca transborde e ao final do período deve estar tão
cheia quanto no início. Considerando {xt} a série anual de descargas do rio recebidas pela
represa e tomando as somas parciais X∗(j) = ∑ji=1 xi com j no intervalo [1, s], tem-se
(MANDELBROT; WALLIS, 1969):
{ } { }
R( a bs) = max X∗(a)− X∗(s) − min X∗(b)− X∗(s) (3.22)
1≤a≤s s 1≤b≤s s
Ou seja, se a represa tem a capacidade ideal ao longo de s anos, há momentos em que está
muito cheia, quase transbordando, e outros em que está quase seca. S(s) é o desvio padrão
do fluxo que chega à represa ao longo dos s anos. A análise R/S clássica foi formalizada por
Mandelbrot (1972) e consiste em avaliar o comportamento da razão R(s)/S(s) em relação
a s: em séries sem correlações de longo prazo, a razão é proporcional a sH , com H = 0,5.
Reciprocamente, não há correlação de longo prazo se H = 0,5. O comportamento da
estatística R(s)/S(s) foi estudado através de simulações de computador (MANDELBROT;
WALLIS, 1969) e posteriormente com maior rigor matemático (MANDELBROT, 1975). Lo
(1991) aponta que a estatística R(s)/S(s) pode ser superestimada quando há presença de
correlações de curto prazo e propõe uma modificação para desconsiderar as correlações com
alcance q. Com q = 0 o valor da estatística modificada é igual à clássica. Taqqu, Teverovsky
e Willinger (1999) mostram a dificuldade em escolher um valor de q: muito pequeno pode
não compensar todas as correlações de curto prazo e muito grande pode tornar o teste
muito conservador, não detectando correlações de longo prazo que genuinamente existam.
Propõem então que o valor de H seja obtido de outra forma.
Peng et al. (1994) introduziram a análise de flutuação destendenciada, DFA (do inglês
detrendend fluctuation analysis), que estima H com base na variância dos resíduos do
ajustes de polinômios, tipicamente de ordem 1, a blocos de diferentes tamanhos da série.
É um método bastante popular de estimativa do expoente de Hurst, mas apresenta alguns
problemas em amostras de tamanho finito, conforme detalhado por Bryce e Sprague (2012).
Taqqu, Teverovsky e Willinger (1995) comparam o comportamento de diversos esti-
madores de H em séries que se sabe haver correlações de longo prazo: ruído gaussiano
fracionário e processos ARMA com integração fracionária (ARFIMA). Taqqu e Teverovsky
(1998) estenderam o trabalho anterior, incluindo mais alguns estimadores e considerando
distribuições com variância maior que a normal, até mesmo infinita. Concluem que os
métodos são razoavelmente robustos diante de desvios da distribuição Gaussiana e que
são fortemente influenciados pelos componentes AR e MA.
Neste trabalho, considerando o objetivo de previsão em detrimento de análise, foi
adotado um método direto: o ajuste de um modelo ARFIMA(p, d, q) que minimize o risco
Capítulo 3. Séries Temporais Financeiras 47
empírico e levando em conta o critério de informação AIC.
3.4.2 Análise Não Linear
Ausência de correlação serial de curto ou longo prazos não quer dizer que os dados são
independentes: podem existir relações não lineares. Com as ferramentas apresentadas na
subseção anterior não é possível distinguir entre algumas séries caóticas e aleatórias. Kantz
e Schreiber (2004, p. 29) dão um exemplo como exercício: gerar duas séries artificiais, a
primeira {ηn, n = 1, . . . , 4096} aleatória com distribuição uniforme entre 0 e 1 e a segunda
{sn, n = 1, . . . , 4096} baseada na evolução de xn, com x0 = 0,1 e x 2n+1 = 1 − 2xn, onde
sn = arccos(−xn)/π. A média, desvio padrão, histograma e função de autocorrelação de
{ηn} e {sn} são muito similares e ambas rejeitam a hipótese de correlação serial com o
teste de Ljung-Box, entretanto {ηn} é aleatória e {sn} é determinística. Na Figura 8 estão
ilustrados, de cima para baixo: a série ao longo do tempo, o histograma de valores e a
função de auto correlação. As imagens à esquerda são referentes à série aleatória ηn e as
da direita à série determinística não linear sn. Em tais gráficos não fica evidente qualquer
diferença significativa.
3.4.2.1 Sistemas Caóticos Determinísticos
Seja F : Rn → Rn a função que define as transições num espaço de estados, ou seja
st+1 = F (st), com s ∈ Rni . O subconjunto invariante Λ ⊂ Rn tal que si ∈ Λ⇒ F (si) ∈ Λ
é chamado atrator (KANTZ; SCHREIBER, 2004, p .33). Exemplos simples de atratores
são pontos fixos, que descrevem sistemas em um estado estacionário, ou ciclos limitados,
que descrevem movimentos periódicos.
Um sistema caótico determinístico possui atrator com geometria complicada, tipica-
mente apresentando estrutura fractal (KANTZ; SCHREIBER, 2004, p. 34). Dentre as
características destes sistemas pode-se destacar que não são periódicos, apesar de que dado
um estado si, eventualmente o sistema atingirá um estado sj arbitrariamente próximo de si.
Além disso são extremamente sensíveis às condições iniciais, ou seja, duas trajetórias
no espaço de estados partindo de pontos arbitrariamente próximos divergem em taxa
exponencial. Devido a isso, apesar do determinismo, apenas previsões de curto prazo
são viáveis, pois o erro na estimativa do estado atual, por menor que seja, é expandido
exponencialmente com o tempo.
Através da série {xt} formada por xt = f(st), onde f : Rn → R é uma função de
observação, é possível estudar as propriedades de Λ e F , evidenciando por exemplo se
{xt} é aleatória ou se possui algum tipo de estrutura. Na base de tal estudo está a
reconstrução do espaço de estados17, que pode ser feita através do método de coordenadas
17 Ressalta-se que normalmente o espaço de estados original não é observável diretamente e se tem a
disposição apenas a série temporal {xt}.
Capítulo 3. Séries Temporais Financeiras 48
Figura 8 – Série aleatória x determinística não linear
Evolução de ηn Evolução de sn
0 1000 2000 3000 4000 0 1000 2000 3000 4000
n n
Histograma de ηn Histograma de sn
0,0 0,2 0,4 0,6 0,8 1,0 0,0 0,2 0,4 0,6 0,8 1,0
ηn sn
Auto correlação: ηn Auto correlação: sn
0 5 10 15 20 25 30 35 0 5 10 15 20 25 30 35
Defasagem Defasagem
Fonte: Produzido pelo autor, com base em Kantz e Schreiber (2004, p. 29)
ACF Frequência ηn
0,0 0,2 0,4 0,6 0,8 1,0 0 100 200 300 400 0,0 0,2 0,4 0,6 0,8 1,0
ACF Frequência sn
0,0 0,2 0,4 0,6 0,8 1,0 0 100 200 300 400 0,0 0,2 0,4 0,6 0,8 1,0
Capítulo 3. Séries Temporais Financeiras 49
defasadas (KANTZ; SCHREIBER, 2004, p. 35), formando vetores m-dimensionais xi =
(xi−(m−1)τ , xi−(m−2)τ , . . . , xi−τ , xi), onde τ é a separação de coordenadas. O valor de τ é
irrelevante quando a amostra é grande e livre de ruídos, condições que normalmente
não acontecem, então pode-se tomar como ponto de partida a primeira defasagem com
autocorrelação nula (KANTZ; SCHREIBER, 2004, p. 38). Se m for suficientemente grande,
o atrator no espaço reconstruído é equivalente ao original (KANTZ; SCHREIBER, 2004,
p.143–148), assim suas propriedades podem ser estudadas e é possível, por exemplo,
verificar se há dependências, lineares ou não, em {xt}, caracterizadas pela formação de
estruturas limitadas no espaço reconstruído, mesmo quando o valor de m cresce, ou se a
série em questão é aleatória, situação que leva os vetores xt a ficarem espalhados por todo
o espaço para qualquer valor de m18.
3.4.2.2 Teste BDS de Independência
Baseado no comportamento de dados aleatórios em espaços reconstruídos com coordenadas
defasadas, Broock et al. (1996) propuseram o teste BDS para detectar desvios da hipótese
nula de que os dados são independentes e igualmente distribuídos (iid). O teste não depende
da distribuição dos dados, então os autores apontam a vantagem de ser bastante genérico
e a desvantagem que pode não ser tão poderoso quanto um teste que leve em consideração
a distribuição dos dados. Os autores alertam que a consistência do teste é melhor em
amostras grandes, com mais de 500 observações.
Para aplicar o teste, é preciso determinar alguns valores de dimensão (m) e uma
distância máxima para considerar que dois pontos são vizinhos (ϵ). Tipicamente se escolhe
valores de m entre 2 e 5 e de ϵ entre 0,5σ e 1,5σ, onde σ é o desvio padrão dos dados.
Valores muito grandes de m podem levar à falsas rejeições, dado que o tamanho da série
em análise é finito. Hsieh (1991) conduziu diversos experimentos e relata que o teste BDS
é bastante poderoso com relação à detecção de muitos tipos de desvios da hipótese iid,
exceto para modelos GARCH e EGARCH, ou seja, muitas vezes o teste não rejeita a
hipótese nula em dados gerados artificialmente segundo o modelo GARCH e EGARCH.
Para estes casos é recomendável o abandono da distribuição assintótica do teste em favor
de valores críticos obtidos através de simulação. Hsieh (1993) aponta que no caso dos
resíduos de modelos de volatilidade estocástica (SV), a distribuição assintótica do teste
BDS se aplica.
Para este trabalho, o teste BDS de independência é fundamental principalmente na
avaliação de resultados com base na análise de resíduos dos modelos: ruídos iid indicam
que o modelo que os gerou capturou todas as relações existentes adequadamente.
18 Dado que a série temporal em estudo é uma amostra finita, se o valor de m for muito grande não é
possível que os vetores xt ocupem todo o espaço, ou seja, o poder de análise da técnica de reconstrução
do espaço de estados por meio de coordenadas defasadas é limitado pelo tamanho da amostra.
Capítulo 3. Séries Temporais Financeiras 50
3.4.3 Análise Baseada em Teoria da Informação
Caos determinístico não é a única possibilidade de relação não linear. Alguns trabalhos
investigam as propriedades de séries temporais com auxílio da entropia de Shannon (1948),
que quantifica a incerteza ou quantidade de informação associada a uma variável aleatória.
Considerando variáveis discretas, a entropia H é dada por:
∑
H(x) = − p(i) log p(i) (3.23)
i
Onde x é uma variável aleatória discreta, p(i) é a probabilidade de ocorrência da classe
i e a base do logaritmo determina a unidade de medida da entropia: se for 2 a quantidade
de informação é medida em bits, por exemplo. Dentre as propriedades da entropia listadas
por Shannon (1948), merecem destaque no contexto deste trabalho:
a) H(x) ≥ 0, com igualdade apenas no caso em que para algum i tem-se p(i) = 1 e
p(j) = 0 para j ≠ i, ou seja, quando não há incerteza no valor de x;
b) para uma dada quantidade n de classes, a entropia é máxima quando p(i) = 1 para
n
toda classe i;
c) considerando duas variáveis aleatórias x e y com m e n valores possíveis respectiva-
mente, tem-se a entropia conjunta H(x,y) = −∑i,j p(i,j) log p(i,j), onde p(i,j) é a
probabilidade conjun∑ta de x tomar∑o valor da classe i e y∑da classe j. É possível calcu-lar entãoH(x) = − ∑i,j p(i,j) log j p(i,j) eH(y) = − i,j p(i,j) log i p(i,j). Tem-
se que H(x,y) ≤ H(x)+H(y), com a igualdade ocorrendo apena se p(i,j) = p(i)p(j),
ou seja, caso x e y sejam independentes;
d) a entropia condicional de y dado x é dada por H(y|x) = −∑i,j p(i,j) log p(j|x = i)
e representa a incerteza média a respeito de y caso se conheça o valor x. Tem-se que
H(x,y) = H(x) +H(y|x) = H(x|y) +H(y) e H(y|x) ≤ H(y), com igualdade neste
último caso apenas quando o conhecimento do valor de x não reduz a incerteza
sobre y, ou seja, quando y não depende de x.
No contexto de séries temporais, H(xt) representa a incerteza associada a xt. Caso
H(xt|xt−1) = H(xt), conclui-se que xt não depende de xt−1, por exemplo. Fica claro
então que a entropia pode ser uma ferramenta valiosa na análise de séries temporais, pois
quantifica qualquer tipo de relação que possa existir, enquanto a correlação quantifica
apenas relações lineares. No entanto, as séries temporais financeiras não são discretas19 e
as definições apresentadas não se aplicam. Shannon (1948) considera também essa situação
e define, de forma análoga, para x e y contínuas:
19 Os valores de preços de ações são discretos e no Brasil a variação mínima é de R$ 0,01, portanto os
retornos também são discretos. Entretanto a quantidade de valores possíveis é tão grande, ainda mais
considerando longos períodos e efeitos de ajustes devidos à ocorrência de eventos corporativos, que o
comportamento é similar a quando são contínuos.
Capítulo 3. Séries Temporais Financeiras 51
∫ +∞
H(x) = − ∫∫ p(i) log p(i) di (3.24)−∞
H(x,y) = − ∫∫ p(i,j) log p(i,j) di dj (3.25)
H(x|y) = − p(i,j) log p(i,j)( ) di dj (3.26)∫ p j
Onde p(j) = p(i,j) di. Lista também algumas propriedades, dentre elas:
a) H(x,y) ≤ H(x) +H(y), com igualdade se e somente se x e y são independentes;
b) H(x,y) = H(x) +H(y|x) = H(x|y) +H(y) e H(y|x) ≤ H(y), com igualdade se y
não depende de x;
c) diferente do caso discreto, a entropia de variáveis contínuas é sensível ao sistema
de coordenadas, sendo o 0 definido em uma distribuição uniforme confinada a um
hipercubo de lado unitário. A entropia então pode ser negativa, caso a distribuição
esteja confinada a um espaço menor do que a referência.
Granger, Maasoumi e Racine (2004) propõem uma entropia métrica Sρ para medir a
dependências entre variáveis aleatórias:
= 1
∫ +∞ ∫ +∞
( 1/2Sρ 2 f1 −
1/2
f )22 dx dy (3.27)
−∞ −∞
E listam algumas propriedades, dentre elas:
a) é bem definida para variáveis aleatórias discretas e contínuas;
b) é normalizada para 0 se x e y independentes e 1 se há uma relação mensurável
exata y = m(x);
c) é igual ou tem relação simples com a correlação linear no caso de distribuição
normal bivariável.
Dado que as funções de densidade f1 e f2 tipicamente são desconhecidas, os autores
sugerem implementar o cálculo usando densidades estimadas por funções kernel e determi-
nar valores críticos de Sρ, sob a hipótese nula de independência, através de permutações20.
Foram realizados alguns testes com a implementação de Hayfield e Racine (2008), que segue
as recomendações de Granger, Maasoumi e Racine (2004), e constatou-se que o cálculo
consome muitos recursos computacionais e, consequentemente leva bastante tempo, mesmo
usando paralelismo, o que dificulta análises que demandem muitas estimativas de Sρ.
20 Dada uma amostra da distribuição conjunta entre x e y contendo diversos pares (xi, yi), tem-se sob a
hipótese nula de independência que caso as sequências xi e yi sejam embaralhadas separadamente, os
novos pares formados ainda constituem uma amostra válida da distribuição conjunta de x e y. Daí
estimando Sρ para cada operação de embaralhamento e tomando diversas operações, os valores críticos
de Sρ são obtidos pelos percentis do conjunto formado pelos diversos valores obtidos.
Capítulo 3. Séries Temporais Financeiras 52
3.5 Avaliação de Previsões
Existem diversas formas possíveis de avaliar as previsões geradas por um modelo. A
depender da natureza do problema, regressão ou classificação, há várias ferramentas
à disposição. As aplicações de inteligência artificial ao mercado de ações são bastante
diversificadas, assim como as ferramentas empregadas na avaliação dos resultados desses
estudos. Nesta seção são apresentadas as principais métricas encontradas na literatura,
suas características e algumas considerações quanto à interpretação.
3.5.1 Regressão
Em problemas de regressão, há duas abordagens básicas para avaliar as previsões produzidas
por um modelo: métricas de quão perto os valores previstos foram dos valores reais e
análise dos resíduos a fim de atestar se o modelo é adequado. Considerando a primeira,
quanto mais próximas são as previsões e os valores observados, melhor o modelo. Ou
seja, busca-se o modelo que minimize os erros de previsão. Pela segunda abordagem, o
modelo deve ser capaz de capturar adequadamente as características da série temporal.
Por exemplo, se os dados da série apresentam correlação serial, então um modelo adequado
utiliza essa característica para realizar as previsões, fazendo com que os erros não sejam
correlacionados. Ou ainda, se na série há correlações de longo prazo, os resíduos de um
modelo adequado não apresentam essa característica.
3.5.1.1 Métricas do Erro de Previsão
Considerando a abordagem de construir um modelo que minimize os erros de previsão, é
importante conhecer as características de cada métrica21 a fim de avaliá-las adequadamente.
A depender do contexto, uma ou outra métrica pode ser mais adequada, de modo que não
há uma que seja sempre superior às demais. Na Tabela 1 são apresentadas as métricas
mais comuns encontradas na literatura de inteligência artificial aplicada à previsão de
séries temporais financeiras.
Algumas características são desejáveis a depender do contexto específico, por exemplo:
a) robustez na presença de valores extremos: métricas baseadas nos quadrados
dos erros (MSE, RMSE e NMSE) são muito sensíveis à presença de valores extremos,
de modo que nesses casos os modelos favorecidos podem ser bastante diferentes
dos obtidos caso os valores extremos sejam filtrados. Neste contexto é interessante
aplicar uma métrica menos sensível, como o MAE22;
21 No contexto do ajuste dos parâmetros de modelos, as métricas são usadas como funções de penalidade
para quantificar o risco empírico do modelo nos dados do conjunto de treinamento.
22 Vale destacar que existem outras métricas muito mais robustas a valores extremos que o MAE, porém
elas não foram consideradas neste trabalho devido à pouca ou nenhuma utilização na literatura de
inteligência artificial aplicada à previsão de séries temporais financeiras.
Capítulo 3. Séries Temporais Financeiras 53
Tabela 1 – Métricas de erros de previsão
Métrica Sigla Fórmula
1 ∑n
Erro Quadrático Médio MSE ϵ2
n ii=1
 ∑n
Raiz do Erro Quadrático Médio RMSE √ 1 ϵ2
n ii=1
1 ∑n 2
Erro Quadrático Médio Normalizado NMSE ∑n i=1 ϵi1 n
−1 i=1(y − ȳ)2n i
1 ∑n
Erro Absoluto Médio MAE |ϵi|
n i=1
⏐ ⏐
100∑n ⏐ ϵ ⏐
Erro Absoluto Percentual Médio MAPE ⏐⏐⏐ i ⏐⏐n ⏐i=1 yi
Nas fó∑rmulas acima, tem-se que: ϵi = yi − ŷi representa cada erro de previsão cometido e
ȳ = 1 ni=1 yi, a média dos valores.n
b) facilidade de comparação: métricas adimensionais (NMSE, MAPE) são as mais
interessantes quando se deseja comparar a acurácia de previsões realizadas para
séries em diferentes unidades de medida. Já no caso de avaliar as previsões no
contexto de apenas uma unidade de medida, métricas na mesma escala dos dados
(RMSE, MAE) são desejáveis;
c) suavidade: alguns modelos, como é o caso notório de redes neurais MLP, dependem
de métricas de erro deriváveis. Nesses casos, normalmente é utilizada a soma dos
erros quadráticos, e o erro reportado é o MSE (que não depende diretamente do
tamanho dos conjuntos de treinamento/teste).
Hyndman e Koehler (2006) destacam algumas características específicas de cada
métrica:
a) NMSE: não possui escala e compara aproximadamente a variância dos erros e dos
dados, de modo que valores acima da unidade indicam que a variância dos erros é
maior que a dos dados. Por ser baseado no quadrado dos erros, é sensível a valores
extremos;
b) MAPE: assim como o NMSE, é adimensional, entretanto em séries contendo
Capítulo 3. Séries Temporais Financeiras 54
valores nulos ou muito pequenos, seu valor pode ficar muito elevado ou indefinido;
c) MAE: é menos sensível a valores extremos que as métricas baseadas no quadrado dos
erros, está na mesma escala dos dados e não apresenta os problemas de indefinição do
MAPE. Entretanto não é adequado para comparar a acurácia entre séries diferentes.
Métricas como as listadas acima são bastante úteis no ajuste/treinamento dos modelos,
entretanto para avaliar os resultados obtidos por diferentes modelos é preciso aplicar testes
estatísticos. O teste de Kruskal e Wallis (1952), por exemplo, pode considerar de forma
conjunta todos os erros absolutos (e não apenas a média) obtidos por todos os modelos
a fim de verificar se há indícios de que os mesmos não seguem a mesma distribuição. A
vantagem desse teste não paramétrico em relação a paramétricos é que qualquer diferença
na distribuição é considerada, e não apenas a média, ou seja, se um modelo leva a erros
absolutos com menor variância do que outro, porém com mesma média, o teste de Kruskal-
Wallis detecta a diferença. Uma vez identificada a diferença, pode-se aplicar um teste
a posteriori a fim de identificar quais modelos geram erros absolutos consistentemente
diferentes dos demais. Neste trabalho foi adotado para este fim o teste de Dunn (1964),
com os ajustes propostos por Hochberg (1988) para controlar o nível de significância
conjunto.
3.5.1.2 Análise de Resíduos
Além da avaliação baseada nas métricas de erro, é importante também considerar as
características dos mesmos a fim de atestar a adequação do modelo. Para este fim, pode-se
empregar as ferramentas apresentadas na seção 3.4: teste de Ljung-Box para investigar se
há correlação serial, análise R/S a fim de detectar a presença de correlações de longo prazo
e o teste BDS para verificar se os resíduos são independentes e igualmente distribuídos.
Caso um modelo ARIMA(p, d, q) represente adequadamente uma dada série temporal,
não deve haver correlação serial nos erros de previsão. Se houver, então a ordem do modelo
ou o valor dos coeficientes devem ser alterados. Para séries que apresentem correlações de
longo prazo, pode-se ajustar modelos ARFIMA(p, d, q) a fim de capturar tal característica.
Caso o modelo seja adequado, os resíduos não devem possuir correlações seriais de longo
ou curto prazos, situação que pode ser verificada através do teste de Ljung-Box e análise
R/S.
Os modelos com objetivo de capturar a heteroscedasticidade condicional existente nas
séries normalmente produzem estimativas de valores e volatilidades correspondentes. Assim,
se o modelo é adequado, não deve haver heteroscedasticidade condicional na série formada
pelos valores normalizados pela volatilidade correspondente: considerando, por exemplo, o
modelo ARCH (Equação 3.18), a série ϵt = at/σt não deve apresentar heteroscedasticidade
condicional se o modelo for adequado.
De maneira geral, se todas as características presentes numa dada série temporal são
capturadas por um modelo, então seus resíduos devem ser independentes e igualmente
Capítulo 3. Séries Temporais Financeiras 55
distribuídos (iid), hipótese que pode ser verificada com auxílio do teste BDS.
3.5.2 Intervalos de Previsão
Alguns modelos de regressão produzem também intervalos de previsão, que é um intervalo
para o qual há probabilidade θ (especificada a priori) de conter o valor futuro. São
considerados válidos se a cobertura realizada estiver de acordo com a esperada e se não
houver dependência serial na sequência induzida de “erros” e “acertos”.
A avaliação de adequação da cobertura realizada pode ser feita de forma simples
analisando o numero de acertos nac, que expressa quantos dos valores observados ficaram
dentro do intervalo previsto. Sob a hipótese nula de adequação da cobertura realizada,
esse número segue uma distribuição binomial de probabilidade com n tentativas (cada
uma com probabilidade θ de acerto), ou seja, pode variar dentro de uma faixa [amin, amax]
sem que haja evidência para rejeitar a adequação da cobertura realizada.
A inexistência de dependência serial na sequência induzida de “erros” e “acertos” é
condição necessária para que a cobertura dos intervalos de previsão seja constante. Por
exemplo: supondo um intervalo de previsão com cobertura esperada de 95%, deve haver 5%
de chance de o valor observado estar fora do intervalo e 95% de estar dentro. Considerando
uma sequência de intervalos de previsão, a existência de dependência serial entre “erros”
e “acertos” é sinônimo de que a probabilidade condicional de se ter a seguir um “erro”
ou “acerto” é diferente da probabilidade incondicional23, o que implica que o intervalo de
previsão seguinte não possui cobertura de 95%.
3.5.3 Classificação
Apesar do foco deste estudo ser em regressão, optou-se por incluir esta breve apresentação
sobre avaliação de resultados em problemas de classificação devido à grande quantidade de
trabalhos na literatura de inteligência artificial aplicada ao mercado de ações que encaram
o problema como classificação.
Uma forma usual de avaliar os resultados em problemas de classificação é através
da matriz de confusão: uma matriz quadrada cuja ordem c é a quantidade de classes
no problema. O elemento aij representa quantos elementos pertencentes à classe i foram
classificados como j. Tem-se então que os elementos na diagonal principal representam
a quantidade de acertos em cada classe. Num classificador perfeito, teria-se aij = 0 para
i ̸= j. A taxa de acerto, Ta, é uma métrica bastante aplicada na avaliação dos resultados
produzidos por classificadores. Pode ser definida com base na matriz de confusão como:
∑c aii
T = ∑ i∑=1a c c (3.28)
i=1 j=1 aij
23 Com efeito, se as probabilidades condicional e incondicional fossem iguais então os valores seriam,
por definição, independentes.
Capítulo 3. Séries Temporais Financeiras 56
Ou seja, a razão entre a quantidade de acertos e a quantidade total de previsões
realizadas. Quanto mais próxima de 1, melhor o classificador.
Além do cálculo da taxa de acerto, a matriz de confusão pode ser usada para obter uma
aproximação da distribuição conjunta de probabilidade entre as previsões e a realidade.
Assim é possível verificar estatisticamente se o classificador em avaliação de fato apresenta
poder preditivo melhor que um aleatório: basta aplicar o teste χ2 de Pearson (AGRESTI,
2007, p. 35–37) com (c− 1)2 graus de liberdade.
Através da aproximação da distribuição de probabilidade obtida a partir da matiz
de confusão, é possível também fazer cálculos de entropia e utilizar a informação mútua,
I(y,ŷ) = H(y) + H(ŷ) − H(y,ŷ) entre a variável y e o preditor ŷ, para quantificar a
dependência entre elas. Se I(y,ŷ) = 0 então o preditor é equivalente a um aleatório. A
entropia métrica S 24ρ pode ser usada para o mesmo fim.
Enquanto o teste χ2 de Pearson verifica apenas se o preditor proposto é melhor que um
aleatório, a informação mútua e entropia métrica quantificam o poder preditivo desde a
independência até o preditor perfeito. Entretanto, a interpretação da quantidade numérica
depende do estabelecimento de intervalos de confiança, que podem ser facilmente obtidos
para o caso de independência. Nesse caso, a aplicação direta do teste de Pearson é mais
simples.
Além da taxa de acerto e do teste de independência, no caso de problemas com apenas
duas classes, a taxa de falsos positivos, ou erros Tipo I, pode ser muito importante na
avaliação dos resultados. Por exemplo: uma oportunidade de lucro não explorada (falso
negativo) é menos danosa que um indicativo equivocado de oportunidade (falso positivo),
pois este segundo leva a prejuízo. Para um investidor averso a risco, a minimização da
taxa de falsos positivos é mais importante que a maximização da taxa de acerto.
3.5.4 Avaliações Específicas do Contexto
Considerando especificamente a previsão de retornos em séries temporais financeiras, a
taxa de acerto dos sinais pode ser mais relevante para um investidor do que métricas como
MSE ou MAE, dado que o sinal da previsão é facilmente convertido em uma ordem de
compra ou venda e quanto maior a taxa de acerto, maior o número de operações com
lucro. Neste contexto, se o valor do retorno futuro for −0,02, a previsão −0,07 é melhor
do que 0,01: a primeira possui erro com magnitude maior porém geraria corretamente
uma ordem de venda, evitando uma desvalorização. Já a segunda previsão, apesar de
menor erro absoluto (ou quadrático), é pior do que a primeira, pois levaria a uma ordem
de compra incorreta.
A avaliação da taxa de acerto do sinal algébrico da taxa de retorno futura apresenta
24 Ver Equação 3.27 na página 51
Capítulo 3. Séries Temporais Financeiras 57
uma complicação com relação ao poder25. Sob a hipótese nula de imprevisibilidade, a
taxa de acerto esperada é de 50%. Dado que a mesma segue uma distribuição binomial,
é possível estimar um intervalo de confiança e testar se a taxa obtida é significativa.
Entretanto, se a taxa de acerto real for pouco maior do que 50%, seria necessária uma
amostra muito grande para comprovar o poder preditivo com esse teste. Por exemplo,
numa amostra com 500 observações, teria-se, sob a hipótese nula, que há chance de 95%
de a taxa de acerto observada estar no intervalo [45,6%, 54,4%]. Se a taxa de acerto real
das previsões for de 53,8% não haveria evidências para rejeitar a hipótese nula, a não ser
que a amostra contasse com cerca de 700 observações ou mais, ou seja, pelo menos 40%
maior. Pesaran e Timmermann (1992) propuseram um teste estatístico mais poderoso
para verificar se um estimador acerta consistentemente o sinal do valor observado. Com
este teste, o poder preditivo superior a 50% do exemplo é detectado mesmo na amostra
com 500 observações.
Anatolyev e Gerko (2005) apontam que a rentabilidade obtida pode ser diferente do
que se esperaria para uma dada taxa de acerto de sinais. Por exemplo, considerando um
modelo que leva a 70% de taxa de acerto dos sinais, mas que tais acertos sejam pequenos
lucros e os erros grandes prejuízos, então é mais interessante um outro modelo com taxa
de acerto menor, porém maior lucro nos acertos e menor prejuízo nos erros. Baseados
nesta ideia, propõem um teste estatístico (EP26) para verificar se o retorno obtido com o
modelo em avaliação é melhor do que o alcançado com um emissor aleatório de ordens de
compra e venda27.
Saindo do caso de previsão da direção futura do preço e considerando modelos que
produzem diretamente sinais de compra e venda, outras dificuldades são enfrentadas.
Existe apenas uma realização da série temporal em estudo e como suas propriedades
são desconhecidas, não é possível gerar séries artificiais equivalentes com objetivo de
verificar estatisticamente se uma estratégia é superior às demais. Outra dificuldade é
que há reaproveitamento da mesma série nos processos de construção e avaliação de tais
modelos, o que aumenta a chance de data snooping, ou seja, resultados bons que acontecem
por acaso e não de forma consistente. Tendo em vista essas dificuldades, White (2000)
propôs um teste de realidade para verificar se dentre várias estratégias há alguma melhor
que as demais. O teste é construído de forma a descontar os efeitos de data snooping.
25 O poder de um teste estatístico é a capacidade de rejeitar a hipótese nula quando de fato deve ser
rejeitada.
26 Do inglês Excess Predictability.
27 No teste EP, o emissor aleatório de ordens preserva a proporção de compra/venda do modelo em
avaliação.
58
4 Trabalhos Relacionados
4.1 Considerações Iniciais
A literatura sobre a aplicação de técnicas de inteligência artificial ao mercado de ações
é bastante vasta. Há diversas maneiras de formular o problema, iniciando pelo objetivo:
pode ser a previsão de taxas de retorno (WHITE, 1988; CAO; TAY, 2001; TAY; CAO,
2001; TAY; CAO, 2002a; TAY; CAO, 2002b), previsão de preços (TRAFALIS; INCE,
2000; ROUAI; AHMED, 2002; PAI; LIN, 2005; BAO et al., 2005; OLIVEIRA et al., 2011),
previsão do sinal das taxas de retorno (KIM, 2003; HUANG; NAKAMORI; WANG, 2005),
reconhecimento de bons momentos de compra e venda (GRUDNITSKI; OSBURN, 1993),
seleção de bons ativos para compor uma carteira de investimentos (ATIYA; TALAAT;
SHAHEEN, 1997) e outros. Além do objetivo, é preciso determinar qual será o tipo
de ativo financeiro em estudo: ações, índices de ações, opções, commodities, etc. Ainda
há que se considerar quais informações utilizar na modelagem para atingir o objetivo
escolhido: valores anteriores da série temporal em estudo1, indicadores técnicos, indicadores
fundamentalistas, taxas de juros, inflação e câmbio, desempenho de outras bolsas ou ainda
dados específicos do negócio em questão, como o uso da previsão de chuvas numa região
produtora quando a intenção é prever o preço de commodities agrícolas. Outro aspecto
importante na modelagem é a taxa de amostragem dos dados: intraday, diária, semanal,
mensal, quadrimestral, etc. A escolha dessa taxa influencia no quesito de quais informações
utilizar na modelagem, por exemplo, se o modelo lida com dados amostrados a cada 30
minutos, possivelmente a taxa de inflação, que é normalmente divulgada mensalmente,
seria de utilidade questionável dado que permaneceria constante por períodos muito longos
quando comparada aos demais dados. Evidentemente a técnica de inteligência artificial
empregada é fundamental: redes neurais artificiais, máquinas de vetor suporte, regras
fuzzy, sistemas especialistas ou ainda abordagens híbridas. Os modelos baseados em IA
podem ainda ser aplicados de maneira isolada ou combinados com modelos estatísticos.
Alguns trabalhos inclusive tratam especificamente da tarefa de efetuar previsões do
mercado de ações e dos cuidados necessários. Hellström e Holmström (1998) trazem
diversas considerações sobre a formulação do problema, sobre modelos estatísticos e de
aprendizado de máquina que podem ser usados, sobre como avaliar o desempenho dos
modelos e outras. Em especial ressaltam a importância de comparar o desempenho de
um modelo mais elaborado com o de um preditor baseado num modelo simples como o
caminho aleatório a fim de verificar se de fato há melhoria significativa. Kaastra e Boyd
(1996) discutem especificamente a aplicação de redes neurais artificias, propondo uma
1 Desde que aplicável. Por exemplo, se o objetivo é a classificação entre bons e maus ativos, não há uma
série temporal envolvida na formulação do problema.
Capítulo 4. Trabalhos Relacionados 59
metodologia de modelagem composta por oito passos: seleção de variáveis para usar como
entrada, coleta dos dados, pré-processamento, definição de conjuntos de treinamento,
teste e validação, definição de arquitetura da rede neural artificial, escolha do critério de
avaliação de desempenho, treinamento da rede neural e finalmente sua aplicação prática.
Já Hurwitz e Marwala (2012) apontam alguns cuidados que se deve ter ao desenvolver
preditores para o mercado baseados em aprendizado de máquina, com intuito de evitar a
obtenção de falsos bons resultados, principalmente o uso de vários conjuntos de validação
para evitar overfitting.
Destaca-se que, além da observação da experiência dos trabalhos de aplicações de
inteligência artificial em séries temporais financeiras, o conhecimento das diversas carac-
terísticas do comportamento do retorno de ações é fundamental para a construção de
modelos adequados. Por isso, são apresentados também trabalhos de variadas áreas de
conhecimento contendo análises acerca do comportamento de taxas de retorno de ações.
4.2 Aplicações de Redes Neurais Artificiais
Zhang, Patuwo e Hu (1998) apresentam uma síntese sobre a aplicação de redes neurais
artificiais para tarefas de previsão, evidenciando a diversidade de aplicações e de decisões de
modelagem como tipo de normalização e métrica de avaliação de desempenho. Ressaltam
ainda que até a época não era claro se redes neurais artificiais apresentavam resultados
melhores do que modelos estatísticos clássicos e lembram de alguns pontos importantes
sobre as mesmas, dentre eles: são modelos não lineares, de modo que se o problema for
puramente linear talvez um método estatístico clássico seja mais interessante; são bastante
suscetíveis a overfitting devido à grande quantidade de parâmetros a ajustar; e demandam
mais recursos computacionais para treinamento do que modelos estatísticos clássicos.
White (1988) propõe o uso de uma MLP para previsão de retorno diários de ações da
IBM com base em retornos anteriores. Justifica o uso deste modelo pela sua capacidade
de reconhecer possíveis relações não lineares presentes nos dados. A série temporal é
composta por retornos do segundo quadrimestre de 1972 até o primeiro quadrimestre de
1980, totalizando 2000 pontos. O autor dividiu a série em 3 partes, contendo 500, 1000
e 500 pontos respectivamente, sendo a primeira e última partes usadas para validação e
a segunda para treinamento. A rede proposta é composta por 1 neurônio na camada de
saída, 5 na camada intermediária e 5 na de entrada. O treinamento é realizado de modo
que cada retorno é o resultado esperado dados os 5 retornos imediatamente anteriores. A
variável2 R2 = 1− var(ϵt)( ) , que estima quanto da variância de rt é capturada pelo preditor
3,
var rt
2 var(xt) representa a variância da variável aleatória xt; ϵt = r̂t − rt; e r̂t é a saída produzida pela rede
neural.
3 R2 vale 1 no caso de previsões sempre iguais aos valores observados, 0 quando as previsões da rede
neural explicam a variância de rt tanto quanto sua média e assume valores negativos caso os erros das
previsões possuam variância maior que a dos valores observados.
Capítulo 4. Trabalhos Relacionados 60
é utilizada para avaliar o desempenho da MLP proposta. O valor de R2 obtido no conjunto
de treinamento foi 0,175, ou seja, a rede neural foi capaz de explicar 17,5% da variância
dos retornos usados no treinamento. Já o valor de R2 observado nos conjuntos de validação
foi bastante próximo de 0, indicando que a rede proposta não foi capaz de generalizar.
O autor considera a possibilidade de overfitting ou de haver relações entre os dados que
existiam apenas no período de treinamento.
Grudnitski e Osburn (1993) aplicam redes neurais artificiais para emitir sinais, em
base mensal, de compra e venda para o índice S&P 500 e contratos futuros de ouro com
base em retornos anteriores, volatilidade e indicadores da quantidade de dinheiro em
circulação e da intenção de grandes atores do mercado. Emprega duas redes neurais em
conjunto: a primeira para efetuar a previsão e a segunda para medir a similaridade do
padrão apresentado com os usados no treinamento de ambas redes. Esta última funciona
como um indicador de confiabilidade da previsão dada pela primeira, de modo que o sinal
só é emitido se: (i) o padrão atual apresentar similaridade maior que 0,54 a pelo menos
um dos padrões de treinamento; e (ii) em caso de similaridade com mais de um padrão, o
sinal dos retornos entre os padrões similares for igual. De todos os sinais emitidos pelo par
de redes, houve acerto de 75% e 61% para o índice S&P 500 e contratos futuros de ouro
respectivamente. Os autores empregam matrizes de confusão e simulação de rentabilidade
para avaliar os resultados obtidos.
Em Atiya, Talaat e Shaheen (1997) indicadores fundamentalistas das empresas são
utilizados como entrada para uma rede neural cuja saída é 1 para as ações que apresentam
um aumento de 20% em algum momento dos 12 meses seguintes, −1 para as ações que
apresentam queda de 20% e 0 se nenhum dos casos anteriores for observado. A rede então
funciona como um classificador que indica o desempenho esperado para as ações. Através
de simulação de lucro utilizando uma carteira composta pelas ações classificadas como
boas pela rede neural comparado ao de uma carteira com todas as ações consideradas, os
autores reportam que a rede como seletor de ações para compor uma carteira leva a um
resultado muito superior.
Kohara et al. (1997) aplicam redes neurais para prever as variações diárias do índice
TOPIX da bolsa de Tokyo. Utilizam variação anterior, variação na bolsa de Nova York, taxa
de câmbio entre o Dólar e o Yen, preço do barril de petróleo, taxas de juros e indicadores
extraídos manualmente de notícias. Utilizando o erro médio de previsão, comparam o
desempenho das redes com um modelo de regressão linear múltipla e constatam que as
redes apresentam previsões estatisticamente melhores. Apontam ainda que (i) usando
apenas 5 variações anteriores na previsão ou (ii) séries de 3 valores anteriores de cada uma
das informações como entrada, os resultados iniciais não são superados.
Um estudo comparativo entre três tipos de redes neurais para classificação de tendências
nos preços diários de ações é apresentado em Saad, Prokhorov e Wunsch (1998). Propõe
4 Numa escala de 0 a 1, sendo 0 completa falta de similaridade e 1 similaridade total.
Capítulo 4. Trabalhos Relacionados 61
ainda a investigação de características de sistemas caóticos determinísticos como forma de
análise de previsibilidade, em especial o cálculo do expoente de Lyapunov, que deve ser
positivo e finito. Considerando como métrica a quantidade relativa de falsos positivos, os
autores concluem que todos os três tipos de redes são viáveis para a tarefa, não tendo sido
constatado superioridade de uma em relação às demais.
Zhang (2003) propõe o uso combinado de ARIMA e MLP para previsão de séries
temporais: inicialmente o modelo linear é empregado e então a MLP é aplicada para
capturar as não linearidades presentes nos resíduos do primeiro modelo. O modelo híbrido
é aplicado a séries temporais compostas por (i) dados anuais sobre manchas solares, (ii)
dados anuais de captura de linces num distrito do Canadá e (iii) dados semanais da taxa de
câmbio entre o Dólar Americano e a Libra Esterlina. Os experimentos realizados indicam
que o uso combinado dos modelos leva a previsões melhores do que as obtidas pelos
modelos aplicados isoladamente, considerando o erro quadrático médio e o erro absoluto
médio.
Em Tan, Quek e Ng (2005) é utilizado um algoritmo de aprendizado especializado
para uma rede neuro-fuzzy afim de prever tendências nos preços de ações, baseado nos
preços diários de abertura, mínimo, máximo e fechamento anteriores. Da rede neuro-fuzzy
podem ser extraídas regras que explicam seu funcionamento, uma vantagem sobre as redes
neurais artificias comuns, que são como caixas pretas. Os autores utilizam as taxas de
erro Tipo I (falsos negativos) e Tipo II (falsos positivos) para avaliar o desempenho dos
modelos e os resultados apontam que a abordagem híbrida proposta é bastante promissora,
principalmente em capacidade de generalização.
Oliveira et al. (2011) utilizam MLPs para realizar previsão de preços da ação PETR4,
negociada na BOVESPA. A previsão é realizada para um determinado horizonte, ou seja,
quantos preços futuros são previstos, baseado numa janela de preços anteriores. Os autores
então variam o tamanho da janela entre 5 e 22 dias e o horizonte de previsão entre 1 e
110 dias. Considerando o erro quadrático médio e erro percentual médio, concluem que as
melhores previsões são obtidas utilizando janelas de 5 dias para horizontes de 1 dia.
Vicente (2011) apresenta um estudo detalhado sobre a aplicação de técnicas de inteli-
gência computacional ao mercado de ações brasileiro: após a seleção das ações em estudo,
estas são agrupadas através do k-means de acordo com seu comportamento de preços.
Para cada grupo de ações são treinadas redes neurais artificiais com base em informações
de preços (de abertura, mínimo, máximo e fechamento), volume e um indicador técnico
dos cinco dias anteriores mais o atual. O autor considerou dois tipos de saída: na primeira
o problema é de classificação, de modo que a saída esperada é a indicação de uma dentre
cinco classes (“muito baixa”, “baixa”, “estabilidade”, “alta” e “muito alta”) de desempenho
para a média de preço dos três dias seguintes em relação ao preço atual, e na segunda o
problema é de regressão e a saída esperada é o valor numérico da média. Na abordagem
de classificação, o resultado geral foi bastante similar ao de um classificador aleatório,
Capítulo 4. Trabalhos Relacionados 62
enquanto que na regressão os resultados foram muito bons. Foi realizada ainda uma
simulação de rentabilidade baseada em sinais de compra e venda gerados a partir dos
resultados das redes, na qual é constatada a superioridade dos modelos de inteligência
computacional em relação à estratégia de “comprar e manter” durante o período em
avaliação.
4.3 Aplicações de Máquinas de Vetores de Suporte
Além de redes neurais artificias, máquinas de vetores de suporte têm sido aplicadas mais
recentemente em problemas relacionados ao mercado de ações. Sapankevych e Sankar (2009)
apresentam diversas de suas aplicações em problemas de previsão de séries temporais,
incluindo as financeiras. Enumeram vantagens como pequeno número de parâmetros
livres e garantia de solução ótima global no treinamento como diferencial em relação
às redes neurais artificiais, ao mesmo tempo em que são capazes também de se ajustar
automaticamente aos dados, capturando inclusive relações não lineares.
Trafalis e Ince (2000) aplicam máquinas de vetores de suporte para a previsão do
preço de ações baseada nos três preços anteriores. Fixam ε em 0 e C em 106 e variam
o parâmetro σ do kernel gaussiano entre 0,95 e 15, reportando o erro quadrático médio.
Comparam o resultado obtido com o apresentado por redes neurais artificiais MLP e RBF.
Apontam que com σ ≥ 10 se obtém os menores valores de erro quadrático médio, que é
maior do que o apresentado pelas redes MLP e menor do que das redes RBF.
Cao e Tay (2001) comparam máquinas de vetores de suporte e redes MLP para
previsão de taxas de retorno de ações com base em taxas anteriores e indicadores técnicos.
Constatam desempenho superior da máquina de vetor de suporte com respeito ao erro
quadrático médio normalizado, erro absoluto médio e taxa de acerto do sinal. Constatam
ainda que o desempenho da máquina de vetor de suporte para este problema é pouco
sensível a grandes variações nos parâmetros C e ε.
Modificações nas máquinas de vetores de suporte foram propostas para lidar com séries
temporais não estacionárias. Tay e Cao (2002a) propõem um modelo no qual o parâmetro ε
decai exponencialmente em vez de permanecer constante, de modo que pontos “recentes”5
são usados em maior quantidade do que os mais antigos, de modo que a máquina de vetor
de suporte resultante está mais ajustada para as condições recentes da série temporal.
Os autores aplicam o modelo modificado na previsão de retornos de ações e constatam,
baseado no erro quadrático médio normalizado, que o modelo modificado gera previsões
melhores do que o modelo com ε constante. Outra modificação, com mesmo objetivo da
anterior, é proposta em Tay e Cao (2002b): em vez de manter o parâmetro C constante,
ele é multiplicado por um fator que aumenta gradativamente, de modo que os pontos
5 Nesse modelo, a ordem dos exemplos no conjunto de treinamento é importante: deve refletir a mesma
ordem em que aparecem na série temporal.
Capítulo 4. Trabalhos Relacionados 63
mais “recentes” fora da tolerância determinada pelo ε recebem mais peso no treinamento.
O erro quadrático médio normalizado do modelo modificado é comparado ao do modelo
padrão e ao de um modelo modificado treinado com os valores invertidos com relação à
série temporal original6, evidenciando que o modelo modificado é melhor do que o modelo
padrão que por sua vez é melhor do que o modelo modificado invertido. Já Bao et al.
(2005) propõem a introdução de um parâmetro de peso associado a cada elemento do
conjunto de treinamento, de modo que elementos mais “recentes” recebem peso maior, com
efeito similar à abordagem de Tay e Cao (2002b). O erro quadrático médio normalizado
evidencia que a máquina de vetor de suporte modificada fornece previsões mais precisas.
Os resultados destes trabalhos apontam que as séries de retornos não são estacionárias e
que o treinamento com mais peso para os dados recentes leva a previsões mais precisas.
Yang et al. (2004) sugerem duas modificações: o uso da largura da margem inferior,
εd, diferente da superior, εu, e a variação da(s) largura(s) ao longo do tempo. No caso de
previsão de retorno de ações, valores observados acima do previsto, apesar de caracteri-
zarem erro de previsão, são muito mais toleráveis do que os erros nos quais se observam
valores menores do que a previsão. Considerando esses dois casos, os autores empregam
respectivamente o erro absoluto médio superior7 e o erro absoluto médio inferior8 para
avaliar os modelos, além do erro absoluto médio. Concluem que quando εd e εu são ajusta-
dos de forma independente o erro absoluto médio inferior pode ser bastante reduzido em
relação ao modelo com εd = εu. Ressaltam ainda que resultados melhores são obtidos com
o modelo que permite variação da(s) largura(s) de margem(ns) ao longo do tempo.
Kim (2003) compara o desempenho de máquinas de vetores de suporte, redes neurais
artificiais e k-NN na previsão do sinal do retorno do dia seguinte de um índice de ações,
utilizando como entrada 12 indicadores técnicos. As maiores taxas de acerto no conjunto
de teste foram obtidas pela máquina de vetor de suporte (57,83%), seguida da rede neural
(54,73%) e por último k-NN (51,99%). O autor ressalta que há significância estatística
apenas do desempenho da máquina de vetor de suporte em relação ao k-NN.
Pai e Lin (2005) propõem uma abordagem similar a Zhang (2003), mas utilizando
máquinas de vetores de suporte combinadas com ARIMA, em vez de redes neurais MLP.
O modelo híbrido foi aplicado para previsão de preços diários de 10 ações e foi melhor
que ambos os modelos aplicados individualmente, segundo 4 critérios de avaliação de
desempenho no conjunto de teste: erro absoluto médio, erro absoluto percentual médio,
erro quadrático médio e raiz do erro quadrático médio.
6 Com essa inversão, os pontos mais antigos r∑ecebem mais peso do que os mais recentes.7 Up side Mean Absolute Error : UMAE = 1 mm i=1,a ≥p (ai − pi), onde m é o número de elementos noi i
conjunto de teste, ai é o valor observado e pi é∑o valor previsto.8 Down side Mean Absolute Error : DMAE = 1 mm i=1,a <p (pi − ai), onde m é o número de elementosi i
no conjunto de teste, ai é o valor observado e pi é o valor previsto.
Capítulo 4. Trabalhos Relacionados 64
4.4 Características de Séries Temporais Financeiras
Aqui são apresentados e discutidos brevemente alguns resultados encontrados na literatura
sobre as características das séries temporais financeiras. Tal conhecimento serve como guia
na construção de modelos de previsão, assim como em sua avaliação.
Fama (1970), em seu estudo sobre mercados eficientes, analisa vários trabalhos sobre o
comportamento de preços de ações. O primeiro modelo proposto é baseado no princípio
de que os preços se comportam de modo que o lucro esperado para especuladores é zero
(BACHELIER, 1900 apud FAMA, 1970), o que implica que os preços formam um processo
martingal. Vários outros estudos relatados reforçam essa hipótese, inclusive através de
evidências empíricas como autocorrelação9 dos retornos nula ou, quando significante
estatisticamente, muito pequena. Por outro lado há trabalhos relatados apresentando
evidências de que grandes variações de preços tendem a ser seguidas por outras grandes
variações, apesar da sequência de sinais parecer aleatória. Esta característica fundamentou
mais tarde modelos de heteroscedasticidade condicional como o ARCH (ENGLE, 1982),
GARCH (BOLLERSLEV, 1986), EGARCH (NELSON, 1991) e outros.
Alguns autores verificaram se as séries temporais financeiras possuem algum tipo de
correlação de longo alcance. Ding, Granger e Engle (1993) relatam que o módulo dos
retornos diários de ações apresentam correlação positiva com significância estatística em
períodos tão longos quanto 10 anos. Já Lo (1991) propôs uma modificação da análise R/S
para desconsiderar possíveis efeitos de dependências de curto prazo nos dados e aplicou
em séries de retornos de ações com amostragens semanal e mensal, concluindo que não há
evidências de correlação de longo alcance.
Qian e Rasheed (2004) utilizaram estimativas do expoente de Hurst em retornos diários
de ações e assim evidenciaram que há bastante variação ao longo do tempo: há momentos
em que os retornos apresentam características de caminhos aleatórios e outros em que
há persistência. Comparando o desempenho de previsões realizadas por redes neurais
artificias em diferentes períodos, os autores concluem que quando o expoente de Hurst
é significantemente maior que 1/2, a série é consistentemente mais previsível do que em
momentos nos quais o expoente fica em 1/2, ou seja, o valor do expoente de Hurst está
associado à previsibilidade. Reboredo et al. (2013), através do estudo do expoente de
Hurst obtido com DFA, apontam que os retornos de ações e câmbio não apresentam
comportamento martingal em escalas menores que 14 e 7 minutos respectivamente.
Estudos com base em teoria da informação também contribuem com a formação de
conhecimento sobre o comportamento de séries temporais financeiras. Molgedey e Ebeling
(2000) convertem cada retorno diário em um símbolo, de modo que sequências de retornos
viram cadeias de símbolos. Calculam a entropia condicional do próximo símbolo dada
uma cadeia que o antecede e concluem que existe um certo grau de previsibilidade, ou
9 Vide Equação 3.13
Capítulo 4. Trabalhos Relacionados 65
seja, um símbolo não é independente dos anteriores e portanto não é aleatório. Relatam
também que a previsibilidade varia ao longo do tempo, indicando que as séries não são
estacionárias, e ainda que há casos onde a magnitude do retorno é razoavelmente previsível
mas não o sinal. Darbellay e Wuertz (2000), trabalhando com retornos diários e intraday
de 30 minutos, chegam a conclusões bastante similares e adicionalmente apontam que
as volatilidades são dependentes mas não ajudam na previsão dos retornos. Zunino et al.
(2009) mostram que a previsibilidade dos retornos é variável entre diferentes mercados,
sendo maior em economias menos desenvolvidas e menor em desenvolvidas, corroborando
com os resultados de Shmilovici, Alon-Brimer e Hauser (2003).
Pesaran e Timmermann (1995) estudam a previsibilidade do mercado de ações ao longo
do tempo usando regressão linear. Estabelecem um conjunto de 9 indicadores possíveis
para realizar a previsão, dentre eles a taxa de inflação, títulos públicos, produção industrial
e indicadores financeiros das empresas. Em cada momento é escolhido o subconjunto
destes que leva ao melhor regressor linear segundo um critério de informação como AIC
(AKAIKE, 1974) ou BIC (SCHWARZ, 1978), considerando os dados disponíveis apenas até
o momento em questão. O regressor é então utilizado na previsão de retornos do período
seguinte. Concluem que a previsibilidade varia ao longo do tempo, assim como o melhor
subconjunto de indicadores a usar como entrada do modelo. Apontam ainda indícios de
que, em momentos de maior volatilidade, uma regra de negociação, baseada nas previsões
do modelo e que considera ações e títulos públicos, pode ter retorno maior que a estratégia
de comprar e manter.
Qi (1999) estende o trabalho de Pesaran e Timmermann (1995) com redes neurais
artificiais a fim de explorar possíveis relações não lineares entre os indicadores e os retornos.
Os resultados são bastantes similares ao primeiro trabalho, porém o desempenho das redes
neurais artificiais foi melhor do que os regressores lineares.
Os trabalhos de Pesaran e Timmermann (1995) e Qi (1999) foram incrementados por
Maasoumi e Racine (2002) com o uso de entropia métrica S 10ρ tanto para quantificar
a dependência entre os indicadores e os retornos quanto para avaliar a qualidade das
previsões. Eles estabeleceram os valores críticos para as métricas de previsibilidade supondo
a hipótese nula de que os retornos são imprevisíveis e concluíram que a previsibilidade,
além de não ser constante ao longo do período nem com os indicadores escolhidos, varia
também a depender da métrica utilizada, ou seja, as mesmas previsões podem apresentar
significância estatística para uma métrica e para outra não. Defendem ainda, com base
nas avaliações de rentabilidades de regras de negociação baseadas nas previsões, que a
superioridade em relação à estratégia de comprar e manter é, no melhor caso, frágil.
Há ainda resultados de trabalhos baseados em técnicas de análise não linear, investi-
gando a hipótese de caos determinístico em séries temporais financeiras. Brock e Sayers
(1988) analisam séries de indicadores macroeconômicos e concluem que há dependência
10 Ver Equação 3.27 na página 3.27
Capítulo 4. Trabalhos Relacionados 66
não linear, porém fraca evidência de caos. Este resultado é bastante similar ao relatado
por Scheinkman e LeBaron (1989) em retornos de ações e por Adrangi et al. (2001) em
contratos de preço futuro de produtos do mercado de petróleo.
Em outros trabalhos, além da investigação de caos, modelos de heteroscedasticidade
condicional são aplicados para verificar se são capazes de explicar as dependências não
lineares detectadas. Frank e Stengos (1989) ajustam um modelo ARCH aos dados de
retorno de commodities e relatam que ainda encontraram dependência não linear em
seus resíduos, reforçando a hipótese de presença de caos, no entanto sem confirmá-la
definitivamente. Resultados similares são relatados por: Blank (1991) e Decoster, Labys e
Mitchell (1992) em séries de retornos de contratos futuros de commodities e ações, Fang,
Lai e Lai (1994) em retornos de contratos futuros de câmbio, Kohzadi e Boyd (1995) em
preço de gado e Yang e Brorsen (1993) em retornos de ações, sendo que nestes dois últimos
trabalhos o modelo GARCH é usado no lugar do ARCH. Já Panas e Ninni (2000) estudam
retornos de contratos de futuros de produtos do mercado de petróleo e diversos modelos
de heteroscedasticidade condicional, concluindo que em algumas séries há evidências de
caos e em outras apenas de heteroscedasticidade condicional.
Hsieh (1991) conduz uma análise bastante minuciosa empregando o teste BDS em
retornos semanais de ações. Os dados rejeitam fortemente a hipótese de que são indepen-
dentes e igualmente distribuídos (iid), o que pode ser devido à: dependências lineares,
comportamento não estacionário, dinâmica caótica ou heteroscedasticidade condicional. A
primeira hipótese é descartada ao constatar que os resíduos de modelos lineares ajustados
aos dados não são iid. Na consideração da segunda, os dados são analisados em diferentes
taxas de amostragem: de alguns minutos a semanal e em todos os casos a hipótese de
dados iid é rejeitada, indicando que possíveis relações mudam muito frequentemente ou
que há outra explicação para a rejeição. Na verificação de comportamento caótico, o autor
compara o desempenho de previsões realizadas por modelos de regressão local ponderada
com um modelo simples baseado na hipótese de caminho aleatório, constatando que este
último foi melhor na maioria dos casos e muito próximo ao melhor nos demais casos. Se
houvesse comportamento caótico nos dados, os modelos de regressão local ponderada
apresentariam desempenho muito melhor, o que descarta essa hipótese. Por fim, testa se a
heteroscedasticidade condicional é responsável pela rejeição da hipótese de retornos iid,
concluindo que enquanto o modelo EGARCH não captura toda a não linearidade, um
modelo de volatilidade estocástica sim, ou seja, os retornos de ações não são iid devido à
heteroscedasticidade condicional.
4.5 Principais Diferenciais desta Pesquisa
Conforme abordado na introdução deste capítulo e exposto ao longo das seções anteriores,
as aplicações de técnicas de inteligência artificial ao mercado de ações são bastante ricas e
Capítulo 4. Trabalhos Relacionados 67
diversificadas. Entretanto, a presente pesquisa traz algumas novidades, sendo as principais:
a) fornecimento de intervalos de previsão para a taxa de retorno seguinte, além do valor
esperado. Para ações com taxas de retorno esperada muito próximas, o intervalo de
previsão pode ser crucial para a tomada de decisão do investidor;
b) avaliação de precisão dos resultados baseada em testes estatísticos não paramétricos
que, diferentemente das métricas mais empregadas, consideram todos os aspectos
da distribuição de erros em vez de apenas a média11;
c) modelagem individual de volatilidade e taxas de retorno normalizadas para posterior
combinação dos resultados12.
A despeito das novidades, há algumas similaridades, como a ausência de variáveis
exógenas na modelagem (assim como White (1988), entretanto, na presente pesquisa se
utilizam máquinas de vetores de suporte em vez de redes neurais artificiais, devido ao
exposto na seção 2.4) e o uso de modelos híbridos (como Pai e Lin (2005) e Zhang (2003)).
11 Mais detalhes a frente, na seção 5.5.
12 Esta abordagem foi utilizada por Hsieh (1991), entretanto tal trabalho não considera modelos baseados
em inteligência artificial.
68
5 Estudo Proposto
5.1 Considerações Iniciais
O principal objetivo deste trabalho é o estudo da aplicação de máquinas de vetores de
suporte na previsão da distribuição de probabilidade da taxa de retorno futura. Para
tal, se utilizam como insumos as taxas de retorno anteriores e respectivas volatilidades,
ambas extraídas dos preços históricos da ação em questão, e são produzidas estimativas do
valor esperado da taxa de retorno futura, bem como intervalos de previsão associados. A
avaliação de resultados é realizada com base em diferentes aplicações dos mesmos, visando
identificar quais modelos são mais adequados para cada aplicação e em especial se os
modelos baseados em máquinas de vetores de suporte levam a ganhos significativos em
relação aos demais.
Nas seções seguintes são detalhados os diversos aspectos do estudo: formulação do
problema de previsão, os dados utilizados, os modelos considerados e o método de avaliação
dos resultados.
5.2 Formulação do Problema de Previsão
É desejável ter um modelo que leve a previsões cuja precisão seja a maior possível1.
Formalmente são consideradas as séries {rt} e {σt}:
rt+1 = E[rt+1|Φt] + ϵt+1σt+1 (5.1)
log(σt+1) = E[log(σt+1)|Ψt] + νt+1 (5.2)
Onde rt e σt são o retorno e a volatilidade, respectivamente, observados no tempo t.
E[.] é o operador de valor esperado, ϵt e νt são ruído branco2 e independentes entre si,
Φt é o conjunto de informações, disponíveis até o momento t, considerado na estimativa
de rt+1 e Ψt é o conjunto de informações, disponíveis até o momento t, considerado na
estimativa de σt+1. Com esta formulação, cada série tem um componente determinístico e
um estocástico, logo a maximização da precisão das previsões envolve minimizar os erros
de previsão nos componentes determinísticos: E[rt+1|Φt] e E[log(σt+1)|Ψt]. Vale ressaltar
que esse formato é flexível o suficiente para representar tanto modelos lineares quanto não
lineares, apresentados na seção 3.3, ou ainda combinações.
1 Um modelo perfeito acertaria todas as previsões, o que é atingível somente se a série temporal for
completamente determinística.
2 Sequência de variáveis aleatórias independentes e igualmente distribuídas com média 0 e variância
finita.
Capítulo 5. Estudo Proposto 69
Neste estudo, considera-se que os conjuntos Φt e Ψt são formados pelos valores anteriores
das suas respectivas séries, de modo que são ignoradas variáveis exógenas tais como inflação,
câmbio, taxa de juros, preços de commodities, etc. Considerando ainda que a série de
volatilidades {σt} é formada a partir dos preços através do estimador de Yang e Zhang
(2000)3, define-se a série de taxas de retornos normalizadas {st} como:
rt+1
st+1 = = E[st+1|Ωt] + ξt+1 (5.3)
σt+1
onde Ωt, de forma similar a Φt e Ψt, é composto por valores anteriores da série, e ξt é
ruído branco e independente de νt. Tem-se então que, a partir das previsões de st+1 e σt+1,
é possível aproximar rt+1 como:
rt+1 ≃ E[st+1|Ωt]E[σt+1|Ψt] + ξt+1E[σt+1|Ψt] (5.4)
Os intervalos de previsão para rt+1 são calculados com base nas distribuições empíricas
de probabilidade dos termos estocásticos das equações 5.1 ou 5.44. Ao formar as distribuições
empíricas, há a premissa de que os valores considerados são independentes e igualmente
distribuídos, ou seja, os intervalos de previsão calculados a partir da equação 5.1 ignoram
a heteroscedasticidade condicional. Faz parte do estudo a comparação dos intervalos de
previsão obtidos ignorando ou considerando a heteroscedasticidade condicional, de modo a
verificar se é vantajoso combinar os resultados de modelos independentes para {st} e {σt}
em relação a um único modelo para {rt}.
5.3 Séries Temporais em Estudo
Neste estudo são considerados dados do mercado a vista de ações da bolsa de valores
brasileira. As informações sobre preços e volumes de negociação praticados diariamente
nos pregões desde 1986 são disponibilizadas pública e gratuitamente pela BM&F-Bovespa5,
bem como, a partir de setembro de 2013, também passaram a ser disponibilizadas as
informações “negócio a negócio” referentes aos dois anos anteriores em relação à data de
acesso6.
A partir de 1999 as ações passaram a ter a codificação usada atualmente, composta
por 4 letras, correspondentes à empresa, seguidas de um número, correspondente ao tipo
de ação: 3 para ordinárias e 4 ou mais para preferenciais. Devido a essa mudança na
3 Ver subseção 3.2.2 para detalhes.
4 Nesse caso, o intervalo de previsão é baseado na distribuição empírica de ξt na equação 5.3 e multiplicado
por E[σt+1|Ψt], conforme a equação 5.4.
5 Disponível em <http://www.bmfbovespa.com.br/pt-br/cotacoes-historicas/FormSeriesHistoricas.
asp>. Acesso em 22 jul. 2014.
6 Disponível em <ftp://ftp.bmf.com.br/marketdata/>. Acesso em 14 jul. 2015. A disponibilização
iniciou em setembro de 2013, com dados desde julho do mesmo ano e, a partir de julho de 2015, ficarão
disponíveis apenas dados referentes aos dois anos anteriores em relação à data de acesso.
Capítulo 5. Estudo Proposto 70
codificação, apesar da disponibilidade de arquivos históricos de cotações desde 1986, apenas
o período de 01/01/1999 a 31/12/2012 foi considerado neste estudo, para as séries diárias
e semanais. Além disso, foram adquiridos7 junto à BM&F-Bovespa os dados negócio a
negócio do período de 01/12/2007 a 31/12/2009, dos quais foram extraídas as informações
de cotação intraday.
No restante desta seção serão abordados alguns aspectos quanto à obtenção das séries
temporais em estudo a partir dos dados disponibilizados pela BM&F-Bovespa, bem como
algumas informações gerais sobre as mesmas.
5.3.1 Tratamento dos Dados
As séries temporais em estudo são formadas principalmente a partir dos arquivos de cotações
dos pregões, contudo é preciso considerar também o registro de eventos corporativos8. Os
primeiros contém diversas informações como os preços de abertura, máximo, mínimo e
fechamento de cada ação em cada pregão, bem como o total de títulos negociados, número
de negócios, volume financeiro total e outras. Já o registro de eventos contém informações
sobre a natureza (desdobramento, agrupamento, bonificação em ações, proventos em
dinheiro, etc.), a data com, a data de deliberação9, a que tipo de ação se aplica (ordinária
e/ou preferencial) e outras.
O ajuste a eventos é necessário pois a série bruta de preços pode conter efeitos causados
pelos eventos. Por exemplo, em caso de desdobramento de uma ação em duas, a série bruta
de preços vai apresentar uma queda de cerca de 50%, que não corresponde à variação
observada pelo acionista, já que o mesmo passa a ter o dobro da quantidade de ações. A
série corrigida é formada por uma ação teórica da empresa, do mesmo tipo da original
(ordinária ou preferencial), que não passa por eventos corporativos. A ação teórica é como
uma carteira contendo inicialmente uma ação original. Quando acontece um evento, todas
as ações dessa carteira teórica são “vendidas” pelo valor do preço com e o valor monetário
obtido é integralmente reinvestido na compra de ações pelo preço ex teórico, cujo cálculo
se dá de acordo com (BM&F-BOVESPA, 2014):
= Pcom + (S × Z)−D − J −R− VPex 1 + + (5.5)B S
Onde:
Pex: preço ex teórico.
7 Na época da aquisição, os dados negócio a negócio não eram ainda disponibilizados gratuitamente.
Após a mudança foi decidido estender este estudo para séries intraday.
8 Para cada empresa listada na bolsa de valores, há uma seção que contém o registro de even-
tos corporativos, por exemplo: <http://www.bmfbovespa.com.br/cias-listadas/empresas-listadas/
ResumoEventosCorporativos.aspx?codigoCvm=9512&tab=3&idioma=pt-br>. Acesso em 22 jul. 2014.
9 Caso seja necessário, a ata da reunião ocorrida na data de deliberação pode ser consultada para obter
mais detalhes sobre o evento.
Capítulo 5. Estudo Proposto 71
Pcom: preço de fechamento na data com.
S: fator de subscrição, normalmente entre 0 e 1.
Z: valor de emissão da ação a ser subscrita.
D: valor recebido a título de dividendos.
J: valor recebido a título de juros sobre capital próprio, líquido de imposto.
R: rendimentos líquidos de impostos.
V : valor econômico resultante do recebimento de provento em outro tipo/ativo.
B: percentual de bonificação, desdobramento ou grupamento10.
O efeito do ajuste de preços é ilustrado na Figura 9. Percebe-se que as grandes
quedas abruptas observadas no gráfico de preços brutos, correspondentes a eventos como
desdobramentos, não aparecem no gráfico de preços ajustados.
O cálculo do preço ex teórico para cada data onde há eventos foi auxiliado por um
script que extrai do registro de eventos corporativos as variáveis necessárias na Equação 5.5,
quando possível. Muitas vezes, entretanto, é necessário consultar a ata da reunião onde
aconteceu a deliberação sobre o evento para obter os valores. Considerando o esforço
necessário para tratar todos os eventos de todas as empresas listadas na BOVESPA e ainda
que o objetivo deste trabalho não é uma análise exaustiva, as empresas foram priorizadas
utilizando o mesmo mecanismo aplicado no IBOVESPA para ponderar as ações, o Índice
de Negociabilidade (BM&F-BOVESPA, 2014):
∑ √P 3 ni
i=1 × ( vi )2IN = Ni Vi (5.6)
P
Onde:
ni: número de negócios no dia i com a ação no mercado a vista (lote-padrão).
Ni: número total de negócios no dia i no mercado a vista (lote-padrão).
vi: volume financeiro no dia i gerado pelos negócios da ação no mercado a vista (lote-
padrão).
Vi: volume financeiro total no dia i no mercado a vista (lote-padrão).
P : número total de pregões no período.
10 No caso de grupamentos, −1 < B < 0. Por exemplo, se cada 2 ações são agrupadas em 1, então
B = −0,5. De forma geral se há um grupamento n:1, então B = 1/n− 1. O valor divulgado no registro
de eventos corporativos no caso de desdobramentos e bonificações já é o valor percentual necessário
para o cálculo do preço ex teórico.
Capítulo 5. Estudo Proposto 72
Figura 9 – Preços brutos x corrigidos – PETR4
PETR4 - Preços Brutos [1999-01-04/2012-12-17]
500
200
100
50
20
Jan 04 Jan 02 Jan 06 Jan 03 Jan 02 Jan 05 Jan 03 Dez 17
1999 2001 2003 2005 2007 2009 2011 2012
PETR4 - Preços Corrigidos [1999-01-04/2012-12-17]
50,0
20,0
10,0
5,0
2,0
1,0
0,5
Jan 04 Jan 02 Jan 06 Jan 03 Jan 02 Jan 05 Jan 03 Dez 17
1999 2001 2003 2005 2007 2009 2011 2012
Fonte: Produzido pelo autor
Tomando o Índice de Negociabilidade da empresa como o somatório do IN de suas
ações e considerando o período de 01/01/1999 a 31/12/2012, é possível identificar as
empresas com maior IN, conforme listagem da Tabela 2. Os cálculos de preço ex teórico
foram realizados para as ações das duas primeiras: Petrobras (PETR3 e PETR4) e Vale
(VALE3 e VALE5).
As empresas escolhidas através do índice de negociabilidade possuem grande quantidade
de negócios realizados, bem como são responsáveis pela movimentação de grandes volumes
financeiros. Com isso, eventuais efeitos devido ao uso de amostras finitas são reduzidos e a
aproximação realizada no cálculo de volatilidade através do estimador de Yang e Zhang
(2000) fica mais precisa. Assim, reduz-se o número de fatores a serem considerados no
estudo, o que permite tratar mais detalhadamente do foco: a aplicação de máquinas de
vetores de suporte na previsão da distribuição de probabilidade da taxa de retorno futura.
De posse das cotações corrigidas em relação aos eventos corporativos, é possível construir
Capítulo 5. Estudo Proposto 73
Tabela 2 – Índice de Negociabilidade
Empresa Índice de Ação Índice de
Negociabilidade Negociabilidade
−1
Petroleo Brasileiro S.A. 1,7121× 10−1 PETR4 1,3595× 10PETR3 3,5254× 10−2
Vale S.A. 1 0912× 10−1 VALE5 8,6779× 10
−2
, VALE3 2,2344× 10−2
−2
Bco Bradesco S.A. 5 3797× 10−2 BBDC4 5,0565× 10, BBDC3 3,2325× 10−3
−2
Centrais Elet Bras S.A. 4,7977× 10−2 ELET6 3,0956× 10ELET3 1,7021× 10−2
−2
Embratel Participacoes S.A. 3,4536× 10−2 EBTP4 2,6895× 10EBTP3 7,6405× 10−3
−2
Usinas Sid de Minas Gerais S.A. 3 3315× 10−2 USIM5 3,1067× 10, USIM3 2,2476× 10−3
−2
Cia Energetica de Minas Gerais S.A. 3,0945× 10−2 CMIG4 2,9507× 10CMIG3 1,4372× 10−3
Cia Siderurgica Nacinal 2,7136× 10−2 CSNA3 2,7136× 10−2
Gerdau S.A. 2 4163× 10−2 GGBR4 2,3143× 10
−2
, GGBR3 1,0205× 10−3
−2
Itausa Investimentos Itau S.A. 2,0728× 10−2 ITSA4 2,0588× 10ITSA3 1,4062× 10−4
as séries de taxas de retorno {rt}, volatilidades {σt} e taxas de retornos normalizadas {st},
aplicando respectivamente as equações 3.2, 3.5 e 5.3.
Nas séries obtidas podem existir tanto valores extremos (outliers) quanto valores des-
conhecidos. Valores extremos podem ser resultados da divisão por volatilidades estimadas
muito pequenas ou mesmo algum tipo de erro no arquivo de cotações ou no tratamento
dos eventos corporativos. Já valores desconhecidos podem ser originados das situações
nas quais o movimento de preço acontece em apenas um sentido, de modo que a abertura
coincide com um dos extremos e o fechamento com o outro. Nesses casos, uma constante é
suficiente para explicar o movimento e a volatilidade estimada é nula. Conforme discutido
na subseção 3.2.2, tal estimativa possivelmente é um erro pois, apesar da coincidência dos
extremos, é pouco provável que o movimento de preços tenha sido monótono ao longo do
período.
Para a detecção de valores extremos, foi tomada como referência um intervalo definido
em termos da amplitude inter-quartil (IQR11), ou seja, são considerados como extremos
os valores maiores do que da soma do terceiro quartil dos dados com cinco vezes a IQR
ou aqueles menores do que a subtração de cinco vezes a IQR do primeiro quartil. Tal
abordagem é muito simples considerando que os dados em questão formam uma série
temporal, ou seja, há o risco de tratar como extremo um valor normal ou o contrário.
Por outro lado, métodos mais sofisticados para detecção de valores extremos em séries
temporais, como o de Chen e Liu (1993), supõem alguma estrutura específica para a série.
Considerando que um dos objetivos da aplicação de técnicas de inteligência artificial na
11 Do inglês Interquartile Range: um intervalo que abrange 50% dos valores considerados.
Capítulo 5. Estudo Proposto 74
previsão de séries temporais é justamente dispensar suposições a priori sobre a estrutura
das mesmas e que, caso haja alguma relação não considerada, o modelo mais sofisticado
apresenta os mesmos riscos, optou-se pela definição mais simples.
Neste estudo, o tratamento de valores desconhecidos e de valores extremos é o mesmo:
são substituídos pelo valor obtido por interpolação linear com base nos valores dos pontos
adjacentes. Outros critérios seriam aplicáveis, como substituir o valor desconhecido/extremo
pela média dos demais ou pelo valor anterior, entretanto, dado que nas séries em estudo
há poucos valores extremos ou desconhecidos em relação ao tamanho da série, conforme
descrito mais a frente na tabela 3, e considerando a presença dos termos estocásticos,
tem-se que o critério de tratamento utilizado tem pouco impacto nos resultados.
5.3.2 Descrição das Séries Temporais
Das quatro ações com cotações tratadas, foram escolhidas duas para o estudo, uma prefe-
rencial e outra ordinária: PETR4 e VALE3. Para cada ação, foram consideradas três taxas
de amostragem: semanal, diária e intraday de 10 minutos. Para cada taxa de amostragem,
foram montados quatro tipos de séries: retornos logarítmicos (Equação 3.2), retornos
normalizados (Equação 5.3), volatilidade logarítmica (tal como aparece na Equação 5.2)
ou volatilidade bruta (Equação 3.5).
As séries foram nomeadas de acordo com a seguinte convenção: AÇÃO_TIPO_AMOS-
TRAGEM, ou seja, o primeiro campo indica qual ação originou a série, o segundo indica o
tipo: taxa de retornos logarítmica (RL), taxa de retornos normalizada (RN), volatilidade
logarítmica (VL) ou volatilidade bruta (VB), e o último campo a taxa de amostragem:
semanal (W), diária (D) ou intraday de 10 minutos (I). Na Tabela 3 estão listadas algumas
informações básicas das séries temporais em estudo e na Figura 10 os gráficos das séries
semanais.
5.4 Construção dos Modelos de Previsão
Neste estudo, são aplicados alguns modelos de previsão às séries descritas anteriormente e
então os resultados são comparados com intuito de identificar se há algum modelo melhor
que os demais com respeito a cada cenário de uso das previsões. Em especial, deseja-se
verificar se a utilização de máquinas de vetores de suporte, de forma isolada ou combinada
com outros modelos, leva a ganhos significativos.
Como entradas para os modelos de previsão são fornecidos os valores anteriores da
série e como saída se espera uma estimativa para o próximo valor e intervalos de previsão12
com variados níveis de cobertura esperados. Neste estudo, foram construídos intervalos
12 Intervalos de previsão são construídos apenas para os modelos aplicados às séries de retornos,
normalizados ou não, uma vez que o escopo deste trabalho é a previsão da distribuição de probabilidade
apenas da taxa de retorno futura e não da volatilidade.
Capítulo 5. Estudo Proposto 75
Figura 10 – Séries temporais em estudo: amostragem semanal
PETR4_VB_W PETR4_VL_W
Jan 04 Jan 02 Jan 03 Jan 02 Jan 03 Jan 04 Jan 02 Jan 03 Jan 02 Jan 03
1999 2002 2005 2008 2011 1999 2002 2005 2008 2011
PETR4_RL_W PETR4_RN_W
Jan 04 Jan 02 Jan 03 Jan 02 Jan 03 Jan 04 Jan 02 Jan 03 Jan 02 Jan 03
1999 2002 2005 2008 2011 1999 2002 2005 2008 2011
VALE3_VB_W VALE3_VL_W
Jan 04 Jan 02 Jan 03 Jan 02 Jan 03 Jan 04 Jan 02 Jan 03 Jan 02 Jan 03
1999 2002 2005 2008 2011 1999 2002 2005 2008 2011
VALE3_RL_W VALE3_RN_W
Jan 04 Jan 02 Jan 03 Jan 02 Jan 03 Jan 04 Jan 02 Jan 03 Jan 02 Jan 03
1999 2002 2005 2008 2011 1999 2002 2005 2008 2011
Fonte: Produzido pelo autor
-0,1 0,1 0,3 0,05 0,20 -0,2 0,0 0,2 0,05 0,20
-4 0 2 4 -4.5 -3.0 -1.5 -4 0 4 -4.0 -2.5
Capítulo 5. Estudo Proposto 76
Tabela 3 – Descrição das séries temporais utilizadas nos experimentos
Série Período Comprimento Desconhecidos Outliers
PETR4_RL_W 728 0 0
PETR4_RN_W 01/01/1999 31/12/2012 727 0 0
PETR4_VL_W 727 0 0
PETR4_VB_W 727 0 5
PETR4_RL_D 3.463 0 3
PETR4_RN_D 01/01/1999 31/12/2012 3.462 0 1
PETR4_VL_D 3.462 0 0
PETR4_VB_D 3.462 0 22
PETR4_RL_I 25.224 0 258
PETR4_RN_I 01/12/2007 31/12/2009 25.223 0 17
PETR4_VL_I 25.223 0 26
PETR4_VB_I 25.223 0 288
VALE3_RL_W 728 0 0
VALE3_RN_W 01/01/1999 31/12/2012 727 1 0
VALE3_VL_W 727 1 0
VALE3_VB_W 727 1 4
VALE3_RL_D 3.455 0 2
VALE3_RN_D 01/01/1999 31/12/2012 3.454 45 5
VALE3_VL_D 3.454 45 4
VALE3_VB_D 3.454 45 23
VALE3_RL_I 24.746 0 203
VALE3_RN_I 01/12/2007 31/12/2009 24.745 653 21
VALE3_VL_I 24.745 653 24
VALE3_VB_I 24.745 653 236
Nota: As séries são nomeadas de acordo com a convenção AÇÃO_TIPO_AMOSTRAGEM,
onde o TIPO pode ser: a taxa de retorno logarítmica (RL), taxa de retorno norma-
lizada (RN), volatilidade logarítmica (VL) ou volatilidade bruta (VB), e AMOS-
TRAGEM pode ser: semanal (W), diária (D) ou intraday de 10 minutos (I).
de previsão bilaterais e unilaterais do tipo “maior que”, com coberturas esperadas de
90%, 95% e 99%. O intervalo de previsão bilateral com cobertura de 95%, por exemplo,
define um intervalo [a, b] tal que, com 95% de probabilidade, a ≤ rt+1 ≤ b. Já o intervalo
de previsão do tipo “maior que” com cobertura de 99%, por exemplo, define um valor a
tal que, com 99% de probabilidade, rt+1 ≥ a. Para um investidor, esse segundo tipo de
intervalo é de especial importância, dado que identifica uma taxa de retorno mínima com
determinada probabilidade. Para todos os modelos, os intervalos de previsão são formados
com base na distribuição empírica dos resíduos dos mesmos.
A construção dos modelos se dá de forma iterativa, utilizando janelas deslizantes: para
cada grupo de séries com mesma taxa de amostragem, é definido um tamanho de janela
para otimização dos parâmetros13 do modelo e posterior ajuste/treinamento com base no
13 No caso dos modelos estatísticos de séries temporais, a otimização consiste em escolher a ordem
do modelo, enquanto os valores dos parâmetros, fixada uma ordem, são encontrados no processo de
Capítulo 5. Estudo Proposto 77
resultado da otimização. As previsões são realizadas para o horizonte de um valor além
da janela de ajuste/treinamento e então, após realizada a previsão, a janela é deslizada
adiante, incluindo o próximo valor da série e descartando o primeiro, e então é realizado um
novo ajuste/treinamento e nova previsão. Este mecanismo de janelas deslizantes simula a
aplicação prática, ou seja, quando a previsão é realizada, o valor real ainda é desconhecido.
Por exemplo, supondo uma série com 1.000 elementos e uma janela de 500: inicialmente
os valores de 1 a 500 são utilizados para formar o conjunto de otimização e assim determina-
se a ordem de modelos lineares e os parâmetros dos modelos baseados em SVM, dentre eles
a quantidade de elementos a utilizar como entrada. No passo seguinte o mesmo conjunto
é usado para treinamento/ajuste e então é realizada uma previsão para o elemento 501,
que é armazenada num vetor de previsões. A janela é então deslizada, de modo que passa
a contar com os elementos 2 a 501 da série, e é realizado novo treinamento (com os
parâmetros encontrados na etapa de otimização anterior) e previsão do elemento 502, que
é acrescentado ao vetor de previsões. A janela desliza novamente para conter os elementos
3 a 502 e realizar a previsão do elemento 503 e assim sucessivamente até que seja realizada
a previsão do elemento 1.000. Os valores no vetor de previsões podem ser considerados
“fora de amostra”, dado que são totalmente desconhecidos para os processos de otimização
e treinamento no momento em que são gerados.
Os modelos considerados no estudo, listados na Tabela 4, são construídos e aplicados
de duas formas: otimização única e otimizações múltiplas. Na primeira forma, apenas
uma etapa de otimização de parâmetros acontece, na primeira janela, e então todos os
ajustes/treinamentos que acontecem nas janelas seguintes utilizam os parâmetros da
primeira otimização. Já na segunda forma, os resultados de cada etapa de otimização
são utilizados em uma quantidade fixa de ajustes/treinamentos subsequentes e então é
realizada uma nova etapa de otimização. Complementando o exemplo do parágrafo anterior:
caso seja determinado que os parâmetros encontrados na otimização sejam usados 20 vezes,
então a primeira otimização (feita com os elementos 1 a 500 da série) vale até a previsão do
elemento 520 e uma nova otimização é feita na janela de 21 a 520, de modo que a previsão
do elemento 521 se dá com os parâmetros da segunda otimização e não da primeira. Caso os
resultados da aplicação com múltiplas otimizações sejam significantemente melhores, então
as séries em questão não são estritamente estacionárias e fica evidenciada a importância
desta característica na construção de modelos de previsão.
A escolha do tamanho da janela e validade da etapa de otimização merece algumas
considerações. Janelas pequenas implicam em poucos dados para ajuste/treinamento,
de modo que os modelos construídos potencialmente seriam pouco precisos. Por outro
lado, caso as séries não sejam estritamente estacionárias, janelas menores são preferidas a
fim de explorar melhor as características específicas de cada período com o mínimo de
“ajuste”. Já no caso das máquinas de vetores de suporte, mais especificamente ν-SVR com kernel RBF,
a otimização consiste em escolher os valores dos parâmetros C, ν e γ, enquanto no “treinamento” são
determinados os vetores de suporte e seus respectivos coeficientes.
Capítulo 5. Estudo Proposto 78
contaminação de características de outros períodos, além de que janelas pequenas implicam
em mais previsões realizadas14. Com janelas maiores há mais dados para treinamento e,
assim, os modelos construídos potencialmente são mais precisos. Entretanto, ajustar/treinar
modelos em janelas muito grandes tem alto custo computacional, principalmente na etapa
de otimização, além de reduzir o número de previsões realizadas e, com isso, reduzir a
precisão da avaliação de resultados. Já com relação à validade de cada etapa de otimização,
valem observações similares: validades muito curtas requerem em alto custo computacional
porém potencialmente leva a resultados melhores, enquanto validades mais longas levam à
situação oposta. Considerando que não foi encontrado na literatura um método para a
escolha desses tamanhos e que não faz parte do escopo deste estudo a busca de tamanhos
ótimos, então foram arbitrados os valores listados na Tabela 5.
Os modelos naivemean, naivesd, randwalk e vrandwalk são os mais triviais e são
considerados no estudo para estabelecer uma referência para os demais. O modelo naivesd
é aplicado às séries de retornos logarítmicos, no entanto seu resultado é avaliado com
relação às séries de volatilidade bruta correspondentes. Como esses modelos não possuem
parâmetros para otimizar, não há sentido em ter versões diferentes para otimização única
e otimizações múltiplas.
A etapa de otimização dos modelos ar_mopt, ar_sopt, var_mopt e var_sopt consiste
em determinar a ordem p do modelo AR(p) subjacente. Isso é feito realizando ajustes na
janela de otimização com diversos valores para p e então a ordem do modelo mais adequado
é escolhida como ótima. Tal como mencionado na subseção 3.3.1, o modelo mais adequado
é aquele que apresenta o menor valor para um critério de informação: neste trabalho é
utilizado o AIC. Nas janelas seguintes, nas quais acontece apenas o ajuste, o valor de p é
determinado pela otimização anterior. Assim, no caso dos modelos de otimização única, o
primeiro valor de p é utilizado em todas as janelas subsequentes da série. Modelos baseados
em AR(p) são considerados no estudo por duas razões:
a) Hsieh (1991) os aplica na modelagem de séries de volatilidade e seus resultados
indicaram que foi suficiente para capturar adequadamente as características das
séries;
b) as máquinas de vetores de suporte podem ser interpretadas como uma extensão
não linear dos modelos AR(p), do mesmo modo que White (1988) aponta para
redes neurais artificiais, uma vez que apenas valores anteriores da série (e não seus
erros estocásticos) são considerados. Assim, ao comparar os resultados dos modelos
baseados em AR(p) e SVM, é possível evidenciar se a série apresenta relações não
lineares e se tal característica é importante na construção de modelos de previsão.
Modelos baseados em ARMA(p, q) também foram considerados, por ser mais gerais
que os baseados em AR(p). A etapa de otimização é similar aos modelos baseados em
14 Dado que as séries em estudo possuem tamanho finito e o primeiro valor para o qual é realizada uma
previsão é o que está imediatamente após a primeira janela.
Capítulo 5. Estudo Proposto 79
Tabela 4 – Descrição dos modelos considerados no estudo
Nome Descrição Tipos de Séries
Fornece a média dos valores anteriores como previsão para o pró-
naivemean ximo e constrói intervalos de previsão baseados na distribuição RL, RN e VL
empírica dos valores anteriores
Fornece como previsão da volatilidade o desvio padrão estimado
naivesd considerando os valores anteriores como amostra da população RL(VB)
randwalk Fornece o valor anterior como estimativa para o próximo VL
ar_sopt AR(p) com otimização única RL, RN e VL
ar_mopt AR(p) com otimizações múltiplas RL, RN e VL
arma_sopt ARMA(p, q) com otimização única RL, RN e VL
arma_mopt ARMA(p, q) com otimizações múltiplas RL, RN e VL
ARFIMA(p, d, q) com otimizações múltiplas. Utiliza todos os
valores anteriores, e não somente os da janela corrente, para
arfima_mopt ajustar d. p e q são ajustados sempre considerando a janela VL
corrente.
ARFIMA(p, d, q) com otimizações múltiplas. Todos os parâme-
sarfima_mopt tros são ajustados considerando apenas a janela corrente. VL
svm_sopt ν-SVR(C, ν) e kernel RBF de largura γ, com otimização única RL, RN e VL
ν-SVR(C, ν) e kernel RBF de largura γ, com otimizações múl-
svm_mopt tiplas RL, RN e VL
Híbrido: linear (ARMA ou ARFIMA) e então não linear (ν-SVR)
hlinsvm_sopt aplicado aos resíduos, com otimização única RL, RN e VL
hlinsvm_mopt Similar ao anterior, porém com otimizações múltiplas RL, RN e VL
Híbrido: não linear (ν-SVR) e então linear (ARMA ou ARFIMA)
hsvmlin_sopt aplicado aos resíduos, com otimização única RL, RN e VL
hsvmlin_mopt Similar ao anterior, porém com otimizações múltiplas RL, RN e VL
vnaivemean Similar ao naivemean. Aplicado apenas à volatilidade bruta VB
vrandwalk Similar ao randwalk. Aplicado apenas à volatilidade bruta VB
var_sopt Similar ao ar_sopt. Aplicado apenas à volatilidade bruta VB
var_mopt Similar ao ar_mopt. Aplicado apenas à volatilidade bruta VB
varma_sopt Similar ao arma_sopt. Aplicado apenas à volatilidade bruta VB
varma_mopt Similar ao arma_mopt. Aplicado apenas à volatilidade bruta VB
varfima_mopt Similar ao arfima_mopt. Aplicado apenas à volatilidade bruta VB
vsarfima_mopt Similar ao sarfima_mopt. Aplicado apenas à volatilidade bruta VB
vsvm_sopt Similar ao svm_sopt. Aplicado apenas à volatilidade bruta VB
vsvm_mopt Similar ao svm_mopt. Aplicado apenas à volatilidade bruta VB
vhlinsvm_sopt Similar ao hlinsvm_sopt. Aplicado apenas à volatilidade bruta VB
vhlinsvm_mopt Similar ao hlinsvm_mopt. Aplicado apenas à volatilidade bruta VB
vhsvmlin_sopt Similar ao hsvmlin_sopt. Aplicado apenas à volatilidade bruta VB
vhsvmlin_mopt Similar ao hsvmlin_mopt. Aplicado apenas à volatilidade bruta VB
Tabela 5 – Tamanhos de janela de otimização/treinamento por taxa de amostragem
Taxa de Amostragem Tamanho da Janela Validade da Otimização Previsões Realizadas
Semanal 300 (6 anos) 9 (2 meses) 429
Diária 500 (2 anos) 22 (1 mês) 2.964
Intraday de 10 minutos 1000 (1 mês) 240 (1 semana) 24.225
Nota: Os períodos (quantidades de anos, meses e semanas) são aproximados.
Capítulo 5. Estudo Proposto 80
AR(p), ou seja, são realizados ajustes para diferentes valores de p e q e o modelo mais
adequado é escolhido observando o AIC. Nas janelas seguintes são realizados novos ajustes,
porém utilizando a ordem identificada na etapa de otimização.
A otimização dos modelos baseados em ARFIMA(p, d, q) é realizada através do método
de Hyndman e Khandakar (2008): inicialmente um valor preliminar de d é estimado
através do método de Haslett e Raftery (1989)15 supondo um modelo ARFIMA(2, d, 0).
Então é aplicada a diferenciação fracionária à série com o valor de d encontrado. Em
seguida, os valores de p e q são encontrados de forma similar a como é feito para modelos
ARMA(p, q) considerando a série diferenciada. O valor final de d é estimado considerando
os valores de p e q encontrados para a série diferenciada com valor preliminar de d. Para
os modelos arfima_mopt e varfima_mopt, todos os valores anteriores (e não apenas os
da janela de otimização corrente) são utilizados para estimar o valor de d, enquanto
que os modelos sarfima_mopt e vsarfima_mopt utilizam apenas os valores na janela de
otimização corrente. O intuito de considerar no estudo as duas variações é verificar o
impacto do tamanho da janela no desempenho da modelagem de correlações de longo
prazo.
Para aplicar máquinas de vetores de suporte na previsão de séries temporais, esse
problema é reduzido ao problema de aproximar uma função f : Rn → R, onde valores
anteriores da série são utilizados como entradas e o próximo como saída desejada. Tem-se
então que para os modelos baseados em ν-SVR com kernel RBF, é preciso determinar,
no processo de otimização, os valores dos parâmetros C, ν e γ, além da quantidade n de
valores anteriores da série a utilizar na previsão. Conforme mencionado anteriormente, esta
forma de aplicação pode ser entendida como uma extensão não linear do modelo AR(p),
na qual o formato da função f é determinado automaticamente com base nos dados e,
especialmente no caso das máquinas de vetores de suporte, considerando o princípio da
minimização do risco estrutural, conforme discutido na seção 2.2.
Na etapa de otimização dos modelos baseados em SVMs, optou-se por aplicar a meta-
heurística de Tsallis e Stariolo (1996) – o Arrefecimento Simulado Generalizado (GSA16) –
para encontrar os valores de C, ν, γ e n. O GSA é uma técnica de otimização probabilística
inspirada em termodinâmica: parte de uma solução inicial (um ponto em Rd, onde d é
a quantidade de variáveis reais ajustáveis) e então, com auxílio de uma distribuição de
probabilidade de visitação, determina um vizinho. Uma transição é realizada se o valor
da função no ponto vizinho for menor que no atual ou, caso contrário, conforme uma
distribuição de probabilidade de aceitação que muda ao longo do processo de acordo com
uma temperatura T . No começo da otimização, o valor de T é alto e, com isso, maior
a probabilidade de aceitar soluções piores do que a corrente. Em cada etapa o valor de
T é reduzido, assim vai diminuindo gradativamente a probabilidade de aceitar soluções
15 Esse método encontra o valor de d dentro de um intervalo dado em conjunto com os valores de p e q.
16 Do inglês Generalized Simulated Annealing.
Capítulo 5. Estudo Proposto 81
piores e então a busca realizada pelo GSA vai se aproximando à feita por um gradiente
descendente. Outras meta-heurísticas podem ser aplicadas no lugar do GSA, mas este foi
escolhido por ser baseado em uma solução por vez, em contraste com algorítimos genéticos,
por exemplo, que dependem de avaliar diversas soluções a cada iteração e, com isso, o
tempo e os recursos computacionais necessários na otimização seriam maiores. Além disso,
um experimento preliminar baseado em 10.000 soluções geradas aleatoriamente apontou
que o GSA chega a soluções muito boas após 200 iterações17.
Uma dificuldade de aplicação do GSA é que ele supõe que as variáveis são reais, o que
não é o caso da quantidade n de valores anteriores a utilizar. Então a otimização é aplicada
fixando alguns valores18 de n (2, 5 e 8) e o melhor resultado global é escolhido. Os dados da
janela de otimização/treinamento são organizados de modo que a entrada correspondente a
um elemento é formada pelos n anteriores. Se n = 2, por exemplo, então os elementos 1 e 2
da janela são colocados como entrada e o elemento 3 como saída esperada correspondente,
tal como os elementos 2 e 3 são colocados como entrada enquanto o elemento 4 como saída
esperada e assim por diante.
Através de experimentos preliminares, foi constatado que há diversas soluções possíveis
para as quais não há diferença estatística significativa em seus erros absolutos médios,
então o número de vetores de suporte foi considerado como critério de desempate, ou seja,
a função a ser minimizada na etapa de otimização leva em conta tanto o erro absoluto
médio obtido através de validação cruzada na janela de otimização quanto a quantidade
de vetores de suporte.
Os modelos híbridos, aqueles cujo nome começa com h ou vh, consistem da combinação
de um modelo linear com um não linear. O primeiro modelo é aplicado aos dados e então o
segundo é aplicado aos resíduos gerados pelo primeiro. Eles foram considerados no estudo
devido a evidências na literatura de que tais combinações podem apresentar resultados
melhores que cada um dos modelos aplicados individualmente (ZHANG, 2003; PAI; LIN,
2005). A fim de verificar se a ordem dos componentes faz diferença, foram incluídas ambas
as possibilidades na ordem de combinação. O componente linear utilizado depende do
tipo da série em questão: o modelo ARMA é utilizado nas séries de taxas de retorno
(normalizadas ou não), enquanto o ARFIMA19 nas séries de volatilidade. A etapa de
otimização de cada componente é da mesma forma que nos modelos simples.
Por fim, vale mencionar que os modelos aplicados às séries de logaritmos da volatilidade
são também aplicados às séries de volatilidade sem qualquer transformação. Convencionou-
17 Foram utilizados os valores sugeridos pelos autores para os parâmetros qA e qV : −5 e 2,7 respectiva-
mente.
18 Apenas três valores para n foram escolhidos pois a execução dos modelos com otimizações múltiplas
levariam um tempo proibitivamente longo para este trabalho. Dada essa limitação, foram escolhidos
valores abrangendo então uma faixa razoável de possibilidades.
19 Nos modelos híbridos, aplicados à séries de volatilidade, cujo primeiro componente é linear, o valor
do parâmetro d de diferenciação fracionária é calculado da mesma forma que no modelo arfima_mopt.
Nos outros modelos híbridos aplicados à séries de volatilidade, o valor do parâmetro d é encontrado
tal como no modelo sarfima_mopt.
Capítulo 5. Estudo Proposto 82
se neste estudo nomear modelos aplicados diretamente à volatilidade com o prefixo v
seguido do mesmo nome do modelo aplicado aos logaritmos. O intuito é verificar se é
vantajoso ou não aplicar a transformação aos valores da volatilidade para realizar previsões.
5.5 Avaliação dos Resultados
Há diversas formas de avaliar os resultados alcançados pelos modelos de previsão de séries
temporais. Neste estudo, os testes são determinados de acordo com as seguintes perguntas
de interesse:
a) qual a precisão das previsões realizadas? Há diferença significativa entre os modelos
considerados?
b) os intervalos de previsão propostos são válidos? Ou seja, para o intervalos de previsão
bilateral de 95%, por exemplo, de fato essa proporção de valores ficou dentro das
estimativas e tal proporção é constante ao longo do tempo?
c) quantos dos sinais das previsões coincidem com os observados?
d) todas as relações lineares e não lineares foram capturadas adequadamente?
e) de forma geral, qual o resultado alcançado pelas máquinas de vetores de suporte
em relação aos demais modelos em estudo?
Conforme apresentado na subseção 3.5.1, há diversas maneiras de quantificar o erro das
previsões efetuadas e, portanto, de responder a primeira pergunta. Para fins de comparação
entre os modelos, optou-se por aplicar testes estatísticos diretamente aos erros absolutos,
ao invés de comparar suas médias (MAE). Foi aplicado o teste não paramétrico de Kruskal
e Wallis (1952) a fim de verificar se algum dos modelos em avaliação possui erros absolutos
significantemente diferente dos demais. Em caso positivo, é aplicado o teste não paramétrico
de Dunn (1964) entre todos os pares de modelos a fim de identificar quais são mais ou
menos precisos que os demais. Com intuito de manter o nível de significância do teste, é
aplicada a correção de Hochberg (1988) aos valores p.
Além da precisão das previsões, o intervalo de previsão (segunda pergunta) e a taxa de
acerto de sinais (terceira pergunta) são informações bastante relevantes do pondo de vista
dos investidores: intervalos de previsão válidos20 podem subsidiar decisões de investimento
tendo em vista algum objetivo, como minimizar o risco.
Sob a hipótese nula de validade dos intervalos de previsão, o número de acertos
nac observado segue uma distribuição binomial de probabilidade com n tentativas e
probabilidade θ de acerto, onde n é o total de intervalos estimados e θ é o nível de
cobertura especificado. Para responder a segunda pergunta e atestar se os intervalos de
previsão estimados são válidos, basta verificar se o número de acertos está dentro do
20 Um intervalo de previsão é dito “válido” se o nível de cobertura observado for constante e não for
estatisticamente diferente do requisitado, conforme discutido na subseção 3.5.2.
Capítulo 5. Estudo Proposto 83
esperado (CLOPPER; PEARSON, 1934) e se não há dependência serial na sequência
induzida de “erros” e “acertos” entre os intervalos previstos e os valores de fato observados,
conforme exposto na subseção 3.5.2. Assim como na verificação dos erros absolutos, a
avaliação de validade dos intervalos de previsão requer a realização de diversos testes.
Do mesmo modo, a correção de Hochberg (1988) é aplicada para corrigir os valores p e
preservar o nível de significância do teste.
Uma boa taxa de acertos dos sinais algébricos das taxas de retorno permitiria montar
regras simples de negociação de forma a aproveitar as oportunidades de lucro ao mesmo
tempo em que se evitam as perdas decorrentes de desvalorizações. Conforme discutido na
subseção 3.5.4, são empregados os testes de Pesaran e Timmermann (1992) e Anatolyev e
Gerko (2005) para avaliar este aspecto e responder à terceira pergunta.
Com respeito à quarta pergunta, os resíduos dos modelos são avaliados através dos
testes de Ljung-Box e BDS para verificar se todas as relações lineares e não lineares,
respectivamente, foram capturadas adequadamente pelos respectivos modelos.
Por fim, através dos testes realizados, atinge-se o principal objetivo deste trabalho ao
avaliar se a aplicação de máquinas de vetores de suporte, de forma isolada ou combinada,
leva a ganhos significativos na previsão da distribuição de probabilidade em séries temporais
de taxas de retornos de ações.
84
6 Resultados
6.1 Considerações Iniciais
Neste capítulo são apresentados os resultados da aplicação dos diversos modelos listados
na Tabela 4 às séries temporais de volatilidades e taxas de retorno listadas na Tabela 3.
Foram considerados no estudo alguns modelos estocásticos lineares, outros baseados em
máquinas de vetores de suporte e ainda versões híbridas. A avaliação dos resultados é
realizada com relação a diferentes aspectos: precisão das previsões dos valores, proporção
de acertos do sinal algébrico das taxas de retorno, validade dos intervalos de previsão e
adequação do modelo com relação aos resíduos produzidos.
Com base nos resultados alcançados, são apresentados alguns comentários acerca da
aplicação de máquinas de vetores de suporte na previsão da distribuição de probabilidade
da taxa de retorno de ações e também, de forma mais geral, sobre as implicações de tratar
o problema de previsão de séries temporais como aproximação de uma função que toma
como entrada apenas os valores anteriores.
6.2 Séries de Volatilidade
A previsão de volatilidade, no contexto do objetivo desta pesquisa, é útil em conjunto com
a previsão da taxa de retorno normalizada, a fim de estimar valor e intervalo de previsão
para a taxa de retorno logarítmica futura, conforme a Equação 5.4. Considerando que
apenas o valor esperado da volatilidade é utilizado, o critério de avaliação de precisão
das previsões é o de maior interesse. As séries de volatilidades bruta e logarítmica em
cada taxa de amostragem e ação são avaliadas em conjunto, com intuito de evidenciar se
é vantajosa a modelagem de uma forma ou de outra para realizar previsões, ou seja, as
doze séries temporais de volatilidades da Tabela 3 são agrupadas por empresa e taxa de
amostragem, resultando em seis séries ao final. No restante desta seção estão listados os
resultados alcançados pelos vinte e nove modelos da Tabela 4 em cada uma das seis séries
de volatilidade.
A distribuição dos erros absolutos correspondentes a cada modelo, quando aplicados às
séries de volatilidade de PETR4 em amostragem semanal, está ilustrada na Figura 11. As
extremidades inferior e superior de cada retângulo demarcam o primeiro e terceiro quartis
respectivamente, ou seja, 50% dos erros absolutos produzidos por cada modelo estão entre
os valores marcados pelas extremidades do retângulo correspondente. A linha horizontal
no interior de cada retângulo corresponde à mediana dos valores e as linhas pontilhadas
acima e abaixo se estendem até os erros que distam do primeiro e terceiro quartis não
Capítulo 6. Resultados 85
mais que cinco vezes o tamanho do intervalo inter quartil (IQR).
Figura 11 – Distribuição dos erros absolutos: PETR4_VL_W e PETR4_VB_W
0,08
0,06
0,04
0,02
0,00
Fonte: Produzido pelo autor
Percebe-se que há bastante semelhança entre os erros absolutos gerados pelos modelos,
exceto por naivemean, naivesd e vnaivemean. Para esses três, as medianas são conside-
ravelmente maiores que os demais e os erros absolutos se estendem por faixas maiores. A
aplicação do teste de Kruskal-Wallis leva a k = 669,591, que corresponde a um valor p
praticamente nulo1, ou seja, há indícios suficientes para rejeitar a hipótese nula de que os
erros absolutos produzidos pelos modelos seguem a mesma distribuição.
Diante da rejeição da hipótese nula de que todos os erros absolutos seguem a mesma
distribuição, foi aplicado o teste de Dunn entre todos os pares distintos possíveis, a fim
de identificar quais modelos geram erros absolutos maiores ou menores que os demais. O
desempenho relativo está listado na Tabela 6. Os vinte e seis primeiros modelos relacionados
empatam entre si e produzem erros absolutos significantemente menores que os três últimos.
Já o modelo naivesd empatou apenas com o vnaivemean e foi derrotado por todos os
demais.
Nas séries de volatilidade de VALE3 em amostragem semanal, a distribuição dos erros
absolutos foi bastante similar à observada em PETR4, conforme ilustrado na Figura 12.
O teste de Kurskal-Wallis leva a k = 558,314, que também corresponde a um valor p
praticamente nulo, ou seja, é rejeitada a hipótese de que os erros absolutos produzidos
pelos modelos seguem a mesma distribuição. A aplicação do teste de Dunn revela algu-
mas diferenças no desempenho relativo dos modelos, conforme listado na Tabela 7: os
1 O valor k calculado pelo teste de Kruskal-Wallis possui distribuição assintótica χ2. Dado que há 29
modelos em análise, a distribuição do teste deve considerar 28 graus de liberdade. Sob a hipótese nula,
espera-se que k < 41,337 (para nível de significância α = 5%).
arfima_mopt
arma_mopt
arma_sopt
ar_mopt
ar_sopt
hlinsvm_mopt
hlinsvm_sopt
hsvmlin_mopt
hsvmlin_sopt
naivemean
naivesd
randwalk
sarfima_mopt
svm_mopt
svm_sopt
varfima_mopt
varma_mopt
varma_sopt
var_mopt
var_sopt
vhlinsvm_mopt
vhlinsvm_sopt
vhsvmlin_mopt
vhsvmlin_sopt
vnaivemean
vrandwalk
vsarfima_mopt
vsvm_mopt
vsvm_sopt
Capítulo 6. Resultados 86
Tabela 6 – Desempenho Relativo – Volatilidade Semanal – PETR4
Modelo Vitórias Empates Derrotas
randwalk 3 25 0
ar_sopt 3 25 0
ar_mopt 3 25 0
arma_sopt 3 25 0
arma_mopt 3 25 0
arfima_mopt 3 25 0
sarfima_mopt 3 25 0
svm_sopt 3 25 0
svm_mopt 3 25 0
hlinsvm_sopt 3 25 0
hlinsvm_mopt 3 25 0
hsvmlin_sopt 3 25 0
hsvmlin_mopt 3 25 0
vrandwalk 3 25 0
var_sopt 3 25 0
var_mopt 3 25 0
varma_sopt 3 25 0
varma_mopt 3 25 0
varfima_mopt 3 25 0
vsarfima_mopt 3 25 0
vsvm_sopt 3 25 0
vsvm_mopt 3 25 0
vhlinsvm_sopt 3 25 0
vhlinsvm_mopt 3 25 0
vhsvmlin_sopt 3 25 0
vhsvmlin_mopt 3 25 0
naivemean 1 1 26
vnaivemean 0 2 26
naivesd 0 1 27
Nota: Uma vitória (derrota) indica que o modelo produz erros absolutos que
tendem a ser menores (maiores) que os de outro modelo. Empates
acontecem quando não há indícios de diferença significante entre os
valores absolutos dos dois modelos em comparação.
modelos varfima_mopt e vhlinsvm_mopt foram superiores aos quatro últimos listados,
enquanto empataram com os demais. Os três últimos, vnaivemean, naivesd e vnaivemean,
empataram entre si e geraram erros absolutos significantemente maiores que todos os
demais.
Tal como nas séries em amostragem semanal, os erros absolutos gerados pelos modelos
naivemean, naivesd e vnaivemean nas séries em amostragem diária possuem mediana
acima dos demais, conforme pode ser observado na Figura 13 e comprovado pela rejeição
de hipótese nula de que os erros absolutos gerados por todos os modelos seguem a mesma
distribuição: o teste de Kruskal-Wallis leva a k = 3.029,379, que corresponde a um valor p
praticamente nulo.
O teste de Dunn, resumido na Tabela 8, se mostra bastante similar ao resultado
em amostragem semanal: vinte e seis modelos melhores que naivemean, vnaivemean e
naivesd e empatados entre si.
Capítulo 6. Resultados 87
Figura 12 – Distribuição dos erros absolutos: VALE3_VL_W e VALE3_VB_W
0,08
0,06
0,04
0,02
0,00
Fonte: Produzido pelo autor
Tabela 7 – Desempenho Relativo – Volatilidade Semanal – VALE3
Modelo Vitórias Empates Derrotas
varfima_mopt 4 24 0
vhlinsvm_mopt 4 24 0
randwalk 3 25 0
ar_sopt 3 25 0
ar_mopt 3 25 0
arma_sopt 3 25 0
arma_mopt 3 25 0
arfima_mopt 3 25 0
sarfima_mopt 3 25 0
svm_sopt 3 25 0
svm_mopt 3 25 0
hlinsvm_sopt 3 25 0
hlinsvm_mopt 3 25 0
hsvmlin_sopt 3 25 0
hsvmlin_mopt 3 25 0
vrandwalk 3 25 0
var_sopt 3 25 0
var_mopt 3 25 0
varma_sopt 3 25 0
varma_mopt 3 25 0
vsarfima_mopt 3 25 0
vsvm_mopt 3 25 0
vhlinsvm_sopt 3 25 0
vhsvmlin_sopt 3 25 0
vhsvmlin_mopt 3 25 0
vsvm_sopt 3 23 2
naivemean 0 2 26
naivesd 0 2 26
vnaivemean 0 2 26
arfima_mopt
arma_mopt
arma_sopt
ar_mopt
ar_sopt
hlinsvm_mopt
hlinsvm_sopt
hsvmlin_mopt
hsvmlin_sopt
naivemean
naivesd
randwalk
sarfima_mopt
svm_mopt
svm_sopt
varfima_mopt
varma_mopt
varma_sopt
var_mopt
var_sopt
vhlinsvm_mopt
vhlinsvm_sopt
vhsvmlin_mopt
vhsvmlin_sopt
vnaivemean
vrandwalk
vsarfima_mopt
vsvm_mopt
vsvm_sopt
Capítulo 6. Resultados 88
Figura 13 – Distribuição dos erros absolutos: PETR4_VL_D e PETR4_VB_D
0,04
0,03
0,02
0,01
0,00
Fonte: Produzido pelo autor
Tabela 8 – Desempenho Relativo – Volatilidade Diária – PETR4
Modelo Vitórias Empates Derrotas
randwalk 3 25 0
ar_sopt 3 25 0
ar_mopt 3 25 0
arma_sopt 3 25 0
arma_mopt 3 25 0
arfima_mopt 3 25 0
sarfima_mopt 3 25 0
svm_sopt 3 25 0
svm_mopt 3 25 0
hlinsvm_sopt 3 25 0
hlinsvm_mopt 3 25 0
hsvmlin_sopt 3 25 0
hsvmlin_mopt 3 25 0
vrandwalk 3 25 0
var_sopt 3 25 0
var_mopt 3 25 0
varma_sopt 3 25 0
varma_mopt 3 25 0
varfima_mopt 3 25 0
vsarfima_mopt 3 25 0
vsvm_sopt 3 25 0
vsvm_mopt 3 25 0
vhlinsvm_sopt 3 25 0
vhlinsvm_mopt 3 25 0
vhsvmlin_sopt 3 25 0
vhsvmlin_mopt 3 25 0
naivemean 2 0 26
vnaivemean 1 0 27
naivesd 0 0 28
arfima_mopt
arma_mopt
arma_sopt
ar_mopt
ar_sopt
hlinsvm_mopt
hlinsvm_sopt
hsvmlin_mopt
hsvmlin_sopt
naivemean
naivesd
randwalk
sarfima_mopt
svm_mopt
svm_sopt
varfima_mopt
varma_mopt
varma_sopt
var_mopt
var_sopt
vhlinsvm_mopt
vhlinsvm_sopt
vhsvmlin_mopt
vhsvmlin_sopt
vnaivemean
vrandwalk
vsarfima_mopt
vsvm_mopt
vsvm_sopt
Capítulo 6. Resultados 89
Tal como nos demais casos analisados, o teste de Kruskal-Wallis, nas séries de volatili-
dade de VALE3 em amostragem diária, produz valor p ≃ 0 (k = 2.124,507). A distribuição
dos erros absolutos foi bastante similar ao resultado em PETR4, conforme ilustrado na
Figura 14.
Figura 14 – Distribuição dos erros absolutos: VALE3_VL_D e VALE3_VB_D
0,05
0,04
0,03
0,02
0,01
0,00
Fonte: Produzido pelo autor
Os desempenhos relativos foram mais heterogêneos: o resultado resumido do teste
de Dunn, listado na Tabela 9, revela que os modelos hlinsvm_mopt e hlinsvm_sopt se
destacaram em relação aos demais, ao vencer seis comparações e empatar as outras vinte
e duas. O modelo naivesd foi derrotado pelos demais vinte e oito modelos.
Nas séries de volatilidade em amostragem intraday, os modelos naivemean, naivesd e
vnaivemean apresentaram comportamento similar ao observado nas séries em outras taxas
de amostragem: geraram erros absolutos significantemente maiores que os demais modelos,
conforme pode ser constatado na Figura 15 para as séries de PETR4 e na Figura 16 para
VALE3.
O teste de Kruskal-Wallis produziu k = 25.990,273 para PETR4 e k = 20.019,106
para VALE3, ou seja, para ambas as ações, rejeita-se fortemente a hipótese de que os
erros absolutos gerados pelos modelos aplicados às séries de volatilidade em amostragem
intraday seguem a mesma distribuição. O teste de Dunn, resumido nas Tabelas 10 e 11 para
PETR4 e VALE3 respectivamente, indica a superioridade dos modelos vhlinsvm_sopt
e hlinsvm_mopt em relação aos demais, bem como o desempenho ruim dos modelos
naivemean, naivesd e vnaivemean.
Observa-se que nas séries com amostragem semanal aconteceram diversos empates
entre os modelos e que este número diminuiu na amostragem diária e ainda mais com os
dados intraday. Entretanto, apenas com os dados em estudo e os testes realizados, não é
arfima_mopt
arma_mopt
arma_sopt
ar_mopt
ar_sopt
hlinsvm_mopt
hlinsvm_sopt
hsvmlin_mopt
hsvmlin_sopt
naivemean
naivesd
randwalk
sarfima_mopt
svm_mopt
svm_sopt
varfima_mopt
varma_mopt
varma_sopt
var_mopt
var_sopt
vhlinsvm_mopt
vhlinsvm_sopt
vhsvmlin_mopt
vhsvmlin_sopt
vnaivemean
vrandwalk
vsarfima_mopt
vsvm_mopt
vsvm_sopt
Capítulo 6. Resultados 90
Tabela 9 – Desempenho Relativo – Volatilidade Diária – VALE3
Modelo Vitórias Empates Derrotas
hlinsvm_sopt 6 22 0
hlinsvm_mopt 6 22 0
arma_sopt 4 24 0
arma_mopt 4 24 0
arfima_mopt 4 24 0
sarfima_mopt 4 24 0
hsvmlin_sopt 4 24 0
hsvmlin_mopt 4 24 0
vhlinsvm_sopt 4 24 0
vhlinsvm_mopt 4 24 0
ar_sopt 3 25 0
ar_mopt 3 25 0
svm_sopt 3 25 0
svm_mopt 3 25 0
var_sopt 3 25 0
var_mopt 3 25 0
varma_sopt 3 25 0
varma_mopt 3 25 0
varfima_mopt 3 25 0
vsarfima_mopt 3 25 0
vsvm_mopt 3 25 0
vhsvmlin_sopt 3 25 0
vhsvmlin_mopt 3 25 0
randwalk 3 23 2
vrandwalk 3 23 2
vsvm_sopt 3 15 10
naivemean 1 1 26
vnaivemean 1 1 26
naivesd 0 0 28
Figura 15 – Distribuição dos erros absolutos: PETR4_VL_I e PETR4_VB_I
0,008
0,006
0,004
0,002
0,000
Fonte: Produzido pelo autor
arfima_mopt
arma_mopt
arma_sopt
ar_mopt
ar_sopt
hlinsvm_mopt
hlinsvm_sopt
hsvmlin_mopt
hsvmlin_sopt
naivemean
naivesd
randwalk
sarfima_mopt
svm_mopt
svm_sopt
varfima_mopt
varma_mopt
varma_sopt
var_mopt
var_sopt
vhlinsvm_mopt
vhlinsvm_sopt
vhsvmlin_mopt
vhsvmlin_sopt
vnaivemean
vrandwalk
vsarfima_mopt
vsvm_mopt
vsvm_sopt
Capítulo 6. Resultados 91
Figura 16 – Distribuição dos erros absolutos: VALE3_VL_I e VALE3_VB_I
0,010
0,008
0,006
0,004
0,002
0,000
Fonte: Produzido pelo autor
Tabela 10 – Desempenho Relativo – Volatilidade Intraday – PETR4
Modelo Vitórias Empates Derrotas
vhlinsvm_sopt 22 6 0
hlinsvm_mopt 21 7 0
vhlinsvm_mopt 19 9 0
hlinsvm_sopt 17 11 0
hsvmlin_sopt 16 12 0
vsvm_sopt 16 12 0
hsvmlin_mopt 15 13 0
svm_mopt 13 14 1
svm_sopt 11 15 2
vhsvmlin_sopt 11 15 2
vsvm_mopt 9 16 3
vhsvmlin_mopt 9 16 3
arfima_mopt 9 15 4
sarfima_mopt 9 13 6
arma_sopt 9 12 7
arma_mopt 9 12 7
ar_sopt 9 11 8
ar_mopt 9 11 8
randwalk 9 9 10
vrandwalk 9 9 10
var_sopt 3 5 20
var_mopt 3 5 20
varma_sopt 3 5 20
varma_mopt 3 5 20
varfima_mopt 3 5 20
vsarfima_mopt 3 5 20
naivemean 2 0 26
vnaivemean 1 0 27
naivesd 0 0 28
arfima_mopt
arma_mopt
arma_sopt
ar_mopt
ar_sopt
hlinsvm_mopt
hlinsvm_sopt
hsvmlin_mopt
hsvmlin_sopt
naivemean
naivesd
randwalk
sarfima_mopt
svm_mopt
svm_sopt
varfima_mopt
varma_mopt
varma_sopt
var_mopt
var_sopt
vhlinsvm_mopt
vhlinsvm_sopt
vhsvmlin_mopt
vhsvmlin_sopt
vnaivemean
vrandwalk
vsarfima_mopt
vsvm_mopt
vsvm_sopt
Capítulo 6. Resultados 92
Tabela 11 – Desempenho Relativo – Volatilidade Intraday – VALE3
Modelo Vitórias Empates Derrotas
hlinsvm_mopt 23 5 0
vhlinsvm_sopt 23 5 0
hlinsvm_sopt 20 8 0
hsvmlin_sopt 15 13 0
hsvmlin_mopt 14 14 0
vhlinsvm_mopt 14 14 0
arfima_mopt 12 14 2
svm_sopt 12 14 2
svm_mopt 12 14 2
arma_sopt 12 13 3
sarfima_mopt 12 13 3
vsvm_mopt 12 13 3
vhsvmlin_sopt 12 13 3
vhsvmlin_mopt 12 13 3
arma_mopt 12 12 4
ar_sopt 10 12 6
ar_mopt 5 17 6
randwalk 3 10 15
varma_sopt 3 10 15
vrandwalk 3 9 16
varma_mopt 3 9 16
varfima_mopt 3 9 16
vsarfima_mopt 3 9 16
vsvm_sopt 3 9 16
var_sopt 3 8 17
var_mopt 3 8 17
naivemean 2 0 26
vnaivemean 1 0 27
naivesd 0 0 28
possível saber se este fenômeno acontece somente devido ao aumento de poder dos testes
estatísticos com o aumento do tamanho das séries ou se em diferentes taxas de amostragem
determinadas características se manifestam de forma mais ou menos intensa.
Em cada uma das seis séries, cada um dos vinte e nove modelos foram comparados
com os demais, totalizando cento e sessenta e oito comparações por modelo. O número
total de vitórias, empates e derrotas de cada modelo está listado na Tabela 12. Seis deles
não sofreram derrotas, todos híbridos: hlinsvm_mopt, hlinsvm_sopt, vhlinsvm_mopt,
vhlinsvm_sopt, hsvmlin_sopt e hsvmlin_mopt. Os quatro primeiros possuem o compo-
nente linear aplicado inicialmente e o não linear (SVM) aos resíduos gerados enquanto
o contrário se aplica aos outros dois, com a diferença que neste segundo caso não são
consideradas correlações de longo prazo. O conjunto é composto essencialmente por três
modelos, cada um com as variantes de otimização única e otimizações múltiplas.
Entre aplicar um modelo de previsão à volatilidade bruta ou à logarítmica há uma ten-
dência da segunda abordagem levar a previsões melhores: com exceção do vhlinsvm_sopt
que foi superior no placar geral ao hlinsvm_sopt, todos os modelos aplicados à volatilidade
logarítmica obtiveram melhor resultado geral que seus equivalentes aplicados à bruta.
Capítulo 6. Resultados 93
Tabela 12 – Desempenho Relativo – Placar Geral
Modelo Vitórias Empates Derrotas
hlinsvm_mopt 59 109 0
vhlinsvm_sopt 58 110 0
hlinsvm_sopt 52 116 0
vhlinsvm_mopt 47 121 0
hsvmlin_sopt 44 124 0
hsvmlin_mopt 42 126 0
svm_mopt 37 128 3
svm_sopt 35 129 4
vhsvmlin_sopt 35 128 5
arfima_mopt 34 128 6
vsvm_mopt 33 129 6
vhsvmlin_mopt 33 129 6
sarfima_mopt 34 125 9
arma_sopt 34 124 10
arma_mopt 34 123 11
ar_sopt 31 123 14
ar_mopt 26 128 14
randwalk 24 117 27
vsvm_sopt 31 109 28
vrandwalk 24 116 28
varma_sopt 18 115 35
varfima_mopt 19 113 36
varma_mopt 18 114 36
vsarfima_mopt 18 114 36
var_sopt 18 113 37
var_mopt 18 113 37
naivemean 8 4 156
vnaivemean 4 5 159
naivesd 0 3 165
Comparando modelos similares com etapa de otimização múltipla ou única, observa-
se uma tendência de modelos com otimização única alcançarem placar geral superior
aos modelos com múltiplas otimizações, sendo hlinsvm_mopt, svm_mopt e vsvm_mopt as
exceções2. Assim, não há evidências suficientes para concluir que as séries de volatilidade
não sejam estritamente estacionárias ou, caso sejam, a exploração de tal característica não
é vantajosa na construção de modelos de previsão.
Com relação ao impacto da diferenciação fracionária, o resultado nas séries de vola-
tilidade logarítmica favorece claramente os modelos arfima_mopt e sarfima_mopt sobre
os demais lineares, enquanto nas séries de volatilidade bruta a vantagem de uso de dife-
renciação fracionária diminui bastante, sendo o varma_sopt melhor que todos os demais
lineares, seguido pelo varfima_mopt. Analisando todas as séries de volatilidade, os modelos
arfima_mopt e sarfima_mopt obtiveram placar melhor que todos os lineares sem diferen-
ciação fracionária (arma_mopt, varma_mopt, arma_sopt, varma_sopt, ar_mopt, ar_sopt,
var_mopt e var_sopt). Ou seja, considerando apenas modelos lineares, os melhores resul-
2 Não fazem parte desta comparação os modelos arfima_mopt, varfima_mopt, sarfima_mopt,
vsarfima_mopt, naivemean, vnaivemean, randwalk, vrandwalk e naivesd, dado que não possuem
simultaneamente variantes _mopt e _sopt.
Capítulo 6. Resultados 94
tados são alcançados utilizando volatilidade logarítmica e levando em conta correlações
de longo prazo. Além disso, a utilização de todos os dados disponíveis na estimativa do
parâmetro d de diferenciação fracionária leva a resultados melhores do que utilizar apenas
os valores da janela de otimização corrente.
Os modelos híbridos apresentaram placares superiores aos equivalentes formados pelo
primeiro componente, com exceção do vhsvmlin_mopt, que empatou com o vsvm_mopt.
Ou seja, salvo nesse caso listado, a aplicação do segundo componente aos resíduos do
primeiro melhorou os resultados, tanto nas séries de volatilidade bruta quanto nas de
volatilidade logarítmica.
De forma geral, considerando as séries de volatilidade, a utilização de máquinas de
vetores de suporte em modelos de previsão de séries temporais levou a bons resultados,
em especial de forma combinada com modelos lineares: hlinsvm_mopt, vhlinsvm_sopt,
hlinsvm_sopt, vhlinsvm_mopt, hsvmlin_sopt e hsvmlin_mopt. Além disso, dentre as
aplicações de modelos de forma isolada, as máquinas de vetores de suporte obtiveram os
melhores resultados.
6.3 Séries de Taxas de Retorno Normalizadas
Conforme mencionado anteriormente, a previsão da taxa de retorno normalizada é uti-
lizada em conjunto com a previsão de volatilidade, a fim de estimar valor e intervalo
de previsão para a taxa de retorno logarítmica futura, de acordo com a Equação 5.4.
Entretanto, diferente da volatilidade, os resíduos produzidos pelos modelos aplicados às
séries de taxa de retorno normalizada são empregados na construção dos intervalos de
previsão. Assim, é importante avaliar os modelos com relação à precisão das previsões
realizadas, bem como quanto à validade dos intervalos de previsão gerados e se os modelos
capturam adequadamente todas as relações, gerando resíduos independentes e igualmente
distribuídos. Considerando também que a volatilidade é sempre positiva, faz sentido avaliar
a proporção de acertos do sinal algébrico da taxa de retorno futura com o teste de Pesaran
e Timmermann (1992)3.
Nas séries de taxas de retorno normalizadas foram considerados os seguintes onze
modelos: naivemean, ar_mopt, ar_sopt, arma_mopt, arma_sopt, svm_mopt, svm_sopt,
hlinsvm_mopt, hlinsvm_sopt, hsvmlin_mopt e hsvmlin_sopt, sendo que o componente
linear dos modelos híbridos não leva em conta eventuais correlações de longo prazo. Nas
subseções seguintes são listados os resultados da aplicação dos modelos às séries de taxas
de retorno normalizadas com relação a cada aspecto de avaliação.
3 O teste de Anatolyev e Gerko (2005) não se aplica para séries normalizadas pois leva em consideração
tanto os sinais quanto as magnitudes dos valores previstos e observados, e a normalização pela
volatilidade altera fortemente as magnitudes envolvidas.
Capítulo 6. Resultados 95
6.3.1 Precisão das Previsões
Dentre as seis séries de taxas de retorno normalizadas em estudo, apenas nas de amostragem
intraday foi rejeitada a hipótese nula de que os erros absolutos gerados por todos os modelos
seguem a mesma distribuição, conforme pode-se constatar pelos valores da aplicação do
teste de Kruskal-Wallis, listados na Tabela 13.
Tabela 13 – Teste de Kruskal-Wallis – Taxa de
Retorno Normalizada
Série Kruskal-Wallis χ2 Valor p
PETR4_RN_W 0,573 1,00
VALE3_RN_W 0,257 1,00
PETR4_RN_D 1,104 1,00
VALE3_RN_D 10,772 0,38
PETR4_RN_I 39,548 0,00
VALE3_RN_I 25,410 0,00
Nota: Considerando que são onze modelos em avaliação, a
distribuição para o teste de Kruskal-Wallis é χ2 com
dez graus de liberdade, de modo que sob a hipótese
nula se espera k < 18,307.
Nas Figuras 17 e 18 estão ilustradas as distribuições dos erros absolutos gerados
pelos modelos nas séries PETR4_RN_I e VALE3_RN_I respectivamente. Não ficam evidentes
grandes diferenças, entretanto, a aplicação do teste de Dunn, resumido nas Tabelas 14 e 15,
demonstra que os modelos lineares são iguais ou superiores aos não lineares e híbridos.
Figura 17 – Distribuição dos erros absolutos: PETR4_RN_I
5
4
3
2
1
0
Fonte: Produzido pelo autor
arma_mopt
arma_sopt
ar_mopt
ar_sopt
hlinsvm_mopt
hlinsvm_sopt
hsvmlin_mopt
hsvmlin_sopt
naivemean
svm_mopt
svm_sopt
Capítulo 6. Resultados 96
Figura 18 – Distribuição dos erros absolutos: VALE3_RN_I
6
5
4
3
2
1
0
Fonte: Produzido pelo autor
Tabela 14 – Desempenho Relativo – Taxa de Retorno Normalizada
Intraday – PETR4
Modelo Vitórias Empates Derrotas
naivemean 2 8 0
ar_sopt 2 8 0
ar_mopt 2 8 0
arma_sopt 2 8 0
arma_mopt 2 8 0
svm_mopt 0 10 0
hlinsvm_mopt 0 10 0
hsvmlin_sopt 0 10 0
hsvmlin_mopt 0 10 0
svm_sopt 0 5 5
hlinsvm_sopt 0 5 5
Tabela 15 – Desempenho Relativo – Taxa de Retorno Normalizada
Intraday – VALE3
Modelo Vitórias Empates Derrotas
naivemean 1 9 0
ar_sopt 1 9 0
ar_mopt 1 9 0
arma_sopt 0 10 0
arma_mopt 0 10 0
svm_sopt 0 10 0
svm_mopt 0 10 0
hlinsvm_mopt 0 10 0
hsvmlin_sopt 0 10 0
hsvmlin_mopt 0 10 0
hlinsvm_sopt 0 7 3
arma_mopt
arma_sopt
ar_mopt
ar_sopt
hlinsvm_mopt
hlinsvm_sopt
hsvmlin_mopt
hsvmlin_sopt
naivemean
svm_mopt
svm_sopt
Capítulo 6. Resultados 97
6.3.2 Validade dos Intervalos de Previsão
Cada um dos modelos gera, além da previsão para o valor seguinte da série temporal,
intervalos de previsão bilaterais e unilaterais do tipo “maior que”, com coberturas esperadas
de 90%, 95% e 99%, conforme mencionado na seção 5.4, ou seja, para cada uma das seis
séries, cada modelo gera seis intervalos de previsão, totalizando trinta e seis intervalos por
modelo e, contando os onze modelos, trezentos e noventa e seis intervalos ao todo.
Uma sequência de intervalos de previsão gerada por um modelo é considerada “válida”
se a proporção de valores dentro dos intervalos for compatível com a cobertura esperada,
considerando que tal proporção segue uma distribuição binomial de probabilidade, e se
não houver dependência serial na série induzida de “erros” e “acertos” do valor observado
em relação ao intervalo de previsão correspondente, conforme discutido na subseção 3.5.2.
É realizado, então, um teste com respeito à cobertura para cada intervalo de previsão. Nos
casos em que a cobertura realizada foi compatível com a esperada, foi feito um teste com
relação à presença de dependência serial na série induzida de “erros” e “acertos”. Observa-se,
na Tabela 16, que os modelos svm_sopt, hsvmlin_sopt e hsvmlin_mopt geraram o menor
número de intervalos de previsão inválidos.
Tabela 16 – Intervalos de Previsão Inválidos por Modelo –
Taxa de Retorno Normalizada
Modelo Cobertura Inválida Dependência Serial Total
svm_sopt 0 2 2
hsvmlin_sopt 1 1 2
hsvmlin_mopt 1 1 2
naivemean 2 1 3
ar_sopt 2 1 3
ar_mopt 2 1 3
arma_sopt 1 2 3
arma_mopt 2 1 3
svm_mopt 2 1 3
hlinsvm_sopt 1 2 3
hlinsvm_mopt 1 2 3
6.3.3 Taxa de Acerto da Direção
O teste de Pesaran e Timmermann (1992) de acuidade direcional foi realizado entre as
sequências de previsões e respectivos valores para cada modelo em estudo em cada uma das
séries temporais de taxas de retorno normalizadas. Dos sessenta e seis resultados, nenhum
foi significativo após o ajuste dos valores p, conforme pode ser constatado na Tabela 17. É
importante mencionar que o teste não produziu resposta para alguns dos modelos quando
aplicados às séries em amostragem semanal. Isso se deve ao fato de que, nessas séries, o
sinal da previsão dos modelos em questão foi sempre o mesmo, o que ocasiona uma divisão
Capítulo 6. Resultados 98
por zero no cálculo da estatística. A falta de resposta do teste pode ser interpretada então
como ausência de poder preditivo da direção.
Tabela 17 – Acuidade direcional – Taxas de Retorno Normalizadas
Modelo PETR4_RN_I PETR4_RN_D PETR4_RN_W
ar_mopt 47,14% (1,000) 51,52% (1,000) 53,15% ( -)
ar_sopt 47,18% (1,000) 51,15% (1,000) 53,15% ( -)
arma_mopt 45,14% (1,000) 51,75% (1,000) 53,38% (1,000)
arma_sopt 34,23% (1,000) 51,15% (1,000) 53,15% ( -)
hlinsvm_mopt 46,84% (1,000) 52,33% (1,000) 54,55% (1,000)
hlinsvm_sopt 46,88% (1,000) 52,67% (0,653) 55,71% (1,000)
hsvmlin_mopt 47,11% (1,000) 51,35% (1,000) 51,28% (1,000)
hsvmlin_sopt 46,72% (1,000) 52,63% (0,618) 53,38% (1,000)
naivemean_mopt 47,22% (1,000) 51,55% (1,000) 53,15% ( -)
svm_mopt 46,82% (1,000) 52,06% (1,000) 53,38% (1,000)
svm_sopt 46,36% (1,000) 51,55% (1,000) 55,01% (1,000)
Modelo VALE3_RN_I VALE3_RN_D VALE3_RN_W
ar_mopt 48,01% (1,000) 49,63% (1,000) 52,21% (1,000)
ar_sopt 47,41% (1,000) 50,14% (1,000) 52,45% ( -)
arma_mopt 46,21% (1,000) 50,14% (1,000) 51,75% (1,000)
arma_sopt 45,65% (1,000) 50,61% (1,000) 52,45% ( -)
hlinsvm_mopt 47,95% (1,000) 50,03% (1,000) 53,15% (1,000)
hlinsvm_sopt 46,87% (1,000) 50,10% (1,000) 50,82% (1,000)
hsvmlin_mopt 47,20% (1,000) 49,86% (1,000) 51,75% (1,000)
hsvmlin_sopt 47,31% (1,000) 50,44% (1,000) 50,82% (1,000)
naivemean_mopt 48,22% (1,000) 50,51% (1,000) 52,45% ( -)
svm_mopt 48,20% (1,000) 50,00% (1,000) 51,52% (1,000)
svm_sopt 47,57% (1,000) 50,27% (1,000) 51,52% (1,000)
Nota: Entre parênteses estão os valores-p gerados pela aplicação do teste de
Pesaran e Timmermann (1992), corrigidos pelo método de Hochberg
(1988). Os hifens no lugar de alguns valores-p indicam os casos nos quais
o modelo produziu todas as saídas com o mesmo sinal, ocasionando uma
divisão por zero no cálculo da estatística.
Diante de tal resultado, não há indício que nenhum dos onze modelos tenha poder
preditivo superior ao acaso, com respeito ao sinal algébrico da taxa de retorno seguinte.
6.3.4 Análise de Resíduos
Os resíduos resultantes da aplicação de cada modelo em cada série foram avaliados quanto
à presença de correlação linear serial e com respeito à hipótese de formar uma sequência
de valores independentes e igualmente distribuídos.
Das sessenta e seis avaliações de correlação linear (resíduos de onze modelos em seis séries
temporais), três apresentaram resultado significativo, ou seja, os modelos correspondentes
não capturaram as relações lineares das séries específicas. São eles:
a) naivemean aplicado à PETR4_RN_D e VALE3_RN_D;
b) svm_sopt aplicado à PETR4_RN_D.
Capítulo 6. Resultados 99
Como o modelo naivemean faz apenas um ajuste da série à média incondicional, há
indícios de que nas séries de taxas de retorno normalizadas em amostragem diária há
correlação serial significativa e que, além do naivemean, o modelo svm_sopt não capturou
as correlações lineares na série PETR4_RN_D.
Considerando que três das sessenta e seis avaliações de correlação linear apresentaram
resultado significativo, as outras sessenta e três séries de resíduos foram avaliadas quanto
à hipótese de formar sequências iid e em nenhuma delas houve indícios contrários.
6.3.5 Síntese das Avaliações – Taxas de Retorno Normalizadas
O conjunto de melhores modelos variou dependendo dos critérios de avaliação. Pela precisão
das previsões, os lineares apresentaram resultados melhores que os demais. Quanto à
validade dos intervalos de previsão, os destaques foram o svm_sopt, hsvmlin_sopt e
hsvmlin_mopt. Já com relação à análise de resíduos, os modelos naivemean, svm_sopt e
hsvmlin_sopt foram desfavorecidos. Tem-se então que os modelos ar_sopt, ar_mopt e
hsvmlin_mopt estão entre os com melhor resultado4.
O aspecto de poder preditivo do sinal algébrico da taxa de retorno seguinte não trouxe
contribuições à avaliação nesse tipo de série, dado que não há indícios de superioridade de
qualquer dos modelos quando comparados ao acaso.
Vale destacar que os modelos baseados em máquinas de vetores de suporte são não
lineares5 e, portanto, caso as séries em questão apresentem apenas relações lineares, era
esperado que não houvesse superioridade desses em relação aos modelos lineares.
6.4 Séries de Taxa de Retorno Logarítmica
O principal objetivo deste trabalho é o estudo da aplicação de máquinas de vetores
de suporte na previsão de distribuição de probabilidade em séries de taxas de retorno
logarítmicas. Cada modelo em avaliação gera previsões da taxa de retorno futura e intervalos
de previsão com variadas coberturas esperadas. Através da Equação 5.4, os resultados da
aplicação dos modelos nas séries de volatilidade e taxa de retorno normalizada podem ser
combinados para realizar previsões para a taxa de retorno logarítmica.
Na construção dos modelos combinados, foi escolhido utilizar o ar_mopt na série de
taxas de retorno normalizadas, devido ao bom resultado geral alcançado, simplicidade do
modelo e capacidade de se adequar a eventuais mudanças de regime (sem prejuízo caso
elas não existam). Para as séries de volatilidade, todos os vinte e nove modelos foram
4 Os modelos arma_sopt e arma_mopt também foram bem, entretanto o atribuiu-se destaque ao ar_sopt
e ar_mopt pois estes estiveram entre os melhores, na avaliação de precisão, nas séries das duas empresas
em consideração.
5 No presente estudo, são utilizadas SVRs com kernel RBF. Para obter máquinas de vetores de suporte
lineares, basta trocar o kernel por um linear, entretanto essa possibilidade não fez parte do escopo do
estudo.
Capítulo 6. Resultados 100
utilizados. Além desses, são considerados também os mesmos onze modelos avaliados para
as séries de taxas de retorno normalizadas.
Nas subseções seguintes são apresentados os resultados da avaliação dos quarenta
modelos com relação à precisão das previsões, validade dos intervalos de previsão, acuidade
direcional e análise de resíduos.
6.4.1 Precisão das Previsões
Considerando a hipótese nula de que todos os vinte e três modelos, quando aplicados às seis
séries temporais, geram erros absolutos que seguem a mesma distribuição de probabilidade,
segundo o teste de Kruskal-Wallis, há evidências contrárias em apenas uma das séries com
amostragem intraday, conforme listado na Tabela 18.
Tabela 18 – Teste de Kruskal-Wallis – Taxa de
Retorno Logarítmicas
Série Kruskal-Wallis χ2 Valor p
PETR4_RL_W 4,512 1,00
VALE3_RL_W 0,915 1,00
PETR4_RL_D 1,452 1,00
VALE3_RL_D 4,572 1,00
PETR4_RL_I 60,104 0,02
VALE3_RL_I 25,178 0,96
Nota: Considerando que são quarenta modelos em avalia-
ção, a distribuição para o teste de Kruskal-Wallis é
χ2 com trinta e nove graus de liberdade, de modo
que sob a hipótese nula se espera k < 54,572.
As distribuições dos erros absolutos gerados pelos modelos estão ilustradas na Figura 19.
Não há diferença alguma que seja grande o suficiente para ser identificada por inspeção
visual, entretanto, diante da rejeição da hipótese de que erros absolutos seguem a mesma
distribuição, foi realizado o teste de Dunn, resumido na Tabela 19, entre todos os pares de
modelos a fim de identificar individualmente as diferenças.
Em geral não houve diferença entre os modelos, exceto pelo hlinsvm_sopt, que gerou
erros absolutos significantemente maiores que onze outros modelos. Dentre estes há apenas
dois que não tratam heteroscedasticidade condicional: ar_sopt e ar_mopt.
6.4.2 Validade dos Intervalos de Previsão
A avaliação dos intervalos de previsão gerados pelos modelos, quando aplicados às séries de
taxas de retorno logarítmicas, é feita nesta subseção da mesma forma que anteriormente
para as taxas de retornos normalizadas: cada um dos vinte e três modelos produziu seis
sequências de intervalos de previsão (três bilaterais e três unilaterais do tipo “maior que”,
com coberturas esperadas de 90%, 95% e 99%) para cada uma das seis séries, totalizando
Capítulo 6. Resultados 101
Tabela 19 – Desempenho Relativo – Taxa de Retorno Logarítmica
Intraday – PETR4
Modelo Vitórias Empates Derrotas
ar_mopt+svm_sopt 1 38 0
ar_mopt+svm_mopt 1 38 0
ar_mopt+vrandwalk 1 38 0
ar_mopt+vsvm_sopt 1 38 0
ar_mopt+vsvm_mopt 1 38 0
ar_mopt+vhlinsvm_sopt 1 38 0
ar_mopt+vhlinsvm_mopt 1 38 0
ar_mopt+vhsvmlin_sopt 1 38 0
ar_mopt+vhsvmlin_mopt 1 38 0
ar_sopt 1 38 0
ar_mopt 1 38 0
ar_mopt+naivemean 0 39 0
ar_mopt+naivesd 0 39 0
ar_mopt+randwalk 0 39 0
ar_mopt+ar_sopt 0 39 0
ar_mopt+ar_mopt 0 39 0
ar_mopt+arma_sopt 0 39 0
ar_mopt+arma_mopt 0 39 0
ar_mopt+arfima_mopt 0 39 0
ar_mopt+sarfima_mopt 0 39 0
ar_mopt+hlinsvm_sopt 0 39 0
ar_mopt+hlinsvm_mopt 0 39 0
ar_mopt+hsvmlin_sopt 0 39 0
ar_mopt+hsvmlin_mopt 0 39 0
ar_mopt+vnaivemean 0 39 0
ar_mopt+var_sopt 0 39 0
ar_mopt+var_mopt 0 39 0
ar_mopt+varma_sopt 0 39 0
ar_mopt+varma_mopt 0 39 0
ar_mopt+varfima_mopt 0 39 0
ar_mopt+vsarfima_mopt 0 39 0
naivemean 0 39 0
arma_sopt 0 39 0
arma_mopt 0 39 0
svm_sopt 0 39 0
svm_mopt 0 39 0
hlinsvm_mopt 0 39 0
hsvmlin_sopt 0 39 0
hsvmlin_mopt 0 39 0
hlinsvm_sopt 0 28 11
Capítulo 6. Resultados 102
Figura 19 – Distribuição dos erros absolutos: PETR4_RL_I
0,015
0,010
0,005
0,000
Fonte: Produzido pelo autor
oitocentos e vinte e oito sequências de intervalos de previsão (trinta e seis por modelo).
Tal como antes, uma sequência de intervalos de previsão é considerada “válida” se:
a) a cobertura realizada estiver de acordo com a esperada (considerando que a co-
bertura realizada é uma variável aleatória que segue uma distribuição binomial de
probabilidade);
b) não existir dependência serial na sequência de “acertos” e “erros” induzida quando
os intervalos de previsão são comparados aos valores observados na série temporal
de taxas de retornos logarítmicas.
Inicialmente são contabilizadas as sequências consideradas inválidas por apresentar
cobertura realizada significantemente diferente da esperada e então, dentre as que sobram,
as que apresentam dependência serial. Os resultados estão resumidos na Tabela 20.
Diferente das análises anteriores, nesta existem duas grandes famílias de modelos: os
vinte e nove compostos através da Equação 5.4, que consideram heteroscedasticidade
condicional, e os outros onze, que supõem implicitamente homoscedasticidade. É bastante
evidente que os modelos compostos geraram muito mais intervalos de previsão com
cobertura inválida do que os demais, entretanto a situação é invertida pelo critério de
dependência serial na sequência induzida de “erros” e “acertos”. De forma geral, os modelos
que consideram heteroscedasticidade condicional produziram menos intervalos inválidos,
sendo exceções ar_mopt+naivesd e ar_mopt+vnaivemean.
Os modelos compostos podem ser divididos de acordo com o tipo de volatilidade na qual
são baseados. A utilização da volatilidade bruta levou à produção de menos intervalos de
previsão inválidos em relação aos modelos similares que utilizam volatilidade logarítmica.
É importante ressaltar que uma possível causa para a produção de intervalos de
ar_mopt+arfima_mopt
ar_mopt+arma_mopt
ar_mopt+arma_sopt
ar_mopt+ar_mopt
ar_mopt+ar_sopt
ar_mopt+hlinsvm_mopt
ar_mopt+hlinsvm_sopt
ar_mopt+hsvmlin_mopt
ar_mopt+hsvmlin_sopt
ar_mopt+naivemean
ar_mopt+naivesd
ar_mopt+randwalk
ar_mopt+sarfima_mopt
ar_mopt+svm_mopt
ar_mopt+svm_sopt
ar_mopt+varfima_mopt
ar_mopt+varma_mopt
ar_mopt+varma_sopt
ar_mopt+var_mopt
ar_mopt+var_sopt
ar_mopt+vhlinsvm_mopt
ar_mopt+vhlinsvm_sopt
ar_mopt+vhsvmlin_mopt
ar_mopt+vhsvmlin_sopt
ar_mopt+vnaivemean
ar_mopt+vrandwalk
ar_mopt+vsarfima_mopt
ar_mopt+vsvm_mopt
ar_mopt+vsvm_sopt
arma_mopt
arma_sopt
ar_mopt
ar_sopt
hlinsvm_mopt
hlinsvm_sopt
hsvmlin_mopt
hsvmlin_sopt
naivemean
svm_mopt
svm_sopt
Capítulo 6. Resultados 103
Tabela 20 – Intervalos de Previsão Inválidos por Modelo – Taxa de
Retorno Logarítmica
Modelo Cobertura Inválida Dependência Serial Total
ar_mopt+vsarfima_mopt 9 1 10
ar_mopt+vsvm_mopt 10 0 10
ar_mopt+varma_mopt 10 1 11
ar_mopt+varfima_mopt 11 0 11
ar_mopt+vsvm_sopt 10 1 11
ar_mopt+vhlinsvm_mopt 11 0 11
ar_mopt+var_mopt 10 2 12
ar_mopt+varma_sopt 11 1 12
ar_mopt+vhlinsvm_sopt 12 0 12
ar_mopt+vhsvmlin_sopt 10 2 12
ar_mopt+vhsvmlin_mopt 11 1 12
ar_mopt+ar_mopt 12 1 13
ar_mopt+arma_mopt 12 1 13
ar_mopt+arfima_mopt 12 1 13
ar_mopt+sarfima_mopt 12 1 13
ar_mopt+hlinsvm_sopt 13 0 13
ar_mopt+var_sopt 9 4 13
ar_mopt+arma_sopt 13 1 14
ar_mopt+svm_sopt 14 0 14
ar_mopt+hlinsvm_mopt 13 1 14
ar_mopt+hsvmlin_sopt 13 1 14
ar_mopt+hsvmlin_mopt 13 1 14
ar_mopt+svm_mopt 13 2 15
ar_mopt+ar_sopt 13 3 16
ar_mopt+randwalk 17 1 18
ar_mopt+vrandwalk 17 1 18
ar_mopt+naivemean 20 6 26
ar_sopt 5 22 27
naivemean 6 22 28
ar_mopt 6 22 28
arma_sopt 6 22 28
svm_mopt 5 24 29
hlinsvm_sopt 4 25 29
ar_mopt+naivesd 12 18 30
arma_mopt 7 23 30
svm_sopt 5 25 30
ar_mopt+vnaivemean 12 19 31
hlinsvm_mopt 5 26 31
hsvmlin_sopt 7 24 31
hsvmlin_mopt 6 25 31
Nota: Cada modelo produziu 36 sequências de intervalos de previsão, sendo 6 para
cada uma das 6 séries, variando a cobertura esperada.
Capítulo 6. Resultados 104
previsão com cobertura aquém do esperado é o fato de a Equação 5.4 utilizar apenas o
valor esperado da volatilidade futura, desprezando a incerteza associada.
Do total de intervalos inválidos observados, quatrocentos e dezessete possuem cober-
tura realizada significantemente menor que a esperada. O quantitativo destes casos está
discriminado por tipo e cobertura esperada na Tabela 21. Observa-se que há mais interva-
los inválidos tanto para coberturas esperadas maiores quanto para intervalos bilaterais
em relação aos unilaterais. Como os intervalos de previsão são construídos com base na
distribuição empírica dos resíduos na janela de treinamento, há duas causas prováveis para
este fenômeno: superajuste no treinamento ou tamanho inadequado de janela.
Tabela 21 – Intervalos de Previsão: Cober-
tura Realizada Aquém da Es-
perada – Taxa de Retorno Lo-
garítmica
“Maior que” Bilaterais
Cobertura Inválidos Cobertura Inválidos
90% 30 90% 56
95% 58 95% 82
99% 80 99% 111
Caso haja super ajuste na etapa de treinamento, apesar da utilização de validação
cruzada para os modelos de inteligência artificial e critérios de informação para os estocás-
ticos paramétricos, os resíduos observados tendem a ter variância menor do que a real,
levando à produção de intervalos mais estreitos do que deveriam ser.
Por outro lado, a estimativa correta dos extremos da distribuição com base em dados
empíricos depende da disponibilidade de uma amostra grande: quanto mais extrema
a cobertura esperada, maior deve ser a amostra. Portanto, o tamanho da janela de
treinamento pode ter sido um fator limitante na produção de intervalos de cobertura com
a largura correta.
A dificuldade maior nos intervalos bilaterais pode ser mapeada diretamente para a
modelagem dos extremos. Por exemplo, a produção de um intervalo de previsão bilateral
com cobertura esperada de 90% requer estimar os 5% menores e os 5% maiores, enquanto
o unilateral “maior que” de 90% depende de estimar os 10% menores, ou seja, o ponto
necessário no segundo caso é menos extremo que no primeiro.
6.4.3 Acuidade Direcional
Nas séries de taxas de retorno logarítmicas, tanto o teste PT de Pesaran e Timmermann
(1992) quanto o AG de Anatolyev e Gerko (2005) se aplicam: o primeiro pode atestar a
capacidade do modelo em prever se o preço futuro será maior ou menor que o atual, e o
segundo a rentabilidade obtida a mais em relação a um emissor aleatório de ordens de
compra e venda.
Capítulo 6. Resultados 105
Ao todo são duzentos e quarenta avaliações para cada teste, dado que cada um dos
quarenta modelos é aplicado a cada uma das seis séries. Do total, apenas cinco resultados
para o teste PT foram significantes e quarenta e dois para o AG, entretanto, em ambos os
casos, após o ajuste dos valores p através do método de Hochberg, não houve qualquer
indício de poder de previsão do sinal algébrico seguinte ou de superioridade na rentabilidade
em relação a um emissor aleatório, conforme pode ser constatado nas Tabelas 22 e 23.
Tabela 22 – Acuidade direcional – Taxas de Retorno Logarítmicas – PETR4
Modelo PETR4_RL_I PETR4_RL_D PETR4_RL_W
ar_mopt+ar_mopt 47,14% (1,0; 0,977) 51,52% (1,0; 0,977) 53,15% ( -; -)
ar_mopt+ar_sopt 47,14% (1,0; 0,977) 51,52% (1,0; 0,977) 53,15% ( -; -)
ar_mopt+arfima_mopt 47,14% (1,0; 0,977) 51,52% (1,0; 0,977) 53,15% ( -; -)
ar_mopt+arma_mopt 47,14% (1,0; 0,977) 51,52% (1,0; 0,977) 53,15% ( -; -)
ar_mopt+arma_sopt 47,14% (1,0; 0,977) 51,52% (1,0; 0,977) 53,15% ( -; -)
ar_mopt+hlinsvm_mopt 47,14% (1,0; 0,977) 51,52% (1,0; 0,977) 53,15% ( -; -)
ar_mopt+hlinsvm_sopt 47,14% (1,0; 0,977) 51,52% (1,0; 0,977) 53,15% ( -; -)
ar_mopt+hsvmlin_mopt 47,14% (1,0; 0,977) 51,52% (1,0; 0,977) 53,15% ( -; -)
ar_mopt+hsvmlin_sopt 47,14% (1,0; 0,977) 51,52% (1,0; 0,977) 53,15% ( -; -)
ar_mopt+naivemean 47,14% (1,0; 0,977) 51,52% (1,0; 0,977) 53,15% ( -; -)
ar_mopt+naivesd 47,14% (1,0; 0,977) 51,52% (1,0; 0,977) 53,15% ( -; -)
ar_mopt+randwalk 47,14% (1,0; 0,977) 51,52% (1,0; 0,977) 53,15% ( -; -)
ar_mopt+sarfima_mopt 47,14% (1,0; 0,977) 51,52% (1,0; 0,977) 53,15% ( -; -)
ar_mopt+svm_mopt 47,14% (1,0; 0,977) 51,52% (1,0; 0,977) 53,15% ( -; -)
ar_mopt+svm_sopt 47,14% (1,0; 0,977) 51,52% (1,0; 0,977) 53,15% ( -; -)
ar_mopt+var_mopt 47,15% (1,0; 0,977) 51,52% (1,0; 0,977) 53,15% ( -; -)
ar_mopt+var_sopt 47,14% (1,0; 0,977) 51,52% (1,0; 0,977) 53,15% ( -; -)
ar_mopt+varfima_mopt 47,14% (1,0; 0,977) 51,52% (1,0; 0,977) 53,15% ( -; -)
ar_mopt+varma_mopt 47,15% (1,0; 0,977) 51,52% (1,0; 0,977) 53,15% ( -; -)
ar_mopt+varma_sopt 47,15% (1,0; 0,977) 51,52% (1,0; 0,977) 53,15% ( -; -)
ar_mopt+vhlinsvm_mopt 47,13% (1,0; 0,977) 51,52% (1,0; 0,977) 53,15% ( -; -)
ar_mopt+vhlinsvm_sopt 47,15% (1,0; 0,977) 51,52% (1,0; 0,977) 53,15% ( -; -)
ar_mopt+vhsvmlin_mopt 47,15% (1,0; 0,977) 51,52% (1,0; 0,977) 53,15% ( -; -)
ar_mopt+vhsvmlin_sopt 47,14% (1,0; 0,977) 51,52% (1,0; 0,977) 53,15% ( -; -)
ar_mopt+vnaivemean 47,14% (1,0; 0,977) 51,52% (1,0; 0,977) 53,15% ( -; -)
ar_mopt+vrandwalk 47,14% (1,0; 0,977) 51,52% (1,0; 0,977) 53,15% ( -; -)
ar_mopt+vsarfima_mopt 47,15% (1,0; 0,977) 51,52% (1,0; 0,977) 53,15% ( -; -)
ar_mopt+vsvm_mopt 47,14% (1,0; 0,977) 51,52% (1,0; 0,977) 53,15% ( -; -)
ar_mopt+vsvm_sopt 47,14% (1,0; 0,977) 51,52% (1,0; 0,977) 53,15% ( -; -)
ar_mopt 47,12% (1,0; 0,977) 52,26% (1,0; 0,977) 53,15% (1,0; 0,977)
ar_sopt 47,08% (1,0; 0,977) 52,26% (1,0; 0,977) 50,82% (1,0; 0,977)
arma_mopt 46,77% (1,0; 0,977) 51,45% (1,0; 0,977) 49,18% (1,0; 0,977)
arma_sopt 46,28% (1,0; 0,977) 52,26% (1,0; 0,977) 50,58% (1,0; 0,977)
hlinsvm_mopt 47,05% (1,0; 0,977) 51,89% (1,0; 0,271) 50,12% (1,0; 0,977)
hlinsvm_sopt 46,63% (1,0; 0,977) 51,25% (1,0; 0,977) 44,76% (1,0; 0,977)
hsvmlin_mopt 47,54% (1,0; 0,977) 51,08% (1,0; 0,977) 51,52% (1,0; 0,977)
hsvmlin_sopt 47,31% (1,0; 0,977) 51,42% (1,0; 0,977) 51,98% (1,0; 0,977)
naivemean_mopt 47,16% (1,0; 0,977) 51,01% (1,0; 0,977) 53,15% ( -; -)
svm_mopt 46,93% (1,0; 0,977) 50,07% (1,0; 0,977) 55,71% (1,0; 0,977)
svm_sopt 47,29% (1,0; 0,977) 51,08% (1,0; 0,977) 52,21% (1,0; 0,977)
Nota: Entre parênteses estão os valores-p gerados pela aplicação do teste de Pesaran e Timmermann
(1992) e Anatolyev e Gerko (2005) respectivamente, corrigidos pelo método de Hochberg (1988).
Os hifens no lugar de alguns valores-p indicam os casos nos quais o modelo produziu todas as
saídas com o mesmo sinal, ocasionando uma divisão por zero no cálculo das estatísticas.
Capítulo 6. Resultados 106
Tabela 23 – Acuidade direcional – Taxas de Retorno Logarítmicas – VALE3
Modelo VALE3_RL_I VALE3_RL_D VALE3_RL_W
ar_mopt+ar_mopt 47,57% (1,0; 0,977) 49,70% (1,0; 0,977) 52,21% (1,0; 0,977)
ar_mopt+ar_sopt 47,57% (1,0; 0,977) 49,70% (1,0; 0,977) 52,21% (1,0; 0,977)
ar_mopt+arfima_mopt 47,57% (1,0; 0,977) 49,70% (1,0; 0,977) 52,21% (1,0; 0,977)
ar_mopt+arma_mopt 47,57% (1,0; 0,977) 49,70% (1,0; 0,977) 52,21% (1,0; 0,977)
ar_mopt+arma_sopt 47,57% (1,0; 0,977) 49,70% (1,0; 0,977) 52,21% (1,0; 0,977)
ar_mopt+hlinsvm_mopt 47,57% (1,0; 0,977) 49,70% (1,0; 0,977) 52,21% (1,0; 0,977)
ar_mopt+hlinsvm_sopt 47,57% (1,0; 0,977) 49,70% (1,0; 0,977) 52,21% (1,0; 0,977)
ar_mopt+hsvmlin_mopt 47,57% (1,0; 0,977) 49,70% (1,0; 0,977) 52,21% (1,0; 0,977)
ar_mopt+hsvmlin_sopt 47,57% (1,0; 0,977) 49,70% (1,0; 0,977) 52,21% (1,0; 0,977)
ar_mopt+naivemean 47,57% (1,0; 0,977) 49,70% (1,0; 0,977) 52,21% (1,0; 0,977)
ar_mopt+naivesd 47,57% (1,0; 0,977) 49,70% (1,0; 0,977) 52,21% (1,0; 0,977)
ar_mopt+randwalk 47,57% (1,0; 0,977) 49,70% (1,0; 0,977) 52,21% (1,0; 0,977)
ar_mopt+sarfima_mopt 47,57% (1,0; 0,977) 49,70% (1,0; 0,977) 52,21% (1,0; 0,977)
ar_mopt+svm_mopt 47,57% (1,0; 0,977) 49,70% (1,0; 0,977) 52,21% (1,0; 0,977)
ar_mopt+svm_sopt 47,57% (1,0; 0,977) 49,70% (1,0; 0,977) 52,21% (1,0; 0,977)
ar_mopt+var_mopt 47,58% (1,0; 0,977) 49,70% (1,0; 0,977) 52,21% (1,0; 0,977)
ar_mopt+var_sopt 47,58% (1,0; 0,977) 49,70% (1,0; 0,977) 52,21% (1,0; 0,977)
ar_mopt+varfima_mopt 47,57% (1,0; 0,977) 49,70% (1,0; 0,977) 52,21% (1,0; 0,977)
ar_mopt+varma_mopt 47,57% (1,0; 0,977) 49,70% (1,0; 0,977) 52,21% (1,0; 0,977)
ar_mopt+varma_sopt 47,57% (1,0; 0,977) 49,70% (1,0; 0,977) 52,21% (1,0; 0,977)
ar_mopt+vhlinsvm_mopt 47,58% (1,0; 0,977) 49,70% (1,0; 0,977) 52,21% (1,0; 0,977)
ar_mopt+vhlinsvm_sopt 47,58% (1,0; 0,977) 49,70% (1,0; 0,977) 52,21% (1,0; 0,977)
ar_mopt+vhsvmlin_mopt 47,57% (1,0; 0,977) 49,70% (1,0; 0,977) 52,21% (1,0; 0,977)
ar_mopt+vhsvmlin_sopt 47,57% (1,0; 0,977) 49,70% (1,0; 0,977) 52,21% (1,0; 0,977)
ar_mopt+vnaivemean 47,57% (1,0; 0,977) 49,70% (1,0; 0,977) 52,21% (1,0; 0,977)
ar_mopt+vrandwalk 47,57% (1,0; 0,977) 49,70% (1,0; 0,977) 52,21% (1,0; 0,977)
ar_mopt+vsarfima_mopt 47,58% (1,0; 0,977) 49,70% (1,0; 0,977) 52,21% (1,0; 0,977)
ar_mopt+vsvm_mopt 47,57% (1,0; 0,977) 49,70% (1,0; 0,977) 52,21% (1,0; 0,977)
ar_mopt+vsvm_sopt 47,57% (1,0; 0,977) 49,70% (1,0; 0,977) 52,21% (1,0; 0,977)
ar_mopt 48,17% (1,0; 0,977) 50,17% (1,0; 0,977) 51,98% (1,0; 0,977)
ar_sopt 49,09% (1,0; 0,977) 49,36% (1,0; 0,977) 51,52% (1,0; 0,977)
arma_mopt 48,64% (1,0; 0,977) 51,18% (1,0; 0,977) 51,52% (1,0; 0,977)
arma_sopt 48,58% (1,0; 0,977) 49,83% (1,0; 0,977) 51,52% (1,0; 0,977)
hlinsvm_mopt 48,40% (1,0; 0,977) 50,68% (1,0; 0,977) 50,58% (1,0; 0,977)
hlinsvm_sopt 48,09% (1,0; 0,977) 49,83% (1,0; 0,977) 53,61% (1,0; 0,977)
hsvmlin_mopt 48,41% (1,0; 0,977) 50,24% (1,0; 0,977) 53,85% (1,0; 0,977)
hsvmlin_sopt 48,02% (1,0; 0,977) 51,01% (1,0; 0,977) 51,28% (1,0; 0,977)
naivemean_mopt 47,48% (1,0; 0,977) 49,70% (1,0; 0,977) 52,45% ( -; -)
svm_mopt 47,67% (1,0; 0,977) 48,88% (1,0; 0,977) 53,85% (1,0; 0,977)
svm_sopt 46,65% (1,0; 0,977) 49,59% (1,0; 0,977) 53,85% (1,0; 0,977)
Nota: Entre parênteses estão os valores-p gerados pela aplicação do teste de Pesaran e Timmermann
(1992) e Anatolyev e Gerko (2005) respectivamente, corrigidos pelo método de Hochberg (1988).
Os hifens no lugar de alguns valores-p indicam os casos nos quais o modelo produziu todas as
saídas com o mesmo sinal, ocasionando uma divisão por zero no cálculo das estatísticas.
6.4.4 Análise de Resíduos
Através da análise de resíduos é possível verificar se as características presentes nas séries
temporais são capturadas adequadamente pelos modelos. A definição do que vem a ser
um “resíduo” depende do modelo: tipicamente, pela formulação do modelo se identificada
Capítulo 6. Resultados 107
o trecho formado por uma sequência de valores independentes e igualmente distribuídos.
Para os onze modelos que supõem implicitamente homoscedasticidade, os resíduos são
simplesmente as diferenças entre os valores previsto e observado. Já para os doze compostos
através da Equação 5.4, pode-se obter os resíduos rearrumando os termos:
= rt − E[st|Ωt−1]E[σt|Ψt−1]ξt
E[σt|Ψ ]
(6.1)
t−1
Após formar as duzentas e quarenta sequências de resíduos (uma para cada um dos
quarenta modelos aplicados à cada uma das seis séries de taxas de retorno logarítmicas), é
realizado o teste de Ljung-Box a fim de evidenciar possíveis correlações seriais. Para as
sequências sem correlação linear evidenciada, é aplicado novamente o teste de Ljung-Box,
mas desta vez aos valores absolutos dos resíduos, com intuito de identificar a presença
de heteroscedasticidade condicional. Às sequências restantes é aplicado o teste BDS para
verificar se há algum outro tipo de violação à hipótese da sequência ser formada por
resíduos independentes e igualmente distribuídos.
Conforme listado na Tabela 24, apenas o modelo composto ar_mopt+var_mopt foi
capaz de capturar adequadamente as relações em todas as séries, produzindo resíduos
independentes e igualmente distribuídos.
Chama atenção o fato de que nenhum dos modelos (lineares, não lineares, híbridos
ou os compostos ar_mopt+naivesd6) com suposição implícita de homoscedasticidade foi
capaz de capturar adequadamente as características de qualquer uma das séries, o que é
evidenciado pela presença de correlações lineares nos resíduos ou em seus valores absolutos.
Além destes, os modelos ar_mopt+naivemean e ar_mopt+vnaivemean também não foram
capazes de capturar as relações em qualquer uma das séries.
6.4.5 Síntese das Avaliações – Taxas de Retorno Logarítmicas
Pelo critério de precisão das previsões, tem-se que alguns modelos compostos e lineares
se destacam positivamente em relação ao híbrido hlinsvm_sopt, enquanto os demais
não apresentam vitórias nem derrotas. Observa-se que, por este critério, os modelos que
consideram heteroscedasticidade condicional não sofreram derrotas.
A avaliação de validade dos intervalos de previsão revela um ponto fraco para os
modelos compostos com relação à cobertura realizada quando comparada à esperada, mas
ao mesmo tempo indica que os intervalos de previsão gerados cometem “erros” de forma
aleatória, o que é uma característica desejada na aplicação prática e é também responsável
pela superioridade de forma geral dos modelos compostos sobre os que supõem homosce-
dasticidade. Merece investigação posterior a possibilidade de incrementar a Equação 5.4
para levar em conta a incerteza na estimativa de volatilidade: tal incremento pode fazer
6 Este modelo fornece como estimativa para a volatilidade seguinte o desvio padrão das taxas de retorno
anteriores, que por sua vez é calculado com a suposição implícita de que há homoscedasticidade.
Capítulo 6. Resultados 108
Tabela 24 – Resíduos Inadequados Produzidos por Modelo – Taxas de Retorno
Logarítmica
Modelo Correlação Linear Heteroscedasticidade Não IID Total
ar_mopt+var_mopt 0 0 0 0
ar_mopt+svm_mopt 1 0 0 1
ar_mopt+varma_sopt 0 1 0 1
ar_mopt+varma_mopt 0 1 0 1
ar_mopt+ar_sopt 0 2 0 2
ar_mopt+ar_mopt 0 2 0 2
ar_mopt+arma_sopt 0 2 0 2
ar_mopt+arma_mopt 0 2 0 2
ar_mopt+arfima_mopt 0 2 0 2
ar_mopt+sarfima_mopt 0 2 0 2
ar_mopt+hlinsvm_sopt 0 2 0 2
ar_mopt+hlinsvm_mopt 0 2 0 2
ar_mopt+hsvmlin_sopt 0 2 0 2
ar_mopt+hsvmlin_mopt 0 2 0 2
ar_mopt+var_sopt 2 0 0 2
ar_mopt+varfima_mopt 1 0 1 2
ar_mopt+vsarfima_mopt 1 0 1 2
ar_mopt+vsvm_mopt 1 1 0 2
ar_mopt+vhlinsvm_sopt 1 0 1 2
ar_mopt+vhlinsvm_mopt 2 0 0 2
ar_mopt+vhsvmlin_sopt 1 1 0 2
ar_mopt+vhsvmlin_mopt 1 1 0 2
ar_mopt+randwalk 0 2 1 3
ar_mopt+svm_sopt 0 3 0 3
ar_mopt+vrandwalk 2 1 0 3
ar_mopt+vsvm_sopt 1 2 0 3
ar_mopt+naivemean 3 3 0 6
ar_mopt+naivesd 2 4 0 6
ar_mopt+vnaivemean 3 3 0 6
naivemean 4 2 0 6
ar_sopt 4 2 0 6
ar_mopt 4 2 0 6
arma_sopt 4 2 0 6
arma_mopt 2 4 0 6
svm_sopt 4 2 0 6
svm_mopt 2 4 0 6
hlinsvm_sopt 2 4 0 6
hlinsvm_mopt 2 4 0 6
hsvmlin_sopt 2 4 0 6
hsvmlin_mopt 2 4 0 6
Capítulo 6. Resultados 109
com que os modelos compostos produzam intervalos de previsão com cobertura realizada
mais próxima da esperada.
Tal como para as séries de taxas de retornos normalizadas, a avaliação de acuidade
direcional não revela diferenças entre os modelos ou superioridade dos mesmos em relação
a um preditor aleatório.
Na sequência, a análise dos resíduos indica claramente a superioridade dos modelos
compostos sobre os demais, com destaque para o ar_mopt+var_mopt, que capturaram
completamente todas as relações em todas as séries.
Cabe salientar que, para modelos compostos, a qualidade das previsões de volatilidade
possui impacto muito forte na avaliação da validade dos intervalos de previsão e análise
de resíduos. Através dos resultados alcançados, não foi possível identificar uma relação
direta entre os modelos de volatilidade mais precisos e os que, quando parte de um modelo
composto, levam a resultados melhores com respeito aos dois critério mencionados. Dentre
os fatores que podem gerar tal situação estão:
a) as séries de volatilidades são compostas por estimativas, de modo que previsões
precisas das estimativas não necessariamente são previsões precisas da volatilidade
de fato, que não é observável diretamente;
b) as características dos resíduos produzidos nas séries de volatilidade, apesar de
não considerados neste estudo, podem ter influência significativa, especialmente na
produção dos intervalos de previsão: caso sejam consideradas na Equação 5.4, podem
reduzir o número de intervalos de previsão com cobertura realizada significantemente
aquém da esperada.
6.5 Análise do Desempenho das Máquinas de Vetores de Suporte
Diante dos experimentos realizados e resultados obtidos, cabem algumas considerações
gerais sobre a aplicação de máquinas de vetores de suporte na previsão da séries temporais
de taxas de retorno de ações. Nas considerações iniciais do presente trabalho, foram feitas
as seguintes perguntas:
a) com 95% de chance, qual a menor taxa de retorno possível para amanhã?
b) qual o valor mais provável para a taxa de retorno da semana que vem?
c) a aplicação de máquinas de vetores de suporte melhora os resultados alcançados
com modelos tradicionais de séries temporais estocásticas?
A resposta para a primeira depende da construção de intervalos de previsão válidos, ou
seja, com cobertura realizada compatível com a esperada e tal que a observação de valores
fora do intervalo aconteça de forma independente das observações anteriores. Dentre os
modelos que geraram menos intervalos de previsão inválidos, está um construído com uma
Capítulo 6. Resultados 110
SVM aplicada à série de volatilidades brutas. Entretanto, resultado similar foi alcançado
com um modelo linear que considera correlações de longo prazo.
Quanto à segunda pergunta, há evidências de que os modelos lineares são iguais ou
superiores às máquinas de vetores de suporte, conforme discutido nas subseções 6.3.1 e 6.4.1.
Finalmente, com relação à terceira pergunta, observa-se que a aplicação de máquinas
de vetores de suporte pode levar a resultados muito bons, mas similares aos alcançados por
modelos tradicionais com respeito à previsão da distribuição de probabilidade de taxas de
retorno de ações. No caso de previsões de volatilidade, as mais precisas foram alcançadas
por modelos híbridos, ou seja, a aplicação de máquinas de vetores de suporte melhorou
os resultados nesse caso, entretanto surpreendentemente os modelos mais precisos de
volatilidade, quando combinados com as taxas de retorno normalizada não levaram aos
melhores resultados para a taxa de retorno logarítmica.
6.5.1 Séries Temporais e Aproximação de Funções
Durante a etapa de avaliação dos resultados obtidos nesta pesquisa, foi realizada uma
análise quanto à adequação de técnicas de inteligência artificial, em especial das máquinas
de vetores de suporte, para o problema de previsão de séries temporais. Desde o trabalho
de White (1988), foram realizados diversos estudos cujo objeto é a aplicação de técnicas de
inteligência artificial na previsão de séries temporais financeiras. Tipicamente, a evolução
da série é tratada como uma função:
xt = f(xt−1, xt−2, . . . , xt−i) + ϵt (6.2)
Logo, o problema de previsão pode ser resolvido através da criação de um estima-
dor f̂ , etapa na qual são aplicadas as técnicas de inteligência artificial. É comum ainda
incluir variáveis exógenas na formulação do problema, tais como indicadores técnicos,
fundamentalistas, taxas de juros, inflação, câmbio, preços de commodities, etc.
Se a função f na Equação 6.2 for linear, então a série temporal descrita é puramente
auto regressiva (Equação 3.11). Assim, a aplicação de máquinas de vetores de suporte ou
redes neurais artificiais na obtenção do estimador f̂ pode ser entendida como uma extensão
não linear do modelo AR(p)7: o valor esperado do próximo ponto na série temporal é
função dos valores dos pontos anteriores. Ou seja, cada ponto na série temporal segue uma
distribuição de probabilidade de modo que a média da distribuição associada a um ponto
depende dos valores observados em pontos anteriores.
No caso de séries temporais nas quais a média da distribuição associada a um ponto
dependa das médias (e não dos valores) anteriores, a extensão não linear do modelo auto
regressivo pode não ser uma boa aproximação. A série não linear determinística usada
7 White (1988) fez essa observação para redes neurais artificiais, que também se aplica para máquinas
de vetores de suporte e, de forma geral, para qualquer modelo não paramétrico para aproximação de
funções não lineares.
Capítulo 6. Resultados 111
como exemplo na subseção 3.4.2 pode ser tomada como base para ilustrar tais situações8:
seja {sn, n = 1, . . . , 1000} baseada na evolução de xn, com x0 = 0,1 e x 2n+1 = 1 − 2xn,
sendo sn = arccos(−xn)/π. É evidente que sn é livre de ruído, depende apenas de sn−1
e, conforme demonstrado anteriormente, não apresenta correlações lineares. Além de sn,
considera-se na ilustração mais seis séries, compostas pela soma de sn com ηn, aleatória
com distribuição uniforme e média zero. Nessas seis séries, ηn foi gerada de modo que
a relação sinal ruído (SNR) da soma fosse respectivamente: 10:1, 4:1, 2:1, 1:1, 1:2 e 1:4.
Entende-se, nesse contexto, a relação sinal ruído como a razão entre as variâncias dos
componentes determinístico e aleatório: SNR = V ar(sn)( ) . E, por fim, considera-se uma sérieV ar ηn
puramente aleatória, também com distribuição uniforme. Convenciona-se a relação sinal
ruído de sn como 1:0 e da última série, puramente aleatória, como 0:1. Após geradas, todas
as oito séries foram normalizadas para variância uniforme9. Nas séries mistas tem-se então
que cada ponto possui uma distribuição de probabilidade cuja média (que é o valor livre
de ruído correspondente) depende da média da distribuição associada ao ponto anterior.
Para cada uma das séries, foi construída uma máquina de vetor de suporte usando
método similar à construção do modelo svm_sopt10, ou seja, kernel RBF e valores dos
parâmetros C, ν e γ ajustados por arrefecimento simulado nos primeiros quinhentos valores
da série. Fixados os parâmetros, foram realizadas previsões para os quinhentos valores
seguintes usando o mecanismo de janelas deslizantes, de modo que cada previsão foi
realizada como base no treinamento da ν-SVR nos quinhentos valores anteriores usando
os parâmetros encontrados na etapa inicial. Na Tabela 25 estão listados, para cada série
(identificada por sua relação sinal ruído), o valor teórico máximo R2 V ar(ηn)max = 1− V ar(sn+ηn)
da fração da variância da série que pode ser capturada por um modelo e o valor R2SVM =
1− V ar(ϵn)( + ) alcançado pela máquina de vetor de suporte, sendo ϵn = xn− x̂n, xn = sn+ηV ar s η nn n
e x̂n a série de previsões realizadas.
Tabela 25 – R2max x R2SVM
SNR R2max R2SVM
1:0 1,0000 0,9969
10:1 0,9091 0,6458
4:1 0,8000 0,3495
2:1 0,6667 0,1316
1:1 0,5000 0,0285
1:2 0,3333 0,0085
1:4 0,2000 0,0015
0:1 0,0000 −0,0023
8 No exemplo original, a série possui 4096 pontos. A redução para 1000 diminui o tempo necessário
para a execução dos experimentos, sem acarretar em perdas para a ilustração em questão.
9 A normalização consiste em dividir cada valor pelo desvio padrão da série original. Tal transformação
preserva a relação sinal ruído.
10 Diferente do svm_sopt, para esta ilustração a entrada do modelo é apenas o valor anterior ao que se
deseja ser previsto, em vez de ser realizada uma busca da quantidade que leva aos melhores resultados.
Capítulo 6. Resultados 112
Observa-se que a ν-SVR alcançou um resultado muito bom para a série livre de ruído,
entretanto o desempenho cai drasticamente conforme aumenta o nível de ruído11: com
SNR 4:1, é capturada menos da metade da variância possível e com SNR 1:1, apesar do
componente determinístico representar metade da variância total, a máquina de vetor de
suporte não o captura, produzindo previsões praticamente tão efetivas quanto a média
dos valores anteriores.
A queda no poder de previsão com aumento da variância do ruído não acontece apenas
com máquinas de vetores de suporte, mas com qualquer método que trate a evolução
da série temporal como função: tomando xn como alguma das série mistas apresentadas
anteriormente, tem-se xn = f(xn−1), ou seja, sn+ηn = f(sn−1+ηn−1). Quando a variância
do ruído é pequena, sn + ηn ≃ sn, e assim a evolução da série temporal pode ser bem
aproximada por uma função. Entretanto, se a variância for grande o suficiente, podem
haver situações nas quais st1 e st2 sejam muito diferentes ao mesmo tempo em que ηt1
e ηt2 sejam tais que st1 + ηt1 = st2 + ηt2 . Logo, não é possível diferenciar f(st1 + ηt1) e
f(st2 + ηt2). Tais situações ficam cada vez mais frequentes com o aumento da variância
do ruído, levando à construção de estimadores f̂(x) que tendem cada vez mais à média
dos valores do conjunto de treinamento, conforme se observa no resultado da ilustração
apresentada.
A presença de ruído numa série temporal não linear não interfere apenas em modelos
de previsão que tratam a evolução da série como função, mas também pode camuflar o
componente determinístico perante testes estatísticos, levando à inexistência de evidências
suficientes para rejeitar a hipótese nula de que os dados são independentes e igualmente
distribuídos. Na Tabela 26 estão listados os resultados da aplicação do teste BDS aos
quinhentos últimos valores de cada uma das séries utilizadas anteriormente, que é a parte
para a qual as máquinas de vetor de suporte produziram previsões.
Para todas as séries, exceto a última, a média da distribuição de probabilidade associada
a cada ponto depende da média da distribuição associada ao ponto anterior, portanto
os valores não são independentes. Das sete séries nas quais há dependência, a partir da
relação sinal ruído 1:1, o teste BDS não indica rejeição da hipótese nula de que os pontos
são independentes e igualmente distribuídos.
O efeito da presença de ruído em uma série temporal não linear pode ser levado em
conta na interpretação de alguns resultados obtidos anteriormente, em especial quanto à
previsibilidade das séries de taxas de retorno normalizadas:
a) não houve evidências de modelos que gerassem previsões significantemente melhores
que o naivemean;
b) o teste de Ljung-Box não detectou dependências lineares nos resíduos do modelo
naivemean, exceto nas taxas com resolução diária;
11 O valor negativo de R2 na série puramente aleatória indica que as previsões realizadas introduziram
mais ruído ao que já existia.
Capítulo 6. Resultados 113
Tabela 26 – Teste BDS de independência por SNR
SNR ϵ m = 2 m = 3 m = 4 m = 5
1:0 1,0σ 81,47 (0,0000) 78,78 (0,0000) 83,21 (0,0000) 86,99 (0,0000)1,5σ 14,70 (0,0000) 11,75 (0,0000) 8,19 (0,0000) 6,64 (0,0000)
10:1 1,0σ 52,01 (0,0000) 53,72 (0,0000) 54,87 (0,0000) 57,01 (0,0000)1,5σ 11,21 (0,0000) 11,46 (0,0000) 10,46 (0,0000) 9,88 (0,0000)
4:1 1,0σ 24,36 (0,0000) 26,60 (0,0000) 25,76 (0,0000) 25,57 (0,0000)1,5σ 8,01 (0,0000) 9,21 (0,0000) 8,89 (0,0000) 8,75 (0,0000)
2:1 1,0σ 6,16 (0,0000) 6,99 (0,0000) 7,56 (0,0000) 7,58 (0,0000)1,5σ 5,09 (0,0000) 5,78 (0,0000) 5,87 (0,0000) 5,63 (0,0000)
1:1 1,0σ 2,31 (0,6493) 2,37 (0,5639) 2,17 (0,8629) 1,70 (0,9705)1,5σ 1,68 (0,9705) 1,73 (0,9705) 1,54 (0,9705) 1,47 (0,9705)
1:2 1,0σ -1,69 (0,9705) -1,21 (0,9705) -1,56 (0,9705) -1,58 (0,9705)1,5σ -2,29 (0,6589) -1,35 (0,9705) -1,37 (0,9705) -1,28 (0,9705)
1:4 1,0σ 0,35 (0,9705) 0,80 (0,9705) 0,47 (0,9705) 0,19 (0,9705)1,5σ 0,90 (0,9705) 0,99 (0,9705) 0,62 (0,9705) 0,33 (0,9705)
0:1 1,0σ -1,33 (0,9705) -1,62 (0,9705) -0,79 (0,9705) -0,97 (0,9705)1,5σ -0,11 (0,9705) -0,04 (0,9705) 0,40 (0,9705) 0,23 (0,9705)
Nota: O teste BDS toma como parâmetro um valor m para a dimensão na qual deve
ser realizado o teste, bem como um valor ϵ que determina se dois pontos são
vizinhos ou não. Estão listados, para cada combinação (m, ϵ), a estatística W
do teste e entre parêntese o valor-p, após a correção de Hochberg, aplicada a
fim de manter o nível de significância do teste como um todo.
c) o teste BDS não apontou evidências para rejeição da hipótese que os resíduos do
modelo naivemean formam uma sequência de valores independentes e igualmente
distribuídos.
Os resíduos do modelo naivemean possuem média nula, e nos demais aspectos são iguais
à série original. Pelas evidências apontadas, poderia-se concluir que as taxas de retorno
normalizadas são puramente aleatórias, e que o motivo para rejeição da hipótese de dados iid
nas taxas de retorno logarítmicas é apenas a presença de heteroscedasticidade condicional.
Porém, foi demonstrado que as evidências seriam as mesmas em séries compostas pela
soma de um componente determinístico não linear com outro de ruído. Assim, de posse
dessas evidências, não é possível afirmar que as séries de taxas de retorno normalizadas
são puramente aleatórias.
Já no caso das séries de volatilidade, a aplicação de máquinas de vetores de suporte aos
resíduos de modelos lineares melhoraram a precisão das previsões, ainda que discretamente.
Tal situação também é compatível com a de uma série não linear contaminada com
ruído aditivo, porém de menor magnitude do que seria necessário para se ter o resultado
observado nas séries de taxas de retorno normalizadas.
114
7 Considerações Finais
Séries temporais de taxas de retornos de ações frequentemente não são formadas por valores
independentes e igualmente distribuídos, ao mesmo tempo em que apresentam correlação
serial praticamente nula, indicando que eventuais dependências existentes são não lineares.
Tal situação é aparentemente bastante propícia para a aplicação de modelos baseados
em inteligência artificial, dada a capacidade dos mesmos de detectar automaticamente
relações a partir dos dados, mesmo as não lineares. Máquinas de vetores de suporte com
kernel RBF foram escolhidas para este estudo. Elas são equivalentes a redes neurais RBF,
com a vantagem de determinar a arquitetura (número de funções radiais e respectivos
centros) automaticamente com base no princípio da minimização de risco estrutural.
O estudo realizado teve intuito de verificar o desempenho das máquinas de vetores de
suporte, em relação a modelos estocásticos lineares, quando aplicadas na construção de
intervalos de previsão e estimativas de valor esperado de taxas de retorno de ações do
mercado brasileiro.
Os modelos em avaliação foram aplicados às séries de volatilidade, taxas de retorno
normalizadas e taxas de retorno logarítmicas. Os resultados nos dois primeiros tipos de
séries foram combinados para realizar previsões no terceiro tipo, de forma a tratar a
heteroscedasticidade condicional. Além disso, os modelos aplicados direta e somente ao
terceiro tipo de série assumem implicitamente que há homoscedasticidade nos dados. Os
resultados obtidos foram avaliados com relação à precisão das previsões, validade dos
intervalos de previsão, acuidade direcional e análise de resíduos.
Nas séries de volatilidade, as previsões mais precisas foram alcançadas por modelos
híbridos, formados por um componente linear e outro baseado em máquina de vetor de
suporte.
Com relação às séries de taxas de retorno normalizadas, as previsões dos modelos
lineares foram levemente mais precisas que os demais. Três dos modelos baseados em
máquinas de vetores de suporte produziram o menor número de intervalos de previsão
inválidos, mas de forma geral houve pouca diferença entre os modelos com relação a esse
aspecto e todos alcançaram bons resultados. A avaliação de resíduos gerou resultados
similares. Com respeito ao sinal algébrico das taxas, não houve evidência, por parte de
nenhum dos modelos, de poder preditivo superior a um preditor aleatório.
Nas séries de taxas de retorno logarítmicas, os critérios de precisão das previsões e
acuidade direcional não destacaram grandes diferenças entre os modelos. Já quanto à
validade dos intervalos de previsão, os modelos que tratam heteroscedasticidade condicional
se mostraram superiores aos que supõem homoscedasticidade, com destaque positivo para
um modelo composto que possui como componente para a volatilidade um modelo baseado
em máquinas de vetores de suporte. Entretanto, desempenho similar foi observado num
Capítulo 7. Considerações Finais 115
modelo composto com componente linear para volatilidade. Através da análise de resíduos,
fica reforçada a importância do tratamento adequado da heteroscedasticidade condicional.
7.1 Principais Contribuições
Com esta pesquisa, ficou evidente que há ganhos significativos decorrentes da aplicação de
máquinas de vetores de suporte no problema de previsão de séries temporais de volatilidade
do preço de ações, entretanto tal superioridade não implica na produção de menor número
de intervalos de previsão inválidos e nem na captura adequada de todas as relações presentes
nas séries de taxas de retorno de ações, de modo que o uso de máquinas de vetores de
suporte leva a resultados muito bons porém não superiores aos alcançados com modelos
lineares, com respeito à previsão da distribuição de probabilidade de taxas de retornos de
ações.
Os resultados obtidos indicam que a heteroscedasticidade condicional deve ser tratada
adequadamente. Uma forma é através da combinação de previsões realizadas separadamente
para séries de taxa de retorno normalizada e volatilidade. Não há evidências de vantagens
na aplicação de máquinas de vetores de suporte no primeiro tipo de série, situação que se
inverte na previsão de volatilidades quando aplicadas de forma combinada com modelos
lineares que tratam correlações tanto de curto quanto de longo prazos.
7.2 Limitações
Apesar dos bons resultados alcançados, há oportunidades de melhorias quanto aos intervalos
de previsão: vários apresentaram cobertura realizada aquém da esperada. Foi identificado
que uma possível causa para essa situação é a aproximação utilizada na combinação de
previsões da taxa de retorno normalizada com a de volatilidade, que desconsiderou a
incerteza na previsão desta última.
Além disso, conforme ilustrado com séries geradas artificialmente, a abordagem de
tratar a evolução de uma série temporal como função pode levar a resultados muito aquém
do possível se a série for não linear contaminada por ruído aditivo, ou que de alguma
forma sua dinâmica seja diferente do modelo puramente auto regressivo.
7.3 Trabalhos Futuros
Diante do aprendizado obtido com esta pesquisa e das limitações identificadas, propõe-se
como trabalhos futuros:
a) investigar o impacto de considerar a imprecisão na previsão de volatilidade para
formar intervalos de previsão para taxas de retorno correspondentes;
Capítulo 7. Considerações Finais 116
b) adequar o modelo de máquinas de vetores de suporte para séries temporais, a fim
de superar as possíveis limitações geradas pela presença de ruído;
c) investigar se há variação nos resultados causadas por mudanças no tamanho da
janela de ajuste/treinamento;
d) considerar variáveis exógenas, tais como inflação, taxas de juros, preços de commo-
dities e outras, nos modelos de previsão e avaliar se há ganhos significativos;
e) aplicar as técnicas desta pesquisa a outros tipos de séries financeiras, como preços
de títulos públicos.
117
Referências
ABRAHAM, A.; NATH, B.; MAHANTI, P. K. Hybrid intelligent systems for stock
market analysis. In: ALEXANDROV, V. et al. (Ed.). Computational Science - ICCS 2001.
[S.l.]: Springer Berlin Heidelberg, 2001, (Lecture Notes in Computer Science, v. 2074). p.
337–345. ISBN 978-3-540-42233-4.
ADRANGI, B. et al. Chaos in oil prices? evidence from futures markets. Energy
Economics, v. 23, n. 4, p. 405–425, 2001. ISSN 0140-9883.
AGRESTI, A. An introduction to categorical data analysis. Hoboken, NJ, USA:
Wiley-Interscience, 2007. ISBN 978-0-471-22618-5.
AKAIKE, H. A new look at the statistical model identification. IEEE Transactions on
Automatic Control, v. 19, n. 6, p. 716–723, dez. 1974. ISSN 0018-9286.
ANATOLYEV, S.; GERKO, A. A trading approach to testing for predictability. Journal
of Business & Economic Statistics, v. 23, n. 4, p. 455–461, 2005.
ATIYA, A.; TALAAT, N.; SHAHEEN, S. An efficient stock market forecasting model
using neural networks. In: Neural Networks,1997., International Conference on. [S.l.: s.n.],
1997. v. 4, p. 2112–2115.
BAO, Y. et al. Forecasting stock composite index by fuzzy support vector machines
regression. In: Proceedings of International Conference on Machine Learning and
Cybernetics. [S.l.: s.n.], 2005. v. 6, p. 3535–3540.
BLANK, S. C. “chaos” in futures markets? A nonlinear dynamical analysis. Journal of
Futures Markets, Wiley Subscription Services, Inc., A Wiley Company, v. 11, n. 6, p.
711–728, 1991. ISSN 1096-9934.
BM&F-BOVESPA.Manual de Definições e Procedimentos dos Índices da BM&FBOVESPA.
São Paulo, SP, 2014.
BOLLERSLEV, T. Generalized autoregressive conditional heteroskedasticity. Journal of
Econometrics, v. 31, n. 3, p. 307–327, 1986. ISSN 0304-4076.
BOSER, B. E.; GUYON, I. M.; VAPNIK, V. N. A training algorithm for optimal margin
classifiers. In: Proceedings of the Fifth Annual Workshop on Computational Learning
Theory. New York, NY, USA: ACM, 1992. (COLT ’92), p. 144–152. ISBN 0-89791-497-X.
BOX, G. E. P.; JENKINS, G. M.; REINSEL, G. C. Time Series Analysis: Forecasting and
Control. 4. ed. [S.l.]: John Wiley & Sons, 2008. 784 p. ISBN 978-0-470-27284-8.
BOX, G. E. P.; PIERCE, D. A. Distribution of residual autocorrelations in autoregressive-
integrated moving average time series models. Journal of the American Statistical
Association, v. 65, n. 332, p. 1509–1526, 1970.
BROCK, W. A.; SAYERS, C. L. Is the business cycle characterized by deterministic
chaos? Journal of Monetary Economics, v. 22, n. 1, p. 71–90, 1988. ISSN 0304-3932.
Referências 118
BROOCK, W. A. et al. A test for independence based on the correlation dimension.
Econometric Reviews, v. 15, n. 3, p. 197–235, 1996.
BROOMHEAD, D. S.; LOWE, D. Radial Basis Functions, Multi-Variable Functional
Interpolation and Adaptive Networks. London, United Kingdom, 1988.
BRYCE, R. M.; SPRAGUE, K. B. Revisiting detrended fluctuation analysis. Scientific
Reports 2, Macmillan Publishers Limited., v. 2, mar. 2012.
BURGES, C. C. A tutorial on support vector machines for pattern recognition. Data
Mining and Knowledge Discovery, Kluwer Academic Publishers, v. 2, n. 2, p. 121–167,
1998. ISSN 1384-5810.
CAO, L.; TAY, F. E. H. Financial forecasting using support vector machines. Neural
Computing & Applications, Springer-Verlag London Limited, v. 10, p. 184–192, 2001. ISSN
0941-0643.
CHEN, C.; LIU, L.-M. Joint estimation of model parameters and outlier effects in time
series. Journal of the American Statistical Association, v. 88, n. 421, p. 284–297, 1993.
CLOPPER, C. J.; PEARSON, E. S. The use of confidence or fiducial limits illustrated in
the case of the binomial. Biometrika, v. 26, n. 4, p. 404–413, 1934.
CORTES, C.; VAPNIK, V. Support-vector networks. Machine Learning, Kluwer Academic
Publishers, v. 20, n. 3, p. 273–297, 1995. ISSN 0885-6125.
CYBENKO, G. Approximation by superpositions of a sigmoidal function. Mathematics
of Control, Signals and Systems, Springer-Verlag, v. 2, n. 4, p. 303–314, 1989. ISSN
0932-4194.
DARBELLAY, G. A.; WUERTZ, D. The entropy as a tool for analysing statistical
dependences in financial time series. Physica A: Statistical Mechanics and its Applications,
v. 287, n. 3-4, p. 429–439, 2000. ISSN 0378-4371.
DECOSTER, G. P.; LABYS, W. C.; MITCHELL, D. W. Evidence of chaos in commodity
futures prices. Journal of Futures Markets, Wiley Subscription Services, Inc., A Wiley
Company, v. 12, n. 3, p. 291–305, 1992. ISSN 1096-9934.
DING, Z.; GRANGER, C. W. J.; ENGLE, R. F. A long memory property of stock market
returns and a new model. Journal of Empirical Finance, v. 1, n. 1, p. 83–106, 1993. ISSN
0927-5398.
DUAN, K.-B.; KEERTHI, S. S. Which is the best multiclass SVM method? an empirical
study. In: OZA, N. et al. (Ed.). Multiple Classifier Systems. [S.l.]: Springer Berlin
Heidelberg, 2005, (Lecture Notes in Computer Science, v. 3541). p. 278–285. ISBN
978-3-540-26306-7.
DUNN, O. J. Multiple comparisons using rank sums. Technometrics, v. 6, n. 3, p. 241–252,
1964.
ELMAN, J. L. Finding structure in time. Cognitive Science, Lawrence Erlbaum Associates,
Inc., v. 14, n. 2, p. 179–211, 1990. ISSN 1551-6709.
Referências 119
ENGLE, R. F. Autoregressive conditional heteroscedasticity with estimates of the variance
of united kingdom inflation. Econometrica, The Econometric Society, v. 50, n. 4, p.
987–1007, 1982.
FAHLMAN, S. E. An Empirical Study of Learning Speed in Back-Propagation Networks.
Pittsburgh, Pennsylvania, USA, 1988.
FAMA, E. F. Efficient capital markets: A review of theory and empirical work. The
Journal of Finance, Blackwell Publishing Ltd, v. 25, n. 2, p. 383–417, 1970. ISSN
1540-6261.
FAMA, E. F. Efficient capital markets: II. The Journal of Finance, Blackwell Publishing
Ltd, v. 46, n. 5, p. 1575–1617, 1991. ISSN 1540-6261.
FANG, H.; LAI, K. S.; LAI, M. Fractal structure in currency futures price dynamics.
Journal of Futures Markets, Wiley Subscription Services, Inc., A Wiley Company, v. 14,
n. 2, p. 169–181, 1994. ISSN 1096-9934.
FRANK, M.; STENGOS, T. Measuring the strangeness of gold and silver rates of return.
The Review of Economic Studies, v. 56, n. 4, p. 553–567, 1989.
FUNAHASHI, K. On the approximate realization of continuous mappings by neural
networks. Neural Networks, v. 2, n. 3, p. 183–192, 1989. ISSN 0893-6080.
GRANGER, C. W.; MAASOUMI, E.; RACINE, J. A dependence metric for possibly
nonlinear processes. Journal of Time Series Analysis, Blackwell Publishing Ltd, v. 25,
n. 5, p. 649–669, 2004. ISSN 1467-9892.
GRUDNITSKI, G.; OSBURN, L. Forecasting S&P and gold futures prices: An application
of neural networks. Journal of Futures Markets, Wiley Subscription Services, Inc., A
Wiley Company, v. 13, n. 6, p. 631–643, 1993. ISSN 1096-9934.
HAMMER, B.; GERSMANN, K. A note on the universal approximation capability of
support vector machines. Neural Processing Letters, Kluwer Academic Publishers, v. 17,
n. 1, p. 43–53, 2003. ISSN 1370-4621.
HARTMAN, E. J.; KEELER, J. D.; KOWALSKI, J. M. Layered neural networks with
gaussian hidden units as universal approximations. Neural Computation, M.I.T. Press,
Cambridge, Massachusetts, USA, v. 2, n. 2, p. 210–215, jun. 1990. ISSN 0899-7667.
HASLETT, J.; RAFTERY, A. E. Space-time modelling with long-memory dependence:
Assessing ireland’s wind power resource. Journal of the Royal Statistical Society. Series C
(Applied Statistics), v. 38, n. 1, p. 1–50, 1989.
HAYFIELD, T.; RACINE, J. S. Nonparametric econometrics: The np package. Journal of
Statistical Software, v. 27, n. 5, 2008.
HELLSTRÖM, T.; HOLMSTRÖM, K. Predicting the stock market. Sweden: Department
of Mathematics and Physics, Mälardalen University, 1998.
HOCHBERG, Y. A sharper bonferroni procedure for multiple tests of significance.
Biometrika, v. 75, n. 4, p. 800–802, 1988.
Referências 120
HORNIK, K.; STINCHCOMBE, M.; WHITE, H. Multilayer feedforward networks are
universal approximators. Neural Networks, v. 2, n. 5, p. 359–366, 1989. ISSN 0893-6080.
HOSKING, J. R. M. Fractional differencing. Biometrika, v. 68, n. 1, p. 165–176, 1981.
HSIEH, D. A. Chaos and nonlinear dynamics: Application to financial markets. The
Journal of Finance, Blackwell Publishing Ltd, v. 46, n. 5, p. 1839–1877, 1991. ISSN
1540-6261.
HSIEH, D. A. Implications of nonlinear dynamics for financial risk management. Journal
of Financial and Quantitative Analysis, v. 28, p. 41–64, mar. 1993. ISSN 1756-6916.
HSU, C.-W.; LIN, C.-J. A comparison of methods for multiclass support vector machines.
IEEE Transactions on Neural Networks, v. 13, n. 2, p. 415–425, mar. 2002. ISSN
1045-9227.
HUANG, W.; NAKAMORI, Y.; WANG, S.-Y. Forecasting stock market movement
direction with support vector machine. Computers & Operations Research, v. 32, n. 10, p.
2513–2522, 2005. ISSN 0305-0548.
HURVICH, C. M.; TSAI, C.-L. Regression and time series model selection in small
samples. Biometrika, v. 76, n. 2, p. 297–307, 1989.
HURWITZ, E.; MARWALA, T. Common Mistakes when Applying Computational
Intelligence and Machine Learning to Stock Market modelling. [S.l.], 2012.
HYNDMAN, R. J.; KHANDAKAR, Y. Automatic time series forecasting: the forecast
package for R. Journal of Statistical Software, v. 26, n. 3, p. 1–22, 2008.
HYNDMAN, R. J.; KOEHLER, A. B. Another look at measures of forecast accuracy.
International Journal of Forecasting, v. 22, n. 4, p. 679–688, 2006. ISSN 0169-2070.
IGEL, C.; HÜSKEN, M. Improving the rprop learning algorithm. In: Proceedings of
the Second International Symposium on Neural Computation (NC 2000). [S.l.]: ICSC
Academic Press, 2000. p. 115–121.
JORDAN, M. I. Serial Order: A Parallel Distributed Processing Approach. La Jolla,
California, 1986. 40 p.
KAASTRA, I.; BOYD, M. Designing a neural network for forecasting financial and
economic time series. Neurocomputing, v. 10, n. 3, p. 215–236, 1996. ISSN 0925-2312.
KANTZ, H.; SCHREIBER, T. Nonlinear Time Series Analysis. 2. ed. Cambridge, UK:
Cambridge University Press, 2004. 386 p. ISBN 978-0-521-82150-6.
KIM, K. Financial time series forecasting using support vector machines. Neurocomputing,
v. 55, n. 1&2, p. 307–319, 2003. ISSN 0925-2312.
KOHARA, K. et al. Stock price prediction using prior knowledge and neural networks.
Intelligent Systems in Accounting, Finance & Management, John Wiley & Sons, Ltd.,
v. 6, n. 1, p. 11–22, 1997. ISSN 1099-1174.
KOHZADI, N.; BOYD, M. S. Testing for chaos and nonlinear dynamics in cattle prices.
Canadian Journal of Agricultural Economics/Revue canadienne d’agroeconomie, Blackwell
Publishing Ltd, v. 43, n. 3, p. 475–484, 1995. ISSN 1744-7976.
Referências 121
KRUSKAL, W. H.; WALLIS, W. A. Use of ranks in one-criterion variance analysis.
Journal of the American Statistical Association, v. 47, n. 260, p. 583–621, 1952.
LJUNG, G. M.; BOX, G. E. P. On a measure of lack of fit in time series models.
Biometrika, v. 65, n. 2, p. 297–303, 1978.
LO, A. W. Long-term memory in stock market prices. Econometrica, The Econometric
Society, v. 59, n. 5, p. 1279–1313, 1991.
MAASOUMI, E.; RACINE, J. Entropy and predictability of stock market returns.
Journal of Econometrics, v. 107, n. 1-2, p. 291–312, 2002. ISSN 0304-4076. Information
and Entropy Econometrics.
MANDELBROT, B. Statistical methodology for nonperiodic cycles: from the covariance
to R/S analysis. In: Annals of Economic and Social Measurement. [S.l.]: National Bureau
of Economic Research, 1972. v. 1, n. 3, p. 259–290.
MANDELBROT, B. Limit theorems on the self-normalized range for weakly and strongly
dependent processes. Probability Theory and Related Fields, Springer-Verlag, v. 31, n. 4, p.
271–285, 1975. ISSN 0044-3719.
MANDELBROT, B. B.; WALLIS, J. R. Noah, joseph, and operational hydrology. Water
Resources Research, v. 4, n. 5, p. 909–918, 1968. ISSN 1944-7973.
MANDELBROT, B. B.; WALLIS, J. R. Computer experiments with fractional gaussian
noises: Part 2, rescaled ranges and spectra. Water Resources Research, v. 5, n. 1, p.
242–259, 1969. ISSN 1944-7973.
MCCULLOCH, W. S.; PITTS, W. A logical calculus of the ideas immanent in nervous
activity. The bulletin of mathematical biophysics, Kluwer Academic Publishers, v. 5, n. 4,
p. 115–133, 1943. ISSN 0007-4985.
MINSKY, M.; PAPERT, S. Perceptrons: An introduction to computational geometry.
Cambridge, Massachusetts, USA: M.I.T. Press, 1969. 258 p.
MITCHELL, T. M. Machine Learning. New York, USA: McGraw-Hill, 1997. 432 p. ISBN
0-07-042807-7.
MOLGEDEY, L.; EBELING, W. Local order, entropy and predictability of financial time
series. The European Physical Journal B - Condensed Matter and Complex Systems, EDP
Sciences, Springer-Verlag, v. 15, n. 4, p. 733–737, 2000. ISSN 1434-6028.
NELSON, D. B. Conditional heteroskedasticity in asset returns: A new approach.
Econometrica, The Econometric Society, v. 59, n. 2, p. 347–370, 1991.
OLAZARAN, M. A sociological study of the official history of the perceptrons controversy.
Social Studies of Science, v. 26, n. 3, p. 611–659, 1996.
OLIVEIRA, F. A. de et al. The use of artificial neural networks in the analysis and
prediction of stock prices. In: Systems, Man, and Cybernetics (SMC), 2011 IEEE
International Conference on. [S.l.: s.n.], 2011. p. 2151–2155. ISSN 1062-922X.
PAI, P.-F.; LIN, C.-S. A hybrid ARIMA and support vector machines model in stock
price forecasting. Omega, v. 33, n. 6, p. 497–505, 2005. ISSN 0305-0483.
Referências 122
PANAS, E.; NINNI, V. Are oil markets chaotic? A non-linear dynamic analysis. Energy
Economics, v. 22, n. 5, p. 549–568, 2000. ISSN 0140-9883.
PARK, J.; SANDBERG, I. W. Universal approximation using radial-basis-function
networks. Neural Computation, MIT Press, v. 3, n. 2, p. 246–257, 1991. ISSN 0899-7667.
PENG, C. et al. Mosaic organization of DNA nucleotides. Phys. Rev. E, American
Physical Society, v. 49, p. 1685–1689, fev. 1994.
PESARAN, M. H.; TIMMERMANN, A. A simple nonparametric test of predictive
performance. Journal of Business & Economic Statistics, v. 10, n. 4, p. 461–465, 1992.
PESARAN, M. H.; TIMMERMANN, A. Predictability of stock returns: Robustness and
economic significance. The Journal of Finance, Blackwell Publishing Ltd, v. 50, n. 4, p.
1201–1228, 1995. ISSN 1540-6261.
QI, M. Nonlinear predictability of stock returns using financial and economic variables.
Journal of Business & Economic Statistics, v. 17, n. 4, p. 419–429, 1999.
QIAN, B.; RASHEED, K. Hurst exponent and financial market predictability. In:
Proceedings of The 2nd IASTED international conference on financial engineering and
applications. [S.l.: s.n.], 2004. p. 203–209.
REBOREDO, J. C. et al. How fast do stock prices adjust to market efficiency?
evidence from a detrended fluctuation analysis. Physica A: Statistical Mechanics and its
Applications, v. 392, n. 7, p. 1631–1637, 2013. ISSN 0378-4371.
RIEDMILLER, M.; BRAUN, H. A direct adaptive method for faster backpropagation
learning: the RPROP algorithm. In: IEEE International Conference on Neural Networks.
[S.l.: s.n.], 1993. v. 1, p. 586–591.
ROSENBLATT, F. Principles of neurodynamics. Washington, USA: Spartan Book, 1962.
616 p.
ROUAI, F. A.; AHMED, M. B. An efficient combination of traditional financial time
series and neurofuzzy techniques for stock market forecasting and modeling. In: Systems,
Man and Cybernetics, 2002 IEEE International Conference on. [S.l.: s.n.], 2002. v. 1, p.
385–390. ISSN 1062-922X.
RUMELHART, D. E.; HINTON, G. E.; WILLIAMS, R. J. Learning internal
representations by error propagation. In: . Parallel Distributed Processing:
Explorations in the Microstructure of Cognition. Cambridge, Massachusetts, USA: MIT
Press, 1986. v. 1, p. 318–362. ISBN 0-262-18120-7.
SAAD, E. W.; PROKHOROV, D. V.; WUNSCH, D. C. Comparative study of stock
trend prediction using time delay, recurrent and probabilistic neural networks. IEEE
Transactions on Neural Networks, v. 9, n. 6, p. 1456–1470, nov. 1998. ISSN 1045-9227.
SAPANKEVYCH, N.; SANKAR, R. Time series prediction using support vector machines:
A survey. Computational Intelligence Magazine, IEEE, v. 4, n. 2, p. 24–38, maio 2009.
ISSN 1556-603X.
SCHEINKMAN, J. A.; LEBARON, B. Nonlinear dynamics and stock returns. The
Journal of Business, v. 62, n. 3, p. 311–337, 1989.
Referências 123
SCHÖLKOPF, B. et al. New support vector algorithms. Neural Computation, M.I.T.
Press, Cambridge, Massachusetts, USA, v. 12, n. 5, p. 1207–1245, maio 2000.
SCHÖLKOPF, B. et al. Comparing support vector machines with gaussian kernels to
radial basis function classifiers. IEEE Transactions on Signal Processing, v. 45, n. 11, p.
2758–2765, nov. 1997. ISSN 1053-587X.
SCHWARZ, G. Estimating the dimension of a model. The Annals of Statistics, The
Institute of Mathematical Statistics, v. 6, n. 2, p. 461–464, mar. 1978.
SCHWENKER, F.; KESTLER, H. A.; PALM, G. Three learning phases for radial-
basis-function networks. Neural Networks, v. 14, n. 4–5, p. 439–458, maio 2001. ISSN
0893-6080.
SHANNON, C. E. A mathematical theory of communication. The Bell System Technical
Journal, v. 27, n. 3, p. 379–423, jul. 1948. ISSN 0005-8580.
SHMILOVICI, A.; ALON-BRIMER, Y.; HAUSER, S. Using a stochastic complexity
measure to check the efficient market hypothesis. Computational Economics, Kluwer
Academic Publishers, v. 22, n. 2-3, p. 273–284, 2003. ISSN 0927-7099.
SMOLA, A.; SCHÖLKOPF, B. A tutorial on support vector regression. Statistics and
Computing, Kluwer Academic Publishers, v. 14, n. 3, p. 199–222, 2004. ISSN 0960-3174.
SUYKENS, J. A. K.; VANDEWALLE, J. Least squares support vector machine classifiers.
Neural Processing Letters, Kluwer Academic Publishers, v. 9, n. 3, p. 293–300, 1999. ISSN
1370-4621.
TAN, T. Z.; QUEK, C.; NG, G. S. Brain-inspired genetic complementary learning for
stock market prediction. In: The IEEE Congress on Evolutionary Computation. [S.l.: s.n.],
2005. v. 3, p. 2653–2660.
TAQQU, M. S.; TEVEROVSKY, V. On estimating the intensity of long-range dependence
in finite and infinite variance time series. In: . A Practical Guide To Heavy Tails:
Statistical Techniques and Applications. Boston, USA: Birkhauser, 1998. p. 177–217. ISBN
0-8176-3951-9.
TAQQU, M. S.; TEVEROVSKY, V.; WILLINGER, W. Etimators for long-range
dependence: an empirical study. Fractals, v. 03, n. 04, p. 785–798, 1995.
TAQQU, M. S.; TEVEROVSKY, V.; WILLINGER, W. A critical look at lo’s modified
R/S statistic. Journal of Statistical Planning and Inference, v. 80, p. 211–227, ago. 1999.
TAY, F. E. H.; CAO, L. J. Improved financial time series forecasting by combining
support vector machines with self-organizing feature map. Intelligent Data Analysis, IOS
Press, v. 5, n. 4, p. 339–354, 2001.
TAY, F. E. H.; CAO, L. J. e-descending support vector machines for financial time series
forecasting. Neural Process. Lett., Kluwer Academic Publishers, Hingham, MA, USA,
v. 15, n. 2, p. 179–195, abr. 2002. ISSN 1370-4621.
TAY, F. E. H.; CAO, L. J. Modified support vector machines in financial time series
forecasting. Neurocomputing, v. 48, n. 1-4, p. 847–861, 2002. ISSN 0925-2312.
Referências 124
TRAFALIS, T. B.; INCE, H. Support vector machine for regression and applications
to financial forecasting. In: Neural Networks, 2000. IJCNN 2000, Proceedings of the
IEEE-INNS-ENNS International Joint Conference on. [S.l.: s.n.], 2000. v. 6, p. 348–353.
ISSN 1098-7576.
TREADGOLD, N. K.; GEDEON, T. D. Simulated annealing and weight decay in
adaptive learning: the SARPROP algorithm. IEEE Transactions on Neural Networks,
v. 9, n. 4, p. 662–668, jul. 1998. ISSN 1045-9227.
TSALLIS, C.; STARIOLO, D. A. Generalized simulated annealing. Physica A: Statistical
Mechanics and its Applications, v. 233, n. 1–2, p. 395–406, 1996. ISSN 0378-4371.
TSAY, R. S. Analysis of financial time series. 3. ed. New York, USA: John Wiley & Sons,
2010. 712 p. ISBN 978-0-470-41435-4.
VAPNIK, V.; GOLOWICH, S. E.; SMOLA, A. J. Support vector method for function
approximation, regression estimation and signal processing. In: MOZER, M. C.; JORDAN,
M. I.; PETSCHE, T. (Ed.). Advances in Neural Information Processing Systems 9.
Cambridge, Massachusetts, USA: M.I.T. Press, 1997. p. 281–287.
VAPNIK, V. N. Statistical Learning Theory. New York, USA: John Wiley & Sons, Inc.,
1998. 736 p. (Adaptive and Learning Systems for Signal Processing, Communications, and
Control). ISBN 0-471-03003-1.
VAPNIK, V. N. The Nature of Statistical Learning Theory. 2. ed. [S.l.]: Springer, 2000.
314 p. ISBN 0-387-98780-0.
VICENTE, L. C. Simulador Inteligente Aplicado ao Mercado de Ações Brasileiro
(Perceptron Trader). 80 f. Dissertação (Mestrado Profissional em Pesquisa Operacional e
Inteligência Computacional) — Universidade Candido Mendes, Campos dos Goytacazes,
RJ, 2011.
WESTON, J.; WATKINS, C. Multi-class support vector machines. Egham, Surrey,
England, 1998.
WHITE, H. Economic prediction using neural networks: the case of IBM daily stock
returns. In: IEEE International Conference on Neural Networks. [S.l.: s.n.], 1988. v. 2, p.
451–458.
WHITE, H. A reality check for data snooping. Econometrica, Blackwell Publishers Ltd,
v. 68, n. 5, p. 1097–1126, 2000. ISSN 1468-0262.
YANG, D.; ZHANG, Q. Drift independent volatility estimation based on high, low, open,
and close prices. The Journal of Business, The University of Chicago Press, v. 73, n. 3, p.
477–492, jul. 2000. ISSN 0021-9398.
YANG, H. et al. Financial time series prediction using non-fixed and asymmetrical margin
setting with momentum in support vector regression. STUDIES IN FUZZINESS AND
SOFT COMPUTING, PHYSICA-VERLAG, v. 152, p. 334–350, 2004.
YANG, S.-R.; BRORSEN, B. W. Nonlinear dynamics of daily futures prices: Conditional
heteroskedasticity or chaos? Journal of Futures Markets, Wiley Subscription Services, Inc.,
A Wiley Company, v. 13, n. 2, p. 175–191, 1993. ISSN 1096-9934.
Referências 125
ZHANG, G.; PATUWO, B. E.; HU, M. Y. Forecasting with artificial neural networks::
The state of the art. International Journal of Forecasting, v. 14, n. 1, p. 35–62, 1998.
ISSN 0169-2070.
ZHANG, G. P. Time series forecasting using a hybrid ARIMA and neural network model.
Neurocomputing, v. 50, n. 0, p. 159–175, 2003. ISSN 0925-2312.
ZUNINO, L. et al. Forbidden patterns, permutation entropy and stock market inefficiency.
Physica A: Statistical Mechanics and its Applications, v. 388, n. 14, p. 2854–2864, 2009.
ISSN 0378-4371.