Características da Série Temporal

Alguns dos problemas e questões de interesse para o analista prospectivo de séries temporais podem ser melhor expostos considerando dados experimentais reais extraídos de diferentes áreas temáticas. Os casos a seguir ilustram alguns dos tipos comuns de dados de séries temporais experimentais, bem como algumas das perguntas estatísticas que podem ser feitas sobre esses dados.

Exemplo I.1. Lucro trimestral da Johnson & Johnson

A figura abaixo mostra o lucro trimestral por ação da empresa norte-americana Johnson & Johnson, fornecido pelo professor Paul Griffin (comunicação pessoal) da Graduate School of Management, Universidade da Califórnia, Davis. Há 84 trimestres (21 anos) medidos desde o primeiro trimestre de 1960 até o último trimestre de 1980. A modelagem de tais séries começa observando os padrões primários na história do tempo. Nesse caso, observe a tendência subjacente gradualmente crescente e a variação bastante regular sobreposta à tendência que parece se repetir ao longo dos trimestres. Métodos para analisar dados como estes são explorados no Capítulo II usando técnicas de regressão e no Capítulo VI, usando modelagem de equações estruturais.

Para plotar os dados digite os seguintes comandos:

> library(astsa) > par(mar=c(4,4,3,1)) > plot(jj, type="o", xlab="Tempo", ylab="Lucro trimestral por ação", pch=19, main="Johnson & Johnson ganhos trimestrais por ação\n 84 trimestres, 1960-I a 1980-IV")

É claro que os dados no arquivo jj estão preparados como uma série temporal trimestral. Caso essa não seja a situação, ou seja, caso os dados que você tiver não estiverem nesse formato e sejam somente uma sequência de números, podemos convertê-los no formato de série temporal da seguinte forma:

> as.numeric(jj) [1] 0.710000 0.630000 0.850000 0.440000 0.610000 0.690000 0.920000 0.550000 0.720000 0.770000 [11] 0.920000 0.600000 0.830000 0.800000 1.000000 0.770000 0.920000 1.000000 1.240000 1.000000 [21] 1.160000 1.300000 1.450000 1.250000 1.260000 1.380000 1.860000 1.560000 1.530000 1.590000 [31] 1.830000 1.860000 1.530000 2.070000 2.340000 2.250000 2.160000 2.430000 2.700000 2.250000 [41] 2.790000 3.420000 3.690000 3.600000 3.600000 4.320000 4.320000 4.050000 4.860000 5.040000 [51] 5.040000 4.410000 5.580000 5.850000 6.570000 5.310000 6.030000 6.390000 6.930000 5.850000 [61] 6.930000 7.740000 7.830000 6.120000 7.740000 8.910000 8.280000 6.840000 9.540000 10.260000 [71] 9.540000 8.729999 11.880000 12.060000 12.150000 8.910000 14.040000 12.960000 14.850000 9.990000 [81] 16.200000 14.670000 16.020000 11.610000 > jj1 = ts(as.numeric(jj), start = c(1960,1), frequency = 4) > jj1 Qtr1 Qtr2 Qtr3 Qtr4 1960 0.710000 0.630000 0.850000 0.440000 1961 0.610000 0.690000 0.920000 0.550000 1962 0.720000 0.770000 0.920000 0.600000 1963 0.830000 0.800000 1.000000 0.770000 1964 0.920000 1.000000 1.240000 1.000000 1965 1.160000 1.300000 1.450000 1.250000 1966 1.260000 1.380000 1.860000 1.560000 1967 1.530000 1.590000 1.830000 1.860000 1968 1.530000 2.070000 2.340000 2.250000 1969 2.160000 2.430000 2.700000 2.250000 1970 2.790000 3.420000 3.690000 3.600000 1971 3.600000 4.320000 4.320000 4.050000 1972 4.860000 5.040000 5.040000 4.410000 1973 5.580000 5.850000 6.570000 5.310000 1974 6.030000 6.390000 6.930000 5.850000 1975 6.930000 7.740000 7.830000 6.120000 1976 7.740000 8.910000 8.280000 6.840000 1977 9.540000 10.260000 9.540000 8.729999 1978 11.880000 12.060000 12.150000 8.910000 1979 14.040000 12.960000 14.850000 9.990000 1980 16.200000 14.670000 16.020000 11.610000

Exemplo I.2. Aquecimento global

Considere o registro da série de temperatura global mostrado na figura abaixo. Os dados são o índice médio global da temperatura do oceano entre 1880 e 2009, com o período base de 1951-1980. Em particular, os dados são desvios, medidos em graus centígrados, da média de 1951-1980 e são uma atualização de Hansen et al. (2006). Notamos uma aparente tendência ascendente na série durante a última parte do século XX que tem sido usada como um argumento para a hipótese do aquecimento global. Note-se também o nivelamento por volta de 1935 e, em seguida, outra tendéncia bastante acentuada em 1970. A questão de interesse dos defensores do aquecimento global e dos oponentes é se a tendência geral é natural ou se é causada por alguma interface induzida pelo homem. O problema II.8 examina 634 anos de dados de sedimentos glaciais que podem ser considerados como um proxy de temperatura de longo prazo. Tais mudanças percentuais na temperatura não parecem ser incomuns durante um período de 100 anos. Mais uma vez, a questão da tendência é mais interessante do que periodicidades específicas.

Para plotar os dados digite os seguintes comandos:

> par(mar=c(4,4,3,1)) > plot(gtemp, type="o", xlab="Tempo", ylab="Desvios Globais de Temperatura", pch=19, main="Desvios de temperatura global média anual entre 1880 e 2009\n em graus centígrados")

Questões mais envolvidas desenvolvem-se em aplicações às ciências físicas.

Exemplo I.3. Dados de fala

A figura abaixo mostra uma pequena amostra de 0.1 segundo e equivalem a 1000 pontos de fala gravada para a frase aaa ... hhh, e notamos a natureza repetitiva do sinal e as periodicidades regulares. Um problema atual de grande interesse é o reconhecimento por computador da fala, o que exigiria a conversão desse sinal específico na frase gravada aaa ... hhh. A análise espectral pode ser usada neste contexto para produzir uma assinatura dessa frase que pode ser comparada com assinaturas de várias sílabas da biblioteca para procurar uma correspondência.

Pode-se notar imediatamente a repetição bastante regular de pequenas ondas. A separação entre os pacotes é conhecida como o período do piche e representa a resposta do trato vocal a uma sequência periódica de pulsos estimulada pela abertura e fechamento da glote.

Para plotar os dados digite os seguintes comandos:

> par(mar=c(4,4,3,1)) > plot(speech, type="l", xlab="Tempo", ylab="Articulação", main="Gravação da fala da sílaba aaaa ... hhhh\n amostrada a 10.000 pontos por segundo, com n = 1020 pontos")

O seguinte exemplo utiliza o conceito de retornos ou mudança percentual para dados financeiros. Seja $P_t$ o preço de um ativo no período $t$. O log retorno ou simplesmente retorno de um ativo financeiro é definido como \begin{equation} r_t=\ln(P_t/P_{t-1})\cdot \end{equation} Na prática, é preferível trabalhar com retornos, que são livres de escala e supostamente têm propriedades estatísticas mais interessantes, como estacionariedade.

Exemplo I.4. Bolsa de Valores de Nova Iorque

Como exemplo de dados de séries temporais financeiras, a figura abaixo mostra os dados diários dos retornos ou mudança percentual da Bolsa de Valores de Nova York (NYSE) de 2 de Fevereiro de 1984 a 31 de Dezembro de 1991. Detectamos o crash de 19 de Outubro de 1987. Os dados mostrados na figura são típicos de dados de retornos. A média da série parece ser estável, com uma média de retorno de aproximadamente zero, porém a volatilidade ou variabilidade dos dados apresenta variações ao longo do tempo.

De fato, os dados mostram um agrupamento de volatilidade, ou seja, os períodos altamente voláteis tendem a ser agrupados. Um problema na análise de este tipo de dados financeiros é para prever a volatilidade dos retornos futuros. Modelos como os ARCH e GARCH (Engle, 1982; Bollerslev, 1986) e modelos estocásticos de volatilidade (Harvey, Ruiz e Shephard, 1994) têm sido desenvolvidos para lidar com estes problemas. Vamos discutir estes modelos e a análise dos dados financeiros nos Capítulo V e Capítulo VI destas notas.

Os dados mostrados são os retornos do mercado ponderados pelo valor diário entre 2 de fevereiro de 1984 e 31 de dezembro de 1991, ou seja, 2000 dias de negociação. O crash de 19 de outubro de 1987 ocorreu no instante t = 938.

Para plotar os dados digite os seguintes comandos:

> par(mar=c(4,4,3,1)) > plot(nyse, xlab="Tempo", ylab="Retorno da Bolsa de Valores de Nova Iorque (NYSE)", main="Retornos de mercado ponderados pelo valor diário\n entre 2 de fevereiro de 1984 e 31 de dezembro de 1991")

Pode-se utiizar o fato de que, se $X_t$ é o valor real do índice da Bolsa de Valores de Nova York (NYSE) e \begin{equation*} r_t = \dfrac{X_t-X_{t-1}}{X_{t-1}} \end{equation*} é o retorno, então $1+r_t = X_t/X_{t-1}$ e $\log(1+r_t)=\log(X_t/X_{t-1})=\log(X_t)-\log(X_{t-1})\approx r_t$. Isto pode ser observado pela decomposição \begin{equation} \log(1+p)=p-\frac{p^2}{2}+\frac{p^3}{3}-\cdots \end{equation} para $-1< p\leq 1$. Caso $p$ esteja próximo de zero, os termos de ordem mais alta na expansão são insignificantes.

O conjunto de dados, como mencionamos, está disponível no pacote astsa, mas pode-se utilizar o pacote quantmod da seguinte forma:

> library(quantmod) > getSymbols.yahoo("^DJI", env=globalenv(), from="1984-02-01", to="1991-12-31", periodicity="daily") > head(DJI) DJI.Open DJI.High DJI.Low DJI.Close DJI.Volume DJI.Adjusted 1985-01-29 1277.72 1295.49 1266.89 1292.62 13560000 1292.62 1985-01-30 1297.37 1305.10 1278.93 1287.88 16820000 1287.88 1985-01-31 1283.24 1293.40 1272.64 1286.77 14070000 1286.77 1985-02-01 1276.94 1286.11 1269.77 1277.72 10980000 1277.72 1985-02-04 1272.08 1294.94 1268.99 1290.08 11630000 1290.08 1985-02-05 1294.06 1301.13 1278.60 1285.23 13800000 1285.23 > DJIr = diff(log(DJI$DJI.Close))[-1] # retornos aproximados > plot(DJIr, main="NYSE Retornos", type="n") > lines(DJIr)

Exemplo I.5. El Niño e a População de Peixes

Podemos também estar interessados em analisar várias séries temporais ao mesmo tempo. A figura abaixo mostra os valores mensais de uma série ambiental chamada Índice de Oscilação do Sul (SOI) e Recrutamento associado, ou seja, o número de novos peixes, fornecidas pelo Dr. Roy Mendelssohn do Pacific Environmental Fisheries Group (comunicação pessoal). Ambas as séries são para um período de 453 meses, variando ao longo dos anos 1950 a 1987. A SOI mede as mudanças na pressão atmosférica, relacionadas com as temperaturas da superfície do mar no Oceano Pacífico central.

O Oceano Pacífico central aquece a cada três a sete anos devido ao efeito do El Niño, que tem sido responsável, em particular, pelas inundações de 1997 nas regiões do centro-oeste dos Estados Unidos. Ambas as séries da Figura tendem a exibir repetitivos ciclos regulares que são facilmente visíveis. Este períodico é de interesse porque os processos subjacentes de interesse podem ser regulares e a taxa ou frequência de oscilação que caracteriza o comportamento da série subjacente ajudaria a identificá-los. Também se pode observar que os ciclos da SOI estão a repetir-se a um ritmo mais rápido do que os ciclos da série de recrutamento. A série de recrutamento também apresenta vários tipos de oscilações, uma frequência mais rápida que parece repetir-se a cada 12 meses e uma que parece repetir-se a cada 50 meses. O estudo dos tipos de ciclos e as suas resistências são objeto do Capítulo IV. As duas séries também tendem a estar um pouco relacionadas; é fácil imaginar que, de alguma forma a população de peixes é dependente do SOI. Talvez até mesmo uma relação desfasada exista, com a SOI sinalizando mudanças na população de peixes. Esta possibilidade sugere tentar alguma versão da análise de regressão como um procedimento para relacionar as duas séries.

A modelagem da função de transferência, conforme considerado no Capítulo V, pode ser aplicado neste caso para obter um modelo relativo ao recrutamento segundo seu próprio passado e os valores passados da SOI.

Para plotar os dados digite os seguintes comandos:

> par(mar=c(3,3,1,1), mfrow=c(2,1)) # a opção mfrow=c(2,1) divide o mesmo gráfico em duas linhas > plot(soi, ylab="", xlab="", main="Índice de Oscilação do Sul") > plot(rec, ylab="", xlab="", main="Recrutamento")

Uma outra forma de mostrar duas ou mais séries, supostamente relacionadas, é apresentando-as no mesmo gráfico com eixos diferentes segundo os comandos a seguir:

> ## adicionando espaço extra à margem direita do gráfico dentro do quadro > par(mar=c(3, 6, 1, 1) + 0.1) > ## Plotando o primeiro conjunto de dados e desenhando seu eixo > plot(soi, pch=16, axes=FALSE, ylim=c(-1,1), xlab="", ylab="", type="b", col="black", main="") > axis(2, ylim=c(-1,1), col="black", las=1) ## las=1 faz etiquetas horizontais > mtext("Índice de Oscilação do Sul", side=2, line=2.5) > box() > par(new=TRUE) > ## Plotando o segundo gráfico e colocando a escala do eixo à direita > plot(rec, pch=15, xlab="", ylab="", ylim=c(0,100), axes=FALSE, type="b", col="red") > axis(2, ylim=c(0,100), lwd=2, line=3.5, col="red", col.axis = "red") > mtext("Recrutamento", side=2, line=5.3, col="red")

Exemplo I.6. Imagem fMRI

Um problema fundamental na estatística clássica ocorre quando nos é dada uma coleção de séries independentes ou vetores de séries, gerados sob diferentes condições experimentais ou configurações de tratamento. Tal conjunto de séries é mostrado na figura abaixo onde observamos os dados coletados em vários locais no cérebro através da ressonância magnética funcional (fMRI). Neste exemplo, os sujeitos foram submetidos a escovação periódica na mão. O estímulo foi aplicado durante 32 segundos e depois parado durante 32 segundos; assim, o período do sinal é de 64 segundos. A taxa de amostragem foi de uma observação a cada 2 segundos durante 256 segundos (n = 128). Para este exemplo, calculamos a média dos resultados sobre sujeitos.

As séries mostradas na figura abaixo são medidas consecutivas de intensidade de sinal dependente do nível de oxigenação do sangue (BOLD), que mede áreas de ativação no cérebro. Observe que as periodicidades aparecem fortemente no córtex motor e menos fortemente no tálamo e no cerebelo. O fato de alguém ter séries de diferentes áreas do cérebro sugere testar se as áreas estão respondendo de maneira diferente ao estímulo da escova. A Análise de Variância realiza isso em estatística clássicas e mostraremos, na Capítulo VII, como essas técnicas clássicas se estendem ao caso das séries temporais, levando a uma Análise Espectral de Variância.

Para plotar os dados digite os seguintes comandos:

> par(mfrow=c(2,1), mar=c(3,2,1,0)+.5, mgp=c(1.6,.6,0)) > ts.plot(fmri1[,2:5], lty=c(1,2,4,5), ylab="BOLD", xlab="", main="Córtex") > ts.plot(fmri1[,6:9], lty=c(1,2,4,5), ylab="BOLD", xlab="", main="Tálamo e Cerebelo") > mtext("Tempo (1 pt = 2 seg)", side=1, line=2)

Observe que neste exemplo ambos os gráficos têm a mesma escala, por isso, caso consideremos apresentá-los juntos se sobrepoêm, o que não deve permitir interpretá-los.

Exemplo I.7. Terremotos e explosões

Como exemplo final, as séries da figura abaixo representam duas fases ou chegadas ao longo da superfície, denotadas por $P$, $t = 1,\cdots,1024$ e $S$, $t = 1025,\cdots,2048$, em uma estação de gravação sísmica. Os instrumentos de gravação na Escandinávia estão observando terremotos e explosões de mineração mostradas na figura. O problema geral de interesse é distinguir ou discriminar entre formas de onda geradas por terremotos e aquelas geradas por explosões.

As características que podem ser importantes são as amplas taxas de amplitude da primeira fase $P$ para a segunda fase $S$, que tendem a ser menores para terremotos do que para explosões. No caso dos dois eventos na figura abaixo, a relação de amplitudes máximas parece ser um pouco menor que 0.5 para o terremoto e cerca de 1 para a explosão. Caso contrário, observe que existe uma diferença sutil na natureza periódica da fase $S$ do terremoto. Podemos novamente pensar em análise espectral da variância para testar a igualdade dos componentes periódicos de terremotos e explosões. Gostaríamos também de poder classificar os futuros componentes $P$ e $S$ de eventos de origem desconhecida, levando à análise discriminante de séries temporais desenvolvido no Capítulo VII.

Para plotar os dados digite os seguintes comandos:

> par(mfrow=c(2,1), mar=c(3,2,1,0)+.5, mgp=c(1.6,.6,0)) > plot(EQ5, xlab="Tempo", main="Terremoto") > plot(EXP6, xlab="Tempo", main="Explosão")

I.2 Modelos estatísticos de séries temporais

O objetivo principal da análise de séries temporais é desenvolver modelos matemáticos que forneçam descrições plausíveis para dados amostrais, como os encontrados na seção anterior. A fim de fornecer um cenário estatístico para descrever o caráter de dados que aparentemente flutuam de maneira aleatória ao longo do tempo, assumimos que uma série temporal pode ser definida como uma coleção de variáveis aleatórias indexadas de acordo com a ordem em que são obtidos no tempo. Por exemplo, podemos considerar uma série temporal como uma sequência de variáveis aleatórias $X_1,X_2,X_3,\cdots$, onde a variável aleatória $X_1$ denota o valor tomado pela série no primeiro ponto de tempo, a variável $X_2$ denota o valor para o segundo período de tempo, $X_3$ denota o valor para o terceiro período de tempo e assim por diante. Em geral, uma coleção de variáveis aleatórias $\{X_t\}$, indexadas por $t$ é referida como um processo estocástico. Neste texto, $t$ será tipicamente discreto e variará sobre os inteiros $t = 0, \pm 1,\pm 2,\cdots$ ou algum subconjunto dos inteiros. Os valores observados de um processo estocástico são referidos como uma realização do processo estocástico. Como ficará claro no contexto de nossas discussões, usamos o termo série temporal se estamos nos referindo genericamente ao processo ou a uma realização particular e não fazemos nenhuma distinção notacional entre os dois conceitos.

É convencional exibir uma série temporal amostral graficamente, plotando os valores das variáveis aleatórias no eixo vertical ou ordenadas, com a escala de tempo como a abscissa. Geralmente, é conveniente conectar os valores em períodos de tempo adjacentes para reconstruir visualmente algumas séries temporais contínuas hipotéticas originais que podem ter produzido esses valores como uma amostra discreta. Muitas das séries discutidas na seção anterior, por exemplo, poderiam ter sido observadas em qualquer ponto contínuo no tempo e são conceitualmente mais adequadamente tratados como séries temporais contínuas. A aproximação dessas séries por séries com parâmetro de tempo discreto amostradas em pontos de tempo igualmente espaçados é simplesmente um reconhecimento de que os dados amostrados serão, na maior parte dos casos, discretos devido a restrições inerentes ao método de coleta.

Além disso, as técnicas de análise são viáveis usando computadores, que são limitados a cálculos digitais. Os desenvolvimentos teóricos também se apóiam na idéia de que uma série temporal de parâmetros contínuos devem ser especificadas em termos de funções de distribuição de dimensão finita definidas ao longo de um número infinito de pontos no tempo. Isso não quer dizer que a seleção do intervalo ou taxa de amostragem não seja de consideração extremamente importante. A aparência dos dados pode ser alterada completamente, adotando-se uma taxa de amostragem insuficiente. Esse fenômeno leva a uma distorção chamada efeito de aliasing, que será considerado na Seção IV.2.

A característica visual fundamental que distingue as diferentes séries mostradas nos exemplos é seus diferentes graus de suavidade. Uma explicação possível para essa suavidade é que esteja sendo induzida pela suposição de que pontos adjacentes no tempo são correlacionados, de modo que o valor da série no tempo $t$, digamos, $X_t$, depende de alguma forma dos valores passados $X_{t-1},X_{t-2},\cdots$. Este modelo expressa uma maneira fundamental em que podemos pensar em gerar séries temporais de aparência realista. Para começar a desenvolver uma abordagem para usar coleções de variáveis aleatórias para modelar séries temporais, considere o seguinte exemplo.

Exemplo I.8. Ruído branco

Um tipo simples de série simulada pode ser uma coleção de variáveis aleatórias não correlacionadas $W_t$, com média 0 e variância finita $\sigma_{_W}^2$. A série temporal gerada a partir de variáveis não correlacionadas é usada como modelo para o ruído em aplicações de engenharia, onde é chamado ruído branco. A designação branco origina-se da analogia com a luz branca e indica que todas as possíveis oscilações periódicas estão presentes com igual força.

Às vezes, também exigiremos que o ruído branco sejam variáveis aleatórias independente e identicamente distribuídas com média 0 e variância $\sigma_{_W}^2$. Vamos distinguir este caso dizendo ruído branco independente. Uma série de ruído branco particularmente útil é o ruído branco gaussiano, em que o peso é uma variável aleatória normal independente, com média 0 e variância $\sigma_{_W}^2$; ou mais sucintamente, com $N(0,\sigma_{_W}^2)$.

A figura abaixo mostra uma coleção de 500 variáveis aleatórias, esperança 0 e $\sigma^2_{_W}=1$, plotadas na ordem em que foram geradas. A série resultante tem uma leve semelhança com a explosão no Exemplo I.7, mas não é suave o suficiente para servir como um modelo plausível para qualquer outra série experimental. O enredo tende a mostrar visualmente uma mistura de muitos tipos diferentes de oscilações na série de ruído branco.

Para plotar os dados digite os seguintes comandos:

> w = rnorm(500,0,1) # 500 N(0,1) variáveis > par(mfrow=c(1,1),mar=c(4,3,1,1),mgp=c(1.6,.6,0)) > plot.ts(w, xlab="Tempo", main="Ruído branco") > grid()

Se o comportamento estocástico de todas as séries temporais pudesse ser explicado em termos do modelo de ruído branco, os métodos estatísticos clássicos seriam suficientes. Duas maneiras de introduzir correlação serial e mais suavidade em modelos de séries temporais são fornecidas nos Exemplos I.9 e I.10.

Exemplo I.9. Médias Móveis

Podemos substituir a série de ruído branco por uma média móvel que suaviza a série. Por exemplo, considere a substituição de $W_t$ no Exemplo I.8 por uma média de seu valor atual e seus vizinhos imediatos no passado e no futuro. Isto é, \begin{equation} V_t=\dfrac{1}{3}\Big( W_{t-1}+W_t+W_{t+1}\Big), \end{equation} que leva à série mostrada na figura logo abaixo. Inspecionar a série mostra uma versão mais suave da primeira série, refletindo o fato de que as oscilações mais lentas são mais aparentes e algumas das oscilações mais rápidas são removidas. Começamos a notar uma semelhança com o SOI no Exemplo I.5, ou talvez, com algumas das séries de fMRI no Exemplo I.6.

Para reproduzir a figura em R, use os seguintes comandos. Com o comando filter construímos a combinação linear dos valores de uma sére, como indica o modelo de médias móveis.

Para plotar os dados digite os seguintes comandos:

> v = filter(w, sides=2, rep(1/3,3)) # médias móveis > par(mfrow=c(1,1),mar=c(4,3,1,1),mgp=c(1.6,.6,0)) > plot.ts(v, xlab="Tempo", main="Médias móveis") > grid()

A série de fala no Exemplo I.3 e a série de Recrutamento no Exemplo I.5, bem como algumas das séries de fMRI na Figura I.6, diferem da série de média móvel porque um tipo particular de comportamento oscilatório parece predominar, produzindo um tipo de comportamento sinusoidal. Existem vários métodos para gerar séries com esse comportamento quase periódico; ilustramos um popular método baseado no modelo autoregressivo considerado no Capítulo III.

Exemplo I.10. Autoregressões

Suponha que consideremos a série de ruído branco do Exemplo I.8 como entrada e calculemos a saída usando a equação de segunda ordem \begin{equation} X_t \, = \, X_{t-1}-0.9 X_{t-2}+W_t, \end{equation} sucessivamente para $t = 1,2,\cdots,500$. Esta equação representa uma regressão ou predição do valor atual $X_t$ de uma série temporal como uma função dos dois últimos valores da série e, portanto, o termo autoregressão é sugerido como modelo. Existe um problema com os valores de inicialização; porque a equação acima também depende das condições iniciais $X_0$ e $X_1$, mas assumindo que temos esses valores, geramos os valores sucessivos por substituição. A série de resultados resultante é mostrada na figura a seguir, e notamos o comportamento periódico da série, que é semelhante ao exibido pela série de fala no Exemplo I.3. O modelo autorregressivo acima e suas generalizações podem ser usados como um modelo subjacente para muitas séries observadas e serão estudados em detalhes no Capítulo III.

Para plotar os dados digite os seguintes comandos:

> w = rnorm(550,0,1) # 50 extras para evitar problemas de inicialização > x = filter(w, filter=c(1,-.9), method="recursive")[-(1:50)] # removendo os primeiros 50 > plot.ts(x, xlab="Tempo", main="Autoregressão") > grid()

Como no exemplo anterior, os dados são obtidos por um filtro de ruído branco. A função filter usa zeros para os valores iniciais. Nesse caso, $X_1 = W_1$ e $X_2 = X_1 + W_2 = W_1 + W_2$ e assim por diante, de maneira que os primeiros valores não satisfazem a equação de segunda ordem acima. Uma solução fácil é executar o filtro por mais tempo do que o necessário e remover os valores iniciais.

Exemplo I.11. Passeio aleatório com tendência

Um modelo para analisar a tendência, como visto nos dados de temperatura global no Exemplo I.2, é o passeio aleatório com modelo de tendência dado por \begin{equation} X_t = \delta+X_{t-1}+W_t, \end{equation} para $t = 1,2,\cdots$, com condição inicial $X_0 = 0$ e onde $W_t$ é ruído branco. A constante $\delta$ é chamada de tendência e quando $\delta= 0$ o modelo acima é chamado simplesmente de um passeio aleatório.

O termo passeio aleatório vem do fato de que, quando $\delta = 0$, o valor da série temporal no tempo $t$ é o valor da série no tempo $t-1$ mais um movimento completamente aleatório determinado por $W_t$. Observe que podemos reescrever o modelo acima como uma soma cumulativa de variações de ruído branco. Isto é, \begin{equation} X_t \, = \, \delta t + \sum_{j=1}^t W_j, \end{equation} para $t = 1,2,\cdots$.

A figura mostra 200 observações geradas a partir do modelo acima com $\delta = 0$ e $\delta = 0.2$, e com $\sigma_W = 1$. Para comparação, também sobrepomos a linha reta $0.2t$ no gráfico. Para reproduzir a figura abaixo em R, use o seguinte código, observe o uso de vários comandos por linha usando um ponto-e-vírgula.

> set.seed(154) # para que você possa reproduzir os resultados > w = rnorm(200); x = cumsum(w) # dois comandos em uma linha > wd = w +.2; xd = cumsum(wd) > plot.ts(xd, xlab="Tempo", ylim=c(-5,55), main="Passeio aleatório", ylab='') > lines(x, col=4); abline(h=0, col=4, lty=2); abline(a=0, b=.2, lty=2) > grid()

Exemplo I.12. Sinal no ruído

Muitos modelos realistas para gerar séries temporais assumem um sinal subjacente com alguma variação periódica consistente, contaminada pela adição de um ruído aleatório. Por exemplo, podemos detectar o ciclo regular na série de fMRI exibida no topo do figura no Exemplo I.6.

Considere o modelo \begin{equation} X_t = 2\cos\big( 2\pi (t+15)/50\big)+W_t, \end{equation} para $t=1,2,\cdots,500$ onde o primeiro termo é considerado como o sinal, mostrado no painel superior da figura abaixo.

Notamos que uma forma de onda sinusoidal pode ser escrita como \begin{equation} A\cos \big( 2\pi \omega t+\phi\big), \end{equation} onde $A$ é a amplitude, $\omega$ a frequência de oscilação e $\phi$ é uma mudança de fase. Na expressão acima $A = 2$, $\omega = 1/50$, ou seja, um ciclo a cada 50 pontos no tempo e $\phi= 2\pi 15/50=0.6\pi$.

Um termo de ruído aditivo foi considerado ruído branco com $\sigma_{_W} = 1$, isso no painel central e $\sigma_{_W} = 5$ no painel inferior, retirado de uma distribuição normal. Adicionando os dois juntos obscurece o sinal, como mostrado nos painéis inferiores da figura abaixo. Naturalmente, o grau em que o sinal é obscurecido depende da amplitude do sinal e do tamanho de $\sigma_{_W}$. A razão da amplitude do sinal para $\sigma_{_W}$ ou alguma função de razão é às vezes chamado de relação sinal-ruído (SNR); quanto maior o SNR, mais fácil é detectar o sinal. Observe que o sinal é facilmente discernível no painel central da figura, enquanto o sinal é obscurecido no painel inferior. Normalmente, não observaremos o sinal, mas o sinal obscurecido pelo ruído.

Para reproduzir a figura em R, use os seguintes comandos:

> cs = 2*cos(2*pi*1:500/50 + .6*pi); w = rnorm(500,0,1) > par(mfrow=c(3,1), mar=c(3,3,2,1), cex.main=1.5) > plot.ts(cs, main=expression(2*cos(2*pi*t/50+.6*pi))) > grid() > plot.ts(cs+w, main=expression(2*cos(2*pi*t/50+.6*pi) + N(0,1))) > grid() > plot.ts(cs+5*w, main=expression(2*cos(2*pi*t/50+.6*pi) + N(0,25))) > grid()

No Capítulo IV estudaremos o uso da análise espectral como uma possível técnica para detectar sinais regulares ou periódicos, como o descrito no Exemplo I.12. Em geral, enfatizamos a importância de modelos aditivos simples, como os dados acima, na forma \begin{equation} X_t=S_t+V_t, \end{equation} onde $S_t$ denota algum sinal desconhecido e $V_t$ indica uma série temporal que pode ser um ruído branco ou correlacionada ao longo do tempo. Os problemas de detectar um sinal e depois estimar ou extrair a forma de onda de $S_t$ são de grande interesse em muitas áreas da engenharia e das ciências físicas e biológicas. Em economia, o sinal subjacente pode ser uma tendência ou pode ser um componente sazonal de uma série. Modelos como o acima, onde o sinal tem uma estrutura autoregressiva, formam a motivação para o modelo de espaço de estados no Capítulo VI.

Nos exemplos acima, tentamos motivar o uso de várias combinações de variáveis aleatórias emulando dados de séries temporais. As características de suavidade das séries temporais observadas foram introduzidas pela combinação das variáveis aleatórias de várias maneiras. Calcular a méédia de variáveis aleatórias independentes sobre pontos de tempo adjacentes, como no Exemplo I.9 ou olhando para a saída de equações diferenciais que respondem a entradas de ruído branco, como no Exemplo I.10, são formas comuns de gerar dados correlacionados. Na próxima seção, apresentamos várias medidas teóricas usadas para descrever como as séries temporais se comportam. Como é habitual nas estatísticas, a descrição completa envolve a função de distribuição multivariada dos valores amostrados em conjunto $X_1,X_2,\cdots,X_n$, enquanto descrições mais económicas podem ser obtidas em termos das funções de média e autocorrelação. Como a correlação é uma característica essencial da análise de séries temporais, as medidas descritivas mais úteis são aquelas expressas em termos de funções de covariância e correlação.

I.3 Medidas de dependência: autocorrelação e correlação cruzada

Uma descrição completa de uma série temporal, observada como uma coleção de $n$ variáveis aleatórias em pontos de tempo inteiros arbitrários $t_1,t_2,\cdots,t_n$, para qualquer inteiro positivo $n$, é fornecida pela função de distribuição conjunta, avaliada como a probabilidade de que os valores das séries sejam juntos menores que as $n$ constantes, $c_1,c_2,\cdots,c_n$; ou seja, \begin{equation} F(c_1,c_2,\cdots,c_n) = P(X_{t_1}\leq c_1,X_{t_2}\leq c_2, \cdots,X_{t_n}\leq c_n)\cdot \end{equation}

Infelizmente, a função de distribuição multidimensional geralmente não pode ser escrita facilmente, a menos que as variáveis aleatórias sejam conjuntamente normais, caso em que a densidade conjunta tem forma bem conhecida.

Embora a função de distribuição conjunta descreva os dados completamente, é uma ferramenta difícil de exibir e analisar dados de séries temporais. A função de distribuição, mostrada acima, deve ser avaliada como uma função de $n$ argumentos, portanto, qualquer plotagem das funções de densidade multivariadas correspondentes é virtualmente impossível. As funções de distribuição marginal \begin{equation} F_t(x)=P(X_t\leq x) \end{equation} ou as correspondentes funções de densidade marginal \begin{equation} f_t(x)=\dfrac{\partial F_t(x)}{\partial x}, \end{equation} quando elas existem, são frequentemente informativas para examinar o comportamento marginal de uma série.

Exemplo I.13. Função média de uma série de médias móveis.

Caso $W_t$ denote uma série de médias móveis, então $\mu_{_{W_t}}=\mbox{E}(W_t)=0$ para todo $t$. A série superior da Figura 1.8 reflete isso, já que a série claramente flutua em torno de um valor médio de zero. Suavizar a série como no Exemplo 1.9 não altera a média porque podemos escrever \begin{equation} \mu_{_{V_t}}=\mbox{E}(V_t)=\dfrac{1}{3}\Big(\mbox{E}(W_{t-1})+\mbox{E}(W_t)+\mbox{E}(W_{t+1})\Big) \, = \, 0\cdot \end{equation}

Exemplo I.14. Função de média de um passeio aleatório com tendência

Considere o passeio aleatório com modelo de tendéncia dado no Exemplo I.11, \begin{equation} X_t \, = \, \delta t \, + \, \sum_{j=1}^t W_j, \qquad t=1,2,\cdots \cdot \end{equation} Como $\mbox{E}(W_t)=0$ para todo $t$ e $\delta$ é uma constante, temos \begin{equation} \mu_{_{X_t}}=\mbox{E}(X_t)=\delta t+\sum_{j=1}^t \mbox{E}(W_j)=\delta t \end{equation} a qual é uma linha reta com inclinação $\delta$. A realização de uma caminhada aleatória com tendência pode ser comparada à sua função de média na figura do Exemplo I.11.

Exemplo I.15. Função de média do sinal mais ruído

Muitas aplicações práticas dependem de assumir que os dados observados foram gerados por uma forma de onda de sinal fixo sobreposta a um processo de ruído de média zero, levando a um modelo de sinal aditivo da forma mostrada no Exemplo I.12. Está claro, porque o sinal no Exemplo I.12 é uma função fixa do tempo, assim temos \begin{equation} \begin{array}{rclcl} \mu_{_{X_t}} & = & \mbox{E}(X_t) & = & \mbox{E}\Big( 2\cos\big( 2\pi (t+15)/50 \big)+W_t\Big) \\ & & & = & 2\cos\big( 2\pi (t+15)/50 \big) + \mbox{E}(W_t) \, = \, 2\cos\big( 2\pi (t+15)/50 \big), \end{array} \end{equation} e a função de média é apenas a onda cosseno.

A falta de independência entre dois valores adjacentes $X_s$ e $X_t$ pode ser avaliada numericamente, como na estatística clássica, usando as noções de covariância e correlação. Assumindo que a variância de $X_t$ é finita, temos a seguinte definição.

A autocovariancia mede a dependência linear entre dois pontos na mesma série observada em diferentes momentos. Séries muito suaves exibem funções de autocovariância que permanecem grandes mesmo quando $t$ e $s$ estão distantes, enquanto que as séries agitadas tendem a ter funções de autocovariância que são quase zero para grandes separações. Lembre-se de estatísticas clássicas que se $\gamma_{_X}(s,t)=0$, $X_s$ e $X_t$ não estão linearmente relacionados, mas ainda pode haver alguma estrutura de dependência entre eles. Se, no entanto, $X_s$ e $X_t$ são normais bivariados, $\gamma_{_X}(s,t) = 0$ garante sua independência. É claro que, para $s = t$, a autocovariância se reduz à variância, suposta finita, porque \begin{equation} \gamma_{_X}(s,t) \, = \, \mbox{E}\big( (X_t-\mu_t)^2\big) \, = \, \mbox{Var}(X_t)\cdot \end{equation}

Exemplo I.16. Autocovariância do ruído branco

A sÉrie de ruído branco $W_t$ satisfaz que $\mbox{E}(W_t)=0$ e \begin{equation} \gamma_{_W}(s,t) \, = \, \mbox{Cov}(W_s,W_t) \, = \, \left\{ \begin{array}{rl} \sigma^2_{_W}, & s=t \\ 0, & s\neq t \end{array}\right.\cdot \end{equation} Uma realização de ruído branco com $\sigma^2_{_W} = 1$ é mostrada no painel superior da Figura I.8.

Muitas vezes, precisamos calcular a autocovariância entre as séries filtradas. Um resultado útil é dado a seguir.

Teorema I.1. Covariância entre Combinações Lineares.

Se as variáveis aleatórias \begin{equation} U \, = \, \displaystyle \sum_{j=1}^m a_j X_j \qquad \mbox{e} \qquad V \, = \, \sum_{k=1}^r b_k Y_k, \end{equation} são combinações lineares das variáveis aleatórias $\{X_j\}$ e $\{Y_k\}$, todas de variâncias finitas, respectivamente, então \begin{equation} \mbox{Cov}(U,V) \, = \, \displaystyle \sum_{j=1}^m \sum_{k=1}^r a_jb_k \mbox{Cov}(X_j,Y_k)\cdot \end{equation} Além disso, $\mbox{Var}(U)=\mbox{Cov}(U,U)$.

Exemplo I.17. Autocovariância de um modelo de médias móveis

Considere aplicar um modelo de médias móveis de três pontos à série de ruído branco do exemplo anterior, como no Exemplo I.9. Nesse caso, \begin{equation} \gamma_{_V}(s,t) \, = \, \mbox{Cov}(V_s,V_t) \, = \, \mbox{Cov}\Big( \frac{1}{3}(W_{s-1}+W_s+W_{s+1}), \frac{1}{3}(W_{t-1}+W_t+W_{t+1})\Big)\cdot \end{equation}

Quando $s=t$ temos \begin{equation} \begin{array}{rcl} \gamma_{_V}(t,t) & = & \displaystyle \frac{1}{9}\mbox{Cov}\big( (W_{s-1}+W_s+W_{s+1}), (W_{t-1}+W_t+W_{t+1})\big) \\ & = & \displaystyle \frac{1}{9}\Big( \mbox{Cov}\big( W_{t-1}, W_{t-1}\big) + \mbox{Cov}\big( W_{t}, W_{t}\big) + \mbox{Cov}\big( W_{t+1}, W_{t+1}\big) \Big) \\ & = & \displaystyle \frac{3}{9}\sigma^2_{_W}\cdot \end{array} \end{equation}

Quando $s=t+1$ temos \begin{equation} \begin{array}{rcl} \gamma_{_V}(t+1,t) & = & \displaystyle \frac{1}{9}\mbox{Cov}\big( (W_{t}+W_{t+1}+W_{t+2}), (W_{t-1}+W_t+W_{t+1})\big) \\ & = & \displaystyle \frac{1}{9}\Big( \mbox{Cov}\big( W_{t}, W_{t}\big) + \mbox{Cov}\big( W_{t+1}, W_{t+1}\big) \Big) \\ & = & \displaystyle \frac{2}{9}\sigma^2_{_W}\cdot \end{array} \end{equation}

Cálculos similares dão $\gamma_{_V}(t-1,t)=2\sigma^2_{_W}/9$, $\gamma_{_V}(t+2,t)=\gamma_{_V}(t-2,t)=\sigma^2_{_W}/9$ e zero quando $|t-s|>2$. Resumimos os valores para todos os $s$ e $t$ como \begin{equation} \gamma_{_V}(s,t) \, = \, \left\{ \begin{array}{ccc} \frac{3}{9}\sigma^2_{_W}, & quando & s=t \\ \frac{2}{9}\sigma^2_{_W}, & quando & |s-t|=1 \\ \frac{1}{9}\sigma^2_{_W}, & quando & |s-t|=2 \\ 0, & quando & |s-t|>2 \end{array}\right. \end{equation}

O Exemplo I.17 mostra claramente que a operação de suavização introduz uma função de covariância que diminui à medida que a separação entre os dois pontos de tempo aumenta e desaparece completamente quando os pontos são separados por três ou mais pontos de tempo. Esta autocovariância em particular é interessante porque depende apenas da separação de tempo ou atraso e não da localização absoluta dos pontos ao longo da série. Veremos mais adiante que essa dependência sugere um modelo matemático para o conceito de estacionaridade fraca.

Exemplo I.18. Autocovariância de um passeio aleatório

Para o modelo de passeio aleatóorio $X_t=\sum_{j=1}^t W_j$, temos que \begin{equation} \gamma_{_X}(s,t) \, = \, \mbox{Cov}(X_s,X_t) \, = \, \displaystyle \mbox{Cov}\Big( \sum_{j=1}^s W_j,\sum_{k=1}^t W_k\Big) \, = \, \min\{s,t\}\sigma^2_{_W}, \end{equation} porque os $W_t$ são variáveis aleatórias não correlacionadas. Observe que, ao contrário dos exemplos anteriores, a função de autocovariância de uma caminhada aleatória depende dos valores de tempo específicos $s$ e $t$ e não da separação de tempo ou atraso. Além disso, observe que a variância do passeio aleatório $\mbox{Var}(X_t)=\gamma_{_X}(t,t)=t\sigma^2_{_W}$, aumenta sem limite à medida que o tempo $t$ aumenta. O efeito desse aumento de variância pode ser visto na figura no Exemplo I.11, onde os processos começam a se afastar de suas funções médias $\delta t$, note que $\delta = 0$ e $\delta =0.2$ nesse exemplo.

Como nas estatísticas clássicas, é mais conveniente lidar com uma medida de associação entre -1 e 1, e isso leva à seguinte definição.

O função de autocorrelação mede a previsibilidade linear da série no tempo $t$, digamos $X_t$, usando apenas o valor $X_s$. Podemos mostrar que $-1<\rho(s,t) < 1$ usando a desigualdade de Cauchy-Schwarz. Se podemos prever $X_t$ perfeitamente de $X_s$ através de uma relação linear, $X_t = \beta_0+\beta_1 X_s$; então a correlação será +1 quando $\beta_1> 0$ e -1 quando $\beta_1<0$. Portanto, temos uma medida aproximada da capacidade de prever a série no tempo $t$ do seu valor no tempo $s$.

Frequentemente, gostaríamos de medir a previsibilidade de outra série $Y_t$ da série $X_s$. Supondo que ambas as séries tenham variâncias finitas, temos a seguinte definição.

Podemos facilmente estender as idéias acima para o caso de mais de duas séries, digamos, $X_{t_1},X_{t_2},\cdots,X_{t_r}$, isto é, séries temporais multivariadas com $r$ componentes.

Nas definições acima, as funções de autocovariância e de covariância cruzada podem mudar à medida que se move ao longo da série, porque os valores dependem de $s$ e $t$, as localizações dos pontos no tempo. No Exemplo I.17, a função de autocovariância depende da separação de $X_s$ e $X_t$, digamos, $h = |s-t|$, e não de onde os pontos estão localizados no tempo. Contanto que os pontos estejam separados por $h$ unidades, a localização dos dois pontos não importa. Essa noção, chamada de estacionariedade fraca, quando a média é constante, é fundamental para nos permitir analisar dados de séries temporais quando apenas uma única série está disponível.

I.4 Série temporal estacionária

As definições anteriores das funções de média e autocovariância são completamente gerais. Embora não tenhamos feito nenhuma suposição especial sobre o comportamento da série temporal, muitos dos exemplos anteriores sugeriram que um tipo de regularidade pode existir ao longo do tempo no comportamento de uma série temporal. Introduzimos a noção de regularidade usando um conceito chamado estacionariedade.

Definição I.6. Série estritamente estacionária.

Uma série temporal estritamente estacionária é aquela para a qual o comportamento probabilístico de cada coleção de valores $X_{t_1},X_{t_2},\cdots,X_{t_k}$ é idêntico ao do conjunto de deslocamentos temporais $X_{t_1+h},X_{t_2+h},\cdots,X_{t_k+h}$. Isto é, \begin{equation} P\Big( X_{t_1}\leq c_1,X_{t_2}\leq c_2,\cdots,X_{t_k}\leq c_k\Big) = P\Big( X_{t_1+h}\leq c_1,X_{t_2+h}\leq c_2,\cdots,X_{t_k+h}\leq c_k\Big), \end{equation} para todos $k = 1,2,\cdots$, todos os instantes de tempo $t_1,t_2,\cdots,t_k$, todos os números $c_1,c_2,\cdots,c_k$ e todos os deslocamentos de tempo $h = 0, \pm 1, \pm 2,\cdots $.

Se uma série temporal for estritamente estacionária, todas as funções de distribuição multivariadas para subconjuntos de variáveis devem concordar com suas contrapartes no conjunto comutado para todos os valores do parâmetro de deslocamento $h$. Por exemplo, quando $h=1$, implica que \begin{equation} P(X_s\leq c) = P(X_t\leq c) \end{equation} para quaisquer pontos de tempo $s$ e $t$. Esta declaração implica, por exemplo, que a probabilidade de o valor de uma série temporal amostrada por hora ser negativa agrave; 1 da manhã é a mesma que às 10 da manhã.

Além disso, se a função de média $\mu_t$ da série existir, isso implica que $\mu_s = \mu_t$ para todos os $s$ e $t$ e, portanto, $\mu_t$ deve ser constante. Note, por exemplo, que um processo de passeio aleatório com tendência não é estritamente estacionário porque sua função de média muda com o tempo; veja o Exemplo I.14.

Quando $k=2$, podemos escrever \begin{equation} P(X_s\leq c_1, X_t\leq c_2) = P(X_{s+h}\leq c_1, X_{t+h}\leq c_2), \end{equation} para quaisquer pontos instantes de tempo $s$ e $t$ e defasagem $h$. Assim, se a função de variância do processo existir, a estacionaridade estrita implica que a função de autocovariância da série $X_t$ satisfaz \begin{equation} \gamma(s,t)=\gamma(s+h,t+h), \end{equation} para todos os $s$ e $t$ e $h$. Podemos interpretar esse resultado dizendo que a função de autocovariância do processo depende apenas da diferença de tempo entre $s$ e $t$, e não dos tempos reais.

A versão da estacionariedade na Definição I.6 é muito forte para a maioria das aplicações. Além disso, é difícil avaliar a estacionariedade estrita de um único conjunto de dados. Em vez de impor condições em todas as distribuições possíveis de uma série temporal, usaremos uma versão mais branda que impõe condições apenas nos dois primeiros momentos da série. Agora temos a seguinte definição.

Definição I.7. Série fracamente estacionária.

Uma série temporal fracamente estacionária é um processo de variância finita tal que:

$(i)$ a função de média $\mu_t$, é constante e não depende do tempo $t$, e
$(ii)$ a função de autocovariância $\gamma(s,t)$, depende de $s$ e $t$ somente através de sua diferença $|s-t|$.

Doravante, usaremos o termo estacionário para significar fracamente estacionário. Se um processo estiver estacionário no sentido estrito, usaremos o termo estritamente estacionário.

A estacionariedade exige regularidade nas funções de média e de autocorrelação para que essas quantidades, pelo menos, possam ser estimadas pela média. Deve ficar claro, a partir da discussão da estacionariedade estrita, seguindo a Definição I.6, que uma série temporal estritamente estacionária, com variância finita, também é estacionária. O contrário não é verdade a menos que haja outras condições. Um caso importante em que a estacionariedade estrita implica estacionariedade é se a série temporal é Gaussiana, significando que todas as distribuições finitas das séries são Gaussianas. Vamos tornar este conceito mais preciso no final desta seção.

Devido a que a função de média $\mbox{E}(X_t)=\mu_t$ de uma série temporal estacionária $X_t$ depende de $s$ e $t$ somente através de sua diferença $|s-t|$, podemos simplificar a notação. Seja $s = t + h$, onde $h$ representa o deslocamento de tempo ou atraso. Então \begin{equation} \gamma(t+h,t)=\mbox{Cov}(X_{t+h},X_t)=\mbox{Cov}(X_h,X_t)=\gamma(h,0), \end{equation} porque a diferença de tempo entre os instantes $t + h$ e $t$ é a mesma que a diferença de tempo entre os instantes $h$ e 0. Assim, a função de autocovariância de uma série temporal estacionária não depende do argumento de tempo $t$. Daqui em diante, por conveniência, abandonaremos o segundo argumento de $\gamma(h,0)$.

A desigualdade de Cauchy-Schwarz mostra novamente que $-1\leq \rho(h)\leq 1$ para todos os $h$, permitindo avaliar a importância relativa de um determinado valor de autocorrelação comparando com os valores extremos -1 e 1.

Exemplo I.19. Estacionaridade do ruído branco

As funções de média e autocovariância das séries de ruído branco discutidas no Exemplo I.8 e no Exemplo I.16 são facilmente avaliadas como $\mu_{_{W_t}}=0$ e \begin{equation} \gamma_{_W}(h)=\mbox{Cov}(W_{t+h},W_t)=\left\{ \begin{array}{cl} \sigma_{_W}^2, & h=0 \\ 0, & h\neq 0\end{array}\right.\cdot \end{equation} Assim, o ruído branco satisfaz as condições da Definição I.7 e é fracamente estacionária ou estacionária. Se as variações do ruído branco também são normalmente distribuídas ou gaussianas, a série também é estritamente estacionária. A função de autocorrelação é dada por $\rho_{_W}(0)=1$ e $\rho(h) = 0$, para $h\neq 0$.

Exemplo I.20. Estacionaridade da média móvel

O processo de média móvel de três pontos do Exemplo I.9 é estacionário porque, do Exemplo I.13 e Exemplo I.17, as funções de média e autocovariância são $\mu_{_{V_t}}=0$ e \begin{equation} \gamma_{_V}(h)=\left\{ \begin{array}{cl} \displaystyle \frac{3}{9}\sigma_{_W}^2, & h=0 \\ \displaystyle \frac{2}{9}\sigma_{_W}^2, & h=\pm 1 \\ \displaystyle \frac{1}{9}\sigma_{_W}^2, & h=\pm 2 \\ 0, & |h|>2 \end{array}\right., \end{equation} são independentes do tempo $t$, satisfazendo as condições da Definição I.7.

A função de autocorrelação é dada por \begin{equation} \rho_{_V}(h)=\left\{ \begin{array}{cl} 1, & h=0 \\ \displaystyle \frac{2}{3}, & h=\pm 1 \\ \displaystyle \frac{1}{3}, & h=\pm 2 \\ 0, & |h|>2 \end{array}\right., \end{equation}

A figura mostra um gráfico das autocorrelações em função do lag $h$. Observe que a função de autocorrelação é simétrica em relação ao desfasamento zero.

> LAG = seq(-5,5, by=1) > FAC = c(0,0,0,1/3,2/3,1,2/3,1/3,0,0,0) > par(mfrow=c(1,1), mar=c(4,3,3,1), cex.main=1.5) > plot(LAG,FAC, main="Função de autocorrelação \n de uma média móvel de três pontos", type="h", lwd=2, xlab="Lag") > points(LAG,FAC, lwd=2, pch=19)

Exemplo I.21. Um passeio aleatório não é estacionário

Um passeio aleatório não é estacionário porque sua função de autocovariância é $\gamma(s,t)=\min\{s,t\}\sigma_{_W}^2$, depende do tempo; veja o Exemplo I.18. Além disso, o passeio aleatório com tendéncia viola ambas as condições da Definição I.7 porque, como mostrado no Exemplo I.14, a função de média, $\mu_{_{X_t}} = \delta t$, também é uma função do tempo $t$.

Exemplo I.22. Estacionariedade de tendência

Por exemplo, se $X_t=\alpha+\beta t+Y_t$, onde $Y_t$ é estacionário, então a função de média é $\mu_{_{X_t}}=\mbox{E}(X_t)=\alpha+\beta t+\mu_{_Y}$, que não é independente do tempo. Portanto, o processo não é estacionário. A função de autocovariância, no entanto, é independente do tempo, porque \begin{equation} \gamma_{_X}(h)=\mbox{E}(X_{t+h},X_t)=\mbox{E}\big((X_{t+h}-\mu_{_{X,t+h}})(X_t-\mu_{_{X,t}})\big)= \mbox{E}\big( (Y_{t+h}-\mu_{_Y})(Y_t-\mu_{_Y})\big)=\gamma_{_Y}(h)\cdot \end{equation}

Assim, o modelo pode ser considerado como tendo comportamento estacionário em torno de uma tendência linear; esse comportamento é às vezes chamado de estacionariedade de tendência. Um exemplo de tal processo é o preço das séries de frango exibido na figura do Exemplo II.1.

A função de autocovariância de um processo estacionário possui várias propriedades especiais. Primeiro, $\gamma (h)$ é definido não-negativo assegurando que variações de combinações lineares das variáveis $X_t$ nunca serão negativas. Ou seja, para qualquer $n\geq 1$ e constantes $a_1,\cdots,a_n$, \begin{equation} 0\leq \mbox{Var}(a_1 X_1+\cdots+a_n X_n)=\displaystyle \sum_{j=1}^n \sum_{k=1}^n a_j a_k \gamma(j-k), \end{equation} utilizando a Propriedade I.1. Além disso, o valor em $h = 0$, ou seja, \begin{equation} \gamma(0)=\mbox{E}\big((X_t-\mu)^2\big), \end{equation} é a variância da série temporal e a desigualdade de Cauchy-Schwarz implica $|\gamma(h)|\leq \gamma(0)$.

Uma propriedade útil final, observada em um exemplo anterior, é que a função de autocovariância de uma série estacionária é simétrica em torno da origem; isso é, \begin{equation} \gamma(h)=\gamma(-h), \end{equation} para todo $h$. Esta propriedade segue porque \begin{equation} \gamma\big( (t+h)-h\big)=\mbox{Cov}(X_{t+h},X_t)=\mbox{Cov}(X_t,X_{t+h})=\gamma\big( t-(t+h)\big), \end{equation} que mostra como usar a notação, bem como provar o resultado.

Quando várias séries estão disponíveis, uma noção de estacionariedade ainda se aplica com condições adicionais.

Mais uma vez, temos o resultado $-1\leq \rho_{_{XY}}(h)\leq 1$, que permite a comparação com os valores extremos -1 e 1, quando olhamos para a relação entre $X_{t+h}$ e $Y_t$. A função de correlação cruzada geralmente não é simétrica em torno de zero, isto é, tipicamente $\rho_{_{XY}}(h)\neq \rho_{_{XY}}(-h)$. Esse é um conceito importante; deve ficar claro que $\mbox{Cov}(X_2,Y_1)$ e $\mbox{Cov}(X_1,Y_2)$ não precisam ser iguais. É o caso, no entanto, que \begin{equation} \rho_{_{XY}}(h)= \rho_{_{XY}}(-h)\cdot \end{equation}

Exemplo I.23. Estacionariedade conjunta.

Consideremos duas séries $X_t$ e $Y_t$, formadas a partir da soma e diferença de dois valores sucessivos de um processo de ruído branco, digamos, \begin{equation} X_t=W_t+W_{t-1} \qquad \mbox{e} \qquad Y_t=W_t-W_{t-1}, \end{equation} onde $W_t$ são variáveis aleatórias independentes com médias zero e variância $\sigma_{_W}^2$. Pode-se mostrar que $\gamma_{_X}(0)=\gamma_{_Y}(0)=2\sigma_{_W}^2$ e que $\gamma_{_X}(1)=\gamma_{_X}(-1)=\sigma_{_W}^2$, $\gamma_{_Y}(1)=\gamma_{_Y}(-1)=-\sigma_{_W}^2$. Também \begin{equation} \gamma_{_{XY}}(1)=\mbox{Cov}(X_{t+1},Y_t)=\mbox{Cov}(W_{t+1}+W_t,W_t-W_{t-1})=\sigma^2_{_W}, \end{equation} porque apenas um termo é diferente de zero.

Similarmente, $\gamma_{_{XY}}(0)=0$, $\gamma_{_{XY}}(-1)=-\sigma^2_{_W}$. Obtemos que \begin{equation} \rho_{_{XY}}(h)=\left\{\begin{array}{cc} 0,& h=0, \\ \frac{1}{2}, & h=1, \\ -\frac{1}{2}, & h=-1, \\ 0, & |h|\geq 2, \end{array}\right.\cdot \end{equation} Claramente, as funções de autocovariância e de covariância cruzada dependem apenas da separação por atraso ou lag $h$, de modo que as séries são conjuntamente estacionárias.

Exemplo I.24. Previsão usando Correlação Cruzada.

Como um exemplo simples de correlação cruzada, considere o problema de determinar possíveis relações iniciais ou atrasadas entre duas séries $X_t$ e $Y_t$. Se o modelo \begin{equation} Y_t=A X_{x-\ell}+W_t, \end{equation} for válido, a série $X_t$ é dita que leva $Y_t$ para $\ell>0$ e é dito que vai para $Y_t$ se $\ell < 0$. Por isso, a análise das relações de avanço e atraso pode ser importante na previsão do valor de $Y_t$ de $X_t$. Assumindo que o ruído não é correlacionado com a série $X_t$, a função de covariância cruzada pode ser calculada como \begin{equation} \begin{array}{rcl} \gamma_{_{XY}}(h) & = & \mbox{Cov}(Y_{t+h},X_t) \, = \, \mbox{Cov}(A X_{t+h-\ell}+W_{t+h},X_t) \\ & = & \mbox{Cov}(A X_{t+h-\ell},X_t) \, = \, A \gamma_{_X}(h-\ell)\cdot \end{array} \end{equation}

utilizando a desigualdade de Cauchy-Schwarz, obtemos que o maior valor absoluto de $\gamma_{_X}(h-\ell)$ é $\gamma_{_X}(0)$, ou seja, quando $h = \ell$ a função de covariâância cruzada se parecerá com a autocovariância da série de entrada $X_t$ e terá um pico no lado positivo se $X_t$ conduzir $Y_t$ e um pico no lado negativo se $X_t$ retardar $Y_t$.

Abaixo está o código R de um exemplo onde $X_t$ é ruído branco, $\ell=5$ e com $\widehat{\gamma}_{_{XY}}(h)$ mostrado na figura abaixo.

> x = rnorm(100) > y = lag(x, -5) + rnorm(100) > ccf(y, x, ylab='CCovF', type='covariance')

O conceito de estacionaridade fraca constitui a base de grande parte da análise realizada com séries temporais. As propriedades fundamentais das funções de média e autocovariância são satisfeitas por muitos modelos teóricos que parecem gerar realizações de amostras plausíveis. No Exemplo I.9 e no Exemplo I.10, foram geradas duas séries que produziram realizações de aparência estacionária e no Exemplo I.20, mostramos que a série no Exemplo I.9 era, de fato, fracamente estacionária. Ambos os exemplos são casos especiais do chamado processo linear.

Para o processo linear podemos mostrar que a função de autocovariância é dada por \begin{equation} \gamma_{_X}(h)=\sigma_{_W}^2 \sum_{j=-\infty}^\infty \psi_{j+h}\psi_j, \end{equation} para $h\geq 0$, lembremmos que $\gamma_{_X}(h)=\gamma_{_X}(-h)$. Este método exibe a função de autocovariância do processo em termos dos produtos defasados dos coeficientes. Precisamos somente que $\sum_{j=-\infty}^\infty \psi_j^2<\infty$ para o processo ter variância finita, mas vamos discutir isso no Capítulo V.

Note que, para no Exemplo I.9, temos $\psi_0 = \psi_{-1} = \psi_1 = 1/3$ e o resultado no Exemplo I.20 sai imediatamente. A série autoregressiva no Exemplo I.10 também pode ser colocada nesta forma, assim como os processos de médias móveis autoregressivos considerados no Capítulo III.

Observe que o processo linear depende do futuro, quando $j <0$, do presente $j = 0$ e do passado $j> 0$. Para fins de previsão, um modelo dependente do futuro será inútil. Consequentemente, nos concentraremos em processos que não dependem do futuro. Tais modelos são chamados causais, e um processo linear causal tem $j = 0$ para $j <0$; discutiremos isso mais detalhadamente no Capítulo III.

Finalmente, como mencionado anteriormente, um caso importante em que uma série fracamente estacionária é também estritamente estacionária é a série normal ou gaussiana.

Definindo o vetor $n\times 1$ de médias $\mbox{E}(X)=\mu=(\mu_{t_1},\mu_{t_2},\cdots,\mu_{t_n})$ e a matriz $n\times n$ de variâncias e covariâncias como $\mbox{Var}(X)=\Gamma=\{\gamma(t_i,t_j)\}_{i,j=1}^n $ que é assumida como definida positiva, a função de densidade normal multivariada pode ser escrita como \begin{equation} f(x)=\frac{1}{\sqrt{(2\pi)^n|\Gamma|}}\exp\Big( -\frac{1}{2}(x-\mu)^\top\Gamma^{-1}(x-\mu)\Big), \end{equation} para $x\in\mathbb{R}^n$, onde $|\cdot|$ denota o determinante.

Listamos alguns itens importantes em relação aos processos lineares e gaussianos.

I.5 Estimação da correlação

Embora as funções teóricas de autocorrelação e correlação cruzada sejam úteis para descrever as propriedades de certos modelos hipotéticos, a maioria das análises devem ser realizadas usando dados amostrados. Esta limitação significa os pontos amostrados $X_1,X_2,\cdots,X_n$ estão disponíveis apenas para estimar as funções de média, autocovariância e autocorrelação. Do ponto de vista da estatística clássica, isso representa um problema, porque normalmente não temos cópias independentes e identicamente distribuídas de $X_t$ disponíveis para estimar as funções de covariância e correlação. Na situação usual com apenas uma realização, no entanto, a suposição de estacionariedade se torna crítica. De alguma forma, devemos usar médias sobre essa única realização para estimar as médias populacionais e as funções de covariância.

Assim, se uma série temporal é estacionária, a função média $\mu_t=\mu$ é constante para que a possamos estimar pela média amostral, \begin{equation} \overline{X}=\frac{1}{n}\sum_{t=1}^n X_t\cdot \end{equation} No nosso caso, $\mbox{E}(\overline{X})=\mu$ e o erro padrão da estimativa é a raiz quadrada de $\mbox{Var}(\overline{X})$, que é dada por \begin{equation} \begin{array}{rcl} \mbox{Var}(\overline{X}) & = & \displaystyle \mbox{Var}\Big(\frac{1}{n}\sum_{t=1}^n X_t\Big) \, = \, \frac{1}{n^2}\mbox{Cov}\Big(\sum_{t=1}^n X_t,\sum_{s=1}^n X_s\Big) \\ & = & \displaystyle \frac{1}{n^2}\big( n\gamma_{_X}(0)+(n-1)\gamma_{_X}(1)+(n-2)\gamma_{_X}(2)+\cdots+\gamma_{_X}(n-1)\big. \\ & & \displaystyle \qquad \qquad \qquad +(n-1)\gamma_{_X}(-1)+(n-2)\gamma_{_X}(-2)+\cdots+\gamma_{_X}(1-n)\big)\\ & = & \displaystyle \frac{1}{n}\sum_{h=-n}^n \Big( 1-\frac{|h|}{n}\Big)\gamma_{_X}(h)\cdot \end{array} \end{equation}

Se o processo for ruído branco a expressão acima se reduzirá ao familiar $\sigma_{_X}^2/n$ recordando que $\gamma_{_X}(0)=\sigma^2_{_X}$. Note que, no caso de dependência, o erro padrão de $\overline{X}$ pode ser menor ou maior que o caso de ruído branco, dependendo da natureza da estrutura de correlação.

A função de autocovariância teórica é estimada pela função de autocovariância amostral, definida a seguir.

A soma na Definição I.14 é executada em um intervalo restrito porque $x_{t+h}$ não está disponível para $t + h> n$. O estimador acima é o preferido do que aquele que seria obtido dividindo por $n-h$ porque a soma é uma função definida não negativa. Lembre-se de que a função de autocovariância de um processo estacionário é definida não negativa, assegurando que as variações das combinações lineares das variáveis $X_t$ nunca serão negativas. E como uma variação nunca é negativa, a estimativa dessa variância \begin{equation} \widehat{\mbox{Var}}(a_1 x_1+\cdots+a_n x_n)=\displaystyle \sum_{j=1}^n\sum_{k=1}^n a_j a_k\widehat{\gamma}(j-k), \end{equation} também deve ser não negativa. O estimador da função de autocovariância garante este resultado, mas tal garantia não existe se dividirmos por $n-h$. Note que nem dividir por $n$ nem por $n-h$ no estimador da função de autocovariância produz um estimador não-viesado de $\gamma(h)$.

A função de autocorrelação amostral tem uma distribuição amostral que nos permite avaliar se os dados provêm de uma série completamente aleatória ou branca ou se as correlações são estatisticamente significativas em algumas defasagens.

Exemplo I.25. Função de autocorrelação amostral (ACF) e gráficos de dispersão.

Estimar a autocorrelação é semelhante à estimativa de correlação na configuração usual, onde temos pares de observações $(x_i,y_i)$, para $i = 1,2,\cdots,n$. Por exemplo, se tivermos dados de séries temporais $x_t$ para $t = 1,2,\cdots,n$, então os pares de observações para estimação de $\rho(h)$ são os $n-h$ pares de dados $\{(x_t,x_{t+h})\}_{t=1}^{n-h}$. A figura abaixo mostra um exemplo usando a série SOI, onde $\widehat{\rho}(1)=0.604$ e $\widehat{\rho}(6)=-0.187$.

Os seguintes códigos foram utilizados para gerar a figura.

> r = round(acf(soi, 6, plot=FALSE)$acf[-1], 3) # primeiros 6 valores da ACF amostral > r [1] 0.604 0.374 0.214 0.050 -0.107 -0.187 > par(mfrow=c(1,2), pch=19) > par(mfrow=c(1,2), mar=c(4,3,1,1),mgp=c(1.6,.6,0), pch=19) > plot(lag(soi,-1), soi); legend('topleft', bty = "n", text.col = "red", legend=substitute(paste(hat(rho),"(1) = ", p), list(p = r[1]))) > plot(lag(soi,-6), soi); legend('topleft', bty = "n", text.col = "red", legend=substitute(paste(hat(rho),"(6) = ", p), list(p = r[6])))

Com base no resultado anterior, obtemos um método aproximado de avaliar se os picos em $\widehat{\rho}(h)$ são significativos, determinando se o pico observado está fora do intervalo $\pm 2/\sqrt{n}$ ou mais/menos dois erros padrão. Para uma sequência de ruído branco, aproximadamente 95% da função de autocorrelação amostral deve estar dentro desses limites. As aplicações dessa propriedade se desenvolvem porque muitos procedimentos de modelagem estatística dependem da redução de uma série temporal para uma série de ruído branco usando vários tipos de transformações. Depois que tais procedimentos serem aplicados, a função de autocorrelação amostral plotada nos resíduos deve então ficar aproximadamente dentro dos limites dados acima.

Exemplo I.26. Uma série temporal simulada.

Para comparar funções de autocorrelação amostral para vários tamanhos de amostra com funções de autocorrelaçãoo teóricas, considere um conjunto artificial de dados gerados pelo lançamento de uma moeda justa, selecionado $X_t = 1$ quando uma cara é obtida e $X_t = -1$ quando uma coroa é obtida. Então, construa $Y_t$ como \begin{equation} Y_t=5+X_t-0.7 X_{t-1}\cdot \end{equation}

Para simular os dados, consideramos dois casos, um com um tamanho de amostra pequeno $n = 10$ e outro com um tamanho de amostra moderado $n = 100$.

> set.seed(101010) > x1 = 2*rbinom(11, 1, .5) - 1 # sequência simulada de lançamentos de moeda > x2 = 2*rbinom(101, 1, .5) - 1 > y1 = 5 + filter(x1, sides=1, filter=c(1,-.7))[-1] > y2 = 5 + filter(x2, sides=1, filter=c(1,-.7))[-1] > par(mfrow=c(1,2), mar=c(4,3,1,1),mgp=c(1.6,.6,0)) > plot.ts(y1, xlab="Lançamentos", type='s'); plot.ts(y2, xlab="Lançamentos", type='s')

Gráficos das séries simuladas, à esquqerda a série com tamanho de amostra 10 e à direita série de tamanho de amostra 100.

> c(mean(y1), mean(y2)) # médias amostrais [1] 5.080 5.002 > acf(y1, lag.max=4, plot=FALSE) # $1/\sqrt{10}=0.32$ Autocorrelations of series ‘y1’, by lag 0 1 2 3 4 1.000 -0.688 0.425 -0.306 -0.007 > acf(y2, lag.max=4, plot=FALSE) # $1/\sqrt{100}=0.1$ Autocorrelations of series ‘y2’, by lag 0 1 2 3 4 1.000 -0.480 -0.002 -0.004 0.000

O ACF teórica pode ser obtido a partir do modelo usando o fato de que a média é zero e a variância é um. Pode ser mostrado que \begin{equation} \rho_Y(1) \, = \, \frac{-0.7}{1+0.7^2} \, = \, -0.47, \end{equation} e $\rho_Y(h) = 0$ para $|h|>1$. É interessante comparar o ACF teórico com a ACF amostral para a realização onde $n = 10$ e a outra realização onde $n = 100$; observe a variabilidade aumentada na amostra de tamanho menor.

Exemplo I.27. ACF de um sinal de fala.

A função de autocorrelação amostral, como no exemplo anterior, pode ser considerada como combinando as séries temporais $h$ unidades no futuro, digamos, $X_{t+h}$ contra si mesmo, $X_t$. A figura abaixo mostra a função de autocorrelação amostral (ACF) da série de fala do Exemplo I.3. A série original parece conter uma sequência de repetições de sinais curtos. A ACF confirma este comportamento, mostrando picos repetidos espaççados em cerca de 106-109 pontos. A função de autocorrelação dos sinais curtos aparecem espaçadas nos intervalos mencionados acima. A distância entre os sinais repetidos é conhecida como o período do tom e é um parâmetro fundamental de interesse em sistemas que codificam e decifram a fala. Como a série é amostrada em 10.000 pontos por segundo, o período de tom parece estar entre 0.0106 e 0.0109 segundos.

Para calcular a ACF amostral em R, use:

> par(mfrow=c(1,1), mar=c(4,3,1,1),mgp=c(1.6,.6,0)) > acf(speech, 250)

Definição I.16. Funções de covariância e correlação cruzada amostral.

Os estimadores para as funções de covariância e correlação cruzada são, respectivamente, dados por \begin{equation} \widehat{\gamma}_{_{XY}}(h)=\frac{1}{n}\sum_{t=1}^{n-h}\big( x_{t+h}-\overline{x}\big)\big( y_{t}-\overline{y}\big), \end{equation} onde $\widehat{\gamma}_{_{XY}}(-h)=\widehat{\gamma}_{_{YX}}(h)$ determina a função para atrasos ou lags negativos e a função de correlação cruzada amostral é \begin{equation} \widehat{\rho}_{_{XY}}(h)=\frac{\widehat{\gamma}_{_{XY}}(h)}{\sqrt{\widehat{\gamma}_{_{X}}(0)\widehat{\gamma}_{_{Y}}(0)}}\cdot \end{equation}

A função de correlação cruzada amostral pode ser examinada graficamente como uma função do lag ou atraso $h$ para procurar por relações de avanço ou atraso nos dados usando a propriedade mencionada no Exemplo I.24 para a função de covariância cruzada teórica. Porque $-1\leq \widehat{\rho}_{_{XY}}(h)\leq 1$, a importância prática dos picos pode ser avaliada comparando suas magnitudes com seus valores máximos teóricos. Além disso, para os processos lineares independentes $X_t$ e $Y_t$ na Definição I.12, temos a seguinte propriedade.

Exemplo I.28. Análise de Correlação de SOI e Recrutamento.

As funções de autocorrelação e correlação cruzada também são úteis para analisar o comportamento conjunto de duas séries estacionárias cujo comportamento pode estar relacionado de alguma forma não especificada. No Exemplo I.5, consideramos as leituras mensais simultâneas do SOI e o número de novos peixes, chado de Recrutamento, calculados a partir de um modelo. A figura abaixo mostra as funções de autocorrelação e correlação cruzada (ACFs e CCF) para essas duas séries. Ambos os ACFs exibem periodicidades correspondentes à correlação entre valores separados por 12 unidades. Observações com 12 meses ou um ano de intervalo são fortemente correlacionadas positivamente, assim como observações em múltiplos como $24,36,48,\cdots$. As observações separadas por seis meses são negativamente correlacionadas, mostrando que as excursões positivas tendem a estar associadas a excursões negativas aos seis meses removidos.

A funções de correlação cruzada amostral (CCF) na figura abaixo, no entanto, mostra uma certa distância do componente cíclico de cada série e há um pico óbvio em $h = -6$. Este resultado implica que o SOI medido no tempo $t-6$ meses está associado à série Recrutamento no tempo $t$. Poderíamos dizer que o SOI lidera a série Recrutamento por seis meses. O sinal da CCF é negativo, levando à conclusão de que as duas séries se movem em direções diferentes; isto é, aumentos no SOI levam a diminuições no Recrutamento e vice-versa. Descobriremos no Capítulo II que existe uma relação entre as séries, mas a relação não é linear. As linhas tracejadas mostradas nos gráficos indicam $\pm 2/\sqrt{453}$, mas como nenhuma das séries é ruído, essas linhas não se aplicam.

Mostramos a funções de autocorrelação amostra ou ACF da série SOI no gráfico superior e da série Recrutamento no gráfico intermediário. A funções de correlação cruzada amostral ou CCF das duas séries mostra-se no gráfico inferior; lags negativos indicam que SOI conduz o Recrutamento. Os lags nos eixos são em termos de estações (12 meses).

Para reproduzir a figura em R, use os seguintes comandos:

> par(mfrow=c(3,1), mar=c(4,3,3,1),mgp=c(1.6,.6,0)) > acf(soi, 48, main="Índice de Oscilação Sul (SOI)") > grid() > acf(rec, 48, main="Recrutamento") > grid() > ccf(soi, rec, 48, main="SOI vs Recrutamento") > grid()

Exemplo I.29. Análise Pré-Branqueamento e Correlação Cruzada.

Embora ainda não tenhamos todas as ferramentas necessárias, vale a pena discutir a ideia de pré-aperfeiçoar uma série antes de uma análise de correlação cruzada. A idéia básica é simples; para usar a Propriedade I.3, pelo menos uma das séries deve ser ruído branco. Se esse não for o caso, não há uma maneira simples de saber se a estimativa de correlação cruzada é significativamente diferente de zero. Assim, no Exemplo I.28, estávamos apenas adivinhando na relação de dependência linear entre SOI e Recrutamento.

Por exemplo, na figura abaixo, geramos duas séries, $X_t$ e $Y_t$, para $t = 1,2,\cdots,120$ independentemente como \begin{equation} X_t=2\cos \big( 2\pi t\frac{1}{12}\big)+W_{t1} \qquad \mbox{e} \qquad Y_t=2\cos \big( 2\pi (t+5)\frac{1}{12}\big)+W_{t2}, \end{equation} onde $\{W_{t1},W_{t1}\}_{t=1}^{120}$ são todas normais padrão independentes.

As séries foram pensadas para se assemelhar às séries SOI e Recrutamento. Os dados gerados são mostrados na linha superior da figura. A linha do meio da figura mostra as ACF amostrais de cada série, cada uma das quais exibe a natureza cíclica de cada série. A linha inferior esquerda da figura mostra o CCF amostral entre $X_t$ e $Y_t$, que parece mostrar correlação cruzada mesmo que as séries sejam independentes. A linha inferior direita também exibe a CCF amostral entre $X_t$ e o $Y_t$ pré-branqueada, o que mostra que as duas sequências não são correlacionadas. Por pré-branqueamento de $Y_t$, queremos dizer que o sinal foi removido dos dados executando uma regressão de $Y_t$ em $\cos(2\pi t)$ e $\sin(2\pi t)$ e, em seguida, colocando $\widetilde{Y}_t = Y_t - \widehat{Y}_t$, onde $\widehat{Y}_t$ são os valores previstos da regressão.

O código a seguir reproduz a figura:

> set.seed(1492) > num=120; t=1:num > X = ts(2*cos(2*pi*t/12) + rnorm(num), freq=12) > Y = ts(2*cos(2*pi*(t+5)/12) + rnorm(num), freq=12) > Yw = resid( lm(Y~ cos(2*pi*t/12) + sin(2*pi*t/12), na.action=NULL) ) > par(mfrow=c(3,2), mgp=c(1.6,.6,0), mar=c(3,3,1,1) ) > plot(X, xlab="Tempo") > plot(Y, xlab="Tempo") > acf(X,48, ylab='ACF(X)') > acf(Y,48, ylab='ACF(Y)') > ccf(X,Y,24, ylab='CCF(X,Y)') > ccf(X,Yw,24, ylab='CCF(X,Yw)', ylim=c(-.6,.6))

I.6 Séries multidimensionais

Frequentemente encontramos situações nas quais os relacionamentos entre um número de séries temporais conjuntamente medidas são de interesse. Por exemplo, nas seções anteriores, consideramos descobrir as relações entre as séries SOI e Recrutamento. Portanto, será útil considerar a noção de um vetor de séries temporais $X_t = (X_{t1},X_{t2},\cdots,X_{tp})^\top$, que contém como componentes $p$ séries temporais univariadas.

Denotamos o vetor $p\times 1$ coluna da série multivariada observada como $X_t$. O vetor de linha $X_t^\top$ é sua transposta. Para o caso estacionário, o vetor $p\times 1$ de médias é \begin{equation} \mu=\mbox{E}(X_t) \end{equation} da forma $\mu=(\mu_{t1},\mu_{t2},\cdots,\mu_{tp})^\top$ e a matriz $p\times p$ de variâncias e covariâncias \begin{equation} \Gamma(h)=\mbox{E}\Big(\big(X_{t+h}-\mu\big)\big(X_{t}-\mu\big)^\top\Big), \end{equation} onde seus elementos são as funções de covariância cruzada \begin{equation} \gamma_{_{ij}}(h)=\mbox{E}\Big(\big(X_{t+h,i}-\mu_i\big)\big(X_{tj}-\mu_j\big)^\top\Big), \end{equation} para $i,j=1,2,\cdots,p$. Devido a que $\gamma_{_{ij}}(h)=\gamma_{_{ji}}(-h)$, segue que \begin{equation} \Gamma(-h)=\Gamma^\top(h)\cdot \end{equation}

A matriz de autocovariância amostral da série de vetores $X_t$ é a matriz $p\times p$ de covariâncias cruzadas amostral, definida como \begin{equation} \widehat{\Gamma}(h)=\frac{1}{n}\sum_{t=1}^{n-h}\big(x_{t+h}-\overline{x}\big)\big(x_{t}-\overline{x}\big)^\top, \end{equation} onde $\overline{x}=\frac{1}{n}\sum_{t=1}^n x_t$ denota o vetor $p\times 1$ de médias amostral. A propriedade de simetria da autocovariância teórica se estende à autocovariância amostral, que é definida para valores negativos como \begin{equation} \widehat{\Gamma}(-h)=\widehat{\Gamma}^\top(h)\cdot \end{equation}

Em muitos problemas aplicados, uma série observada pode ser indexada por mais do que apenas o tempo. Por exemplo, a posição no espaço de uma unidade experimental pode ser descrita por duas coordenadas, digamos, $s_1$ e $s_2$. Podemos prosseguir nestes casos definindo um processo multidimensional $X_s$ como uma função do vetor $s = (s_1,s_2,\cdots,s_r)^\top$, dimensão $r\times 1$, onde $s_i$ denota a coordenada do índice $i$.

Exemplo I.30. Temperaturas da Superfície do Solo.

Como exemplo, a série bidimensional, ou seja, $r=2$, de temperatura mostrada na figura abaixo é indexada por um número de linha $s_1$ e um número de coluna $s_2$ que representam posições em uma grade espacial $64\times 36$ estabelecida em um campo agrícola. O valor da temperatura medida na linha $s_1$ e na coluna $s_2$ é indicado como $x_s = x_{s_1,s_2}$. Podemos notar a partir do gráfico bidimensional que uma mudança distinta ocorre no caráter da superfície bidimensional começando na linha 40, onde as oscilações ao longo do eixo da linha se tornam bastante estáveis e periódicas. Por exemplo, calculando a média das 36 colunas, podemos calcular um valor médio para cada $s_1$, como na figura mais abixo. É claro que o ruído presente na primeira parte da série bidimensional está bem rateado e vemos um sinal de temperatura claro e consistente.

Para gerar a figura acima em R, use os seguintes comandos:

> par(mfrow=c(1,1), mgp=c(1.6,.6,0), mar=c(1,2,0,0) ) > persp(1:64, 1:36, soiltemp, phi=25, theta=25, scale=FALSE, expand=4, ticktype="detailed", xlab="Linhas", ylab="Colunas", zlab="Temperatura")

Na figura acima mostramos as séries temporais bidimensionais de medições de temperatura feitas em um campo retangular de $64\times 36$, com espaçamento de 17 pés. Os dados são de Bazza et al. (1988). Agora mostramos a média das linhas do perfil bidimensional da temperatura do solo, sendo que $\overline{x}_{s_1}=\sum_{s_2} x_{s_1,s_2}/36$.

> par(mfrow=c(1,1), mgp=c(1.6,.6,0), mar=c(3,3,1,1)) > plot.ts(rowMeans(soiltemp), xlab="Linhas", ylab="Temperatura média") > grid()

A função de autocovariâância de um processo estacionário multidimensional $X_s$, pode ser definida como uma função do vetor de atraso multidimensional, digamos, $h=(h_1,h_2,\cdots,h_r)^\top$ como \begin{equation} \gamma(h)=\mbox{E}\big( (X_{s+h}-\mu)(x_s-\mu)\big), \end{equation} onde $\mu=\mbox{E}(X_s)$ não depende da coordenada espacial $s$. Para o processo de temperatura bidimensional, no Exemplo I.30, torna-se \begin{equation} \gamma(h_1,h_2)=\mbox{E}\big( (X_{s_1+h_1,s_2+h_2}-\mu)(x_{s_1,s_2}-\mu)\big), \end{equation} que é uma função do atraso ou lag, tanto na linha em $h_1$ quanto na coluna em $h_2$.

A função de autocovariância amostral multidimensional é definida como \begin{equation} \widehat{\gamma}(h)=\frac{1}{S_1 S_2 \cdots S_r}\sum_{s_1}\sum_{2_2}\cdots \sum_{s_r}(x_{s+h}-\overline{x})(x_s-\overline{x}), \end{equation} onde $s = (s_1,s_2,\cdots,s_r)^\top$ e o intervalo de soma para cada argumento é $1\leq s_i\leq S_i-h_i$, para $i = 1,\cdots,r$. A média é calculada sobre o vetor $r$-dimensional, isto é, \begin{equation} \overline{x}=\frac{1}{S_1 S_2 \cdots S_r}\sum_{s_1}\sum_{2_2}\cdots \sum_{s_r} x_{s_1,s_2,\cdots,s_r}\cdot \end{equation} A função de autocorrelação amostral multidimensional segue, como de costume, tomando a razão escalonada \begin{equation} \widehat{\rho}(h)=\frac{\widehat{\gamma}(h)}{\widehat{\gamma}(0)}\cdot \end{equation}

Exemplo I.31. Função de Autocorrelação Amostral da Temperatura da Superfície do Solo.

A função de autocorrelação do processo bidimensional da temperatura da superfície do solo pode ser escrita na forma \begin{equation} \widehat{\rho}(h_1,h_2)=\frac{\widehat{\gamma}(h_1,h_2)}{\widehat{\gamma}(0,0)}, \end{equation} onde \begin{equation} \widehat{\gamma}(h_1,h_2)=\frac{1}{S_1S_2}\sum_{s_1}\sum_{s_2}(x_{s_1+h1,s_2+h_2}-\overline{x})(x_{s_1,s_2}-\overline{x})\cdot \end{equation}

A figura abaixo mostra a função de autocorrelação para os dados de temperatura, e notamos a variação periódica sistemática que aparece ao longo das linhas. A autocovariância sobre colunas parece ser mais forte para $h_1 = 0$, o que implica que as colunas podem formar réplicas de algum processo subjacente que tenha uma periodicidade sobre as linhas. Essa ideia pode ser investigada examinando-se as séries médias sobre as colunas, como mostra a segunda figura no Exemplo I.30.

A maneira mais fácil, que conhecemos, de calcular a ACF bidimensional no R é usando a transformada rápida de Fourier (FFT) como mostrado abaixo. Infelizmente, o material necessário para entender essa abordagem é dado na Seção IV.3. A função de autocovariância bidimensuonal é obtida em duas etapas e está contida em cs abaixo. Observando que $\widehat{\gamma}(0,0)$ é o elemento $(1,1)$ de modo que $\widehat{\rho}(h_1,h_2)$ é obtido dividindo cada elemento por esse valor. A ACF bidimensional está contido em rs abaixo, e o resto do código é simplesmente para organizar os resultados para produzir uma boa exibição.

> fs = Mod(fft(soiltemp-mean(soiltemp)))^2/(64*36) > cs = Re(fft(fs, inverse=TRUE)/sqrt(64*36)) # ACovF > rs = cs/cs[1,1] # ACF > rs2 = cbind(rs[1:41,21:2], rs[1:41,1:21]) > rs3 = rbind(rs2[41:2,], rs2) > par(mar = c(1,2.5,0,0)+.5) > persp(-40:40, -20:20, rs3, phi=30, theta=30, expand=30, scale="FALSE", ticktype="detailed", xlab="lag por linha", ylab="lag por columna", zlab="ACF")

Os requisitos de amostragem para processos multidimensionais são bastante severos porque os valores devem estar disponíveis em alguma grade uniforme para calcular o ACF. Em algumas áreas de aplicação, como na ciência do solo, podemos preferir amostrar um número limitado de linhas ou transectos e esperar que sejam essencialmente réplicas do fenómeno subjacente básico de interesse. Métodos unidimensionais podem ser aplicados.

Quando as observações são irregulares no espaço de tempo, modificações nos estimadores precisam ser feitas. Abordagens sistemáticas para os problemas introduzidos por observações espaçadas irregularmente foram desenvolvidas por Journel e Huijbregts (1978) ou Cressie (1993). Nós não devemos estudar tais métodos em detalhes aqui, mas vale a pena notar que a introdução do variograma \begin{equation} 2V_{_X}(h)=\mbox{Var}(X_{s+h}-X_s), \end{equation} e seu estimador amostral \begin{equation} 2\widehat{V}_{_X}(h)=\frac{1}{N(h)}\sum_s (x_{s+h}-x_s)^2, \end{equation} desempenha um papel-chave, onde $N(h)$ indica o número de pontos localizados em $h$ e a soma percorre os pontos da vizinhança. Evidentemente, desenvolver-se-ão dificuldades substanciais de indexação a partir de estimadores deste tipo e, frequentemente, será difícil encontrar estimadores definidos não negativos para a função de covariância.

Capítulo I. Características da série temporal

I.1 A natureza dos dados da série temporal

Exemplo I.1. Lucro trimestral da Johnson & Johnson

Exemplo I.2. Aquecimento global

Exemplo I.3. Dados de fala

Exemplo I.4. Bolsa de Valores de Nova Iorque

Exemplo I.5. El Niño e a População de Peixes

Exemplo I.6. Imagem fMRI

Exemplo I.7. Terremotos e explosões

I.2 Modelos estatísticos de séries temporais

Exemplo I.8. Ruído branco

Exemplo I.9. Médias Móveis

Exemplo I.10. Autoregressões

Exemplo I.11. Passeio aleatório com tendência

Exemplo I.12. Sinal no ruído

I.3 Medidas de dependência: autocorrelação e correlação cruzada

Exemplo I.14. Função de média de um passeio aleatório com tendência

Exemplo I.15. Função de média do sinal mais ruído

Exemplo I.16. Autocovariância do ruído branco

Exemplo I.17. Autocovariância de um modelo de médias móveis

Exemplo I.18. Autocovariância de um passeio aleatório

I.4 Série temporal estacionária

Exemplo I.19. Estacionaridade do ruído branco

Exemplo I.20. Estacionaridade da média móvel

Exemplo I.21. Um passeio aleatório não é estacionário

Exemplo I.22. Estacionariedade de tendência

Exemplo I.23. Estacionariedade conjunta.

Exemplo I.24. Previsão usando Correlação Cruzada.

I.5 Estimação da correlação

Exemplo I.25. Função de autocorrelação amostral (ACF) e gráficos de dispersão.

Exemplo I.26. Uma série temporal simulada.

Exemplo I.27. ACF de um sinal de fala.

Exemplo I.28. Análise de Correlação de SOI e Recrutamento.

Exemplo I.29. Análise Pré-Branqueamento e Correlação Cruzada.

I.6 Séries multidimensionais

Exemplo I.30. Temperaturas da Superfície do Solo.

Exemplo I.31. Função de Autocorrelação Amostral da Temperatura da Superfície do Solo.

I.7 Exercícios