VII. Métodos estatísticos no domínio da frequência


Última atualização: 01 de dezembro de 2019.

Anteriormente vimos muitos problemas aplicados em séries temporais que envolviam relacionar séries entre si ou avaliar os efeitos de tratamentos ou parâmetros de concepção que surgem quando fenómenos variáveis no tempo são sujeitos a estímulos periódicos. Em muitos casos, a natureza dos fenómenos físicos ou biológicos em estudo é melhor descrita pelos seus componentes de Fourier e não pelas equações de diferença envolvidas em modelos ARIMA ou de espaço de estados. As ferramentas fundamentais que utilizamos no estudo são a transformada discreta de Fourier (DFT) dos processos e seus propriedades estatísticas. Assim, na Seção VII.2, revemos as propriedades das DFT de uma série temporal multivariada e discutimos várias aproximações à verossimilhança com base nas propriedades em amostras grandes e nas propriedades da distribuição normal multivariada complexa. Isto permite a extensão das técnicas clássicas como ANOVA e análise de componentes principais para as séries temporais multivariadas que é o foco aqui.

Uma classe extremamente importante de problemas na estatística clássica se desenvolve quando somos interessados em relacionar uma coleção de séries de entrada com algumas séries de saída. Por exemplo, no Capítulo II, foi considerada a relação entre a temperatura e vários poluentes à níveis de mortalidade diária, mas não investigamos as frequências que parecem ser a condução da relação e não consideramos a possibilidade de adiantar ou atrasar efeitos. No Capítulo IV, isolámos uma estrutura de desfasamento definida que poderia ser utilizada para relacionar a temperatura da superfície do mar com o número de novos recrutas. No Exercício V.10, os possíveis processos de condução que poderiam ser usados para explicar o influxo para o Lago Shasta foram levantadas hipóteses em termos de possíveis insumos de precipitação em termos de possíveis entradas de precipitação, cobertura de nuvens, temperatura e outras variáveis. Identificar a combinação de fatores de entrada que produzem a melhor predição de influxo é um exemplo de regressão múltipla no domínio da frequência, com os modelos tratados teoricamente considerando a regressão condicional aos processos de entrada aleatórios.

Uma situação um pouco diferente daquela acima seria aquela em que as entradas são consideradas como fixas e conhecidas. Neste caso, temos um modelo análogo ao que ocorre na análise de desvio, na qual a análise agora pode ser executada por frequência numa base de frequência. Esta análise funciona especialmente bem quando são variáveis fictícias ou dummy, dependendo de alguma configuração de tratamento e outras quando os efeitos são largamente dependentes de estímulos periódicos. Como um exemplo, vamos olhar para um experimento projetado que mede as respostas do cérebro da fRMI de um número de sujeitos acordados e levemente anestesiados a vários níveis de periódicos efeitos de escovagem, calor e choque. Alguns dados limitados desta experiência foram discutido anteriormente no Exemplo I.6. A Figura VII.1 mostra as respostas médias a vários níveis de calor periódico, escovação e estímulos de choque para sujeitos acordados e sujeitos sob anestesia ligeira. Os estímulos foram de natureza periódica, aplicados alternadamente cada 32 segundos (16 pontos) e depois parando durante 32 segundos. O sinal de entrada periódico é realizado em todas as três condições de planejamento quando os sujeitos estão acordados, mas é um pouco atenuada sob anestesia. A resposta média do nível de choque dificilmente mostra no sinal de entrada; os níveis de choque foram projetados para simular incisão cirúrgica sem causar danos nos tecidos. As médias na Figura VII.1 são de um único local. Na verdade, para cada indivíduo, cerca de nove séries foram gravadas em vários locais do cérebro. É natural considerar testar os efeitos da escovação, calor e choque sob os dois níveis de consciência, usando uma generalização das séries temporais para análise de variância.

Figura VII.1: Resposta média dos sujeitos a várias combinações de estímulos periódicos medidos no córtex: somatossensorial primário, contralateral. Na primeira coluna, os sujeitos estão acordados, na segunda coluna os sujeitos estão sob anestesia leve. Na primeira linha, o estímulo é uma escova na mão, a segunda linha envolve a aplicação de calor e a terceira linha envolve um choque de baixo nível.

O código R usado para gerar a Figura VII.1 é:
> library(astsa) > x = matrix(0, 128, 6) > for (i in 1:6) { x[,i] = rowMeans(fmri[[i]]) } > colnames(x) = c("Escova", "Calor", "Choque", "Escova", "Calor", "Choque") > par(mfrow = c(1,1), mar=c(3,2,3,0), mgp=c(1.6,0.6,0), pch=19) > plot.ts(x, main="", xlab="Tempo") > grid() > mtext("Acordado", side=3, line=1.2, adj=0.10 , cex=1.2) > mtext("Sedado", side=3, line=1.2, adj=0.80, cex=1.2)

Uma generalização para a regressão de coeficientes aleatórios também é considerada, paralelamente à abordagem univariada para extração e detecção de sinais apresentada na Seção IV.9. Este método permite o tratamento de regressões multivariadas ridge e problemas de inversão. Além disso, a análise de variância usual dos efeitos aleatórios no domínio da frequência torna-se um caso especial do modelo de coeficiente aleatórios.

A extensão da metodologia no domínio da frequência as abordagens mais clássicas para discriminação e agrupamento multivariados é de interesse no caso dependente da frequência. Muitas séries temporais diferem em suas médias e funções de autocovariância, tornando relevante o uso da função de média e das matrizes de densidade espectral. Como exemplo desses dados, considere as séries bivariadas que consistem nos componentes \(P\) e \(S\) derivados de vários terremotos e explosões, como os mostrados na Figura VII.2, onde os componentes \(P\) e \(S\), representando chegadas diferentes, foram separados da primeira e segundas metades, respectivamente, de formas de ondas como as mostradas originalmente na Figura I.7.

Dois terremotos e duas explosões de um conjunto de oito terremotos e explosões são mostrados na Figura VII.2 e existem algumas diferenças essenciais que podem ser usadas para caracterizar as duas classes de eventos. Além disso, o conteúdo de frequências dos dois componentes dos terremotos parece ser menor que o das explosões e as amplitudes relativas das duas classes parecem diferir. Por exemplo, a proporção das amplitudes de \(S\) para \(P\) no grupo de terremotos é muito maior para este subconjunto restrito. Diferenças espectrais também foram observadas no Capítulo IV, onde os processos de explosã tinham um componente de alta frequência mais forte em relação às contribuições de baixa frequência. Exemplos como esses são típicos de aplicações nas quais as diferenças essenciais entre séries temporais multivariadas podem ser expressas pelo comportamento das funções do valor médio dependentes da frequência ou da matriz espectral. Na análise discriminante, esses tipos de diferenças são explorados para desenvolver combinações de critérios de classificação linear e quadrática. Essas funções podem ser usadas para classificar eventos de origem desconhecida, como o evento Novaya Zemlya mostrado na Figura VI.2, que tende a ter uma semelhança visual com o grupo de explosão.

Figura VII.2: Vários terremotos (EQ) e explosões (EX) bivariados registrados a 40 pts/s em comparação com um evento NZ (Novaya Zemlya) de origem desconhecida. As ondas de compressão, também conhecidas como ondas primárias ou \(P\), viajam mais rápido na crosta terrestre e são as primeiras a chegar. As ondas de cisalhamento propagam-se mais lentamente pela Terra e chegam em segundo lugar; portanto, são chamadas ondas secundárias ou \(S\).

O código R usado para produzir a Figura VII.2 é:
> library(astsa) > attach(eqexp) # você pode usar os nomes das séries > P = 1:1024; S = P+1024 > x = cbind(EQ5[P], EQ6[P], EX5[P], EX6[P], NZ[P], EQ5[S], EQ6[S], EX5[S], EX6[S], NZ[S]) > x.name = c("EQ5","EQ6","EX5","EX6","NZ") > colnames(x) = c(x.name, x.name) > plot.ts(x, main="", xlab="Tempo") > mtext("Ondas P", side=3, line=1.2, adj=.07, cex=1.2) > mtext("Ondas S", side=3, line=1.2, adj=.85, cex=1.2) > grid()

Finalmente, para processos multivariados, a estrutura da matriz espectral também é de grande interesse. Podemos reduzir a dimensão do processo subjacente a um conjunto menor de processos de entrada que explicam a maior parte da variabilidade na matriz espectral cruzada em função da frequências. A análise de componentes principais pode ser usada para decompor a matriz espectral em um subconjunto menor de fatores componentes que explicam quantidades decrescentes de energia. Por exemplo, os dados hidrológicos podem ser explicados em termos de um processo de componentes que pesa muito na precipitação e na entrada e um que pesa muito na temperatura e na cobertura de nuvens. Talvez esses dois componentes possam explicar a maior parte da potência na matriz espectral em uma determinada frequência. As idéias por trás da análise de componentes principais também podem ser generalizadas para incluir uma metodologia de escala ideal para dados categóricos chamada envelope espectral (ver Stoffer et al., 1993).