Modelos Ocultos de Markov

Os Modelos Ocultos de Markov (HMMs) são uma classe de modelos em que a distribuição que gera uma observação depende do estado de uma Cadeia de Markov subjacente e não observada. Eles se mostram promissores como modelos genéricos de propósito geral para séries temporais univariadas e multivariadas, especialmente para séries de valor discreto, incluindo séries categóricas e séries de contagens (Zucchini & MacDonald, 1998).

Considere, por exemplo, uma série de vendas semanais de um produto específico de sabão em um supermercado. As unidades semanais inteiras de um sabonete de cóodigo 3700031165 foram fornecidos pelo Kilts Center for Marketing da Escola de Pós-Graduação em Administração da Universidade de Chicago. O produto é Zest White Water 15 oz. Uma onça, abreviada oz, é uma unidade de medida de massa, uma onça equivale a 28.349523125 gramas. Os dados são mostrados na Figura abaixo.

soap = c(1, 6, 9, 18, 14, 8, 8, 1, 6, 7, 3, 3, 1, 3, 4, 12, 8, 10, 8, 2, 17, 15, 7, 12, 22, 
         10, 4, 7, 5, 0, 2, 5, 3, 4, 4, 7, 5, 6, 1, 3, 4, 5, 3, 7, 3, 0, 4, 5, 3, 3, 4, 4, 4, 
         4, 4, 3, 5, 5, 5, 7, 4, 0, 4, 3, 2, 6, 3, 8, 9, 6, 3, 4, 3, 3, 3, 3, 2, 1, 4, 5, 5, 
         2, 7, 5, 2, 3, 1, 3, 4, 6, 8, 8, 5, 7, 2, 4, 2, 7, 4, 15, 15, 12, 21, 20, 13, 9, 8, 
         0, 13, 9, 8, 0, 6, 2, 0, 3, 2, 4, 4, 6, 3, 2, 5, 5, 3, 2, 1, 1, 3, 1, 2, 6, 2, 7, 3, 
         2, 4, 1, 5, 6, 8, 14, 5, 3, 6, 5, 11, 4, 5, 9, 9, 7, 9, 8, 3, 4, 8, 6, 3, 5, 6, 3, 1, 
         7, 4, 9, 2, 6, 6, 4, 6, 6, 13, 7, 4, 8, 6, 4, 4, 4, 9, 2, 9, 2, 2, 2, 13, 13, 4, 5, 
         1, 4, 6, 5, 4, 2, 3, 10, 6, 15, 5, 9, 9, 7, 4, 4, 2, 4, 2, 3, 8, 15, 0, 0, 3, 4, 3, 
         4, 7, 5, 7, 6, 0, 6, 4, 14, 5, 1, 6, 5, 5, 4, 9, 4, 14, 2, 2, 1, 5, 2, 6, 4)
semanas = seq(as.Date("1992-09-21"), length = 242, by = "week")
dados1= data.frame(semanas, soap)
library(ggplot2)
ggplot(data = dados1, aes(x = semanas, y = soap)) + 
    geom_line(color = "#00AFBB", size = 1) + labs(x = "Semanas", y = "Unidades vendidas")

Nesse caso a aplicação de modelos de séries temporais padrão, como os modelos ARMA, é restrita pois eles são baseados na distribuição normal. Em vez disso, o modelo básico para contagens ilimitadas é a distribuição Poisson. No entanto, o modelo Poisson padrão não é apropriado neste caso uma vez que, como será demonstrado mais tarde, a série apresenta considerável superdispersão em relação à distribuição Poisson e forte dependência serial positiva. Além disso, parecem existir alguns períodos com baixa taxa de vendas semanais e outros períodos com uma taxa relativamente alta de vendas semanais.

A classe de modelos de séries temporais ocultas de Markov, que modelam a distribuição de probabilidade \(S_t\) na dependência do estado não observado, ou seja, oculto \(C_t\) de uma Cadeia de Markov com \(m\) estados e que pode acomodar tanto a superdispersão quanto a dependência serial, parece ser uma ferramenta útil para modelar esta série e tentando entender sua estrutura. O ajuste de um Modelo Oculto de Markov Poisson à série de vendas semanais de sabão constituirá parte integrante desta nota, ou seja, a maioria dos aspectos dos HMMs introduzidos aqui será demonstrada por meio desta série.

Os HMMs têm sido utilizados há mais de duas décadas em aplicações de processamento de sinais, especialmente no contexto do reconhecimento automático de voz, mas o interesse na teoria e nas aplicações de HMMs está se expandindo rapidamente para outros campos, por exemplo:

todos os tipos de reconhecimento: rostos, fala, gesto, caligrafia e/ou assinatura,
bioinformática: análise de sequências biológicas,
ambiente: direção do vento, chuvas, terremotos,
finanças: série de retornos diários.

A bibliografia aqui apresentada lista vários artigos e monografias que lidam com a aplicação dos HMMs nesses campos e podem ser de interesse para leitura adicional: Durbin et al. (1998), Elliott, Aggoun and Moore (1995), Koski (2001), Rabiner (1989) e Ephraim and Merhav (2002).

Entre as características atrativas dos HMMs estão sua versatilidade, sua facilidade matemática e o fato de que a verossimilhança é relativamente direta (Zucchini and MacDonald, 2001). Em detalhe, os HMMs são caracterizados pelas seguintes propriedades:

todos os momentos disponíveis: média, variância, autocorrelações,
verossimilhança de fácil cálculo: cálculo linear no tempo,
distribuições marginais disponíveis: observações faltantes sem problemas,
distribuições condicionais disponíveis: identificação de outliers; previsão de k-passos adiante, distribuição conjunta de várias previsões.

Além disso, os HMMs são interpretáveis em muitos casos e podem facilmente acomodar covariáveis adicionais. São considerados moderadamente parcimoniosos, ou seja, um modelo simples de dois estados geralmente fornece um ajuste razoável.

Os principais objetivos ao lidar com Modelos Ocultos de Markov são os seguintes:

revelam a estrutura dos dados, ou seja, tendência, variação sazonal e dependência serial,
prever valores futuros, incluindo intervalos de previsão,
identificar valores incomuns,
relacionar as observações a outras séries, ou seja, covariáveis.

Estas notas basicamente pretendem dar uma introdução simples ao Modelo Oculto de Markov (HMM). É simples no sentido de que é restrito a séries temporais estacionárias, ou seja, sem tendência ou variação sazonal. As observações podem ser de valor discreto ou contínuo, mas aqui vamos supor que elas sejam univariadas e iremos ignorar qualquer informação que possa estar disponível nas covariáveis. Apenas no final desta nota, daremos uma breve visão geral das possíveis extensões do Modelo Oculto de Markov.

A ênfase estará na aplicação dos modelos, em particular na especificação de modelos, na estimação de parâmetros, na seleção de modelos, na verificação de diagnósticos e na previsão. Como suporte computacional utilizamos a linguagem de programação e ambiente de desenvolvimento integrado para cálculos estatísticos e gráficos R Shortstop Beagle, version 4.2.3 (2023-03-15).

Fundamentos

1 Mistura independente de distribuições
2 Cadeias de Markov
2.1 Distribuição estacionária
2.2 Reversibilidade
2.3 Função de autocorrelação
2.4 Cadeias de Markov de ordem superior
3 Exercícios

Modelos Ocultos de Markov

1 O Modelo Oculto de Markov básico
2 Distribuições marginais e momentos de um Modelo Oculto de Markov
3 A verossimilhança de um Modelo Oculto de Markov
3.1 A verossimilança quando a falta de dados é aleatória
3.2 A verossimilança quando observações são censuradas por intervalos
4 Exercícios

Estimação dos parâmetros

1 Probabilidades de avanço (forward) e retrocesso (backward)
2 O algoritmo EM
3 Maximização direta da verossimilhança
3.1 Restrições nos parâmetros
3.2 Subfluxo numérico
3.3 Um algoritmo eficiente
4 Erros padrão dos estimadores dos parâmetros
5 Exercícios

Previsão e Decodificação

1 Distribuição condicional
2 Distribuição das previsões
3 Decodificação
3.1 Decodificação local
3.2 Decodificação global
3.3 Previsão dos estados
4 Exercícios

Seleção e validação de modelos

1 Seleção de modelos
2 Validação de modelos
3 Exercícios

Aplicações e extensões

1 Modelos Ocultos de Markov com várias distribuições de componentes
2 Modelos Ocultos de Markov de segunda ordem
3 Modelos Ocultos de Markov para séries multivariadas
3.1 Séries de observações multinomiais e séries categóricas
3.2 Outras séries multivariadas
4 Séries que dependem de covariáveis
4.1 Covariáveis nas distribuições dependentes do estado
4.2 Covariáveis nas probabilidades de transição
5 Modelos com dependências adicionais
6 Exercícios

Modelos Ocultos semi-Markov (em elaboração)

1 Introdução
2 Modelos Ocultos semi-Markov
2.1 Modelo geral
2.2 Inferência
2.2.1 O algoritmo forward-backward
2.2.2 Probabilidades e esperanças
2.2.3 Estimação MAP e MLE dos estados
2.2.4 Estimação restrita de estados
2.3 Estimação
2.3.1 Estimação de parâmetros do HSMM
2.3.2 Estimação da ordem do HSMM

Referências

Baum, L.E., T. Petrie, G. Soules, and N. Weiss (1970). A maximization technique occurring in the statistical analysis of probabilistic functions of Markov chains. Annals of Mathematical Statistics 41, 164-171.
Berchtold, A. (1999). The double chain Markov model. Commun. Stat. Theory Meth. 28,2569-2589.
Böhning, D. (2000). Computer assisted analysis of mixtures and applications. Meta-analysis, disease mapping and others. Monographs on Statistics and Applied Probability. 81. London: Chapman & Hall/CRC.
Böhning, D., P. Schlattmann, and B. Lindsay (1992). Computer assisted analysis of mixtures (C.A.MAN): Statistical algorithms. Biometrics 48, 283-303.
Boys, R.J. and Henderson, D.A. (2004). A Bayesian approach to DNA sequence segmentation. Biometrics 60, 573-588.
Durbin, R., S.R. Eddy, A. Krogh, and G. Mitchison (1998). Biological sequence analysis. Probabilistic models of proteins and nucleic acids. Cambridge: Cambridge University Press.
Elliott, R.J., L. Aggoun, and J.B. Moore (1995). Hidden Markov models. Estimation and control. Applications of Mathematics. 29. Berlin: Springer-Verlag.
Ephraim, Y. and N. Merhav (2002). Hidden Markov processes. IEEE Transactions on Information Theory 48 (6), 1518-1568.
Grimmett, G. R. and D. R. Stirzaker (2001). Probability and random processes. 3rd ed. Oxford: Oxford University Press.
Hughes, J. P. (1993). A class of stochastic models for relating synoptic atmospheric patterns to local hydrologic phenomena. University of Washington, Department of Statistics: Ph.D. dissertation.
Kelly, F.P (1979). Reversibility and Stochastic Networks. Wiley, Chichester.
Koski, T. (2001). Hidden Markov models for bioinformatics. Computational Biology Series. 2. Dordrecht: Kluwer Academic Publishers.
MacDonald, I. L. and W. Zucchini (1997). Hidden Markov and other models for discrete-valued time series. Monographs on Statistics and Applied Probability. 70. London: Chapman & Hall.
Nicolas, P., Bize, L., Muri, F., Hoebeke, M., Rodolphe, F., Ehrlich, S.D., Prum, B. and Besières, P. (2002). Mining Bacilus subtilis chromosome heterogeneities using hidden Markov models. Nucleic Acids Res., 30, 1418-1426.
Parzen, E. (1962). Stochastic processes. Holden-Day Series in Probability and Statistics. San Francisco etc.: Holden-Day.
Pegram, G. G. S. (1980). An autoregressive model for multilag Markov chains. Journal of Applied Probability 17, 350-362.
R Development Core Team (2005). R: A language and environment for statistical computing. Vienna, Austria: R Foundation for Statistical Computing.
Rabiner, L. R. (1989). A tutorial on hidden Markov models and selected applications in speech recognition. IEEE Transactions on Information Theory 77 (2), 257-284.
Raftery, A. E. (1985). A model for high-order Markov chains. Journal of the Royal Statistical Society, Series B 47, 528-539.
Rydén, T. (1995). Estimating the order of hidden Markov models. Statistics 26 (4), 345-354.
Seneta, E. (1981). Non-negative matrices and Markov chains. 2nd ed. Springer Series in Statistics. New York etc.: Springer-Verlag.
Stadie, A. (2003). Überprüfung stochastischer Modelle mit Pseudo-Residuen. Göottingen: Dissertation.
Zucchini, W. (2000). An introduction to model selection. Journal of Mathematical Psychology 44 (1), 41-61.
Zucchini, W. (2002). Generalized residuals and their applications. In Proceedings of the XXIst International Biometric Conference, pp. 403-423. Freiburg, Germany.
Zucchini, W., F. Böker, and A. Stadie (2001). Statistik III. Skript zur Vorlesung. Göttingen: Institut für Statistik und Ökonometrie.
Zucchini, W. and P. Guttorp (1991). A hidden Markov model for space time precipitation. Water Resources Research 27 (8), 1917-1923.
Zucchini, W. and I. MacDonald (1998). Hidden markov time series models: Some computational issues. In S. Weisberg (Ed.), Computing Science and Statistics, Volume 30, pp. 157-163. Fairfax Station, Va.: Interface Foundation of North America.
Zucchini, W. and I. MacDonald (1999). Illustrations of the use of pseudo-residuals in assessing the fit of a model. In H. Friedl and G. Kauermann (Eds.), Proceedings of the 14th International Workshop on Statistical Modelling, pp. 409-416. Graz, Austria.
Zucchini, W. and I. MacDonald (2001). Markov process, hidden. In A. H. El-Shaarawi and W. W. Piegorsch (Eds.), Encyclopedia of Environmetrics, Volume 3, pp. 1210-1213. John Wiley & Sons.

Modelos Ocultos de Markov

Fernando Lucambio

2023-06-14

Referências