Métodos Estatisticos Multivariados

A ESTATÍSTICA MULTIVARIADA é um campo maduro com muitos métodos. Muitos deles são matemáticos. Felizmente, esses métodos foram programados para que você possa executá-los em seu computador sem muita dificuldade.

Este texto destina-se a um praticante de pós-graduação que pode precisar usar esses métodos, mas não necessariamente conhece as derivações matemáticas. Por exemplo, usamos a média da amostra da distribuição multivariada para estimar a média da população, mas não precisamos provar as propriedades ótimas de tal estimador quando amostrado de uma população mãe normal. Os leitores podem querer analisar seus dados, motivados por questões específicas da disciplina. Eles descobrirão maneiras de obter alguns resultados importantes sem um diploma em estatística. Da mesma forma, aqueles bem treinados em estatística provavelmente estarão familiarizados com muitos dos tópicos univariados abordados aqui, mas agora podem aprender sobre novos métodos.

O leitor deve ter algumas habilidades básicas de computação, incluindo edição de dados. Não é necessário ter experiência com R ou com linguagens de programação embora sejam boas competências a desenvolver.

Vamos supor que o leitor tenha um conhecimento rudimentar da distribuição normal univariada. Começamos uma discussão de modelos multivariados com uma introdução da distribuição normal bivariada. Eles são usados para passar da notação escalar para o uso de vetores e matrizes usados na distribuição normal multivariada. Uma breve revisão da álgebra linear aparece, incluindo os cálculos correspondentes em R. Outras distribuições multivariadas incluem modelos para extremos.

Frequentemente incluímos o software necessário para executar os programas em R porque precisamos ser capazes de executar esses métodos com dados reais. Em alguns casos, precisamos manipular os dados para ajustá-los ao formato adequado. Os leitores podem querer produzir algumas das exibições gráficas fornecidas para seus próprios dados.

O campo da estatística desenvolveu muitos métodos úteis para analisar dados, e muitos desses métodos já estão programados para você e prontamente disponíveis em R. Além do mais, R é gratuito, amplamente disponível, código-fonte aberto, flexível e a moda atual em estatística Informática. Os autores de novos métodos estatísticos estão contribuindo regularmente para as muitas bibliotecas em R, portanto, muitos novos resultados também estão incluídos.

Como suporte computacional utilizamos a linguagem de programação e ambiente de desenvolvimento integrado para cálculos estatísticos e gráficos R, versão 3.5.2, Eggshell Igloo de 20 de dezembro de 2018.

Capítulo I. Comparações

I.1. Boxplots
I.1.1. Construção do Boxplot
I.2. Histogramas
I.3. Estimação kernel de densidades
I.4. Gráficos de dispersão
I.5. Rostos de Chernoff-Flury
I.6. Curvas de Andrews
I.7. Gráfico das coordenadas paralelas
I.8. Gráfico hexagonal
I.9. Estudo habitacional em Boston (Boston Housing)
I.10. Exercícios

Capítulo II. Álgebra de matrizes

II.1. Operações elementares
II.2. Decomposição espectral
II.3. Formas quadráticas
II.4. Derivadas
II.5. Matrizes particionadas
II.6. Aspectos geométricos
II.7. Exercícios

Capítulo III. Movendo-se para dimensões superiores

III.1. Covariância
III.2. Correlação
III.3. Estatísticas de resumo
III.4. Modelo linear para duas variáveis
III.5. Análise de Variâncias simple
III.6. Modelo linear multivariado
III.7. Boston Housing
III.8. Exercícios

Capítulo IV. Distribuições multivaridas

IV.1. Funções de densidade e de distribuição
IV.2. Momentos e funções características
IV.2.1. Funções características
IV.2.2. Funções cumulantes
IV.3. Transformações
IV.4. A distribuição normal multivariada
IV.4.1. Geometria da distribuição normal multivariada \(N_p(\mu,\Sigma)\)
IV.4.2. Distribuição normal singular
IV.4.3. Copula gaussiano
IV.5. Distribuições amostrais e teoremas limites
IV.5.1. Transformações de estatísticas
IV.6. Distribuições com caudas pesadas
IV.6.1. Distribuição hiperbólica generalizada
IV.6.2. Distribuição \(t\)-Student
IV.6.3. Distribuição Laplace
IV.6.4. Distribuição Cauchy
IV.6.5. Modelos de mistruras
IV.6.6. Distribuição hiperbólica generalizada multivariada
IV.6.7. Distribuição \(t\) multivariada
IV.6.8. Distribuição Laplace multivariada
IV.7. Copulas
IV.8. Bootstrap
IV.9. Exercícios

Capítulo VIII. Modelos de regressão

VIII.1. Modelos ANOVA gerais e modelos ANCOVA
VIII.1.1. Modelos ANOVA
VIII.1.2. Modelos ANCOVA
VIII.2. Respostas categóricas
VIII.2.1. Amostragem multinomial e tabelas de contingência
VIII.2.2. Modelo log-linear para tabelas de contingência
VIII.2.3. Problemas de teste com dados de contagem
VIII.2.4. Modelo logístico
VIII.2.4.1. Modelos logísticos para resposta binária
VIII.2.4.2. Modelos logísticos para tabelas de contingência
VIII.3. Exercícios

Capítulo IX. Seleção de variáveis

IX.1. Regressão ridge
IX.2. Lasso
IX.3. Rede elástica (elastic net)
IX.3.1. Rede elástica no modelo de regressão linear
IX.3.2. Rede elástica (elastic net) no modelo logístico
IX.4. Lasso agrupado
IX.5. Exercícios

Capítulo X. Decomposição de matrizes de dados por fatores

X.1. Ponto de vista geométrico
X.2. Ajustando a nuvem de pontos \(p\)-dimensional
X.3. Ajustando a nuvem de pontos \(n\)-dimensional
X.4. Relações entre subespaços
X.5. Cálculos práticos
X.6. Exercícios

Capítulo XI. Análise de Componentes Principais

XI.1. Combinação linear padronizada
XI.2. Componentes principais na prática
XI.3. Interpretação dos componentes principais
XI.4. Propriedades assintóticas das componentes principais
XI.4.1 Variação explicada pelos primeiros \(q\) componentes principais
XI.5. Análise normalizada de componentes principais
XI.6. Componentes principais como método fatorial
XI.6.1 Qualidade da representação
XI.7. Componentes principais comuns
XI.8. Exercícios

Capítulo XII. Análise fatorial

XII.1. Modelo fatorial ortogonal
XII.1.1. Interpretação dos fatores
XII.1.2. Invariância de escala
XII.1.3. Não exclusividade das cargas fatoriais
XII.2. Estimação do modelo fatorial
XII.2.1. Método da máxima verossimilhança
XII.2.2. Teste de razão de verossimilhança para o número de fatores comuns
XII.2.3. O método dos fatores principais
XII.2.4. Rotação
XII.3. Exercícios

Capítulo XIII. Análise de Cluster

XIII.1. O problema
XIII.2. A proximidade entre objetos
XIII.2.1. Semelhança de objetos com estrutura binária
XIII.2.2. Medidas de distância para variáveis contínuas
XIII.3. Algoritmos de cluster
XIII.4. Comparando dois dendrogramas
XIII.4.1. Matriz de distância
XIII.4.2. Índice Gama de Baker
XIII.4.3. Correlação cofenética
XIII.4.4. O índice de Fowlkes-Mallows e o gráfico \(B_k\)
XIII.5. Boston Housing
XIII.6. Exercícios

Capítulo XIV. Análise discriminante

XIV.1. Regras de alocação para distribuições conhecidas
XIV.1.1. Regra de discriminação de máxima verossimilhança
XIV.1.2. Regra de discriminação de Bayes
XIV.1.3. Probabilidade de classificação incorreta para a regra ML
XIV.1.4. Classificação com diferentes matrizes de covariância
XIV.2. Regras discriminantes na prática
XIV.2.1. Estimativa das probabilidades de erros de classificação
XIV.2.2. Função discriminante de Fisher
XIV.3. Exercícios

Capítulo XV. Análise de correspondência

XV.1. Motivação
XV.2. Decomposição Qui-Quadrado
XV.3. Análise de correspondência na prática
XV.3.1 Biplots
XV.4. Exercícios

Capítulo XVI. Análise de correlação canônica

XVI.1. Combinação linear mais interessante
XVI.1.1 Testando os coeficientes de correlação canônicos
XVI.2. Correlação canônica na prática
XVI.3. Exercícios

Referências

Anderson TW (2003). An Introduction to Multivariate Statistical Analysis. Wiley. 3rd Edition.
Anscombe FJ (1981). Computing in Statistical Science Through APL. New York: Springer-Verlag.
Armstrong JS (1967). Derivation of theory by means of factor analysis or Tom Swift and his electric factor analysis machine. The American Statistician 21 17–21. Referenced on page 223.
Bache K and Lichman M (2013). UCI Machine Learning Repository. Irvine, CA: University of California, School of Information and Computer Science. Referenced on page viii. Available online at: http://archive.ics.uci.edu/ml
Box GEP and Cox DR (1964). An analysis of transformations (with discussions) Journal of the Royal Statistical Society (B) 26: 211-52.
Bradley RA and Terry ME (1952). Rank analysis of incomplete block designs I: The method of paired comparisons. Biometrika, 39: 324–45.
Chambers JM (1992). Data for models. Chapter 3 of Statistical Models in S. eds JM Chambers and TJ Hastie, Wadsworth & Brooks/Cole.
Chambers JM, Cleveland WS, Kleiner B, and Tukey JA (1983). Graphical Methods for Data Analysis. Chapman and Hall, New York.
Chang W (2013). R Graphics Cookbook O’Reilly Media, Sebastopol, CA.
Available online at: http://books.google.com/books?id=fxL4tu5bzAAC.
Chernoﬀ H (1973). The use of faces to represent points in K-dimensional space graphically. Journal of the American Statistical Association 68: 361–8. doi:10.2307/2284077
Cooley JW, JW Tukey (1965). An algorithm for the machine calculation of complex Fourier series. Math. Comput. 19: 297-301. doi:10.2307/2003354.
Dunn JC (1973). A fuzzy relative of the ISODATA Process and its use in detecting compact well-separated clusters. Journal of Cybernetics 3: 32–57. doi:10.1080/01969727308546046.
Cleveland S (1993). Visualizing Data Hobart Press, Summit, New Jersey.
Elston RC and Grizzle JF (1962). Estimation of time response curves and their conﬁdence bands. Biometrics 18: 148–59.
Everitt B and Hothorn T (2011) An Introduction to Applied Multivariate Analysis with R. New York: Springer.
Forina M, Leardi R, Armanino C and Lanteri S (1988). PARVUS: An extendable package of programs for data exploration, classiﬁcation and correlation. Elsevier, Amsterdam, ISBN 0-444-43012-1.
Gail MH and Gastwirth JL (1978). A scale-free goodness-of-ﬁt test for the exponential distribution based on the Gini statistic. Journal of the Royal Statistical Society, Series B, 40: 350–357.
Goldberg K and Iglewicz B (1992). Bivariate extensions of the boxplot. Technometrics 34:307–20.
Golub GH and Van Loan CF (1983). Matrix Computations. Baltimore: The Johns Hopkins University Press.
Hand DJ and Taylor CC (1987). Multivariate Analysis of Variance and Repeated Measures. Chapman and Hall.
Hartigan JA and Wong MA (1979). A k-means clustering algorithm. Applied Statistics 28:100–8.
Hotelling H (1935) The most predictable criterion. Journal of Educational Psychology 26: 139–142.
Izenman AJ (2008). Modern Multivariate Statistical Techniques. Regression, Classiﬁcation, and Manifold Learning. Springer.
Jarque CM and Bera AK (1987). A test for normality of observations and regression residuals. International Statistical Review 55: 163–172. JSTOR 1403192.
Johnson and Wichern (2007). Applied Multivariate Statistical Analysis 6th Ed. Prentice Hall, Englewood Cliﬀs, NJ.
Kabacoﬀ RI. (2011). R in Action. Data Analysis and Graphics with R. Second edition. Manning Publications.
Krause A and Olson M (1997). The Basics of S and S-PLUS New York: Springer.
Lander TA, Oddou-Muratorio S, Prouillet-Leplat H, Klein EK (2011) Reconstruction of a beech population bottleneck using archival demographic information and Bayesian analysis of genetic data. Molecular Ecology 20: 5182–5196. Data available at http://dx.doi.org/10.1111/j.1365-294X.2011.05356.x
Lang S (2010). Linear Algebra New York: Springer.
Ljung GM and Box GEP (1978). On a measure of lack of ﬁt in time series models. Biometrika 65: 297–303.
Mardia KV (1970). Measures of multivariate skewness and kurtosis with applications. Biometrika 57: 519–30.
McFadden D (1974). The measurement of urban travel demand. Journal of Public Economics 3: 303–28.
Mosteller F and Tukey JW (1977). Data Analysis and Regression: A Second Course in Statistics Pearson.
Pearl J (2009). Causality: Models, Reasoning and Inference Cambridge University Press.
Rand WM (1971). Objective criteria for the evaluation of clustering methods. Journal of the American Statistical Association 66: 846–50. DOI: 10.1080/01621459.1971.10482356
Sarkar D (2008). Lattice: Multivariate Data Visualization with R. Springer. http://lmdvr.r-forge.r-project.org/
Schwager, SJ and Margolin BH (1982). Detection of multivariate normal outliers. Annals of Statistics 10: 943–954.
Shapiro SS, Wilk MB (1965). An analysis of variance test for normality (complete samples). Biometrika 52 (3–4): 591–611. doi:10.1093/biomet/52. 3-4.591. JSTOR 2333709 MR205384.
Stigler SM (1994). Citation patterns in the journals of statistics and probability. Statistical Science 9: 94–108.
Sullivan M (2008). Statistics: Informed Decisions Using Data, Third Edition. Pearson.
Székely GJ and Rizzo ML (2005). A new test for multivariate normality. Journal of Multivariate Analysis 93: 58–80. doi: 10.1016/j.jmva.2003.12.002.
Takahashi K, Yokota S, Tatsumi N, Fukami T, Yokoi T, and Nakajima M (2013). Cigarette smoking substantially alters plasma microRNA proﬁles in healthy subjects. Toxicology and Applied Pharmacology 272: 154–160. doi:10.1016/j.taap.2013.05.018.
Tapia RA and Thompson JR (1978). Nonparametric Probability Density Estimation. Baltimore: Johns Hopkins University Press.
Tufte ER (2001). The Visual Display of Quantitative Information. Cheshire Press.
Tukey JW (1977). Exploratory Data Analysis. Addison-Wesley.
Venables WN and Ripley BD (2010). Modern Applied Statistics with S (Statistics and Computing) New York: Springer.
von Eye A, Bogat GA (2004). Testing the assumption of multivariate normality. Psychology Science 46: 243–258.
Wan H, Larsen LJ (2014). U.S. Census Bureau, American Community Survey Reports, ACS-29, Older Americans With a Disability: 2008–2012, U.S. Government Printing Oﬃce, Washington, DC, 2014.
Weissman I (1978). Estimation of parameters and large quantiles based on the k largest observations. Journal of the American Statistical Association 73: 812–185.
Wilkinson L (1999) The Grammar of Graphics. New York: Springer.
Zelterman D (1993). A semiparametric bootstrap technique for simulating extreme order statistics. Journal of the American Statistical Association 88: 477–485.

Métodos Estatisticos Multivariados

2023-03-29

Referências