A ESTATÍSTICA MULTIVARIADA é um campo maduro com muitos métodos. Muitos
deles são matemáticos. Felizmente, esses métodos foram programados para
que você possa executá-los em seu computador sem muita dificuldade.
Este texto destina-se a um praticante de pós-graduação que pode precisar
usar esses métodos, mas não necessariamente conhece as derivações
matemáticas. Por exemplo, usamos a média da amostra da distribuição
multivariada para estimar a média da população, mas não precisamos
provar as propriedades ótimas de tal estimador quando amostrado de uma
população mãe normal. Os leitores podem querer analisar seus dados,
motivados por questões específicas da disciplina. Eles descobrirão
maneiras de obter alguns resultados importantes sem um diploma em
estatística. Da mesma forma, aqueles bem treinados em estatística
provavelmente estarão familiarizados com muitos dos tópicos univariados
abordados aqui, mas agora podem aprender sobre novos métodos.
O leitor deve ter algumas habilidades básicas de computação, incluindo
edição de dados. Não é necessário ter experiência com R ou com
linguagens de programação embora sejam boas competências a desenvolver.
Vamos supor que o leitor tenha um conhecimento rudimentar da
distribuição normal univariada. Começamos uma discussão de modelos
multivariados com uma introdução da distribuição normal bivariada. Eles
são usados para passar da notação escalar para o uso de vetores e
matrizes usados na distribuição normal multivariada. Uma breve revisão
da álgebra linear aparece, incluindo os cálculos correspondentes em R.
Outras distribuições multivariadas incluem modelos para extremos.
Frequentemente incluímos o software necessário para executar os
programas em R porque precisamos ser capazes de executar esses métodos
com dados reais. Em alguns casos, precisamos manipular os dados para
ajustá-los ao formato adequado. Os leitores podem querer produzir
algumas das exibições gráficas fornecidas para seus próprios dados.
O campo da estatística desenvolveu muitos métodos úteis para analisar
dados, e muitos desses métodos já estão programados para você e
prontamente disponíveis em R. Além do mais, R é gratuito, amplamente
disponível, código-fonte aberto, flexível e a moda atual em estatística
Informática. Os autores de novos métodos estatísticos estão contribuindo
regularmente para as muitas bibliotecas em R, portanto, muitos novos
resultados também estão incluídos.
Como suporte computacional utilizamos a linguagem de programação e
ambiente de desenvolvimento integrado para cálculos estatísticos e
gráficos R, versão 3.5.2, Eggshell Igloo de 20 de dezembro de 2018.
XVI.1.1 Testando os coeficientes de correlação canônicos
XVI.2. Correlação canônica na prática
XVI.3. Exercícios
Referências
Anderson TW (2003). An Introduction to Multivariate Statistical
Analysis. Wiley. 3rd Edition.
Anscombe FJ (1981). Computing in Statistical Science Through APL. New
York: Springer-Verlag.
Armstrong JS (1967). Derivation of theory by means of factor analysis or
Tom Swift and his electric factor analysis machine. The American
Statistician 21 17–21. Referenced on page 223.
Bache K and Lichman M (2013). UCI Machine Learning Repository. Irvine,
CA: University of California, School of Information and Computer
Science. Referenced on page viii. Available online at: http://archive.ics.uci.edu/ml
Box GEP and Cox DR (1964). An analysis of transformations (with
discussions) Journal of the Royal Statistical Society (B) 26: 211-52.
Bradley RA and Terry ME (1952). Rank analysis of incomplete block
designs I: The method of paired comparisons. Biometrika, 39: 324–45.
Chambers JM (1992). Data for models. Chapter 3 of Statistical Models in
S. eds JM Chambers and TJ Hastie, Wadsworth & Brooks/Cole.
Chambers JM, Cleveland WS, Kleiner B, and Tukey JA (1983). Graphical
Methods for Data Analysis. Chapman and Hall, New York.
Chernoff H (1973). The use of faces to represent points in K-dimensional
space graphically. Journal of the American Statistical Association 68:
361–8. doi:10.2307/2284077
Cooley JW, JW Tukey (1965). An algorithm for the machine calculation of
complex Fourier series. Math. Comput. 19: 297-301. doi:10.2307/2003354.
Dunn JC (1973). A fuzzy relative of the ISODATA Process and its use in
detecting compact well-separated clusters. Journal of Cybernetics 3:
32–57. doi:10.1080/01969727308546046.
Cleveland S (1993). Visualizing Data Hobart Press, Summit, New Jersey.
Elston RC and Grizzle JF (1962). Estimation of time response curves and
their confidence bands. Biometrics 18: 148–59.
Everitt B and Hothorn T (2011) An Introduction to Applied Multivariate
Analysis with R. New York: Springer.
Forina M, Leardi R, Armanino C and Lanteri S (1988). PARVUS: An
extendable package of programs for data exploration, classification and
correlation. Elsevier, Amsterdam, ISBN 0-444-43012-1.
Gail MH and Gastwirth JL (1978). A scale-free goodness-of-fit test for
the exponential distribution based on the Gini statistic. Journal of the
Royal Statistical Society, Series B, 40: 350–357.
Goldberg K and Iglewicz B (1992). Bivariate extensions of the boxplot.
Technometrics 34:307–20.
Golub GH and Van Loan CF (1983). Matrix Computations. Baltimore: The
Johns Hopkins University Press.
Hand DJ and Taylor CC (1987). Multivariate Analysis of Variance and
Repeated Measures. Chapman and Hall.
Hartigan JA and Wong MA (1979). A k-means clustering algorithm. Applied
Statistics 28:100–8.
Hotelling H (1935) The most predictable criterion. Journal of
Educational Psychology 26: 139–142.
Izenman AJ (2008). Modern Multivariate Statistical Techniques.
Regression, Classification, and Manifold Learning. Springer.
Jarque CM and Bera AK (1987). A test for normality of observations and
regression residuals. International Statistical Review 55: 163–172.
JSTOR 1403192.
Johnson and Wichern (2007). Applied Multivariate Statistical Analysis
6th Ed. Prentice Hall, Englewood Cliffs, NJ.
Kabacoff RI. (2011). R in Action. Data Analysis and Graphics with R.
Second edition. Manning Publications.
Krause A and Olson M (1997). The Basics of S and S-PLUS New York:
Springer.
Lander TA, Oddou-Muratorio S, Prouillet-Leplat H, Klein EK (2011)
Reconstruction of a beech population bottleneck using archival
demographic information and Bayesian analysis of genetic data. Molecular
Ecology 20: 5182–5196. Data available at http://dx.doi.org/10.1111/j.1365-294X.2011.05356.x
Lang S (2010). Linear Algebra New York: Springer.
Ljung GM and Box GEP (1978). On a measure of lack of fit in time series
models. Biometrika 65: 297–303.
Mardia KV (1970). Measures of multivariate skewness and kurtosis with
applications. Biometrika 57: 519–30.
McFadden D (1974). The measurement of urban travel demand. Journal of
Public Economics 3: 303–28.
Mosteller F and Tukey JW (1977). Data Analysis and Regression: A Second
Course in Statistics Pearson.
Pearl J (2009). Causality: Models, Reasoning and Inference Cambridge
University Press.
Rand WM (1971). Objective criteria for the evaluation of clustering
methods. Journal of the American Statistical Association 66: 846–50.
DOI: 10.1080/01621459.1971.10482356
Schwager, SJ and Margolin BH (1982). Detection of multivariate normal
outliers. Annals of Statistics 10: 943–954.
Shapiro SS, Wilk MB (1965). An analysis of variance test for normality
(complete samples). Biometrika 52 (3–4): 591–611. doi:10.1093/biomet/52.
3-4.591. JSTOR 2333709 MR205384.
Stigler SM (1994). Citation patterns in the journals of statistics and
probability. Statistical Science 9: 94–108.
Sullivan M (2008). Statistics: Informed Decisions Using Data, Third
Edition. Pearson.
Székely GJ and Rizzo ML (2005). A new test for multivariate normality.
Journal of Multivariate Analysis 93: 58–80. doi:
10.1016/j.jmva.2003.12.002.
Takahashi K, Yokota S, Tatsumi N, Fukami T, Yokoi T, and Nakajima M
(2013). Cigarette smoking substantially alters plasma microRNA profiles
in healthy subjects. Toxicology and Applied Pharmacology 272: 154–160.
doi:10.1016/j.taap.2013.05.018.
Tapia RA and Thompson JR (1978). Nonparametric Probability Density
Estimation. Baltimore: Johns Hopkins University Press.
Tufte ER (2001). The Visual Display of Quantitative Information.
Cheshire Press.
Tukey JW (1977). Exploratory Data Analysis. Addison-Wesley.
Venables WN and Ripley BD (2010). Modern Applied Statistics with S
(Statistics and Computing) New York: Springer.
von Eye A, Bogat GA (2004). Testing the assumption of multivariate
normality. Psychology Science 46: 243–258.
Wan H, Larsen LJ (2014). U.S. Census Bureau, American Community Survey
Reports, ACS-29, Older Americans With a Disability: 2008–2012, U.S.
Government Printing Office, Washington, DC, 2014.
Weissman I (1978). Estimation of parameters and large quantiles based on
the k largest observations. Journal of the American Statistical
Association 73: 812–185.
Wilkinson L (1999) The Grammar of Graphics. New York: Springer.
Zelterman D (1993). A semiparametric bootstrap technique for simulating
extreme order statistics. Journal of the American Statistical
Association 88: 477–485.