Este capítulo serve como um lembrete dos conceitos básicos de álgebra matricial, que são particularmente úteis na análise multivariada. Ele também apresenta as notações usadas para vetores e matrizes. Autovalores e autovetores desempenham um papel importante em técnicas multivariadas. Nas Seções II.2 e II.3, apresentam-se a decomposição espectral de matrizes e consideramos a maximização (minimização) de formas quadráticas dadas algumas restrições.
Ao analisar a distribuição normal multivariada, as matrizes particionadas aparecem naturalmente. Algumas das propriedades algébricas básicas são dadas na Seção II.5. Essas propriedades serão muito usadas nos Capítulos Iv e V. A geometria da multinormal e a interpretação geométrica das técnicas multivariadas utiliza intensivamente a noção de ângulos entre dois vetores, a projeção de um ponto em um vetor e as distâncias entre dois pontos. Essas idéias são introduzidas na Seção II.6.
Uma matriz \(A_{n\times p}\) é um sistema de números com \(n\) linhas e \(p\) colunas: \[ A = \begin{pmatrix} a_{11} & a_{12} & \cdots & a_{1p} \\ a_{21} & a_{22} & \cdots & a_{2p} \\ \vdots & \vdots & \ddots & \vdots \\ a_{n1} & a_{n2} & \cdots & a_{np} \end{pmatrix} \]
Apresentamos operações elemntares:
\[
A^\top = (a_{ji})
\]
\[ A+B = (a_{ij}+b_{ij}) \]
\[ A-B = (a_{ij}-b_{ij}) \]
\[ c\times A = (c\times a_{ij}) \]
\[ A\times B = (c_{ik}) = \left( \sum_{j=1}^p a_{ij}b_{j,k}\right) \]
\[ A+B = B+A \]
\[ A\times (B+C) = A\times B + A\times C \]
\[ A\times (B\times C) = (A\times B)\times C \]
\[ \big(A^\top\big)^\top = A \]
\[ \big( A\times B)^\top = B^\top\times A^\top \]Posto
O posto, \(\mbox{posto}(A)\), de uma matriz \(A_{n\times p}\) é definido como o número máximo de linhas (colunas) linearmente independentes. Diz-se que um conjunto de \(k\) linhas \(a_j\) de \(A_{n\times p}\) é linearmente independente se \(\sum_{j=1}^k c_j a_j = 0_p\) implica \(c_j=0\) \(\forall j\), onde \(c_1,\cdots,c_k\) são escalares. Em outras palavras, nenhuma linha neste conjunto pode ser expressa como uma combinação linear não trivial das \(k-1\) linhas restantes.
Traço
O traço da matriz \(A_{p\times p}\) é a soma de seus elementos diagonais \[ \mbox{tr}(A) = \sum_{i=1}^p a_{ii}\cdot \]
Determinante
O determinante pe um importante conceito na álgebra matricial. Para uma matriz quadrada \(A\), é definido como \[ \mbox{det}(A) = |A| = \sum (-i)^{|\tau|} a_{1\tau(1)} \cdots a_{p \tau(p)}, \]
a soma é sobre todas as permutações \(\tau\) de \(\{1,2,\cdots,p\}\) e \(|\tau|=0\) se a permutação puder ser escrita como um produto de um número par de transposições e \(|\tau|=1\) caso contrário.
Algumas propriedades do determinante de uma matriz são:
\[
|A^\top| = |A|,
\]
\[ |A\times B| = |A|\times |B|, \]
\[ |c\times A| = c^n |A|\cdot \]
No caso de \(p=2\), \(A=\begin{pmatrix} a_{11} & a_{12} \\ a_{21} & a_{22} \end{pmatrix}\) e podemos permutar os dígitos 1 e 2 uma vez ou não. Então, \[ |A| = a_{11} a_{22}- a_{12} a_{21}\cdot \]
Para \(A_{n\times p}\) e \(B_{p\times n}\) \[ \big( A^\top\big)^\top = A \qquad \big(A\times B\big)^\top = B^\top A^\top\cdot \]
Se \(|A|\neq 0\) e \(A_{p\times p}\), então a inversa \(A^{-1}\) existe \[ A A^{-1} = A^{-1} A = \mbox{I}_p\cdot \]
Para matrizes pequenas, a inversa de \(A = (a_{ij}\) pode ser calculada como \[ A^{-1} = \dfrac{C}{|A|}, \]
onde \(C=(c_{ij})\) é a matriz adjunta de \(A\). Os elementos \(c_{ji}\) de \(C^\top\) são os co-fatores de \(A\): \[ c_{ji} = (-1)^{i+j} = \left| \begin{matrix} a_{11} & \cdots & a_{1(j-1)} & a_{1(j+1)} & \cdots & a_{1p} \\ \vdots & \cdots & \vdots & \vdots & \cdots & \vdots \\ a_{(i-1)1} & \cdots & a_{(i-1)(j-1)} & a_{(i-1)(j+1)} & \cdots & a_{(i-1)p} \\ a_{(i+1)1} & \cdots & a_{(i+1)(j-1)} & a_{(i+1)(j+1)} & \cdots & a_{(i+1)p} \\ \vdots & \cdots & \vdots & \vdots & \cdots & \vdots \\ a_{p1} & \cdots & a_{p(j-1)} & a_{p(j+1)} & \cdots & a_{pp} \end{matrix}\right|\cdot \]A relação entre determinante e inversa da matriz \(A\) é \(|A^{-1}|=|A|^{-1}\).
Um conceito mais geral é o de inversa generalizada ou \(G\)-inversa \(A^-\) que satisfaz o seguinte: \[ A A^- A = A\cdot \]
A inversa generalizada pode ser calculada para matrizes singulares. Temos: \[ \begin{pmatrix} 1 & 0 \\ 0 & 0 \end{pmatrix}\begin{pmatrix} 1 & 0 \\ 0 & 0 \end{pmatrix}\begin{pmatrix} 1 & 0 \\ 0 & 0 \end{pmatrix} = \begin{pmatrix} 1 & 0 \\ 0 & 0 \end{pmatrix}\cdot \]
Significa que a inversa generalizada de \(A=\begin{pmatrix} 1 & 0 \\ 0 & 0 \end{pmatrix}\) é \(A^-=\begin{pmatrix} 1 & 0 \\ 0 & 0 \end{pmatrix}\) mesmo que a matriz inversa de \(A\) não exista neste caso.
Considere uma matriz \(A_{p\times p}\). Se houver um escalar\(\lambda\) e um vetor \(\gamma\) tais que \[ A \gamma = \lambda \gamma, \]
então chamamos \(\lambda\) um autovalor de \(\gamma\) um autovetor.Pode-se provar que um autovalor \(\lambda\) é uma raiz do polinômio de ordem \(p\) \(|A-\lambda \mbox{I}_p|=0\). Portanto, existem até \(p\) autovalores \(\lambda_1,\lambda_2,\cdots,\lambda_p\) de \(A\). Para cada autovalor \(\lambda_j\), um autovetor correspondente \(\gamma_j\) existe. Suponha que a matriz \(A\) tenha os autovalores \(\lambda_1,\cdots,\lambda_p\). Seja \(\Lambda = \mbox{diag}(\lambda_1,\cdots,\lambda_p)\).
O determinante\(|A|\) e o traço \(\mbox{tr}(A)\) podem ser escritos em termos dos autovalores: \[ |A| = |\Lambda| = \prod_{j=1}^p \lambda_j, \] e \[ \mbox{tr}(A) = \mbox{tr}(\Lambda) = \sum_{j=1}^p \lambda_j\cdot \]
Uma matriz idempotente A, ou seja, uma matriz tal que \(A A=A\) só pode ter autovalores em \(\{0,1\}\), portanto \(\mbox{tr}(A)=\mbox{posto}(A)=\) número de autovalores \(\neq 0\).
Consideremos a matriz \[ A = \begin{pmatrix} 1 & 0 & 0 \\ 0 & \frac{1}{2} & \frac{1}{2} \\ 0 & \frac{1}{2} & \frac{1}{2} \end{pmatrix}\cdot \]
É fácil verificar que \(AA = A\), o que implica que a matriz \(A\) é idempotente.Sabemos que os autovalores de uma matriz idempotente são iguais a 0 ou 1. Neste caso, os autovalores de \(A\) são \(\lambda_1=1\), \(\lambda_2=1\) e \(\lambda_3=0\).
A = matrix(c(1,0,0,0,1/2,1/2,0,1/2,1/2), ncol = 3, byrow = TRUE)
svd(A)
## $d
## [1] 1 1 0
##
## $u
## [,1] [,2] [,3]
## [1,] 0.0000000 1 0.0000000
## [2,] -0.7071068 0 -0.7071068
## [3,] -0.7071068 0 0.7071068
##
## $v
## [,1] [,2] [,3]
## [1,] 0.0000000 1 0.0000000
## [2,] -0.7071068 0 -0.7071068
## [3,] -0.7071068 0 0.7071068
Usando as fórmulas anteriores podemos calcular o traço e o determinante de \(A\) a partir dos autovalores: \(\mbox{tr}(A)=\lambda_1 + \lambda_2 + \lambda_3 = 2\), \(|A|=\lambda_1\lambda_2\lambda_3=0\) e \(\mbox{posto}(A)= 2\).
Sejam \(A_{n\times n}\), \(B_{n\times n}\) matrizes e \(c\in\mathbb{R}\) uma constantes, então: \[ \mbox{tr}(A+B) = \mbox{tr}(A)+\mbox{tr}(B), \]
\[ \mbox{tr}(c A) = c \mbox{tr}(A), \]
\[ |c A| = c^n |A|, \]
\[ |A B | = |B A | = |A| |B|\cdot \]
Sejam agora \(A_{n\times p}\) e \(B_{p\times n}\), então: \[ \mbox{tr}(A B) = \mbox{tr}(B A), \]
\[ \mbox{posto}(A)\leq \min(n,p), \]
\[ \mbox{posto}(A)\geq 0, \]
\[ \mbox{posto}(A)= \mbox{posto}(A^\top), \]
\[ \mbox{posto}(A+B) \leq \mbox{posto}(A)+\mbox{posto}(B), \]
\[ \mbox{posto}(A B) \leq \min\big(\mbox{posto}(A),\mbox{posto}(B) \big)\cdot \]
Sejam agora \(A_{n\times p}\), \(B_{p\times q}\) e \(C_{q\times n}\), então: \[ \mbox{tr}(A B C) = \mbox{tr}(B C A) = \mbox{tr}(C A B), \]
\[ \mbox{posto}(A B C ) = \mbox{posto}(C) \qquad \mbox{para matrizes não singulares} \; A,B \]
caso \(A_{p\times p}\) \[ |A^{-1}| = |A|^{-1} \] e \[ \mbox{posto}(A)=p \qquad \mbox{se, e somente se} \; A \; \mbox{for não singular}\cdot \]
O cálculo de autovalores e autovetores é uma questão importante na análise de matrizes. A decomposição espectral ou decomposição de Jordan liga a estrutura de uma matriz aos autovalores e aos autovetores.
Cada matriz simétrica \(A_{p\times p}\) pode ser escrita como \[ A = \Gamma \Lambda \Gamma^\top = \sum_{j=1}^p \lambda_j \gamma_j \gamma_j^\top, \]
onde \(\Lambda=\mbox{diag}(\lambda_1,\cdots,\lambda_p\) e \(\Gamma = (\gamma_1,\cdots,\gamma_p)\) é uma matriz ortogonal composta pelos autovetores de \(A\).Suponha que \(A=\begin{pmatrix} 1 & 2 \\ 2 & 3 \end{pmatrix}\). Então
A = matrix(c(1,2,2,3), ncol = 2, byrow = TRUE)
svd(A)
## $d
## [1] 4.236068 0.236068
##
## $u
## [,1] [,2]
## [1,] -0.5257311 -0.8506508
## [2,] -0.8506508 0.5257311
##
## $v
## [,1] [,2]
## [1,] -0.5257311 0.8506508
## [2,] -0.8506508 -0.5257311
É a decomposição expectral de \(A\).
Usando decomposição espectral, podemos definir potências de uma matriz \(A_{p\times p}\). Suponha que \(A\) seja uma matriz simétrica com autovalores positivos. Então pelo Teorema II.1 \[ A=\Gamma\Lambda\Gamma^\top \]
e podemos definir para algum \(\alpha\in\mathbb{R}\), \[ A^\alpha = \Gamma \Lambda^\alpha \Gamma^\top, \]
onde, \(\Lambda^\alpha=\mbox{diag}(\lambda_1^\alpha,\cdots,\lambda_p^\alpha)\).
Em particular, podemos calcular a inversa da matriz \(A\). Suponha que os autovalores de \(A\) sejam positivos. Então com \(\alpha=-1\), obtemos a inversa de \(A\) de \[ A^{-1} = \Gamma \Lambda^{-1}\Gamma^\top\cdot \]
Outra decomposição interessante que é usada mais tarde é dada no seguinte teorema.
Cada matriz \(A_{n\times p}\) com \(\mbox{posto}(A)=r\) pode ser decomposta como \[ A = \Gamma \Lambda \Delta^\top, \]
onde \(\Lambda_{n\times r}\) e \(\Delta_{p\times r}\) são ortogonais por columnas, ou seja, \(\Gamma^\top \Gamma =\Delta^\top \Delta=\mbox{I}_r\) e \(\Lambda=\mbox{diag}(\lambda_1^{1/2},\cdots,\lambda_r^{1/2})\), \(\lambda_j>0\). Os valores \(\lambda_1,\cdots,\lambda_r\) são os autovalores não negativos das matrizes \(A A^\top\) e \(A^\top A\). \(\Gamma\) e \(\Delta\) consistem dos correspondentes \(r\) autovetores dessas matrizes.Esta é obviamente uma generalização do Teorema II.1, de decomposição de Jordan. Com o Teorema II.2, podemos encontrar uma inver sa generalizada \(A^-\) de \(A\). De fato, defina \(A^-=\Delta \Lambda^{-1} \Gamma^\top\). Então \(A A^- A = \Gamma \Lambda \Delta^\top\). Observe que a inversa generalizada não é única.
No Exemplo II.2 vimos que uma inversa generalizada de \(A = \begin{pmatrix} 1 & 0 \\ 0 & 0 \end{pmatrix}\) é \(A^-=\begin{pmatrix} 1 & 0 \\ 0 & 0 \end{pmatrix}\). O seguinte também vale: \[ \begin{pmatrix} 1 & 0 \\ 0 & 0 \end{pmatrix} \begin{pmatrix} 1 & 0 \\ 0 & 8 \end{pmatrix} \begin{pmatrix} 1 & 0 \\ 0 & 0 \end{pmatrix} = \begin{pmatrix} 1 & 0 \\ 0 & 0 \end{pmatrix}, \]
o que significa que a matriz \(\begin{pmatrix} 1 & 0 \\ 0 & 8 \end{pmatrix}\) é também uma inversa generalizada de \(A\).Uma forma quadrática \(Q(x)\) é construída a partir de uma matriz simétrica \(A_{p\times p}\) e um vetor \(x\in\mathbb{R}^p\): \[ Q(x) = x^\top A x = \sum_{i=1}^p \sum_{j=1}^p a_{ij} x_i x_j\cdot \]
\(Q(x) > 0\) para todo \(x\neq 0\), definida positiva
\(Q(x) \geq 0\) para todo \(x \neq 0\), semidefinida positiva
Uma matriz \(A\) é chamada definida positiva (semidefinida) se a forma quadrática correspondente \(Q(\cdot)\) for definida positiva (semidefinida). Escrevemos \(A > 0\) \((\geq 0)\).
As formas quadráticas sempre podem ser diagonalizadas, como mostra o seguinte resultado.
Se \(A\) é uma matriz quadrada e \(Q(x)=x^\top A x\) a correspondente forma quadrática, então existe uma transformação \(x \to \Gamma^\top x =y\) de maneira que \[ x^\top A x = \sum_{i=1}^p \lambda_i y_i^2, \]
onde \(\lambda_i\) é um autovalor de \(A\).\(A= \Gamma \Lambda\Gamma^\top\). Pelo Teorema II.1 e fazendo \(y=\Gamma^\top \alpha\) temos que \[ x^\top A x = x^\top \Gamma \Lambda \Gamma^\top x = y^\top \Lambda y = \sum_{i=1}^p \lambda_i y_i^2 \cdot \]
A definição positiva das formas quadráticas pode ser deduzida de autovalores positivos.
\(A>0\) se, e somente se, todos os autovalores forem positivos, ou seja, se \(\lambda_i>0\), \(i=1,\cdots,p\).
\[ 0<\lambda_1 y_1^2 +\cdots+ \lambda_p y_p^2 = x^\top A x \]
para todo \(x\neq 0\), pelo Teorema II.3.Se \(A>0\), então \(A^{-1}\) existe e \(\|A|>0\).
A forma quadrática \(Q(x)=x_1^2+x_2^2\) corresponde à matriz \(A=\begin{pmatrix} 1 & 0 \\ 0 & 0 \end{pmatrix}\) com autovalores \(\lambda_1=\lambda_2=1\) e, então, é definida positiva.
A forma quadrática \(Q(x)=(x_1-x_2)^2\) corresponde à matriz \(A=\begin{pmatrix} 1 & -1 \\ -1 & 1 \end{pmatrix}\) com autovalores \(\lambda_1=2\), \(\lambda_2=0\) e, então, é definida semi positiva.
A forma quadrática \(Q(x)=x_1^2-x_2^2\) corresponde à matriz \(A=\begin{pmatrix} 1 & 0 \\ 0 & -1 \end{pmatrix}\) com autovalores \(\lambda_1=1\), \(\lambda_2=-1\) e, então, é indefinida.
Na análise estatística de dados multivariados, estamos interessados em maximizar formas quadráticas dadas algumas restrições.
Se \(A\) e \(B\) fotem matrizes simétricas e \(B>0\), então o máximo de \[ \dfrac{x^\top A x}{x^\top B x} \] é dado pelo maior autovalor de \(B^{-1} A\). Mais geral, \[ \max_x \dfrac{x^\top A x}{x^\top B x} = \lambda_1 \geq \lambda_2 \geq \cdots \geq \lambda_p = \min_x \dfrac{x^\top A x}{x^\top B x}, \] onde \(\lambda_1,\cdots,\lambda_p\) são os autovalores de \(B^{-1} A\). O vetor que maximiza (minimiza) \(\dfrac{x^\top A x}{x^\top B x}\) é formado pelos autovalores de \(B^{-1} A\) ordenados de forma decrescente. Se \(x^\top B x=1\), temos que \[ \max_x x^\top A x = \lambda_1 \geq \lambda_2 \geq \cdots \geq \lambda_p = \min_x x^\top A x\cdot \]
Denotemos a norma do vetor \(x\) como \(||x||=\sqrt{x^\top x}\). Por definição \(B^{1/2}=\Gamma_B \lambda_B^{1/2}\Gamma_B^\top\) é simétrica. Então \(x^\top B x=||x^\top B^{1/2} ||^2= ||B^{1/2}x ||^2\). Seja \(y=B^{1/2}x/||B^{1/2}x ||\), então \[ \max_x \dfrac{x^\top A x}{x^\top B x} =\max_{\{y \, : \, y^\top y=1\}} y^\top B^{-1/2} A B^{-1/2} y\cdot \]
Do Teorema II.1, seja \[ B^{-1/2}AB^{-1/2}=\Gamma \Lambda \Gamma^\top, \] a decomposição espectral de \(B^{-1/2} A B^{-1/2}\). Seja \[ z=\Gamma^\top y, \qquad \mbox{então} \quad z^\top z=y^\top \Gamma \Gamma^\top y=y^\top y\cdot \] Então \[ \max_{\{z \, : \, z^\top z=1\}} z^\top \Lambda z = \max_{\{z \, : \, z^\top z=1\}} \sum_{i=1}^p \lambda_i z_i^2\cdot \]
Mas, \[ \max_z \sum_{i=1}^n \lambda_i z_i^2 \leq \lambda_1 \underbrace{\max_z \sum z_i^2}_{=1}=\lambda_1\cdot \] O máximo é então obtido por \(z=(1,0,\cdots,0)^\top\), ou seja, \[ y = \gamma_1, \qquad \mbox{sendo que} \quad x=B^{-1/2}\gamma_1\cdot \] Desde que \(B^{-1}A\) e \(B^{-1/2}AB {-1/2}\) têm os mesmos autovalores, a demonstração está completa.
Considere as matrizes \(A=\begin{pmatrix} 1 & 2 \\ 2 & 3 \end{pmatrix}\) e \(B=\begin{pmatrix} 1 & 0 \\ 0 & 1 \end{pmatrix}\), obtemos que \[ B^{-1}A = \begin{pmatrix} 1 & 2 \\ 2 & 3 \end{pmatrix}\cdot \]
O maior valor próprio da matriz \(B^{-1}A\) é \(2+\sqrt{5}\). Signiica que \(x^\top A x\) sob a restrição \(x^\top B x=1\) é \(2+\sqrt{5}\). Observe que a restrição \(x^\top B x=1\) corresponde à nossa escolha de \(B\), aos pontos que estão no círculo unitário \(x_1^2+x_2^2=1\).Para as seções posteriores deste livro, será útil introduzir a notação matricial para derivadas de uma função escalar de um vetor \(x\), ou seja, \(f(x)\), em relação a \(x\).
Considere \[ f \, : \mathbb{R}^p\to \mathbb{R} \] e \(x\) um vetor de ordem \(p\). Então \[ \dfrac{\partial f(x)}{\partial x} \] é um vetor coluna das derivadas paarciais \[ \dfrac{\partial f(x)}{\partial x_j}, \qquad j=1,\cdots,p \] e \[ \dfrac{\partial f(x)}{\partial x^\top } \]
um vetor linha da mesmas derivada, chamado de gradiente de \(f\).
Podemos introduzir derivadas de segunda ordem \[ \dfrac{\partial^2 f(x)}{\partial x \partial x^\top } \]
como a matriz de elementos \[ \dfrac{\partial^2 f(x)}{\partial x_i\partial x_j}, \qquad i=1,\cdots,p \quad \mbox{e} \quad j=1,\cdots,p, \] chamada de Hessiano de \(f\).
Suponha que \(a\) seja um vetor \(p\times 1\) e que \(A=A^\top\) uma matriz simétrica \(p\times p\). Então \[ \dfrac{\partial a^\top x}{\partial x} = \dfrac{\partial x^\top a}{\partial x} =a, \]
\[ \dfrac{\partial x^\top A x}{\partial x}=2 A x\cdot \]
O Hessino de uma forma quadrática \(Q(x)=x^\top A x\) é \[ \dfrac{\partial^2 x^\top A x}{\partial x \partial x^\top}=2 A\cdot \]
Considere a matriz \[ A=\begin{pmatrix} 1 & 2 \\ 2 & 3 \end{pmatrix}\cdot \]
Segue então que o gradiente de \(Q(x)=x^\top A x\) é \[ \dfrac{\partial x^\top A x}{\partial x}=2 A x = 2\begin{pmatrix} 1 & 2 \\ 2 & 3 \end{pmatrix}x = \begin{pmatrix} 2x & 4x \\ 4x & 6x \end{pmatrix} \]
e o Hessiano é \[ \dfrac{\partial^2 x^\top A x}{\partial x\partial x^\top}=2 A = 2\begin{pmatrix} 1 & 2 \\ 2 & 3 \end{pmatrix} = \begin{pmatrix} 2 & 4 \\ 4 & 6 \end{pmatrix}\cdot \]
Muitas vezes teremos que considerar certos grupos de linhas e colunas de uma matriz \(A_{n\times p}\). No caso de dois grupos, temos \[ A = \begin{pmatrix} A_{11} & A_{12} \\ A_{21} & A_{22} \end{pmatrix}, \]
onde \(A_{ij}\) é de ordem \(n_1\times p_j\), \(i,j=1,2\), \(n_1+n_1=n\) e \(p_1+p_2=p\).
Se \(B_{n\times p}\) for particionada de acordo, temos que \[ A+B = \begin{pmatrix} A_{11}+B_{11} & A_{12} + B_{12}\\ A_{21}+B_{21} & A_{22} +B_{22}\end{pmatrix}, \]
\[ B^\top = \begin{pmatrix} B_{11}^\top & B_{21}^\top \\ B_{12}^\top & B_{22}^\top \end{pmatrix} \]
e \[ A B^\top = \begin{pmatrix} A_{11} B_{11}^\top + A_{12}B_{12}^\top & A_{11} B_{21}^\top+ A_{12} B_{22}^\top \\ A_{21}B_{11}^\top + A_{22} B_{12}^\top & A_{21} B_{21}^\top +A_{22} B_{22}^\top \end{pmatrix}\cdot \]
Um caso particular importante é a matriz quadrada \(A_{p\times p}\), particionada de tal forma que \(A_{11}\) e \(A_{22}\) sejam ambas matrizes quadradas, ou seja, \(n_j=p_j\), \(j=1,2\). Pode-se verificar que quando \(A\) é não singular, ou seja, quando \(A A^{-1}=\mbox{I}_p\) \[ A^{-1} = \begin{pmatrix} A^{11} & A^{ 12} \\ A^{21} & A^{22} \end{pmatrix}, \] onde \[ A^{11} = (A_{11}-A_{12}A_{22}^{-1}A_{21})^{-1}, \]
\[ A^{12} = -(A_{11\cdot 2})^{-1}A_{12} A_{22}^{-1}, \]
\[ A^{21} = -A_{22}^{-1}A_{21} (A_{11\cdot 2})^{-1} \]
e
\[ A^{22} = A_{22}^{-1}+ A_{22}^{-1}A_{21} (A_{11\cdot 2})^{-1} A_{12} A_{22}^{-1}\cdot \]
Uma expressão alternativa pode ser obtida invertendo as posições de \(A_{11}\) e \(A_{22}\) na matriz original.
Os seguintes resultados serão úteis se \(A_{11}\) não for singular: \[ |A| = |A_{11}| |A_{22}-A_{21}A_{11}^{-1} A_{12}| = |A_{11}||A_{22\cdot 1}|\cdot \]
Se \(A_{22}\) é não singular, temos que \[ |A| = |A_{22}| |A_{11}-A_{12}A_{22}^{-1} A_{21}| = |A_{22}||A_{11\cdot 2}|\cdot \]
Uma fórmula útil é obtida das expressões alternativas para o inverso e o determinante. Por exemplo, seja \[ B = \begin{pmatrix} 1 & b^\top \\ a & A \end{pmatrix}, \]
onde \(a\) e \(b\) são vetores de dimensão \(p\times 1\) e \(A\) é não singular. Então \[ |B| = |A- a b^\top| = |A| |1-b^\top A^{-} a| \]
e igualando as duas expressões para \(B^{22}\), obtemos o seguinte \[ (A- a b^\top)^{-1} = A^{-1} + \dfrac{A^{-1} a b^\top A^{-1}}{1-b^\top A^{-1} a}\cdot \]
Consideremos a matriz \[ A = \begin{pmatrix} 1 & 2 \\ 2 & 2 \end{pmatrix}\cdot \]
Utilizando as expressões anteriores podemos calcalar a inversa da matriz particionada, ou seja, para encontrar que \(A^{11}=-1\), \(A^{12}=A^{21}=1\) e que \(A^{22}=-1/2\). A inversa da matriz \(A\) é \[ A^{-1} = \begin{pmatrix} -1 & 1 \\ 1 & -1/2 \end{pmatrix}\cdot \]
È possível também calcular o determinante de \(A\): \[ |A| = |1| |2-4| = -2\cdot \]
Sejam \(A_{n\times p}\) e \(B_{p\times n}\) duas matrizes quaisquer e suponha que \(n\geq p\). De expressões anteriores podemos concluir que \[ \left| \begin{pmatrix} \lambda \mbox{I}_n & -A \\ B & \mbox{I}_p \end{pmatrix} \right| = (-\lambda)^{n-p} |B A -\lambda \mbox{I}_p| = |A B -\lambda \mbox{I}_n|\cdot \]
Como ambos os determinantes do lado direito acima são polinômios em \(\lambda\), descobrimos que os \(n\) autovalores de \(A B\) produzem os \(p\) autovalores de \(BA\) mais o autovalor 0, \(n-p\) vezes.
A relação entre os autovetores é descrita no próximo teorema.
Para \(A_{n\times p}\) e \(B_{p\times n}\), os autovalores diferentes de zero de \(AB\) e \(BA\) são iguais e têm a mesma multiplicidade. Se \(x\) é um autovetor de \(AB\) para um autovalor \(\lambda\neq 0\), então \(y= B x\) é um autovetor de \(BA\).
Este teorema afirma que os autovalores de \(A a b^\top B\) são os mesmos de \(b^\top BAa\). Observe que a matriz \(b^\top BAa\) é um escalar e, portanto, é seu próprio valor próprio \(\lambda_1\). Aplicando \(A a b^\top B\) a \(A a\), resulta \[ (A a b^\top B)(A a) = (A a)(b^\top B A a) = \lambda_1 A a\cdot \]
Para \(A_{n\times p }\), \(B_{q\times n}\), \(a_{p\times 1}\) e \(b_{q\times 1}\) temos \[ \mbox{posto}(A a b^\top B) \leq 1\cdot \]
O autovalor diferente de zero, se existir, é igual a \(b^\top B A\), com autovetor \(Aa\).
Sejam \(x,y\in\mathbb{R}^p\). A distância \(d\) é definida como a função \(d \, : \mathbb{R}^{2p}\to\mathbb{R}_+\) satisfazendo \[ d(x,y)>0, \qquad \forall x\neq y, \]
\[ d(x,y)=0, \qquad \mbox{se, e somente se} \quad x=y, \] \[ d(x,y)\leq d(x,z)+d(z,y), \qquad \forall x,y,z\cdot \]A distância Euclideana \(d\) entre dois pontos \(x\) e \(y\) é definida como \[ d^2(x,y)=(x-y)^\top A (x-y), \] onde \(A\) é uma matriz definida positiva (\(A>0\)). \(A\) é chamada de métrica.
Em particular, se \(A=\mbox{I}_p\), temos \[ d^2(x,y)=\sum_{i=1}^p (x_1-y_i)^2\cdot \]
Obsserve que o conjunto \(E_d=\{x\in \mathbb{R}^p \, : \, (x-x_0)^\top (x-x_0)=d^2\}\), ou seja, as esferas de rádio \(d\) e centro \(x_0\), são as curvas de iso-distâncias \(I_p\) Euclideanas desde o ponto \(x_0\).
A distância mais geral com uma matriz definida positiva \(A\) (\(A > 0\)) leva às curvas de iso-distância \[ E_d=\{ x\in\mathbb{R}^p \, : \, (x-x_0)^\top A (x-x_0)=d^2\}, \] ou seja elipsoides com centro \(x_0\), matriz \(A\) e constante \(d\).
Sejam \(\gamma_1,\gamma_1,\cdots,\gamma_p\) autovetores ortonormais de \(A\) correspondentes aos autovalores \[ \lambda_1\geq \lambda_2\geq \cdots\geq \lambda_p\cdot \]
As observações resultantes são dadas no próximo teorema.
É fácil encontrar as coordenadas dos pontos de tangência entre o elipsóide e seu retângulo circundante paralelos aos eixos coordenados. Vamos encontrar as coordenadas do ponto de tangência que estão na direção de cada eixo de coordenadas (sentido positivo).
Para facilitar a notação, supomos que o elipsóide está centrado em torno da origem, ou seja, \(x_0=0\). Caso contrário, o retângulo será deslocado pelo valor de \(x_0\). A coordenada do ponto de tangência é dada pela solução do seguinte problema: \[ x=\arg \max_{x^\top A x=d^2} e_j^\top x, \] onde \(e_j^\top\) é a \(j\)-ésima coluna da matriz indentidade \(\mbox{I}_p\).
A coordenada do ponto de tangência na direção negativa corresponderia à solução do problema de encontrarmos o mínimo: por simetria, é o valor oposto do primeiro.
A solução é calculada através do Lagrangiano \(L=e_j^\top x-\lambda (x^\top A x-d^2)\), o qual leva ao seguinte sistema de equações \[ \dfrac{\partial L}{\partial x}=e_j-2\lambda A x=0 \] \[ \dfrac{\partial L}{\partial \lambda} = x^\top A x-d^2=0\cdot \] Isto fornece-nos \[ x=\frac{1}{2\lambda}A^{-1}e_j \] ou o componente oposto \[ x_i=\frac{1}{2\lambda}a^{ii}, \qquad i=1,\cdots,p, \] onde \(a^{ii}\) denota o \((i,j)\) elemento de \(A^{-1}\).
Como solução so sitema de equações temos \[ x_j=2\lambda d^2\cdot \]
Comparando isso com o valor obtido anteriormente, quando \(i=j\) obtemos \(2\lambda = \sqrt{a^{ii}/d^2}\).Escolhemos o valor positivo da raiz quadrada, porque estamos maximizando \(e_j^\top x\). Um mínimo corresponderia ao valor negativo. Finalmente, temos as coordenadas do ponto de tangência entre o elipsóide e seu retângulo de arredondamento na direção positiva do \(j\)-ésimo eixo é: \[ x_i = \sqrt{\dfrac{d^2}{a^{jj}}}a^{ij}, \qquad i=1,\cdots,p\cdot \]
O Teorema II.7 será particularmente útil em muitos capítulos subsequentes. Primeiro, ele fornece uma ferramenta útil para representar graficamente uma elipse em duas dimensões. De fato, conhecer a inclinação dos eixos principais da elipse, seus meios-comprimentos e desenhar o retângulo que a inscreve, permite traçar rapidamente uma imagem aproximada da forma da elipse.
No Capítulo VII, mostra-se que a região de confiança para o vetor de uma população normal multivariada é dada por um elipsóide particular cujos parâmetros dependem das características da amostra. O retângulo que inscreve o elipsóide, que é muito mais fácil de obter, fornecerá os intervalos de confiança simultâneos para todos os componentes em \(\mu\).
Além disso, será mostrado que as superfícies de contorno da densidade normal multivariada são fornecidas por elipsóides cujos parâmetros dependem do vetor médio e da matriz de covariância. Veremos que os pontos de tangência entre os elipsóides de contorno e o retângulo circundante são determinados regredindo um componente nos outros \(p-1\) componentes. Por exemplo, na direção do \(j\)-ésimo eixo, os pontos de tangência são dados pelas interseções dos contornos do elipsóide com a linha de regressão do vetor de \(p-1\) variáveis, todos os componentes exceto o \(j\)-ésimo, no \(j\)-ésimo componente.
Considere o vetor \(x\in\mathbb{R}^p\). A norma ou comprimento de \(x\), com relação à métrica \(\mbox{I}_p\) é definda como \[ || x || =d(0_p,x)=\sqrt{x^\top x}\cdot \] Se \(||x||=1\), \(x\) é chamado de vetor de unitário. Uma norma mais geral pode ser definida em relação à métrica \(A\): \[ || x||_A = \sqrt{x^\top A x}\cdot \]
Consideredois vetores \(x\) e \(y\) em \(\mathbb{R}^p\). O ângulo entre \(x\) e \(y\) é definido pelo coseno de \(\theta\) \[ \cos(\theta)=\dfrac{x^\top y}{||x|| || y||}\cdot \]
Se \(x^\top y=0\), o ângulo \(\theta\) é igual a \(\pi/2\). Da trigonometria, sabemos que o cosseno é igual ao comprimento da base de um triângulo \(||p_x||\) dividido pelo comprimento da hipotenusa \(||x||\). Portanto, temos \[ ||p_x||=|| x|| \times |\cos(\theta)| =\dfrac{|x^\top y|}{|| y||}, \] onde \(p_x\) é a projeção de \(x\) em \(y\), definido abaixo. É a coordenada de \(x\) no vetor \(y\).
O ângulo também pode ser definido em relação a uma métrica geral \(A\) \[ \cos(\theta)=\dfrac{x^\top A y}{||x||_A ||y||_A}\cdot \] Se \(\cos(\theta)=0\) então \(x\) é ortogonal a \(y\) em relação à métrica \(A\).
Suponha que existam dois vetores de dados centrados, ou seja, média zero. O cosseno do ângulo entre eles é igual à sua correlação. De fato para \(x\) e \(y\) com \(\overline{x}=\overline{y}=0\) temos \[ r_{XY}=\dfrac{\sum x_i y_i}{\sqrt{\sum x_i^2 \sum y_i^2}}\cdot \]
Quando consideramos um ponto \(x\in\mathbb{R}^p\), geralmente usamos um sistema de \(p\) coordenadas para obter sua representação geométrica. Haverá situações em técnicas multivariadas, onde desejaremos girar esse sistema de coordenadas pelo ângulo \(\theta\).
Considere, por exemplo, o ponto \(P\) com as coordenadas \(x=(x_1,x_2)\in\mathbb{R}^2\) em relação a um determinado conjunto de eixos ortogonais. Seja \(\Gamma\) uma matriz \(2\times 2\) ortogonal onde \[ \Gamma=\begin{pmatrix} \cos(\theta) & \sin(\theta) \\ -\sin(\theta) & \cos(\theta) \end{pmatrix}\cdot \]
Se os eixos são girados em torno da origem em um ângulo \(\theta\) no sentido horário, as novas coordenadas de \(P\) serão dadas pelo vetor \(y\) \[ y=\Gamma x, \] e uma rotação no mesmo ângulo no sentido anti-horário dá as novas coordenadas como \[ y=\Gamma^\top x\cdot \]
Mais geralmente, a pré-multiplicação de um vetor \(x\) por uma matriz ortogonal \(\Gamma\) corresponde geometricamente a uma rotação do sistema de eixos, de modo que o primeiro novo eixo é determinado pela primeira linha de \(\Gamma\). Este ponto de vista geométrico será explorado nos Capítulos XI e XII.
O espaço gerado pelas colunas da matriz \(X_{n\times p}\) ou espaço coluna de \(X\) é definido como \[ \mbox{Im}(X)=C(X)=\{ x\in\mathbb{R}^n \, : \, \exists a\in\mathbb{R}^p \, \mbox{satisfazedo} \, Xa=x \}\cdot \]
Observe que \(C(X)\subseteq \mathbb{R}^n\) e \(\mbox{dim}\big(C(X)\big)=\mbox{posto}(X)=r\leq \min(n,p)\).
O espaço nulo de \(X\) é definido como \[ \mbox{Ker}(X)=N(X)=\{ y\in\mathbb{R}^p \, : \, Xy=0 \}\cdot \]
Observe que \(N(X)\subseteq \mathbb{R}^p\) e que \(\mbox{dim}\big( N(X)\big)=p-r\). Observe que \(N(X^\top)\) é o complemento ortogonal de \(C(X0\) em \(\mathbb{R}^n\), ou seja, dado um vetor \(b\in\mathbb{R}^n\) ele sustentará que \(x^\top b=0\) para todo \(x\in C(X)\) se, e somente se, \(b\in N(X^\top)\).
Uma matriz \(P_{n\times n}\) é chamada de matriz de projeção ortogonal em \(\mathbb{R}^n\) se, e somente se, \(P=P^\top = P\times P\), ou seja, se \(P\) é idempotente. Seja \(a=Pb\) a projeção de \(b\) em \(C(P)\).
Considere \(X_{n\times n}\) e seja \[ P= X(X^\top X)^{-1}X^\top \] e \(Q=\mbox{I}_n-P\). Pode-se verficar que \(P\) e \(Q\) são idempotentes e que \[ PX=X \qquad \mbox{e} \qquad QX=0\cdot \]
Como as colunas de \(X\) são projetadas para si mesmas, a matriz de projeção \(P\) projeta qualquer vetor \(b\in\mathbb{R}^n\) em \(C(X)\). Da mesma forma, a matriz de projeção \(Q\) projeta qualquer vetor \(b\in\mathbb{R}^n\) no complemento ortogonal de \(C(X)\).
Seja \(P\) um matriz de projeção e \(Q\) seu complemento ortogonal. Então:
(i) \(x=P b\), implica \(x\in C(X)\),
(ii) \(y=Q b\) significa que \(y^\top x=0\) \(\forall x\in C(X)\).
Sejam \(x,y\in\mathbb{R}^n\) e considere \(p_x \in\mathbb{R}^n\), a projeção de \(x\) em \(y\). Com \(X=y\) temos que \[ p_x = y (y^\top y)^{-1}y^\top x= \dfrac{y^\top x}{|| y ||^2}y \] e pode-se verificar que \[ |p_x|| = \sqrt{p_x^\top p_x}=\dfrac{|y^\top x|}{|| y ||}\cdot \]