Capítulo II. Álgebra de matrizes


Este capítulo serve como um lembrete dos conceitos básicos de álgebra matricial, que são particularmente úteis na análise multivariada. Ele também apresenta as notações usadas para vetores e matrizes. Autovalores e autovetores desempenham um papel importante em técnicas multivariadas. Nas Seções II.2 e II.3, apresentam-se a decomposição espectral de matrizes e consideramos a maximização (minimização) de formas quadráticas dadas algumas restrições.

Ao analisar a distribuição normal multivariada, as matrizes particionadas aparecem naturalmente. Algumas das propriedades algébricas básicas são dadas na Seção II.5. Essas propriedades serão muito usadas nos Capítulos Iv e V. A geometria da multinormal e a interpretação geométrica das técnicas multivariadas utiliza intensivamente a noção de ângulos entre dois vetores, a projeção de um ponto em um vetor e as distâncias entre dois pontos. Essas idéias são introduzidas na Seção II.6.


II.1 Operações elementares


Uma matriz \(A_{n\times p}\) é um sistema de números com \(n\) linhas e \(p\) colunas: \[ A = \begin{pmatrix} a_{11} & a_{12} & \cdots & a_{1p} \\ a_{21} & a_{22} & \cdots & a_{2p} \\ \vdots & \vdots & \ddots & \vdots \\ a_{n1} & a_{n2} & \cdots & a_{np} \end{pmatrix} \]


Operações matriciais


Apresentamos operações elemntares:
\[ A^\top = (a_{ji}) \]

\[ A+B = (a_{ij}+b_{ij}) \]

\[ A-B = (a_{ij}-b_{ij}) \]

\[ c\times A = (c\times a_{ij}) \]

\[ A\times B = (c_{ik}) = \left( \sum_{j=1}^p a_{ij}b_{j,k}\right) \]


Propriedades de operações matriciais


\[ A+B = B+A \]

\[ A\times (B+C) = A\times B + A\times C \]

\[ A\times (B\times C) = (A\times B)\times C \]

\[ \big(A^\top\big)^\top = A \]

\[ \big( A\times B)^\top = B^\top\times A^\top \]


Características das matrizes


Posto


O posto, \(\mbox{posto}(A)\), de uma matriz \(A_{n\times p}\) é definido como o número máximo de linhas (colunas) linearmente independentes. Diz-se que um conjunto de \(k\) linhas \(a_j\) de \(A_{n\times p}\) é linearmente independente se \(\sum_{j=1}^k c_j a_j = 0_p\) implica \(c_j=0\) \(\forall j\), onde \(c_1,\cdots,c_k\) são escalares. Em outras palavras, nenhuma linha neste conjunto pode ser expressa como uma combinação linear não trivial das \(k-1\) linhas restantes.


Traço


O traço da matriz \(A_{p\times p}\) é a soma de seus elementos diagonais \[ \mbox{tr}(A) = \sum_{i=1}^p a_{ii}\cdot \]


Determinante


O determinante pe um importante conceito na álgebra matricial. Para uma matriz quadrada \(A\), é definido como \[ \mbox{det}(A) = |A| = \sum (-i)^{|\tau|} a_{1\tau(1)} \cdots a_{p \tau(p)}, \]

a soma é sobre todas as permutações \(\tau\) de \(\{1,2,\cdots,p\}\) e \(|\tau|=0\) se a permutação puder ser escrita como um produto de um número par de transposições e \(|\tau|=1\) caso contrário.

Algumas propriedades do determinante de uma matriz são:
\[ |A^\top| = |A|, \]

\[ |A\times B| = |A|\times |B|, \]

\[ |c\times A| = c^n |A|\cdot \]


Exemplo II.1.

No caso de \(p=2\), \(A=\begin{pmatrix} a_{11} & a_{12} \\ a_{21} & a_{22} \end{pmatrix}\) e podemos permutar os dígitos 1 e 2 uma vez ou não. Então, \[ |A| = a_{11} a_{22}- a_{12} a_{21}\cdot \]


Transposta


Para \(A_{n\times p}\) e \(B_{p\times n}\) \[ \big( A^\top\big)^\top = A \qquad \big(A\times B\big)^\top = B^\top A^\top\cdot \]

Se \(|A|\neq 0\) e \(A_{p\times p}\), então a inversa \(A^{-1}\) existe \[ A A^{-1} = A^{-1} A = \mbox{I}_p\cdot \]

Para matrizes pequenas, a inversa de \(A = (a_{ij}\) pode ser calculada como \[ A^{-1} = \dfrac{C}{|A|}, \]

onde \(C=(c_{ij})\) é a matriz adjunta de \(A\). Os elementos \(c_{ji}\) de \(C^\top\) são os co-fatores de \(A\): \[ c_{ji} = (-1)^{i+j} = \left| \begin{matrix} a_{11} & \cdots & a_{1(j-1)} & a_{1(j+1)} & \cdots & a_{1p} \\ \vdots & \cdots & \vdots & \vdots & \cdots & \vdots \\ a_{(i-1)1} & \cdots & a_{(i-1)(j-1)} & a_{(i-1)(j+1)} & \cdots & a_{(i-1)p} \\ a_{(i+1)1} & \cdots & a_{(i+1)(j-1)} & a_{(i+1)(j+1)} & \cdots & a_{(i+1)p} \\ \vdots & \cdots & \vdots & \vdots & \cdots & \vdots \\ a_{p1} & \cdots & a_{p(j-1)} & a_{p(j+1)} & \cdots & a_{pp} \end{matrix}\right|\cdot \]

A relação entre determinante e inversa da matriz \(A\) é \(|A^{-1}|=|A|^{-1}\).


Inversa generalizada


Um conceito mais geral é o de inversa generalizada ou \(G\)-inversa \(A^-\) que satisfaz o seguinte: \[ A A^- A = A\cdot \]


Exemplo II.2.

A inversa generalizada pode ser calculada para matrizes singulares. Temos: \[ \begin{pmatrix} 1 & 0 \\ 0 & 0 \end{pmatrix}\begin{pmatrix} 1 & 0 \\ 0 & 0 \end{pmatrix}\begin{pmatrix} 1 & 0 \\ 0 & 0 \end{pmatrix} = \begin{pmatrix} 1 & 0 \\ 0 & 0 \end{pmatrix}\cdot \]

Significa que a inversa generalizada de \(A=\begin{pmatrix} 1 & 0 \\ 0 & 0 \end{pmatrix}\) é \(A^-=\begin{pmatrix} 1 & 0 \\ 0 & 0 \end{pmatrix}\) mesmo que a matriz inversa de \(A\) não exista neste caso.


Autovalores, Autovetores


Considere uma matriz \(A_{p\times p}\). Se houver um escalar\(\lambda\) e um vetor \(\gamma\) tais que \[ A \gamma = \lambda \gamma, \]

então chamamos \(\lambda\) um autovalor de \(\gamma\) um autovetor.

Pode-se provar que um autovalor \(\lambda\) é uma raiz do polinômio de ordem \(p\) \(|A-\lambda \mbox{I}_p|=0\). Portanto, existem até \(p\) autovalores \(\lambda_1,\lambda_2,\cdots,\lambda_p\) de \(A\). Para cada autovalor \(\lambda_j\), um autovetor correspondente \(\gamma_j\) existe. Suponha que a matriz \(A\) tenha os autovalores \(\lambda_1,\cdots,\lambda_p\). Seja \(\Lambda = \mbox{diag}(\lambda_1,\cdots,\lambda_p)\).

O determinante\(|A|\) e o traço \(\mbox{tr}(A)\) podem ser escritos em termos dos autovalores: \[ |A| = |\Lambda| = \prod_{j=1}^p \lambda_j, \] e \[ \mbox{tr}(A) = \mbox{tr}(\Lambda) = \sum_{j=1}^p \lambda_j\cdot \]

Uma matriz idempotente A, ou seja, uma matriz tal que \(A A=A\) só pode ter autovalores em \(\{0,1\}\), portanto \(\mbox{tr}(A)=\mbox{posto}(A)=\) número de autovalores \(\neq 0\).


Exemplo II.3.

Consideremos a matriz \[ A = \begin{pmatrix} 1 & 0 & 0 \\ 0 & \frac{1}{2} & \frac{1}{2} \\ 0 & \frac{1}{2} & \frac{1}{2} \end{pmatrix}\cdot \]

É fácil verificar que \(AA = A\), o que implica que a matriz \(A\) é idempotente.

Sabemos que os autovalores de uma matriz idempotente são iguais a 0 ou 1. Neste caso, os autovalores de \(A\) são \(\lambda_1=1\), \(\lambda_2=1\) e \(\lambda_3=0\).


A = matrix(c(1,0,0,0,1/2,1/2,0,1/2,1/2), ncol = 3, byrow = TRUE)
svd(A)
## $d
## [1] 1 1 0
## 
## $u
##            [,1] [,2]       [,3]
## [1,]  0.0000000    1  0.0000000
## [2,] -0.7071068    0 -0.7071068
## [3,] -0.7071068    0  0.7071068
## 
## $v
##            [,1] [,2]       [,3]
## [1,]  0.0000000    1  0.0000000
## [2,] -0.7071068    0 -0.7071068
## [3,] -0.7071068    0  0.7071068


Usando as fórmulas anteriores podemos calcular o traço e o determinante de \(A\) a partir dos autovalores: \(\mbox{tr}(A)=\lambda_1 + \lambda_2 + \lambda_3 = 2\), \(|A|=\lambda_1\lambda_2\lambda_3=0\) e \(\mbox{posto}(A)= 2\).


Propriedades das matrizes características


Sejam \(A_{n\times n}\), \(B_{n\times n}\) matrizes e \(c\in\mathbb{R}\) uma constantes, então: \[ \mbox{tr}(A+B) = \mbox{tr}(A)+\mbox{tr}(B), \]

\[ \mbox{tr}(c A) = c \mbox{tr}(A), \]

\[ |c A| = c^n |A|, \]

\[ |A B | = |B A | = |A| |B|\cdot \]

Sejam agora \(A_{n\times p}\) e \(B_{p\times n}\), então: \[ \mbox{tr}(A B) = \mbox{tr}(B A), \]

\[ \mbox{posto}(A)\leq \min(n,p), \]

\[ \mbox{posto}(A)\geq 0, \]

\[ \mbox{posto}(A)= \mbox{posto}(A^\top), \]

\[ \mbox{posto}(A+B) \leq \mbox{posto}(A)+\mbox{posto}(B), \]

\[ \mbox{posto}(A B) \leq \min\big(\mbox{posto}(A),\mbox{posto}(B) \big)\cdot \]

Sejam agora \(A_{n\times p}\), \(B_{p\times q}\) e \(C_{q\times n}\), então: \[ \mbox{tr}(A B C) = \mbox{tr}(B C A) = \mbox{tr}(C A B), \]

\[ \mbox{posto}(A B C ) = \mbox{posto}(C) \qquad \mbox{para matrizes não singulares} \; A,B \]

caso \(A_{p\times p}\) \[ |A^{-1}| = |A|^{-1} \] e \[ \mbox{posto}(A)=p \qquad \mbox{se, e somente se} \; A \; \mbox{for não singular}\cdot \]


II.2 Decomposição espectral


O cálculo de autovalores e autovetores é uma questão importante na análise de matrizes. A decomposição espectral ou decomposição de Jordan liga a estrutura de uma matriz aos autovalores e aos autovetores.


Teorema II.1. (Decomposição de Jordan)

Cada matriz simétrica \(A_{p\times p}\) pode ser escrita como \[ A = \Gamma \Lambda \Gamma^\top = \sum_{j=1}^p \lambda_j \gamma_j \gamma_j^\top, \]

onde \(\Lambda=\mbox{diag}(\lambda_1,\cdots,\lambda_p\) e \(\Gamma = (\gamma_1,\cdots,\gamma_p)\) é uma matriz ortogonal composta pelos autovetores de \(A\).


Exemplo II.4.

Suponha que \(A=\begin{pmatrix} 1 & 2 \\ 2 & 3 \end{pmatrix}\). Então


A = matrix(c(1,2,2,3), ncol = 2, byrow = TRUE)
svd(A)
## $d
## [1] 4.236068 0.236068
## 
## $u
##            [,1]       [,2]
## [1,] -0.5257311 -0.8506508
## [2,] -0.8506508  0.5257311
## 
## $v
##            [,1]       [,2]
## [1,] -0.5257311  0.8506508
## [2,] -0.8506508 -0.5257311

É a decomposição expectral de \(A\).


Usando decomposição espectral, podemos definir potências de uma matriz \(A_{p\times p}\). Suponha que \(A\) seja uma matriz simétrica com autovalores positivos. Então pelo Teorema II.1 \[ A=\Gamma\Lambda\Gamma^\top \]

e podemos definir para algum \(\alpha\in\mathbb{R}\), \[ A^\alpha = \Gamma \Lambda^\alpha \Gamma^\top, \]

onde, \(\Lambda^\alpha=\mbox{diag}(\lambda_1^\alpha,\cdots,\lambda_p^\alpha)\).

Em particular, podemos calcular a inversa da matriz \(A\). Suponha que os autovalores de \(A\) sejam positivos. Então com \(\alpha=-1\), obtemos a inversa de \(A\) de \[ A^{-1} = \Gamma \Lambda^{-1}\Gamma^\top\cdot \]

Outra decomposição interessante que é usada mais tarde é dada no seguinte teorema.


Teorema II.2. (Decomposição de Valores Singulares)

Cada matriz \(A_{n\times p}\) com \(\mbox{posto}(A)=r\) pode ser decomposta como \[ A = \Gamma \Lambda \Delta^\top, \]

onde \(\Lambda_{n\times r}\) e \(\Delta_{p\times r}\) são ortogonais por columnas, ou seja, \(\Gamma^\top \Gamma =\Delta^\top \Delta=\mbox{I}_r\) e \(\Lambda=\mbox{diag}(\lambda_1^{1/2},\cdots,\lambda_r^{1/2})\), \(\lambda_j>0\). Os valores \(\lambda_1,\cdots,\lambda_r\) são os autovalores não negativos das matrizes \(A A^\top\) e \(A^\top A\). \(\Gamma\) e \(\Delta\) consistem dos correspondentes \(r\) autovetores dessas matrizes.


Esta é obviamente uma generalização do Teorema II.1, de decomposição de Jordan. Com o Teorema II.2, podemos encontrar uma inver sa generalizada \(A^-\) de \(A\). De fato, defina \(A^-=\Delta \Lambda^{-1} \Gamma^\top\). Então \(A A^- A = \Gamma \Lambda \Delta^\top\). Observe que a inversa generalizada não é única.


Exemplo II.5

No Exemplo II.2 vimos que uma inversa generalizada de \(A = \begin{pmatrix} 1 & 0 \\ 0 & 0 \end{pmatrix}\) é \(A^-=\begin{pmatrix} 1 & 0 \\ 0 & 0 \end{pmatrix}\). O seguinte também vale: \[ \begin{pmatrix} 1 & 0 \\ 0 & 0 \end{pmatrix} \begin{pmatrix} 1 & 0 \\ 0 & 8 \end{pmatrix} \begin{pmatrix} 1 & 0 \\ 0 & 0 \end{pmatrix} = \begin{pmatrix} 1 & 0 \\ 0 & 0 \end{pmatrix}, \]

o que significa que a matriz \(\begin{pmatrix} 1 & 0 \\ 0 & 8 \end{pmatrix}\) é também uma inversa generalizada de \(A\).



II.3 Formas quadráticas


Uma forma quadrática \(Q(x)\) é construída a partir de uma matriz simétrica \(A_{p\times p}\) e um vetor \(x\in\mathbb{R}^p\): \[ Q(x) = x^\top A x = \sum_{i=1}^p \sum_{j=1}^p a_{ij} x_i x_j\cdot \]


Definitividade de formas e matrizes quadráticas


\(Q(x) > 0\) para todo \(x\neq 0\), definida positiva
\(Q(x) \geq 0\) para todo \(x \neq 0\), semidefinida positiva

Uma matriz \(A\) é chamada definida positiva (semidefinida) se a forma quadrática correspondente \(Q(\cdot)\) for definida positiva (semidefinida). Escrevemos \(A > 0\) \((\geq 0)\).

As formas quadráticas sempre podem ser diagonalizadas, como mostra o seguinte resultado.


Teorema II.3.

Se \(A\) é uma matriz quadrada e \(Q(x)=x^\top A x\) a correspondente forma quadrática, então existe uma transformação \(x \to \Gamma^\top x =y\) de maneira que \[ x^\top A x = \sum_{i=1}^p \lambda_i y_i^2, \]

onde \(\lambda_i\) é um autovalor de \(A\).


Demonstração

\(A= \Gamma \Lambda\Gamma^\top\). Pelo Teorema II.1 e fazendo \(y=\Gamma^\top \alpha\) temos que \[ x^\top A x = x^\top \Gamma \Lambda \Gamma^\top x = y^\top \Lambda y = \sum_{i=1}^p \lambda_i y_i^2 \cdot \]


A definição positiva das formas quadráticas pode ser deduzida de autovalores positivos.


Teorema II.4.

\(A>0\) se, e somente se, todos os autovalores forem positivos, ou seja, se \(\lambda_i>0\), \(i=1,\cdots,p\).


Demonstração

\[ 0<\lambda_1 y_1^2 +\cdots+ \lambda_p y_p^2 = x^\top A x \]

para todo \(x\neq 0\), pelo Teorema II.3.


Corolário II.1.

Se \(A>0\), então \(A^{-1}\) existe e \(\|A|>0\).


Exemplo II.6.

A forma quadrática \(Q(x)=x_1^2+x_2^2\) corresponde à matriz \(A=\begin{pmatrix} 1 & 0 \\ 0 & 0 \end{pmatrix}\) com autovalores \(\lambda_1=\lambda_2=1\) e, então, é definida positiva.

A forma quadrática \(Q(x)=(x_1-x_2)^2\) corresponde à matriz \(A=\begin{pmatrix} 1 & -1 \\ -1 & 1 \end{pmatrix}\) com autovalores \(\lambda_1=2\), \(\lambda_2=0\) e, então, é definida semi positiva.

A forma quadrática \(Q(x)=x_1^2-x_2^2\) corresponde à matriz \(A=\begin{pmatrix} 1 & 0 \\ 0 & -1 \end{pmatrix}\) com autovalores \(\lambda_1=1\), \(\lambda_2=-1\) e, então, é indefinida.


Na análise estatística de dados multivariados, estamos interessados em maximizar formas quadráticas dadas algumas restrições.


Teorema II.5.

Se \(A\) e \(B\) fotem matrizes simétricas e \(B>0\), então o máximo de \[ \dfrac{x^\top A x}{x^\top B x} \] é dado pelo maior autovalor de \(B^{-1} A\). Mais geral, \[ \max_x \dfrac{x^\top A x}{x^\top B x} = \lambda_1 \geq \lambda_2 \geq \cdots \geq \lambda_p = \min_x \dfrac{x^\top A x}{x^\top B x}, \] onde \(\lambda_1,\cdots,\lambda_p\) são os autovalores de \(B^{-1} A\). O vetor que maximiza (minimiza) \(\dfrac{x^\top A x}{x^\top B x}\) é formado pelos autovalores de \(B^{-1} A\) ordenados de forma decrescente. Se \(x^\top B x=1\), temos que \[ \max_x x^\top A x = \lambda_1 \geq \lambda_2 \geq \cdots \geq \lambda_p = \min_x x^\top A x\cdot \]


Demonstração

Denotemos a norma do vetor \(x\) como \(||x||=\sqrt{x^\top x}\). Por definição \(B^{1/2}=\Gamma_B \lambda_B^{1/2}\Gamma_B^\top\) é simétrica. Então \(x^\top B x=||x^\top B^{1/2} ||^2= ||B^{1/2}x ||^2\). Seja \(y=B^{1/2}x/||B^{1/2}x ||\), então \[ \max_x \dfrac{x^\top A x}{x^\top B x} =\max_{\{y \, : \, y^\top y=1\}} y^\top B^{-1/2} A B^{-1/2} y\cdot \]

Do Teorema II.1, seja \[ B^{-1/2}AB^{-1/2}=\Gamma \Lambda \Gamma^\top, \] a decomposição espectral de \(B^{-1/2} A B^{-1/2}\). Seja \[ z=\Gamma^\top y, \qquad \mbox{então} \quad z^\top z=y^\top \Gamma \Gamma^\top y=y^\top y\cdot \] Então \[ \max_{\{z \, : \, z^\top z=1\}} z^\top \Lambda z = \max_{\{z \, : \, z^\top z=1\}} \sum_{i=1}^p \lambda_i z_i^2\cdot \]

Mas, \[ \max_z \sum_{i=1}^n \lambda_i z_i^2 \leq \lambda_1 \underbrace{\max_z \sum z_i^2}_{=1}=\lambda_1\cdot \] O máximo é então obtido por \(z=(1,0,\cdots,0)^\top\), ou seja, \[ y = \gamma_1, \qquad \mbox{sendo que} \quad x=B^{-1/2}\gamma_1\cdot \] Desde que \(B^{-1}A\) e \(B^{-1/2}AB {-1/2}\) têm os mesmos autovalores, a demonstração está completa.


Exemplo II.7

Considere as matrizes \(A=\begin{pmatrix} 1 & 2 \\ 2 & 3 \end{pmatrix}\) e \(B=\begin{pmatrix} 1 & 0 \\ 0 & 1 \end{pmatrix}\), obtemos que \[ B^{-1}A = \begin{pmatrix} 1 & 2 \\ 2 & 3 \end{pmatrix}\cdot \]

O maior valor próprio da matriz \(B^{-1}A\) é \(2+\sqrt{5}\). Signiica que \(x^\top A x\) sob a restrição \(x^\top B x=1\) é \(2+\sqrt{5}\). Observe que a restrição \(x^\top B x=1\) corresponde à nossa escolha de \(B\), aos pontos que estão no círculo unitário \(x_1^2+x_2^2=1\).



II.4. Derivadas


Para as seções posteriores deste livro, será útil introduzir a notação matricial para derivadas de uma função escalar de um vetor \(x\), ou seja, \(f(x)\), em relação a \(x\).

Considere \[ f \, : \mathbb{R}^p\to \mathbb{R} \] e \(x\) um vetor de ordem \(p\). Então \[ \dfrac{\partial f(x)}{\partial x} \] é um vetor coluna das derivadas paarciais \[ \dfrac{\partial f(x)}{\partial x_j}, \qquad j=1,\cdots,p \] e \[ \dfrac{\partial f(x)}{\partial x^\top } \]

um vetor linha da mesmas derivada, chamado de gradiente de \(f\).

Podemos introduzir derivadas de segunda ordem \[ \dfrac{\partial^2 f(x)}{\partial x \partial x^\top } \]

como a matriz de elementos \[ \dfrac{\partial^2 f(x)}{\partial x_i\partial x_j}, \qquad i=1,\cdots,p \quad \mbox{e} \quad j=1,\cdots,p, \] chamada de Hessiano de \(f\).

Suponha que \(a\) seja um vetor \(p\times 1\) e que \(A=A^\top\) uma matriz simétrica \(p\times p\). Então \[ \dfrac{\partial a^\top x}{\partial x} = \dfrac{\partial x^\top a}{\partial x} =a, \]

\[ \dfrac{\partial x^\top A x}{\partial x}=2 A x\cdot \]

O Hessino de uma forma quadrática \(Q(x)=x^\top A x\) é \[ \dfrac{\partial^2 x^\top A x}{\partial x \partial x^\top}=2 A\cdot \]


Exemplo II.8

Considere a matriz \[ A=\begin{pmatrix} 1 & 2 \\ 2 & 3 \end{pmatrix}\cdot \]

Segue então que o gradiente de \(Q(x)=x^\top A x\) é \[ \dfrac{\partial x^\top A x}{\partial x}=2 A x = 2\begin{pmatrix} 1 & 2 \\ 2 & 3 \end{pmatrix}x = \begin{pmatrix} 2x & 4x \\ 4x & 6x \end{pmatrix} \]

e o Hessiano é \[ \dfrac{\partial^2 x^\top A x}{\partial x\partial x^\top}=2 A = 2\begin{pmatrix} 1 & 2 \\ 2 & 3 \end{pmatrix} = \begin{pmatrix} 2 & 4 \\ 4 & 6 \end{pmatrix}\cdot \]



II.5. Matrizes particionadas


Muitas vezes teremos que considerar certos grupos de linhas e colunas de uma matriz \(A_{n\times p}\). No caso de dois grupos, temos \[ A = \begin{pmatrix} A_{11} & A_{12} \\ A_{21} & A_{22} \end{pmatrix}, \]

onde \(A_{ij}\) é de ordem \(n_1\times p_j\), \(i,j=1,2\), \(n_1+n_1=n\) e \(p_1+p_2=p\).

Se \(B_{n\times p}\) for particionada de acordo, temos que \[ A+B = \begin{pmatrix} A_{11}+B_{11} & A_{12} + B_{12}\\ A_{21}+B_{21} & A_{22} +B_{22}\end{pmatrix}, \]

\[ B^\top = \begin{pmatrix} B_{11}^\top & B_{21}^\top \\ B_{12}^\top & B_{22}^\top \end{pmatrix} \]

e \[ A B^\top = \begin{pmatrix} A_{11} B_{11}^\top + A_{12}B_{12}^\top & A_{11} B_{21}^\top+ A_{12} B_{22}^\top \\ A_{21}B_{11}^\top + A_{22} B_{12}^\top & A_{21} B_{21}^\top +A_{22} B_{22}^\top \end{pmatrix}\cdot \]

Um caso particular importante é a matriz quadrada \(A_{p\times p}\), particionada de tal forma que \(A_{11}\) e \(A_{22}\) sejam ambas matrizes quadradas, ou seja, \(n_j=p_j\), \(j=1,2\). Pode-se verificar que quando \(A\) é não singular, ou seja, quando \(A A^{-1}=\mbox{I}_p\) \[ A^{-1} = \begin{pmatrix} A^{11} & A^{ 12} \\ A^{21} & A^{22} \end{pmatrix}, \] onde \[ A^{11} = (A_{11}-A_{12}A_{22}^{-1}A_{21})^{-1}, \]

\[ A^{12} = -(A_{11\cdot 2})^{-1}A_{12} A_{22}^{-1}, \]

\[ A^{21} = -A_{22}^{-1}A_{21} (A_{11\cdot 2})^{-1} \]

e

\[ A^{22} = A_{22}^{-1}+ A_{22}^{-1}A_{21} (A_{11\cdot 2})^{-1} A_{12} A_{22}^{-1}\cdot \]

Uma expressão alternativa pode ser obtida invertendo as posições de \(A_{11}\) e \(A_{22}\) na matriz original.

Os seguintes resultados serão úteis se \(A_{11}\) não for singular: \[ |A| = |A_{11}| |A_{22}-A_{21}A_{11}^{-1} A_{12}| = |A_{11}||A_{22\cdot 1}|\cdot \]

Se \(A_{22}\) é não singular, temos que \[ |A| = |A_{22}| |A_{11}-A_{12}A_{22}^{-1} A_{21}| = |A_{22}||A_{11\cdot 2}|\cdot \]

Uma fórmula útil é obtida das expressões alternativas para o inverso e o determinante. Por exemplo, seja \[ B = \begin{pmatrix} 1 & b^\top \\ a & A \end{pmatrix}, \]

onde \(a\) e \(b\) são vetores de dimensão \(p\times 1\) e \(A\) é não singular. Então \[ |B| = |A- a b^\top| = |A| |1-b^\top A^{-} a| \]

e igualando as duas expressões para \(B^{22}\), obtemos o seguinte \[ (A- a b^\top)^{-1} = A^{-1} + \dfrac{A^{-1} a b^\top A^{-1}}{1-b^\top A^{-1} a}\cdot \]


Exemplo II.9

Consideremos a matriz \[ A = \begin{pmatrix} 1 & 2 \\ 2 & 2 \end{pmatrix}\cdot \]

Utilizando as expressões anteriores podemos calcalar a inversa da matriz particionada, ou seja, para encontrar que \(A^{11}=-1\), \(A^{12}=A^{21}=1\) e que \(A^{22}=-1/2\). A inversa da matriz \(A\) é \[ A^{-1} = \begin{pmatrix} -1 & 1 \\ 1 & -1/2 \end{pmatrix}\cdot \]

È possível também calcular o determinante de \(A\): \[ |A| = |1| |2-4| = -2\cdot \]


Sejam \(A_{n\times p}\) e \(B_{p\times n}\) duas matrizes quaisquer e suponha que \(n\geq p\). De expressões anteriores podemos concluir que \[ \left| \begin{pmatrix} \lambda \mbox{I}_n & -A \\ B & \mbox{I}_p \end{pmatrix} \right| = (-\lambda)^{n-p} |B A -\lambda \mbox{I}_p| = |A B -\lambda \mbox{I}_n|\cdot \]

Como ambos os determinantes do lado direito acima são polinômios em \(\lambda\), descobrimos que os \(n\) autovalores de \(A B\) produzem os \(p\) autovalores de \(BA\) mais o autovalor 0, \(n-p\) vezes.

A relação entre os autovetores é descrita no próximo teorema.


Teorema II.6

Para \(A_{n\times p}\) e \(B_{p\times n}\), os autovalores diferentes de zero de \(AB\) e \(BA\) são iguais e têm a mesma multiplicidade. Se \(x\) é um autovetor de \(AB\) para um autovalor \(\lambda\neq 0\), então \(y= B x\) é um autovetor de \(BA\).


Demonstração

Este teorema afirma que os autovalores de \(A a b^\top B\) são os mesmos de \(b^\top BAa\). Observe que a matriz \(b^\top BAa\) é um escalar e, portanto, é seu próprio valor próprio \(\lambda_1\). Aplicando \(A a b^\top B\) a \(A a\), resulta \[ (A a b^\top B)(A a) = (A a)(b^\top B A a) = \lambda_1 A a\cdot \]


Corolário II.2

Para \(A_{n\times p }\), \(B_{q\times n}\), \(a_{p\times 1}\) e \(b_{q\times 1}\) temos \[ \mbox{posto}(A a b^\top B) \leq 1\cdot \]

O autovalor diferente de zero, se existir, é igual a \(b^\top B A\), com autovetor \(Aa\).



II.6. Aspectos geométricos


Distância

Sejam \(x,y\in\mathbb{R}^p\). A distância \(d\) é definida como a função \(d \, : \mathbb{R}^{2p}\to\mathbb{R}_+\) satisfazendo \[ d(x,y)>0, \qquad \forall x\neq y, \]

\[ d(x,y)=0, \qquad \mbox{se, e somente se} \quad x=y, \] \[ d(x,y)\leq d(x,z)+d(z,y), \qquad \forall x,y,z\cdot \]

A distância Euclideana \(d\) entre dois pontos \(x\) e \(y\) é definida como \[ d^2(x,y)=(x-y)^\top A (x-y), \] onde \(A\) é uma matriz definida positiva (\(A>0\)). \(A\) é chamada de métrica.


Exemplo II.10

Em particular, se \(A=\mbox{I}_p\), temos \[ d^2(x,y)=\sum_{i=1}^p (x_1-y_i)^2\cdot \]


Obsserve que o conjunto \(E_d=\{x\in \mathbb{R}^p \, : \, (x-x_0)^\top (x-x_0)=d^2\}\), ou seja, as esferas de rádio \(d\) e centro \(x_0\), são as curvas de iso-distâncias \(I_p\) Euclideanas desde o ponto \(x_0\).

A distância mais geral com uma matriz definida positiva \(A\) (\(A > 0\)) leva às curvas de iso-distância \[ E_d=\{ x\in\mathbb{R}^p \, : \, (x-x_0)^\top A (x-x_0)=d^2\}, \] ou seja elipsoides com centro \(x_0\), matriz \(A\) e constante \(d\).

Sejam \(\gamma_1,\gamma_1,\cdots,\gamma_p\) autovetores ortonormais de \(A\) correspondentes aos autovalores \[ \lambda_1\geq \lambda_2\geq \cdots\geq \lambda_p\cdot \]

As observações resultantes são dadas no próximo teorema.


Teorema II.7

  1. Os eixos principais de \(E_d\) estão na direção de \(\gamma_i\), \(i=1,\cdots,p\).
  2. Os meios-comprimentos dos eixos são \(\sqrt{d^2/\lambda_i}\), \(i=1,\cdots,p\).
  3. O retângulo ao redor do elipsóide \(E_d\) é definido pelas seguintes desigualdades \[ x_{0i}-\sqrt{d^2a^{ii}}\leq x_i \leq x_{0i}+\sqrt{d^2a^{ii}}, \qquad i=1,\cdots,p, \] onde \(a^{ii}\) é o elemento \((i,i)\) de \(A^{-1}\). Pelo retângulo que circunda o elipsóide \(E_d\) queremos dizer o retângulo cujos lados são paralelos ao eixo de coordenadas.


É fácil encontrar as coordenadas dos pontos de tangência entre o elipsóide e seu retângulo circundante paralelos aos eixos coordenados. Vamos encontrar as coordenadas do ponto de tangência que estão na direção de cada eixo de coordenadas (sentido positivo).

Para facilitar a notação, supomos que o elipsóide está centrado em torno da origem, ou seja, \(x_0=0\). Caso contrário, o retângulo será deslocado pelo valor de \(x_0\). A coordenada do ponto de tangência é dada pela solução do seguinte problema: \[ x=\arg \max_{x^\top A x=d^2} e_j^\top x, \] onde \(e_j^\top\) é a \(j\)-ésima coluna da matriz indentidade \(\mbox{I}_p\).

A coordenada do ponto de tangência na direção negativa corresponderia à solução do problema de encontrarmos o mínimo: por simetria, é o valor oposto do primeiro.

A solução é calculada através do Lagrangiano \(L=e_j^\top x-\lambda (x^\top A x-d^2)\), o qual leva ao seguinte sistema de equações \[ \dfrac{\partial L}{\partial x}=e_j-2\lambda A x=0 \] \[ \dfrac{\partial L}{\partial \lambda} = x^\top A x-d^2=0\cdot \] Isto fornece-nos \[ x=\frac{1}{2\lambda}A^{-1}e_j \] ou o componente oposto \[ x_i=\frac{1}{2\lambda}a^{ii}, \qquad i=1,\cdots,p, \] onde \(a^{ii}\) denota o \((i,j)\) elemento de \(A^{-1}\).

Como solução so sitema de equações temos \[ x_j=2\lambda d^2\cdot \]

Comparando isso com o valor obtido anteriormente, quando \(i=j\) obtemos \(2\lambda = \sqrt{a^{ii}/d^2}\).

Escolhemos o valor positivo da raiz quadrada, porque estamos maximizando \(e_j^\top x\). Um mínimo corresponderia ao valor negativo. Finalmente, temos as coordenadas do ponto de tangência entre o elipsóide e seu retângulo de arredondamento na direção positiva do \(j\)-ésimo eixo é: \[ x_i = \sqrt{\dfrac{d^2}{a^{jj}}}a^{ij}, \qquad i=1,\cdots,p\cdot \]

O Teorema II.7 será particularmente útil em muitos capítulos subsequentes. Primeiro, ele fornece uma ferramenta útil para representar graficamente uma elipse em duas dimensões. De fato, conhecer a inclinação dos eixos principais da elipse, seus meios-comprimentos e desenhar o retângulo que a inscreve, permite traçar rapidamente uma imagem aproximada da forma da elipse.

No Capítulo VII, mostra-se que a região de confiança para o vetor de uma população normal multivariada é dada por um elipsóide particular cujos parâmetros dependem das características da amostra. O retângulo que inscreve o elipsóide, que é muito mais fácil de obter, fornecerá os intervalos de confiança simultâneos para todos os componentes em \(\mu\).

Além disso, será mostrado que as superfícies de contorno da densidade normal multivariada são fornecidas por elipsóides cujos parâmetros dependem do vetor médio e da matriz de covariância. Veremos que os pontos de tangência entre os elipsóides de contorno e o retângulo circundante são determinados regredindo um componente nos outros \(p-1\) componentes. Por exemplo, na direção do \(j\)-ésimo eixo, os pontos de tangência são dados pelas interseções dos contornos do elipsóide com a linha de regressão do vetor de \(p-1\) variáveis, todos os componentes exceto o \(j\)-ésimo, no \(j\)-ésimo componente.


Norma de um vetor


Considere o vetor \(x\in\mathbb{R}^p\). A norma ou comprimento de \(x\), com relação à métrica \(\mbox{I}_p\) é definda como \[ || x || =d(0_p,x)=\sqrt{x^\top x}\cdot \] Se \(||x||=1\), \(x\) é chamado de vetor de unitário. Uma norma mais geral pode ser definida em relação à métrica \(A\): \[ || x||_A = \sqrt{x^\top A x}\cdot \]


Ângulo entre dois vetores


Consideredois vetores \(x\) e \(y\) em \(\mathbb{R}^p\). O ângulo entre \(x\) e \(y\) é definido pelo coseno de \(\theta\) \[ \cos(\theta)=\dfrac{x^\top y}{||x|| || y||}\cdot \]

Se \(x^\top y=0\), o ângulo \(\theta\) é igual a \(\pi/2\). Da trigonometria, sabemos que o cosseno é igual ao comprimento da base de um triângulo \(||p_x||\) dividido pelo comprimento da hipotenusa \(||x||\). Portanto, temos \[ ||p_x||=|| x|| \times |\cos(\theta)| =\dfrac{|x^\top y|}{|| y||}, \] onde \(p_x\) é a projeção de \(x\) em \(y\), definido abaixo. É a coordenada de \(x\) no vetor \(y\).

O ângulo também pode ser definido em relação a uma métrica geral \(A\) \[ \cos(\theta)=\dfrac{x^\top A y}{||x||_A ||y||_A}\cdot \] Se \(\cos(\theta)=0\) então \(x\) é ortogonal a \(y\) em relação à métrica \(A\).


Exemplo II.11

Suponha que existam dois vetores de dados centrados, ou seja, média zero. O cosseno do ângulo entre eles é igual à sua correlação. De fato para \(x\) e \(y\) com \(\overline{x}=\overline{y}=0\) temos \[ r_{XY}=\dfrac{\sum x_i y_i}{\sqrt{\sum x_i^2 \sum y_i^2}}\cdot \]


Rotações


Quando consideramos um ponto \(x\in\mathbb{R}^p\), geralmente usamos um sistema de \(p\) coordenadas para obter sua representação geométrica. Haverá situações em técnicas multivariadas, onde desejaremos girar esse sistema de coordenadas pelo ângulo \(\theta\).

Considere, por exemplo, o ponto \(P\) com as coordenadas \(x=(x_1,x_2)\in\mathbb{R}^2\) em relação a um determinado conjunto de eixos ortogonais. Seja \(\Gamma\) uma matriz \(2\times 2\) ortogonal onde \[ \Gamma=\begin{pmatrix} \cos(\theta) & \sin(\theta) \\ -\sin(\theta) & \cos(\theta) \end{pmatrix}\cdot \]

Se os eixos são girados em torno da origem em um ângulo \(\theta\) no sentido horário, as novas coordenadas de \(P\) serão dadas pelo vetor \(y\) \[ y=\Gamma x, \] e uma rotação no mesmo ângulo no sentido anti-horário dá as novas coordenadas como \[ y=\Gamma^\top x\cdot \]

Mais geralmente, a pré-multiplicação de um vetor \(x\) por uma matriz ortogonal \(\Gamma\) corresponde geometricamente a uma rotação do sistema de eixos, de modo que o primeiro novo eixo é determinado pela primeira linha de \(\Gamma\). Este ponto de vista geométrico será explorado nos Capítulos XI e XII.


Espaço coluna e espaço nulo de uma matriz


Definição II.1

O espaço gerado pelas colunas da matriz \(X_{n\times p}\) ou espaço coluna de \(X\) é definido como \[ \mbox{Im}(X)=C(X)=\{ x\in\mathbb{R}^n \, : \, \exists a\in\mathbb{R}^p \, \mbox{satisfazedo} \, Xa=x \}\cdot \]


Observe que \(C(X)\subseteq \mathbb{R}^n\) e \(\mbox{dim}\big(C(X)\big)=\mbox{posto}(X)=r\leq \min(n,p)\).


Definição II.2

O espaço nulo de \(X\) é definido como \[ \mbox{Ker}(X)=N(X)=\{ y\in\mathbb{R}^p \, : \, Xy=0 \}\cdot \]


Observe que \(N(X)\subseteq \mathbb{R}^p\) e que \(\mbox{dim}\big( N(X)\big)=p-r\). Observe que \(N(X^\top)\) é o complemento ortogonal de \(C(X0\) em \(\mathbb{R}^n\), ou seja, dado um vetor \(b\in\mathbb{R}^n\) ele sustentará que \(x^\top b=0\) para todo \(x\in C(X)\) se, e somente se, \(b\in N(X^\top)\).


Matriz de projeção


Uma matriz \(P_{n\times n}\) é chamada de matriz de projeção ortogonal em \(\mathbb{R}^n\) se, e somente se, \(P=P^\top = P\times P\), ou seja, se \(P\) é idempotente. Seja \(a=Pb\) a projeção de \(b\) em \(C(P)\).


Projeção em \(C(X)\)


Considere \(X_{n\times n}\) e seja \[ P= X(X^\top X)^{-1}X^\top \] e \(Q=\mbox{I}_n-P\). Pode-se verficar que \(P\) e \(Q\) são idempotentes e que \[ PX=X \qquad \mbox{e} \qquad QX=0\cdot \]

Como as colunas de \(X\) são projetadas para si mesmas, a matriz de projeção \(P\) projeta qualquer vetor \(b\in\mathbb{R}^n\) em \(C(X)\). Da mesma forma, a matriz de projeção \(Q\) projeta qualquer vetor \(b\in\mathbb{R}^n\) no complemento ortogonal de \(C(X)\).


Teorema II.8

Seja \(P\) um matriz de projeção e \(Q\) seu complemento ortogonal. Então:
(i) \(x=P b\), implica \(x\in C(X)\),
(ii) \(y=Q b\) significa que \(y^\top x=0\) \(\forall x\in C(X)\).


Demonstração

  1. é válido desde que \(x=X(X^\top X)^{-1}X^\top b= Xa\), onde \(a=(X^\top X)^{-1}X^\top b\in \mathbb{R}^p\).
  2. segue de \(y=b-Pb\) e \(x=Xa\). Portanto, \(y^\top x=b^\top Xa-b^\top X(X^\top X)^{-1}X^\top Xa=0\).


Sejam \(x,y\in\mathbb{R}^n\) e considere \(p_x \in\mathbb{R}^n\), a projeção de \(x\) em \(y\). Com \(X=y\) temos que \[ p_x = y (y^\top y)^{-1}y^\top x= \dfrac{y^\top x}{|| y ||^2}y \] e pode-se verificar que \[ |p_x|| = \sqrt{p_x^\top p_x}=\dfrac{|y^\top x|}{|| y ||}\cdot \]


II.7. Exercícios


  1. Suponha que \(|A|=0\). É possível que todos os valores próprios de \(A\) sejam positivos?

  2. Suponha que todos os valores próprios de alguma matriz (quadrada) \(A\) sejam diferentes de zero. A inversa \(A^{-1}\) existe?

  3. Escreva um programa que calcule a decomposição de Jordan da matriz \[ A = \begin{pmatrix} 1 & 2 & 3 \\ 2 & 1 & 2 \\ 3 & 2 & 1 \end{pmatrix} \]

  4. Mostre que uma matriz de projeção só tem autovalores em \(\{0,1\}\).