Este capítulo é dedicado a uma descrição da decomposição de valor singular (SVD) de matrizes reais, que é a principal ferramenta matemática no método SSA Básico.
A maioria dos recursos de SVD discutidos são usados em diferentes partes do texto e esclarecem construções teóricas ou interpretação de resultados em diversos exemplos.
Seja \(X\) uma matriz não nula com \(L>1\) linhas e \(K>1\) colunas. Então \(S=XX^\top\) é uma matriz simétrica \(L\times L\). Como toda matriz simétrica \(S\) têm \(L\) autovetores linearmente independentes, isto é, vetores \(U_1,\cdots,U_L\) linearmente independentes tais que \[ SU_i=\lambda_iU_i, \] onde os números reais \(\lambda_i\) são chamados de autovalores da matriz \(S\). O espaço linear abrangido pela coleção de autovetores \(U_i\) é chamado de autoespaço.
Podemos escolher os autovetores \(U_i\) como sendo ortonormais, ou seja, \(<U_i,U_j> = 0\) para onde \(i\neq j\) e a propriedade da ortogonalidade e \(|| U_i || = 1\), a propriedade da norma unitária, sendo \(<X,Y>\) o produto interno dos vetores \(X\) e \(Y\) e \(||X|| = \sqrt{<X,X>}\) a norma do vetor \(X\).
Além disso, a matriz \(S\) é semidefinida positiva, ou seja, \(\lambda_i\geq 0\) para todo \(i = 1,\cdots,L\). Assumimos que os autovalores \(\lambda_i\) são colocados em ordem decrescente: \[ \lambda_1\geq \lambda_2 \geq \cdots \geq \lambda_L \geq 0\cdot \]
Denotamos por \(d\) o número de autovalores diferentes de zero da matriz \(S\). Se \(d < L\), \(\lambda_d > 0\) e \(\lambda_{d+1} = 0\), então todos os outros autovalores com índices maiores que \(d\) também são zero. Se \(\lambda_L > 0\), então \(d = L\). Como \(d\) é igual ao posto da matriz \(X\), obtemos \(d\leq \mbox{min}(L,K)\).
Para \(1\leq i\leq d\) definimos \[ \tag{1} V_i =\dfrac{1}{\sqrt{\lambda_i}}X^\top U_i\cdot \]A igualdade (2) é chamada de decomposição de valor singular (SVD) da matriz \(X\). A terminologia padrão chama os números \(\sqrt{\lambda_i}\) de valores singulares da matriz \(X\), enquanto os vetores \(U_i\) e \(V_i\) são chamados de vetores singulares esquerdo e direito da matriz \(X\). A coleção \((\sqrt{\lambda_i},U_i,V_i)\) é chamada de \(i\)-ésimo autotriplo da matriz \(X\).
Vamos discutir as propriedades de unicidade de SVD (2). Claro que essa unicidade não poderia ser tratada literalmente. Primeiro, como \(-U_i\) também é o autovetor de \(S\) correspondente ao autovalor \(\lambda_i\), em (2) podemos substituir um ou mais pares \((U_i,V_i)\) por \((-U_i,-V_i)\) com cada termo no lado direito de (2) permanecendo o mesmo.
Além disso, se por exemplo, \(\lambda = \lambda_1 = \lambda_2 > \lambda_3\), então a escolha da base no autoespaço bidimensional correspondente ao autovalor \(\lambda\) não é bem definida e os vetores \(U_1\), \(U_2\), assim como os vetores \(V_1\) e \(V_2\) não são determinados de forma única. Isso significa que se \(\lambda_1 = \lambda_2 > \lambda_3\), então ambas as matrizes \(\sqrt{\lambda_1} U_1V_1^\top\) e \(\sqrt{\lambda_2}U_2V_2^\top\) têm um sentido apenas por meio de sua soma, que não depende da escolha de \(U_1\) e \(U_2\), mas não individualmente.
Tendo essas considerações em mente, a propriedade de unicidade de SVD pode ser formulada da seguinte forma. Sejam \(P_1,\cdots,P_L\) e \(Q_1,\cdots,Q_L\) alguns sistemas ortonormais em \(\mathbb{R}^L\) e \(\mathbb{R}^K\), respectivamente. Suponha que existam constantes não negativas \(c_1\geq \cdots \geq c_L \geq 0\) tais que \[ \tag{4} X \, = \, \sum_{i=1}^L c_i P_i Q_i^\top\cdot \]
Seja \(I\subset \{1,\cdots,d\}\) e \(J=\{1,\cdots,d\}\setminus I\). Seja \[ X_I=\sum_{i\in I} \sqrt{\lambda_i} U_i V_i^\top \] e \(X_J=X-X_I\). Então a decomposição \[ X_J = \sum_{i\in J} \sqrt{\lambda_i} U_i V_i^\top \] é um SVD da matriz \(X_J\).
A decomposição de valor singular (2) pode ser reescrita em forma de matriz como segue. Defina \[ U_d = [U_1\, : \, \cdots\, : \, U_d] \quad \mbox{ e } \quad V_d = [V_1 \, : \, \cdots \, : \, V_d] \] e seja \(\Lambda_d\) a matriz diagonal \(d\times d\) com o autovalor \(\lambda_i\) como o \(i\)-ésimo elemento diagonal.
Então (2) assume a forma \[ \tag{5} X=U_d \Lambda_d^{1/2}V_d^\top, \] que é a forma matricial padrão da decomposição de valor singular.
A igualdade (5) pode ser reescrita na forma conhecida como representação quase diagonal da matriz \(X\). É bem conhecido que para uma escolha adequada de uma base ortonormal em \(\mathbb{R}^L\), qualquer matriz simétrica \(L\times L\) tem uma representação diagonal. Segue de (5) que podemos selecionar bases adequadas tanto em \(\mathbb{R}^L\) quanto em \(\mathbb{R}^K\) e obter uma representação análoga para qualquer matriz retangular \(X\).
Sejam \(U = [U_1 \, : \, \cdots \, : \, U_L]\) e \(V = [V_1 \, : \, \cdots \, : \, V_K]\). Note que no caso \(d < K\) tomamos \(V_{d+1},\cdots ,V_K\) como um sistema ortonormal de autovetores correspondendo ao autovalor zero da matriz \(X^\top X\).
As matrizes \(U\) e \(V\) são matrizes unitárias ou de rotação, \(L\times L\) e \(K\times K\). Para a matriz \(U\), isso significa que para todos os vetores \(X,Y\in\mathbb{R}^L\) a igualdade \(<UX,UY> = <X,Y>\) é válida e, portanto, a matriz \(U\), tratada como um mapeamento linear \(\mathbb{R}^L\to\mathbb{R}^L\), conserva tanto as normas do vetor quanto os ângulos entre os vetores. Outra caracterização da propriedade de rotação é a identidade \(U^{-1} = U^\top\).
Denotando por \(\Lambda\) a matriz do tamanho da matriz inicial \(X\) com os elementos diagonais \(\lambda_{ii} = \lambda_i\) para \(1\leq i\leq d\) e todos os outros elementos iguais a zero. Então (5) pode ser reescrito como \[ \tag{6} X=U \Lambda^{1/2}V^\top \quad \mbox{ou } \quad \Lambda^{1/2}=U^\top XV\cdot \]
As igualdades (6) têm o significado da representação quase diagonal da matriz \(X\). Para bases adequadas \(U_1,\cdots,U_L\) em \(\mathbb{R}^L\) e \(V_1,\cdots,V_K\) em \(\mathbb{R}^K\), em outras palavras, sob duas rotações adequadas, qualquer matriz retangular \(L\times K\) tem uma representação quase diagonal \(\Lambda^{1/2}\).
O termo ‘rotação’ é usado aqui, pois uma transição de uma base ortonormal em um espaço linear para outra é realizada com a ajuda de uma matriz de rotação semelhante a \(U\) e \(V\).
Considere o espaço linear \(\mathcal{M}_{L,K}\) de matrizes reais \(L\times K\) equipadas com as operações padrões de adição e multiplicação de matrizes por constantes. Evidentemente, a dimensão deste espaço é \(LK\).
Definamos o produto interno de matrizes como segue. Sejam \(X = (x_{ij})_{i,j=1}^{L,K}\) e \(Y = (y_{ij})_{i,j=1}^{L,K}\) matrizes em
\(\mathcal{M}_{L,K}\). Então \[
\tag{7}
<X,Y>_{\mathcal{M}_{L,K}}=\sum_{i=1}^L \sum_{j=1}^K
x_{ij}y_{ij}\cdot
\] Na maneira padrão a igualdade \[
\tag{8}
||X||^2_\mathcal{M}=<X,X>_\mathcal{M} = \sum_{i=1}^L \sum_{j=1}^K
x_{ij}^2,
\] define o quadrado da norma da matriz, geralmente chamada de
norma Frobenius da matriz,
\[
\mbox{dist}_{\mathcal{M}}(X,Y) = ||X-Y||_\mathcal{M}
\] tem o sentido da distância entre as matrizes \(X\) e \(Y\) e assim por diante.
O produto interno (7) é o produto interno usual de vetores em \(\mathbb{R}^{LK}\), com elementos \(x_{ij}\) e \(y_{ij}\) e não depende da estrutura retangular das matrizes. Em particular, (7) não depende da permutação mútua de elementos da matriz e, portanto, não leva em consideração muitas características importantes da matriz, como seu posto.
Por outro lado, a definição (7) nos diz que o produto interno das matrizes \(X\) e \(Y\) é igual ao produto interno de \(X^\top\) e \(Y^\top\), o que parece ser natural. É claro que esses produtos internos atuam em espaços diferentes: \(X,Y\in \mathcal{M}_{L,K}\), enquanto \(X^\top, Y^\top \in \mathcal{M}_{K,L}\).
A outra propriedade útil do produto interno da matriz é que a proximidade de duas matrizes pode ser considerada como proximidade de suas colunas; se \(X_1,\cdots,X_K\in\mathbb{R}^L\) e \(Y_1,\cdots,Y_K\in \mathbb{R}^L\) são colunas das matrizes \(X\) e \(Y\), respectivamente, então \[ ||X-Y||^2_\mathcal{M}=\sum_{i=1}^K ||X_i-Y_i||^2\cdot \] A igualdade análoga pode obviamente ser escrita em termos das linhas da matriz em vez de colunas.
As matrizes \(X\) e \(Y\) são ortogonais se \(<X,Y>_\mathcal{M} = 0\). Embora o conceito de ortogonalidade seja muito geral para ser útil em todos os casos, existem condições suficientes que relacionam a ortogonalidade das matrizes a outras propriedades dessas matrizes, como o intervalo de suas colunas ou linhas.
De fato, em termos das colunas da matriz, \[ <X,Y>_\mathcal{M}=\sum_{i=1}^K <X_i,Y_i> \] e, portanto, se \(\mbox{span}(X) = \mbox{span}(X_1,\cdots,X_K)\) é ortogonal a \(\mbox{span}(Y) = \mbox{span}(Y_1,\cdots,Y_K)\), então \(X\) e \(Y\) são ortogonais. Aqui o termo \(\mbox{span}(X)\) significa o conjunto de todas as combinações lineares dos vetores da matriz \(X\).
Uma condição suficiente análoga pode ser formulada em termos das linhas da matriz; ou seja, nos espaços lineares \(\mbox{span}(X^\top)\) e \(\mbox{span}(Y^\top)\). Observe que a ortogonalidade, escrita como, \(\mbox{span}(X) ⊥ \mbox{span}(Y)\) pode ser expressa como \(X^\top Y = 0_{KK}\), enquanto a condição \(\mbox{span}(X^\top) ⊥ \mbox{span}(Y^\top)\) é equivalente a \(XY^\top = 0_{LL}\), aqui \(0_{NN}\) representa a matriz zero \(N\times N\).
A ortogonalidade dos espaços \(\mbox{span}\) em qualquer combinação não fornece condições necessárias para a ortogonalidade da matriz. No entanto, existe uma classe de matrizes em que a ortogonalidade da matriz é expressa em termos da ortogonalidade dos espaços \(\mbox{span}\). Essas matrizes são matrizes de posto unitário ou elementares.
Toda matriz elementar tem colunas proporcionais, diferentes de zero, e linhas proporcionais, também diferentes de zero. Isso significa que toda matriz \(X\) elementar, de dimensão \(L\times K\), tem uma representação \[ \tag{9} X=cPQ^\top, \] onde \(P\in \mathbb{R}^L\), \(Q\in\mathbb{R}^K\), \(||P|| = ||Q|| = 1\) e \(c > 0\). O vetor \(P\) constitui a base do \(\mbox{span}(X)\); \(Q\) desempenha o mesmo papel para o \(\mbox{span}(X^\top)\).
A representação (9) é única até os sinais de \(P\) e \(Q\), os quais podem ser modificados simultaneamente. Uma característica útil das matrizes elementares é que para qualquer matriz \(Y = PQ^\top\) e qualquer \(X\in\mathcal{M}_{L,K}\) \[ \tag{10} <X,Y>_\mathcal{M}=<X^\top P,Q>=<XQ,P>\cdot \]
Na verdade, se \(Q = (q_1,\cdots, q_K)^\top\), então \(PQ^\top= [q_1 P \, : \, \cdots \, : \, q_K P]\) e, portanto, \[ <X,Y>_\mathcal{M}=\sum_{i=1}^K q_i<X_i,P>=\sum_{i=1}^K q_i X_i^\top P= <X^\top P,Q>, \] onde \(X=[X_1 \ : \, \cdots \, : \, X_K]\). Assim, se \(X=c_1P_1Q_1^\top\) e \(Y=c_2P_2Q_2^\top\), temos \[ <X,Y>_\mathcal{M}=c_1c_2<P_1,P_2><Q_1,Q_2>, \] e, portanto, \(X\) e \(Y\) são ortogonais se, e somente se, \(P_1 ⊥ P_2\) ou \(Q_1 ⊥ Q_2\).
Ao lidar com espaços lineares equipados com um produto interno, a decomposição usual de um elemento de tal espaço é sua decomposição ortogonal em uma soma de elementos simples. Se expressarmos a simplicidade de uma matriz em termos do valor de sua classificação, então consideraremos a decomposição de uma matriz em uma soma de matrizes elementares ortogonais: \[ \tag{11} X=\sum_{i=1}^m X_i = \sum_{i=1}^m c_i P_i Q_i^\top \] com \(X_i=c_iP_iQ_i^\top\), \(c_i>0\), \(P_i\in\mathbb{R}^L\), \(Q_i\in\mathbb{R}^K\), \(||P_i||=||Q_i||=1\) e \(<P_i,P_j><Q_i,Q_j>=0\), para \(i\neq j\).
Pode-se demonstrar que a decomposição (11) possui as seguintes propriedades:Qualquer matriz \(X\) de posto \(d\) pode ser decomposta de muitas maneiras na soma ortogonal de matrizes elementares.
Como a dimensão do espaço linear \(\mathcal{M}_{L,K}\) é \(LK\), existem \(LK\) matrizes de dimensão \(L\times K\) ortogonais em pares. Por exemplo, suponha que uma das bases ortonormais padrão de \(\mathcal{M}_{L,K}\) consiste em matrizes com um único elemento igual a 1 e todos os outros elementos zero.
Essas matrizes têm posto 1 e, portanto, elas são matrizes elementares. Se denotarmos por \(E_i^{(k)}\in\mathbb{R}^k\) o vetor com todos os zeros, exceto o \(i\)-ésimo componente, que é igual a 1, então qualquer matriz \(X\in\mathcal{M}_{L,K}\) com elementos \(x_{ij}\) tem a decomposição ortogonal \[ X=\sum_{i,j=1}^{L,K} x_{i,j} E_i^{(L)} (E_i^{(L)})^\top\cdot \] Esta decomposição é universal, mas pode ter muitos termos, mesmo quando \(X\) é em si uma matriz elementar.
Se considerarmos uma base ortonormal \(P_1,\cdots,P_L\in\mathbb{R}^L\), então \[ \tag{12} X=\sum_{i=1}^L P_iP_i^\top X=\sum_{i=1}^L P_i S_i^\top, \] com \(S_i = X^\top P_i\).
Assim, tomando todos os vetores não nulos \(S_i\) e definindo \(c_i = ||S_i||\) e \(Q_i = S_i/c_i\) obtemos (11). Uma decomposição semelhante se mantém se tomarmos uma base ortonormal \(Q_1,\cdots,Q_K\in\mathbb{R}^K\) e multiplicarmos \(X\) por \[ \mathbf{E}_K=\sum_{i=1}^K Q_iQ_i^\top \] à direita.
A decomposição (11) mostra que cada coluna da matriz \(X\) tratada como um vetor é uma combinação linear dos vetores \(P_1,\cdots,P_m\). Portanto, \(m\geq d = \mbox{posto}(X)\). Pode-se construir a decomposição (12) com \(d\) termos diferentes de zero.
Por exemplo, se \(P_1,\cdots,P_d\) formam uma base ortonormal de \(\mbox{span}(X)\), então \(X^\top P_i\) é um vetor nulo para \(i\geq d\) e (12) se transforma em \[ X+\sum_{i=1}^d P_i S_i^\top, \] com \(S_i\) linearmente independente.
Vamos caracterizar todas as decomposições do tipo \[ \tag{13} X=\sum_{i=1}^m P_i Q_i^\top \] com \(m = \mbox{posto}(X)\), sem as restrições de ortogonalidade em \(P_i\) e \(Q_i\).
1- Como \(\mbox{span}(X)\subset \mbox{span}(P_1,\cdots,P_m)\), \[ \tag{14} \mbox{dim}\big(\mbox{span}(X)\big)\leq \mbox{dim}\big(\mbox{span}(P_1,\cdots,P_m)\big)\leq m, \] e a igualdade \(m =\mbox{posto}(X)\) se mantém se, e somente se, ambas as desigualdades em (14) se tornarem igualdades. Isso significa que
os vetores \(P_1,\cdots,P_m\) são linearmente independentes e
\(\mbox{span}(X)= \mbox{span}(P_1,\cdots,P_m)\).
2- Como mencionado, \(m\geq d = \mbox{posto}(X)\). Além disso, se \(P_1,\cdots,P_m\) forem linearmente dependentes, então podemos expressar cada \(P_i\) como uma combinação linear dos vetores base de \(\mbox{span}(P_1,\cdots,P_m)\). O recálculo de \(Q_i\) então leva a uma decomposição similar a (13), mas com um número menor de termos em seu lado direito.
Agora vamos supor que ambos os sistemas \(P_1,\cdots,P_m\) e \(Q_1,\cdots,Q_m\) sejam linearmente independentes e \(m > d\). Então \(\mbox{span}(X)\) é um subespaço de \(\mbox{span}(P_1,\cdots,P_m)\) e esses espaços lineares não coincidem. Denote por \(Y_1,\cdots,Y_m\) a base ortonormal de \(\mbox{span}(P_1,\cdots,P_m)\) tal que \(Y_1,\cdots,Y_d\) é uma base de \(\mbox{span}(X)\). Então \(X^\top Y_k = 0_K\) para \(k > d\).
Dado que \[ P_i=\sum_{j=1}^m c_{ij}Y_j \] para algum \(c_{ij}\),Uma decomposição (13) com \(m =\mbox{posto}(X)\) é chamada de mínima ou minimal.
A decomposição (13) é uma decomposição ortogonal mínimal se, e somente se, ambos os sistemas vetoriais \(P_1,\cdots,P_m\) e \(Q_1,\cdots,Q_m\) forem linearmente independentes e \[ <P_i,P_j><Q_i,Q_j>=0 \qquad \forall i\neq j\cdot \]
Como resultado, obtivemos uma classe de decomposições de matrizes em um número mínimo de matrizes elementares ortogonais. Claro, as decomposições de valor singular pertencem a essa classe.
Definindo \(X_i = \lambda_i U_i V_i^\top\) no SVD (2). Então (2) pode ser reescrito na forma \[ \tag{15} X = X_1 + \cdots + X_d\cdot \]
As matrizes \(X_i\) têm postos unitários e são ortogonais entre si. Além disso, essas matrizes são biortogonais no sentido de que \(X_i X_j^\top = 0_{LL}\) e \(X_i^\top X_j = 0_{KK}\) para \(i = j\). Isso significa que o SVD não é apenas uma decomposição de uma matriz no sistema mínimo de matrizes elementares ortogonais, mas também essa decomposição é biortogonal. Em vista do Teorema 2 é uma decomposição elementar biortogonal única, até a multiplicidade dos autovalores \(\lambda_i\). Evidentemente, \[ \tag{16} ||X||^2_\mathcal{M}=\lambda_1+\cdots+\lambda_d\cdot \]
As características ótimas do SVD são baseadas em duas propriedades extremas dos autovalores e autovetores de matrizes simétricas. Essas propriedades são bem conhecidas; suas demonstrações podem ser encontradas em Gantmacher (1998).
1- a. \[ \lambda_1=\max_P (CP,P) = <CU_1,U_1>, \] onde o máximo é escolhido sobre todos \(P\in\mathbb{R}^L\) com \(||P||=1\);
Agora nos voltamos para SVDs começando com um teorema auxiliar. Suponha que uma matriz \(X\) tenha posto \(d > 0\). Fixe \(k\) tal que \(1\leq k\leq d\). Consideramos o problema de aproximação da matriz \(X\) com relação à norma da matriz por matrizes \(Y\) da forma \[ \tag{17} Y=\sum_{i=1}^k P_i Q_i^\top, \] onde \(P_i\in\mathbb{R}^L\) e \(Q_i\in\mathbb{R}^K\). Claro, podemos assumir que os vetores \(P_i\) sejam ortonormais. Nós, no entanto, não assumimos a ortonormalidade do \(Q_i\).
Vamos fixar os vetores ortonormais \(P_1,\cdots,P_k\) e denotar por \(\mathcal{M}_{k.P}\) a coleção de matrizes (17). Nosso problema é encontrar a matriz \(Y_0\in\mathcal{M}_{k,P}\) tal que \[ \min_{Y\in\mathcal{M}_{k,P}} ||X-Y||_\mathcal{M} = ||X-Y_0||_\mathcal{M}\cdot \] Para encontrar a matriz ótima \(Y_0\) é suficiente encontrar as matrizes correspondentes \(Q_1,\cdots,Q_k\) em (17).
Seja \(Y\) uma matriz satisfazendo (17). Então, o \(Q_i\) ótimo tem a forma \(Q_i=X^\top P_i\).
Uma afirmação análoga é válida se fixarmos o sistema ortonormal \(Q_1,\cdots,Q_k\). Então os \(P_i\) ótimos, que não são necessariamente ortonormais neste caso, são iguais a \(XQ_i\).
Agora seja \(\mathcal{M}_k\) o conjunto de matrizes da forma \[ \tag{19} Y=\sum_{i=1}^k P_i Q_i^\top, \] com \(k < d\). Escolhendo \(X\), uma matriz de posto \(d\) e considerando o problema de aproximação ótima com relação à norma matricial desta matriz por matrizes em \(\mathcal{M}_k\). Neste caso, tanto \(P_i\) quanto \(Q_i\) são arbitrários, enquanto o Teorema 5 lida com uma coleção fixa de vetores ortonormais \(P_i\).
Podemos assumir que \(P_1,\cdots,P_k\) são linearmente independentes e formam um sistema ortonormal. De fato, se os \(P_i\) forem linearmente dependentes, então decompomos vários \(P_i\) em combinações lineares dos outros e recalculamos o \(Q_i\). A matriz (19) permanecerá a mesma, enquanto \(k\) será reduzido. Da mesma maneira, se \(P_1,\cdots,P_k\) forem linearmente independentes, mas não ortogonais aos pares, então podemos encontrar uma base ortonormal de \(\mbox{span}(P_1,\cdots,P_k)\), decompor cada \(P_i\) em termos desta base e recalcular o \(Q_i\).
Pelo Teorema 5 sabemos que para \(P_i\) ortonormal fixo \(1\leq i\leq k\), o \(Q_i\) ótimo tem a forma \(Q_i = X^\top P_i\). Portanto, o problema é encontrar o \(P_i\) ótimo. Como \[ \tag{22} \left\Vert X-\sum_{i=1}^k P_i X^\top P_i\right\Vert_\mathcal{M}^2 = ||X||_\mathcal{M}^2-\sum_{i=1}^k <XX^\top P_i,P_i>, \] temos que encontrar \(P_1,\cdots,P_k\) ortonormais de forma que o lado direito de (22) seja mínimo. Mas a resposta para esse problema é bem conhecida, veja o Teorema 4; esses vetores podem ser selecionados como os \(k\) autovetores principais da matriz \(S = XX^\top\). Isso significa que \(P_i = U_i\). Em vista da igualdade (16), ambas as afirmações são provadas.As características ótimas de SVD podem ser reexpressas de forma diferente para diferentes propósitos. Por exemplo, o conjunto \(\mathcal{M}_k\) pode ser visto de outro ponto de vista. Como qualquer matriz \(Y\in\mathcal{M}_k\) tem posto não superior a \(k\), o problema (21) é o problema de aproximação da matriz \(X\) por uma matriz de classificação menor.
Portanto, a Teorema 6 nos diz que a soma dos primeiros \(k\) termos SVD faz a melhor matriz de aproximação \(Y_0\) de posto não maior que \(k\). Por outro lado, segue de (19) que qualquer coluna \(Y_i\) da matriz \(Y\in\mathcal{M}_k\) pertence ao intervalo de espaço linear \(\mbox{span}(P_1,\cdots,P_k)\) de dimensão não maior que \(k < d\), enquanto as colunas \(X_1,\cdots,X_K\) da matriz \(X\) abrangem o intervalo do espaço linear \(\mbox{span}(X)\), de dimensão \(d\). Como \[ ||X-Y||_\mathcal{M}^2=\sum_{i=1}^K ||X_i-Y_i||^2, \] o problema de otimização do Teorema 6 pode ser considerado como o problema de aproximação simultânea dos vetores \(X_1,\cdots,X_K\), abrangendo o espaço vetorial \(d\)-dimensional de \(\mbox{span}(X)\) por alguns vetores \(Y_1,\cdots,Y_K\) abrangendo um espaço linear \(\mathcal{L}\) de dimensão não excedendo \(k < d\).
É claro que o Teorema 6 fornece a solução: o espaço linear ótimo \(\mathcal{L}\) é igual ao \(\mbox{span}(U_1,\cdots,U_k)\), enquanto as colunas da matriz (20) são iguais ao \(Y_i\) ótimo.
Uma característica natural dessas aproximações ótimas equivalentes é definida por \[ \dfrac{||X-Y_0||_\mathcal{M}^2}{||X||_\mathcal{M}^2}=\dfrac{\lambda_{k+1}+\cdots+\lambda_d}{\lambda_1+\cdots+\lambda_d}\cdot \]
Se não lidarmos com a aproximação ótima e definirmos \[ X_I=\sum_{i\in I} \sqrt{\lambda_i} U_i V_i^\top \] com \(I=\{j_1,\cdots,j_k\}\subset \{1,\cdots,d\}\), \(j_1>\cdots>j_k\) e \(k<d\), então \[ \tag{23} 1-\dfrac{||X-X_I||_\mathcal{M}^2}{||X||_\mathcal{M}^2}=\dfrac{\lambda_{j_1}+\cdots+\lambda_{j_k}}{\lambda_1+\cdots+\lambda_d}\cdot \] A característica (23) pode ser chamada de parcela de autovalor dos autotriplos com números \(j_1,\cdots,j_k\).
Outra descrição das características ideais do SVD está relacionada ao chamado principais vetores da coleção \(X_1,\cdots,X_K\in\mathbb{R}^L\). Sejam \(X,P\in\mathcal{R}^L\), \(X\neq 0_L\) e \(||P|| = 1\). Então \(<X,P>P\) é a projeção de \(X\) no espaço linear unidimensional \(\mathcal{L}_P =\mbox{span}(P)\) e \(c=|<XP>|\) é a norma desta projeção.
O valor \(c = c(P)\) pode ser considerado como uma medida da qualidade da aproximação de o vetor \(X\) por \(\mathcal{L}_P\); quanto maior \(c = c(P)\), melhor \(X\) é aproximado em \(\mbox{span}(P)\).
Se quisermos encontrar \(P\) tal que \(\mathcal{L}_P\) se aproxime da coleção de vetores \(X_1,\cdots,X_K\) da melhor maneira, então chegamos ao seguinte problema de otimização: encontre o vetor \(P_0\) tal que \(||P_0|| = 1\) e \[ \tag{24} \nu_1=\sum_{i=1}^K <X_i,P_0>^2=\max_P \sum_{i=1}^K <X_i,P>^2 \] em que o máximo do lado direito de (24) é tomado sobre todos os \(P\in\mathbb{R}^L\) com \(||P|| = 1\).
A solução para este problema também pode ser descrita em termos de SVD.
O Teorema 7 nos permite chamar o vetor \(U_i\) de \(i\)-ésimo vetor principal da coleção \(X_1,\cdots,X_K\). Escolhemos \(c_j(U_i) = <X_j,U_i>\). Como \[ X_j=\sum_{i=1}^d c_j(U_i)U_i, \] o coeficiente \(c_j(U_i)\) é chamado de \(i\)-ésimo componente principal do vetor \(X_j\) e o vetor \[ Z_i=\big(c_1(U_i),\cdots,c_K(U_i)\big)^\top = X^\top U_i, \] é o vetor de \(i\)-ésimos componentes principais.
Note que, em vista de (1), \(Z_i = \sqrt{\lambda_i} V_i\) e o SVD (2) podem ser tratados como uma decomposição simultânea das colunas da matriz \(X\) com relação à base de seus vetores principais. Tal interpretação é padrão na análise de componentes principais, onde as colunas da matriz \(X\) formam uma amostra \(L\)-dimensional de tamanho \(K\).
Da mesma forma, os \(V_i\) são os vetores principais para as linhas da matriz \(X\), os vetores \(\sqrt{\lambda_i} U_i\) são os vetores de seus componentes principais e a decomposição (2) produz dois sistemas de vetores principais e duas decomposições relacionadas com relação a esses sistemas.
Agora vamos a considerar mais um problema de otimização relacionado ao SVD. Fixamos \[ 1\leq k < d = \mbox{posto}(X) \] e um sistema ortonormal \(W_1,\cdots,W_k\in\mathbb{R}^L\) e consideramos a matriz \[ \tag{26} Y= \sum_{i=1}^k W_i Q_i^\top+\sum_{i=k+1}^d P_iQ_i^\top, \] sob a suposição de que as coleções de vetores \(W_1,\cdots,W_k\) e \(P_{k+1},\cdots,P_d\) formam um sistema ortonormal. Aqui, os \(P_i\) são arbitrários até essa restrição e os \(Q_i\) são vetores arbitrários em \(\mathbb{R}^L\).
Denote por \(\mathcal{M}_{k,W}\) o conjunto de tais matrizes e considere o problema de encontrar a matriz \(Y_0\in\mathcal{M}_{k,W}\) tal que \[ \tag{27} ||X-Y_0||_\mathcal{M}=\min_{Y\in\mathcal{M}_{d,W}} ||X-Y||_\mathcal{M}\cdot \]
A solução \(Y_0\) para o problema (27) tem a seguinte estrutura: \(Q_i = X^\top W_i\) para \(1\leq i\leq k\). Se \(d\geq i > k\), então os vetores \(P_i\) coincidem com os primeiros \(d − k\) autovetores ortonormais da matriz \[ X_W=X-\sum_{i=1}^k W_i(X^\top W_i)^\top \] e \(Q_i=X^\top P_i\).
A centralização não é um procedimento padrão no SVD. Duas versões de centralização serão discutidas; a centralização simples é usual na análise de componentes principais, enquanto a centralização dupla é uma versão específica de SSA destinada a extrair sinais do tipo linear.
Para a matriz inicial \(X\) com \(K\) colunas e \(L\) linhas, definimos \[ \tag{28} \mathcal{A}_1(X)=\dfrac{1}{K}X \pmb{1}_K\pmb{1}_K^\top, \] onde \(\pmb{1}_K=(1,\cdots,1)^\top\in\mathbb{R}^K\). Se considerarmos o vetor \[ \tag{29} \mathcal{E}_1(X)=\dfrac{1}{K}X\pmb{1}_K\in\mathbb{R}^L, \] então \(\mathcal{E}_1(X)\) é o resultado da média dos elementos de \(X\) sobre suas linhas. Em outras palavras, se \[ X = [X_1\, : \, \cdots \, : \, X_K], \] então \(\mathcal{E}_1(X) = (X_1+\cdots+X_K)/K\).
Dado que \(\mathcal{A}_1(X)=\mathcal{E}_1(X)\pmb{1}_K^\top\), a matriz \(\mathcal{A}_1(X)\) tem \(K\) colunas idênticas que são iguais a \(\mathcal{E}_1(X)\). A transformação \(X\to X'\) definida como \(X-\mathcal{A}_1(X)\) tem o significado de centralização de linha.
Vamos considerar o SVD da matriz \(X'\): \[ \tag{30} X'= \sum_{i=1}^d \sqrt{\lambda_i} U_i V_i^\top\cdot \]
Se \(\mathcal{E}_1(X) = 0_L\), então a igualdade (30) é o SVD da matriz inicial \(X\) e, portanto, coincide com (2). Caso contrário, (30) pode ser reescrito como \[ \tag{31} X=\sqrt{\lambda_{0(1)}} U_{0(1)} V_{0(1)}^\top +\sum_{i=1}^d \sqrt{\lambda_i} U_i V_i^\top=\mathcal{A}_1(X)+\sum_{i=1}^d X_i \] com \[ U_{0(1)}=\mathcal{E}_1(X)\Big/||\mathcal{E}_1(X)||, \quad V_{0(1)}=\pmb{1}_K\Big/\sqrt{K} \quad \mbox{ e } \quad \sqrt{\lambda_{0(1)}}=||\mathcal{E}_1(X)||\sqrt{K}\cdot \] Portanto, (31) é uma decomposição da matriz \(X\) em uma soma de matrizes elementares. Observe que aqui \(d\) é a ordem do SVD da matriz \(X'\) e, portanto, não de \(X\) em geral.
Chamamos a decomposição (31) de SVD de centralização única da matriz \(X\) e \(\Big(\sqrt{\lambda_{0(1)}},U_{0(1)},V_{0(1)}\Big)\) é chamado de primeira tripla média. Vamos discutir as propriedades desta versão do SVD.
1- Observe que \[ X'\pmb{1}_K = X\pmb{1}_K- \mathcal{E}_1(X)\pmb{1}_K ^\top \pmb{1}_K=0_L \]
e, portanto, \(V_{0(1)}\) é um autovetor da matriz \((X')^\top X'\) correspondente ao autovalor zero. Isso significa que todos os vetores singulares à direita \(V_i\) são ortogonais a \(\pmb{1}_K\). Em outras palavras, as somas de suas coordenadas são zeros. Assim, \(V_{0(1)},V_1,\cdots,V_d\) formam um sistema ortonormal e as matrizes elementares correspondentes são ortogonais.A igualdade (32) significa que o número \(\lambda_{0(1)}/||X||_\mathcal{M}^2\) pode ser considerado como a parte da primeira tripla média no sentido da expressão (23). Análoga à centralização de linha da matriz \(X\), a centralização de coluna SVD também pode ser realizada. Então, em vez de \(\mathcal{E}_1(X)\) definido por (29) e \(\mathcal{A}_1(X)\) definido por (28), definimos \[ \tag{33} \mathcal{E}_2(X)=\dfrac{1}{L}X^\top \pmb{1}_l, \] \[ \tag{34} \mathcal{A}_2(X) = \sqrt{\lambda_{0(1)}}U_{0(2)} V_{0(2)}^\top + \sum_{i=1}^d \sqrt{\lambda_i} U_i V_i^\top \] com \[ U_{0(2)}=\pmb{1}_L\big/ \sqrt{L}, \quad V_{0(2)}=\mathcal{E}_2(X)\big/ ||\mathcal{E}_2(X)||, \quad d= \mbox{posto}\big (X-\mathcal{A}_2(X)\big) \] e o correspondente \(\lambda_{0(2)}\). Claro, as declarações análogas ao Teorema 9 e ao Corolário 3 são válidas neste caso também.
Vamos considerar a SVD de centralização dupla. Seja a matriz \(X\) definida como \[ X''=X'-\mathcal{A}_2(X'), \] que é o mesmo que \[ X''=X'-\mathcal{A}^{(12)}(X'), \] com \[ \mathcal{A}^{(12)}=\mathcal{A}_1(X)+\mathcal{A}_2(X)-\mathcal{A}_1\big(\mathcal{A}_2(X)\big)\cdot \]
A matriz \(\mathcal{A}^{(12)}(X)\), definida como \[ \mathcal{A}^{(12)}(X)=\mathcal{A}_1\big(\mathcal{A}_2(X)\big)=\mathcal{A}_2\big(\mathcal{A}_1(X)\big) \] é a matriz com cada elemento igual ao valor médio de todos os elementos da matriz \(X\). Formalmente, a média desta matriz é igual a \[ \pmb{a}_X=\dfrac{1}{KL}\pmb{1}_L^\top X\pmb{1}_K \] e a matriz \(\mathcal{A}_{(12)}(X)\) em si é \[ \mathcal{A}_{(12)}(X)=\pmb{a}_X\pmb{1}_L\pmb{1}_K^\top\cdot \]
Na versão de centralização dupla lidamos com o SVD da matriz \[ X´'=\sum_{i=1}^d \sqrt{\lambda_i} U_iV_i^\top \] e assim obter o SVD de centralização dupla da matriz \(X\): \[ \tag{35} X=\mathcal{A}^{(12)}(X)+\sum_{i=1}^d \sqrt{\lambda_i}U_i V_i^\top=\mathcal{A}_1(X)+\mathcal{A}_2(X')+\sum_{i=1}^d X_i\cdot \]
Como \(X''\pmb{1}_K=0_L\) e \((X'')^\top \pmb{1}_L=0_K\), ambos \(U_i\) e \(V_i\) estão centrados no sentido de que \[ <U_i,\pmb{1}_L>=0 \quad \mbox{ e } \quad <V_i,\pmb{1}_K>=0\cdot \]
Observe que \[ \mathcal{A}_1(X)=\sqrt{\lambda_{0(1)}} U_{0(1)} \big(V_{0(1)}\big)^\top \] com \(U_{0(1)}=\pmb{1}_K\big/ \sqrt{K}\), \(V_{0(1)}=\mathcal{E}_1(X)\big/||\mathcal{E}_1(X)||\) e \(\lambda_{0(1)}^2=||\mathcal{E}_1(X)||^2 K\).
Da mesma forma, \[ \mathcal{A}_2(X')=\sqrt{\lambda_{0(2)}^{(1)}} U_{0(2)}^{(1)} \big(V_{0(2)}^{(1)}\big)^\top \] com \(U_{0(2)}^{(1)}=\pmb{1}_K \big/ \sqrt{K}\), \(V_{0(2)}^{(1)}=\mathcal{E}_2(X')\big/||\mathcal{E}_2(X')\) e \(\lambda_{0(2)}^{(1)}=||\mathcal{E}_2(X')||^2 L\).
Isto significa que a norma ao quadrado da matriz \(X\) também pode ser obtida como a soma das normas ao quadrado das matrizes do lado direito de (35) \[ ||X||_\mathcal{M}^2 = ||\mathcal{A}_1(X)||_\mathcal{M}^2 + ||\mathcal{A}_2(X')||_\mathcal{M}^2 + \sum_{i=1}^d ||X_i||_\mathcal{M}^2 \] ou em termos de \(\lambda_i\), \(\lambda_{0(1)}\) e \(\lambda_{0(2)}^{(1)}\), \[ ||X||_\mathcal{M}^2 = \lambda_{0(1)} + \lambda_{0(2)}^{(1)}+\sum_{i=1}^d \lambda_i\cdot \]
A tripla \(\big(\sqrt{\lambda_{0(2)}^{(1)}},U_{0(2)}^{(1)},V_{0(2)}^{(1)} \big)\) é chamado de segundo triplo médio da decomposição (35). Os números \(\lambda_{0(1)}^{(1)}\big/ ||X||_\mathcal{M}^2\) e \(\lambda_{0(2)}^{(1)}\big/||X||_\mathcal{M}^2\) podem ser considerados como as partes do primeiro e segundo triplos médios no SVD de centralização dupla.