Capítulo XIV. Análise discriminante


A análise discriminante é utilizada em situações em que os clusters são conhecidos a priori. O objetivo da análise discriminante é classificar uma observação ou várias observações, nesses grupos conhecidos. Por exemplo, na pontuação de crédito, um banco sabe por experiência anterior que existem bons clientes, que pagam seu empréstimo sem problemas e maus clientes, que mostraram dificuldades em pagar seu empréstimo.

Quando um novo cliente pede um empréstimo, o banco tem que decidir se concede ou não o empréstimo. Os registros anteriores do banco fornecem dois conjuntos de dados: observações multivariadas \(x_i\) sobre as duas categorias de clientes incluindo, por exemplo, idade, salário, estado civil, valor do empréstimo etc.. O novo cliente é uma nova observação \(x\) com as mesmas variáveis. A regra de discriminação deve classificar o cliente em um dos dois grupos existentes e a análise discriminante deve avaliar o risco de uma possível má decisão.

Muitos outros exemplos são descritos abaixo e, na maioria das aplicações, os grupos correspondem a classificações naturais ou a grupos conhecidos da história, como no exemplo de pontuação de crédito. Esses grupos podem ter sido formados por uma análise de cluster realizada em dados anteriores.

A Seção XIV.1 apresenta as regras de alocação quando as populações são conhecidas, ou seja, quando conhecemos a distribuição de cada população. Conforme descrito na Seção XIV.2, na prática as características da população devem ser estimadas a partir da história. Os métodos são ilustrados em vários exemplos.


XIV.1. Regras de alocação para distribuições conhecidas


A análise discriminante é um conjunto de métodos e ferramentas usados para distinguir entre grupos de \(\Pi_j\) populações e para determinar como alocar novas observações em grupos. Em um de nossos exemplos de execução, estamos interessados em discriminar entre notas bancárias falsas e verdadeiras com base nas medidas dessas notas bancárias. Neste caso temos dois grupos, cédulas falsas e genuínas e gostaríamos de estabelecer um algoritmo, ou seja uma regra que possa alocar uma nova observação, uma nova cédula, em um dos grupos.

Outro exemplo é a detecção de consumidores rápidos e lentos de um produto recém-lançado. Usando as características de um consumidor como educação, renda, tamanho da família, quantidade de trocas anteriores de marca; queremos classificar cada consumidor nos dois grupos identificados.

Na poesia e nos estudos literários, as frequências de palavras faladas ou escritas e a extensão das frases indicam perfis de diferentes artistas e escritores. Pode ser interessante atribuir obras literárias ou artísticas desconhecidas a determinados escritores com um perfil específico. Medidas antropológicas em crânios antigos ajudam na discriminação entre corpos masculinos e femininos. Classificações de risco de crédito boas e ruins, constituem um problema de discriminação que pode ser resolvido usando observações sobre renda, idade, número de cartões de crédito, tamanho da família, etc.

Em geral temos \(\Pi_j\) populações, \(j=1,2,\cdots,J\) e temos que alocar uma observação \(x\) para um desses grupos. Uma regra discriminante é uma separação do espaço amostral, em geral \(\mathbb{R}^p\), em conjuntos \(R_j\) tal que se \(x\in R_j\), ele é identificado como um membro da população \(\Pi_j\).

A principal tarefa da análise discriminante é encontrar boas regiões \(R_j\), tais que o erro de classificação incorreta seja pequeno. A seguir descrevemos tais regras quando as distribuições da população são conhecidas.


XIV.1.1. Regra de discriminação de máxima verossimilhança (ML)


Denote as densidades de cada população \(\Pi_j\) por \(f_j(x)\). A regra discriminante de máxima verossimilhança ou regra ML é dada pela alocação de \(x\) para \(\Pi_j\) maximizando a verossimilhança \[ Lj(x) = f_j(x) = \mbox{arg max}_i f_i(x)\cdot \]

Se vários \(f_i\) derem o mesmo máximo, qualquer um deles pode ser selecionado. Matematicamente, os conjuntos \(R_j\), dados pela regra discriminante ML, são definidos como \[ R_j = \{ x \, : \, L_j(x)>L_i(x) \, \mbox{ para } i=1,\cdots,L, i\neq j \}\cdot \]

Ao classificar a observação em um determinado grupo, podemos encontrar um erro de classificação incorreta. Para \(J=2\) grupos, a probabilidade de colocar \(x\) no grupo 2, embora seja da população 1, pode ser calculada como \[ p_{21} = P(X\in R_2 \, | \, \Pi_1) = \int_{R_2} f_1(x)\mbox{d}x\cdot \]

Da mesma forma, a probabilidade condicional de classificar um objeto como pertencente à primeira população \(\Pi_1\), embora na verdade venha de \(\Pi_2\) é \[ p_{12} = P(X\in R_1 \, | \, \Pi_2) = \int_{R_1} f_2(x)\mbox{d}x\cdot \]

As observações mal classificadas criam um custo \(C(i | j)\) quando uma observação \(\Pi_j\) é atribuída a \(R_i\). No exemplo do risco de crédito, esse pode ser o custo de um crédito azedo.

A estrutura de custos pode ser definida em uma matriz de custos: \[ \mbox{População verdadeira} \begin{array}{c} \mbox{População classificada} \\ \begin{array}{c|cc} & \Pi_1 & \Pi_2 \\\hline \Pi_1 & 0 & C(2 \, | \, 1) \\ \Pi_2 & C(1 \, | \, 2) & 0 \end{array} \end{array} \]

Seja \(\pi_j\) a probabilidade a priori da população \(\Pi_j\), significa a probabilidade a priori de que um indivíduo selecionado aleatoriamente pertença a \(\Pi_j\), ou seja, antes de olhar para o valor \(x\). As probabilidades a priori devem ser consideradas se ficar claro antes do tempo que uma observação é mais provável de se originar de uma determinada população \(\Pi_j\).

Um exemplo é a classificação das melodias musicais. Se for sabido que durante um certo período de tempo a maioria das músicas foi escrita por um determinado compositor, então há uma probabilidade maior de que uma determinada música tenha sido composta por esse compositor. Portanto, ele deve receber uma probabilidade a priori maior quando as músicas são atribuídas a um grupo específico.

O custo esperado da classificação incorreta (ECM) é dado por \[ ECM = C(2 \, | \, 1)p_{21\pi_1}+C(1 \, | \, 2)p_{12\pi_2}\cdot \]

Estaremos interessados em regras de classificação que mantenham o ECM pequeno ou o minimizem em uma classe de regras. A regra discriminante que minimiza o ECM para duas populações é dada abaixo.


Teorema XIV.1

Para duas populações dadas, a regra que minimiza o ECM é dada por \[ R_1 = \left\{ x \, : \, \dfrac{f_1(x)}{f_2(x)}\geq \left( \dfrac{C(1 \, | \, 2)}{C(2 \, | \, 1)}\right)\left(\dfrac{\pi_2}{\pi_1}\right) \right\} \quad \mbox{e} \quad R_2 = \left\{ x \, : \, \dfrac{f_2(x)}{f_1(x)}\geq \left( \dfrac{C(2 \, | \, 1)}{C(1 \, | \, 2)}\right)\left(\dfrac{\pi_1}{\pi_2}\right) \right\}\cdot \]


A regra discriminante ML é, portanto, um caso especial da regra ECM para custos iguais de erro de classificação e probabilidades a priori iguais.

Por simplicidade, o caso de custo unitário, \(C(1 \, | \, 2) = C(2 \, | \, 1)= 1\) e probabilidades a priori iguais, \(\pi_2 = \pi_1\), são assumidos a seguir. O Teorema XIV.1 será comprovado por um exemplo de pontuação de crédito.


Exemplo XIV.1

Suponha que \(\Pi_1\) representa a populaçõa de clientes ruins que criam um custo \(C(2 \, | \, 1)\) se forem classificados como bons clientes. Analogamente, defina \(C(1 \, | \, 2)\) como o custo de perder um bom cliente classificado como ruim.

Vamos denotar por \(\gamma\) o ganho do banco pela correta classificação de um bom cliente. O ganho total do banco é então \[ \begin{array}{rcl} G(R_2) & = & \displaystyle -C(2 \, | \,1) \pi_1 \int\pmb{I}(x\in R_2) f_1(x) \mbox{d}x \\ & & \displaystyle -C(1 \, | \,2) \pi_2 \int \big(1-\pmb{I}(x\in R_2)\Big) f_2(x) \mbox{d}x + \gamma \, \pi_2 \int\pmb{I}(x\in R_2) f_2(x) \mbox{d}x \\ & = & \displaystyle -C(1 \, | \,2) \pi_2 + \int\pmb{I}(x\in R_2) \Big( -C(2 \, | \,1) \pi_1 f_1(x)+ \big( C(1 \, | \,2)+\gamma \big)\pi_2f_2(x) \Big) \mbox{d}x\cdot \end{array} \]

Como o primeiro termo desta equação é constante, o máximo é obtido para \[ R_2 = \left\{ x \, : \, -C(2 \, | \,1) \pi_1 f_1(x) + \big( C(1 \, | \,2) +\gamma \big)\pi_2 f_2(x) \geq 0 \right\}\cdot \]

Isso é equivalente a \[ R_2 = \left\{ x \, : \, \dfrac{f_2(x)}{f_1(x)} \geq \dfrac{C(2 \, | \,1) \pi_1}{\big( C(1 \, | \,2) +\gamma \big)\pi_2} \right\}, \] que corresponde ao conjunto \(R_2\) no Teorema XIV.1 para um ganho de \(\gamma=0\).



Exemplo XIV.2

Suponha que \(x\in \{0,1\}\) e \[ \begin{array}{rcl} \Pi_1 & : & P(X=0) \, = \, P(X=1) \, = \, \dfrac{1}{2} \\ \Pi_2 & : & P(X=0) \, = \, 1 - P(X=1) \, = \, \dfrac{1}{4} \cdot \end{array} \]

O espaço amostral é o conjunto \(\{0,1\}\). A regra discriminante ML é alocar \(x=0\) para \(\Pi_1\) e \(x=1\) para \(\Pi_2\), definindo os conjuntos \(R_1=\{0\}\), \(R_2=\{1\}\) e \(R_1\cup R_2 = \{0,1\}\).



Exemplo XIV.3

Considere duas populações normais: \[ \begin{array}{rcl} \Pi_1 & : & N(\mu_1,\sigma_1^2) \\ \Pi_2 & : & N(\mu_2,\sigma_2^2)\cdot \end{array} \]

Então \[ L_i(x) = \dfrac{1}{\sqrt{2\pi \sigma_i^2}} \exp \left( -\dfrac{1}{2} \left(\dfrac{x-\mu_i}{\sigma_i} \right)^2\right)\cdot \]

Portanto, \(x\) é alocado para \(\Pi_1\) \((x \in R_1)\) se \(L_1(x)\geq L_2(x)\). Observe que \(L_1(x)\geq L_2(x)\) é equivalente à \[ \dfrac{\sigma_2}{\sigma_1}\exp\left( -\dfrac{1}{2} \left( \left(\dfrac{x-\mu_1}{\sigma_1}\right)^2 - \left(\dfrac{x-\mu_2}{\sigma_2}\right)^2 \right) \right) \geq 1 \]

ou \[ x^2\left( \dfrac{1}{\sigma_1^2}-\dfrac{1}{\sigma_2^2}\right) -2x \left( \dfrac{\mu_1}{\sigma_1^2}-\dfrac{\mu_2}{\sigma_2^2}\right) + \left( \dfrac{\mu_1^2}{\sigma_1^2}-\dfrac{\mu_2^2}{\sigma_2^2}\right)\leq 2\log\left( \dfrac{\sigma_2}{\sigma_1}\right)\cdot \]


Suponha, no exemplo anterior, que \(\mu_1=0\), \(\sigma_1=1\), \(\mu_2=1\) e \(\sigma-2=1/2\). A expressão acima implica que \[ R_1 = \left\{ x \, : \, x\leq \dfrac{1}{3}\Big( 4-\sqrt{4+6\log(2)}\Big) \right\} \] ou \[ R_1 = \left\{ x \, : \, x\geq \dfrac{1}{3}\Big( 4+\sqrt{4+6\log(2)}\Big) \right\} \]

e \(R_2 = \mathbb{R} \backslash R_1\)

Isto é mostrado na seguinte figura:


x = seq(-3, 3, by = 0.01)
plot(x, dnorm(x, mean = 1, sd = 1/2), col = "blue", type = "l", ylab = "Densidades")
lines(x, dnorm(x, mean = 0, sd = 1), col ="red")
text(-1,0.35, labels = "N(0,1)", col = "red")
text(1.7,0.7, labels = "N(1,1/2)", col = "blue")
abline(v = (4-sqrt(4+6*log(2)))/3, lty = 2)
abline(v = (4+sqrt(4+6*log(2)))/3, lty = 2)
text(-1,0.6, labels = expression(R[1]), col = "red")
text(3,0.6, labels = expression(R[1]), col = "red")
text(1,0.6, labels = expression(R[2]), col = "red")
grid()


A situação se simplifica no caso de variâncias iguais \(\sigma_1=\sigma_2\). A regra discriminante é então, para \(\mu_1 < \mu_2\) \[ x \, \to \, \Pi_1, \quad \mbox{se} \quad x\in R_1 = \{x \, : \, x\leq (\mu_1+\mu_2)/2\} \] e \[ x \, \to \, \Pi_2, \quad \mbox{se} \quad x\in R_2 = \{x \, : \, x> (\mu_1+\mu_2)/2\}\cdot \]

O Teorema XIV.2 mostra que a regra discriminante ML para observações multinormais está intimamente ligada à distância de Mahalanobis. A regra discriminante é baseada em combinações lineares e pertence à família de métodos de análise discriminante linear (LDA).


Teorema XIV.2

Suponha \(\Pi_i = N_p(\mu_i,\Sigma)\).



XIV.1.2. Regra de discriminação de Bayes


Vimos um exemplo onde o conhecimento prévio sobre a probabilidade de classificação em \(\Pi_j\) foi assumido. Denote as probabilidades a priori por \(\pi_j\) e observe que \(\sum_{j=1}^J \pi_j=1\). A regra de discriminação de Bayes aloca \(x\) para \(\Pi_j\) que fornece o maior valor de \(\pi_i f_i(x)\), \(\pi_i f_i(x)=\max_j \pi_j f_j(x)\). Assim, a regra discriminante é definida por \(R_j = \{ x \, : \, \pi_j f_j(x)\geq \pi_i f_i(x), \, i = 1,\cdots,J\}\). Obviamente a regra de Bayes é idêntica à regra discriminante ML para \(\pi_j = 1/J\).

Uma modificação adicional é alocar \(x\) para \(\Pi_j\) com uma certa probabilidade \(\phi_j(x)\), tal que \[ \sum_{j=1}^J \phi_j(x)=1, \] para todo \(x\). Isso é chamado de regra discriminante aleatória.

Uma regra discriminante aleatória é uma generalização de regras discriminantes determinísticas, uma vez que \[ \phi_j(x)=\left\{ \begin{array}{rcl} 1 & \mbox{ se } & \pi_j f_j(X)=\max_i \pi_i f_i(x) \\ 0 & \mbox{ caso} & \mbox{contrário} \end{array}\right., \] reflete as regras determinísticas.

Quais regras discriminantes são boas? Precisamos de uma medida de comparação. Indicaremos como \[ p_{ij}=\int \phi_i(x) f_j(x) \mbox{d}x \]

como a probabilidade de alocar \(x\) para \(\Pi_i\) se, de fato, pertence a \(\Pi_j\).

Uma regra discriminante com probabilidades \(p_{ij}\) é tão boa quanto qualquer outra regra discriminante com probabilidades \(p_{ij}'\) se \[ p_{ii}\geq p_{ii}', \qquad \forall \, i=1,\cdots,J\cdot \]

Chamamos a primeira regra de melhor se a desigualdade estrita acima vale para pelo menos um \(i\). Uma regra discriminante é chamada admissível se não houver uma regra discriminante melhor.


Teorema XIV.3

Todas as regras discriminantes de Bayes, incluindo a regra ML, são admissíveis.


XIV.1.3. Probabilidade de classificação incorreta para a regra ML


Suponha que \(\Pi_i=N_p(\mu_i,\Sigma)\). No caso de dois grupos, não é difícil derivar as probabilidades de erro de classificação para a regra discriminante ML.

Considere, por exemplo, \(p_{12}= P(x\in R_1 \, | \, \Pi_2)\). Pela parte (b) do Teorema XIV.2 temos \[ p_{12}=P\big( \alpha^\top (x-\mu)>0 \, | \, \Pi_2\big)\cdot \]

Se \(X\in R_2\), \[ \alpha^\top (X-\mu) \sim N\Big(-\frac{1}{2}\delta^2, \delta^2\Big), \] onde \[ \delta^2 = (\mu_1-\mu_2)^\top \Sigma^\top (\mu_1-\mu_2) \] é a distância quadrada de Mahalanobis entre as duas populações, obtemos \[ p_{12} = \Phi \Big(-\frac{1}{2}\delta \Big)\cdot \]

Da mesma forma, a probabilidade de ser classificado na população 2 embora \(x\) decorre de \(\Pi_1\) é igual a \[ p_{21} = \Phi \Big(-\frac{1}{2}\delta \Big)\cdot \]


XIV.1.4. Classificação com diferentes matrizes de covariância


O ECM mínimo depende da razão das densidades \(f_1(x)/f_2(x)\) ou equivalente na diferença \[ \log\big(f_1(x)\big)- \log\big(f_2(x)\big)\cdot \] Quando as covariâncias para ambas as funções de densidade diferem, a regra de alocação se torna mais complicada: \[ R_1 = \left\{ x \, : \, -\frac{1}{2}x^\top \big(\Sigma_1^{-1}-\Sigma_2^{-1}\big)x+\big(\mu_1^\top \Sigma_1^{-1}-\mu_2^\top \Sigma_2^{-1}\big)x-k \geq \log\left( \dfrac{C(1 \, | \, 2)}{C(2 \, | \, 1)}\right)\left(\dfrac{\pi_2}{\pi_1}\right) \right\} \]

e

\[ R_2 = \left\{ x \, : \, -\frac{1}{2}x^\top \big(\Sigma_1^{-1}-\Sigma_2^{-1}\big)x+\big(\mu_1^\top \Sigma_1^{-1}-\mu_2^\top \Sigma_2^{-1}\big)x-k \geq \log\left( \dfrac{C(2 \, | \, 1)}{C(1 \, | \, 2)}\right)\left(\dfrac{\pi_1}{\pi_2}\right) \right\} \] onde \[ k = \frac{1}{2}\log\left( \dfrac{|\Sigma_1|}{|\Sigma_2|}\right)+\frac{1}{2}\Big(\mu_1^\top \Sigma_1^{-1}\mu_1-\mu_2^\top \Sigma_2^{-1}\mu_2\Big)\cdot \]

As regiões de classificação são definidas por funções quadráticas. Portanto, eles pertencem à família de métodos de análise discriminante quadrática (QDA). Esta regra de classificação quadrática coincide com as regras utilizadas quando \(\Sigma_1=\Sigma_2\), pois o termo \[ \frac{1}{2}x^\top \Big(\Sigma_1^{-1}-\Sigma_2^{-1}\Big)x \] desaparece.


XIV.2. Regras discriminantes na prática


A regra ML é usada se a distribuição dos dados for conhecida até os parâmetros. Suponha, por exemplo, que os dados venham de distribuições normais multivariadas \(N_p(\mu_j,\Sigma)\). Se temos \(J\) grupos com \(n_j\) observações em cada grupo, usamos \(\overline{x}_j\) para estimar \(\mu_j\) e \(S_j\) para estimar \(\Sigma\).

A covariância comum pode ser estimada por \[ S_u = \sum_{j=1}^J n_j \left( \dfrac{S_j}{n-J}\right), \]

onde \(n=\sum_{j=1}^J n_j\).

Assim, a versão empírica da regra ML do Teorema XIV.2 é alocar uma nova observação \(x\) para \(\Pi_j\) tal que \(j\) minimize \[ (x-\overline{x}_i)^\top S_u^{-1} (x-\overline{x}_i) \qquad \mbox{para} \quad i\in \{1,\cdots,J\}\cdot \]


Exemplo XIV.4

Apliquemos esta regra às notas suíças. Sortearemos aleatoriamente 20 notas bancárias que agrupamos em dois grupos. Primeiro a covariância \(\Sigma\) é estimada pela média das covariâncias de \(\Pi_1\), o grupo 1 e \(\Pi_2\), grupo 2.

library(mclust)
data(banknote) # carrega o conjunto de dados 
head(banknote) 
##    Status Length  Left Right Bottom  Top Diagonal
## 1 genuine  214.8 131.0 131.1    9.0  9.7    141.0
## 2 genuine  214.6 129.7 129.7    8.1  9.5    141.7
## 3 genuine  214.8 129.7 129.7    8.7  9.6    142.2
## 4 genuine  214.8 129.7 129.6    7.5 10.4    142.0
## 5 genuine  215.0 129.6 129.7   10.4  7.7    141.8
## 6 genuine  215.7 130.8 130.5    9.0 10.1    141.4


grupo1 = banknote[banknote$Status == "genuine",]
grupo2 = banknote[banknote$Status == "counterfeit",]
set.seed(290)
g1 = sample(rownames(grupo1), size = 10)
grupo1 = grupo1[g1,]
g2 = sample(rownames(grupo2), size = 10)
grupo2 = grupo2[g2,]


x1 = colMeans(grupo1[,2:7]); x2 = colMeans(grupo2[,2:7])
S1 = cov(grupo1[,2:7]); S2 = cov(grupo2[,2:7])
n1 = dim(grupo1)[1]; n2 = dim(grupo2)
n = n1 + n2
Su = n1*(S1/(n-2)) + n2*(S2/(n-2))
alpha = solve(Su)%*%(x1-x2)
alpha
##                [,1]
## Length     1.897783
## Left      23.786562
## Right    -40.158434
## Bottom   -13.016152
## Top      -28.295927
## Diagonal  10.345830

O hiperplano \(\widehat{\alpha}^\top (x-\overline{x})=0\), que separa as duas populações é dado por

\[ \widehat{\alpha} = S_u^{-1}(\overline{x}_1-\overline{x}_2) = (1.897783, 23.786562, -40.158434, -13.016152, -28.295927, 10.345830)^\top, \]

mediag = (x1+x2)/2
mediag
##   Length     Left    Right   Bottom      Top Diagonal 
##  214.975  130.185  130.040    9.315   10.660  140.330

\[ \overline{x}=\frac{1}{2}(\overline{x}_1+\overline{x}_2) = (214.975, 130.185, 130.040, 9.315, 10.660, 140.330)^\top\cdot \]

Agora vamos aplicar a regra discriminante a todo o conjunto de dados. Contando o número de classificações incorretas por \[ \sum_{i=1}^{100} \pmb{I}\big(\widehat{\alpha}(x_i-\overline{x})<0) \big) \quad \mbox{e} \quad \sum_{i=101}^{200} \pmb{I}\big(\widehat{\alpha}(x_i-\overline{x})>0) \big), \]

soma = ifelse( as.matrix(banknote[1:100,2:7]-mediag)%*%alpha < 0, 1, 0)
sum(soma)
## [1] 0
soma1 = ifelse( as.matrix(banknote[101:200,2:7]-mediag)%*%alpha > 0, 1, 0) 
sum(soma1)
## [1] 100

obtemos nenhuma observação de classificação incorreta para as notas bancárias genuínas e 100 classificação incorreta para as notas bancárias falsificadas.

Podemos utilizar a função lda, no pacote MASS;

library(MASS)
grupos = data.frame(rbind(grupo1, grupo2))
modelo = lda(Status ~ ., data = grupos)
modelo
## Call:
## lda(Status ~ ., data = grupos)
## 
## Prior probabilities of groups:
## counterfeit     genuine 
##         0.5         0.5 
## 
## Group means:
##             Length   Left  Right Bottom   Top Diagonal
## counterfeit 214.71 130.30 130.35  10.15 11.14   139.13
## genuine     215.24 130.07 129.73   8.48 10.18   141.53
## 
## Coefficients of linear discriminants:
##                 LD1
## Length    0.2262851
## Left      2.4208446
## Right    -4.3642701
## Bottom   -1.4710194
## Top      -3.1865524
## Diagonal  1.0652318



XIV.2.1. Estimativa das probabilidades de erros de classificação


As probabilidades de erro de classificação são dadas pelas expressões \[ p_{ij} = \int \phi_i f_j(x)\mbox{d}x \] e podem ser estimadas substituindo os parâmetros desconhecidos por seus estimadores correspondentes. Para a regra ML para duas populações normais, obtemos \[ \widehat{p}_{12} = \widehat{p}_{21} = \Phi\Big( -\frac{1}{2}\widehat{\delta}\Big), \]

onde \(\widehat{\delta}^2 = (\overline{x}_1-\overline{x}_2)^\top S_u^{-1}(\overline{x}_1-\overline{x}_2)\) é o estimador de \(\delta^2\).

As probabilidades de erro de classificação também podem ser estimadas. Reclassificamos cada observação original \(x_i\), \(i=1,\cdots,n\) em \(\Pi_1,\cdots,\Pi_J\) de acordo com a regra escolhida. Então denotando o número de indivíduos provenientes de \(\Pi_j\) que foram classificados em \(\Pi_i\) por \(n_{ij}\), temos \(\widehat{p}_{ij}=n_{ij}/ n_j\), um estimador de \(p_{ij}\). Claramente, este método leva a estimadores muito otimistas de \(p_{ij}\), mas fornece uma medida aproximada da qualidade da regra discriminante. A matriz \(\Big(\widehat{p}_{ij}\Big)\) é chamada de matriz de confusão em Johnson and Wichern (1998).


XIV.2.2. Função discriminante de Fisher


Outra abordagem decorre de R.A. Pescador. Sua idéia era basear a regra discriminante em uma projeção \(a^\top x\) tal que uma boa separação fosse alcançada. Este método de projeção LDA é chamado de função de discriminação linear de Fisher.

Se \[ Y = X a \]

denota a combinação linear das observações, então a soma total dos quadrados de \(Y\), \(\sum_{i=1}^n (y_i-\overline{y})^2\), é igual a \[ Y^\top H Y = a^\top X^\top H X a = a^\top T a, \] com matriz de centragem \(H =\pmb{I}-\frac{1}{n}\pmb{1}_n \pmb{1}_n^\top\) e \(T= X^\top H X\).

Suponha que temos amostras \(X_j\), \(j=1,\cdots,J\) de \(J\) populações. A sugestão de Fisher foi encontrar a combinação linear \(a^\top x\) que maximiza a razão entre a soma dos quadrados entre grupos e a soma dos quadrados dentro do grupo.

A soma dos quadrados dentro do grupo é dada por \[ \sum_{j=1}^J Y_j^\top H_j Y_j = \sum_{j=1}^J a^\top X_j^\top H_j X_j a = a^\top W a, \]

onde \(Y_j\) denota a \(j\)-ésima sub-matriz de \(Y\) correspondente às observações do grupo \(j\) e \(H_j\) denota a matriz \(n_j\times n_j\) de centralização. A soma dos quadrados dentro do grupo mede a soma das variações dentro de cada grupo.

A soma de quadrados entre grupos é \[ \sum_{j=1}^J n_j (\overline{y}_j-\overline{y})^2 = \sum_{j=1}^J n_j \big( a^\top (\overline{x}_j-\overline{x})\big)^2 = a^\top B a, \] onde \(\overline{y}_j\) e \(\overline{x}_j\) denota as médias de \(Y_j\) e \(X_j\) e \(\overline{y}\) e \(\overline{x}\) denotam as médias de \(Y\) e \(X\). A soma de quadrados entre grupos mede a variação das médias entre os grupos.

A soma total dos quadrados é a soma da soma dos quadrados dentro do grupo e a soma dos quadrados entre os grupos, ou seja, \[ a^\top T a = a^\top W a + a^\top B a\cdot \]

A ideia de Fisher era selecionar um vetor de projeção \(a\) que maximizasse a razão \[ \dfrac{a^\top B a}{a^\top W a}\cdot \]

A solução é apresentada no seguinte Teorema.


Teorema XIV.4

O vetor a que maximiza \[ \dfrac{a^\top B a}{a^\top W a} \] é o autovetor de \(W^{-1} B\) que corresponde ao maior autovalor.


Agora podemos obter uma regra de discriminação: classifique \(x\) no grupo \(j\), onde \(a^\top \overline{x}_j\) é o mais próximo de \(a^\top x\), ou seja. \[ x \to \Pi_j, \qquad \mbox{onde} \quad j=\arg\min_i a^\top |x-\overline{x}|\cdot \]

Quando \(J=2\) grupos, a regra discriminante é fácil de calcular. Suponha que o grupo 1 tem \(n_1\) elementos e o grupo 2 tem \(n_2\) elementos. Nesse caso \[ B = \left( \dfrac{n_1 n_2}{n}\right)d d^\top, \]

onde \(d=(\overline{x}_1-\overline{x}_2)\). \(W^{-1}B\) tem apenas um autovalor que é igual \[ \mbox{tr}\big(W^{-1}B \big) = \left( \dfrac{n_1 n_2}{n}\right)d^\top W^{-1}d, \] e o autovetor correspondente é \(a = W^{-1}d\). A regra discriminante correspondente é \[ \begin{array}{rcl} x \to \Pi_1 & \mbox{se} & a^\top \Big(x-\frac{1}{2}\big(\overline{x}_1+\overline{x}_2\big)\Big) > 0,\\ x \to \Pi_2 & \mbox{se} & a^\top \Big(x-\frac{1}{2}\big(\overline{x}_1+\overline{x}_2\big)\Big) \leq 0\cdot \end{array} \]


XIV.3. Exercícios