Universidade Federal do Paraná Prof. Fernando de Pol Mayer
Curso de Graduação em Estatística Lab. de Estatística e Geoinformação - LEG
Departamento de Estatística - UFPR
Na ANOVA, usamos modelos lineares para comparar duas ou mais médias. (Lembre-se que o teste t para comparação de duas médias é um caso particular de uma ANOVA de um fator com 2 níveis).
O modelo linear usual é definido por
\[ \mathbf{y} = \mathbf{X}\boldsymbol{\beta} + \boldsymbol{\epsilon} \]
Na ANOVA, normalmente o modelo é expresso com mais parâmetros do que podem ser estimados (superparametrização), o que resulta em uma matriz \(\mathbf{X}\) que é de posto incompleto.
Posto de uma matriz: o posto (rank) de uma matriz \(\mathbf{A}\) (quadrada ou retangular) é definido como o número de colunas (linhas) linearmente independentes (LI) de \(\mathbf{A}\). (Pode-se demonstrar que o número de colunas LI é igual ao número de linhas LI).
O fato de \(\mathbf{X}\) ser de posto incompleto implica que ela é uma matriz singular, ou seja, não admite inversa. Como a solução de mínimos quadrados (MQ) para a estimativa do vetor \(\boldsymbol{\beta}\) é
\[ \boldsymbol{\hat\beta} = (\mathbf{X'X})^{-1}\mathbf{X'y} \]
não podemos usar esta matriz diretamente.
Exemplo 1: Suponha que um pesquisador tenha desenvolvido 2 aditivos químicos para melhorar o desempenho da gasolina. Considere que, sem aditivos, um litro de gasolina proporciona uma média de \(\mu\) quilômetros. Então, se o aditivo 1 é adicionado, espera-se que a quilometragem aumente \(\tau_1\) quilômetros por litro, e se o aditivo 2 é adicionado, a quilometragem deve aumentar \(\tau_2\) quilômetros por litro. O pesquisador deseja estimar os parâmetros \(\mu\), \(\tau_1\), e \(\tau_2\), e testar a hipótese \(H_{0}: \tau_1 = \tau_2\).
No exemplo acima, temos um modelo que pode ser resolvido de infinitas maneiras, então dizemos que é um modelo não identificável.
Definição: Um modelo é identificável quando, para \(\boldsymbol{\theta} \neq \boldsymbol{\theta}'\), temos \(f(\mathbf{X} | \boldsymbol{\theta}) \neq f(\mathbf{X} | \boldsymbol{\theta}')\).
Identificabilidade é uma propriedade de modelo, não de um estimador ou de um método de estimação. Portanto, se \(f(\mathbf{X} | \boldsymbol{\theta}) = f(\mathbf{X} | \boldsymbol{\theta}')\), não temos condições de saber se o valor verdadeiro dos parâmetros são \(\boldsymbol{\theta}\) ou \(\boldsymbol{\theta}'\).
Algumas abordagens para remediar o problema de superparametrização ou idenficabilidade:
Para o exemplo anterior: