Modelos lineares e ANOVA

Na ANOVA, usamos modelos lineares para comparar duas ou mais médias. (Lembre-se que o teste t para comparação de duas médias é um caso particular de uma ANOVA de um fator com 2 níveis).

O modelo linear usual é definido por

\[ \mathbf{y} = \mathbf{X}\boldsymbol{\beta} + \boldsymbol{\epsilon} \]

Na ANOVA, normalmente o modelo é expresso com mais parâmetros do que podem ser estimados (superparametrização), o que resulta em uma matriz \(\mathbf{X}\) que é de posto incompleto.

Posto de uma matriz: o posto (rank) de uma matriz \(\mathbf{A}\) (quadrada ou retangular) é definido como o número de colunas (linhas) linearmente independentes (LI) de \(\mathbf{A}\). (Pode-se demonstrar que o número de colunas LI é igual ao número de linhas LI).

O fato de \(\mathbf{X}\) ser de posto incompleto implica que ela é uma matriz singular, ou seja, não admite inversa. Como a solução de mínimos quadrados (MQ) para a estimativa do vetor \(\boldsymbol{\beta}\) é

\[ \boldsymbol{\hat\beta} = (\mathbf{X'X})^{-1}\mathbf{X'y} \]

não podemos usar esta matriz diretamente.

Exemplo 1: Suponha que um pesquisador tenha desenvolvido 2 aditivos químicos para melhorar o desempenho da gasolina. Considere que, sem aditivos, um litro de gasolina proporciona uma média de \(\mu\) quilômetros. Então, se o aditivo 1 é adicionado, espera-se que a quilometragem aumente \(\tau_1\) quilômetros por litro, e se o aditivo 2 é adicionado, a quilometragem deve aumentar \(\tau_2\) quilômetros por litro. O pesquisador deseja estimar os parâmetros \(\mu\), \(\tau_1\), e \(\tau_2\), e testar a hipótese \(H_{0}: \tau_1 = \tau_2\).

Qual o modelo geral para esse experimento?
Suponha que o experimento consiste em encher o tanque de 6 carros idênticos com gasolina, e então colocar o aditivo 1 no tanque de 3 carros, e o aditivo 2 no tanque dos outros 3. Como ficaria o modelo nesse caso? (Expresse também matricialmente).
Qual o posto de ?
Suponha que \(\mu = 15\), \(\tau_1 = 1\), e \(\tau_2 = 3\). Estes parâmetros são únicos (ou seja, somente eles geram um único resultado)? Se não, especifique pelo menos 2 valores para \(\mu\), \(\tau_1\), e \(\tau_2\) que gerem o mesmo resultado.

No exemplo acima, temos um modelo que pode ser resolvido de infinitas maneiras, então dizemos que é um modelo não identificável.

Definição: Um modelo é identificável quando, para \(\boldsymbol{\theta} \neq \boldsymbol{\theta}'\), temos \(f(\mathbf{X} | \boldsymbol{\theta}) \neq f(\mathbf{X} | \boldsymbol{\theta}')\).

Identificabilidade é uma propriedade de modelo, não de um estimador ou de um método de estimação. Portanto, se \(f(\mathbf{X} | \boldsymbol{\theta}) = f(\mathbf{X} | \boldsymbol{\theta}')\), não temos condições de saber se o valor verdadeiro dos parâmetros são \(\boldsymbol{\theta}\) ou \(\boldsymbol{\theta}'\).

Algumas abordagens para remediar o problema de superparametrização ou idenficabilidade:

Redefinir o modelo com 2 novos parâmetros que sejam únicos = reparametrização
Restringir os parâmetros (várias formas)
Combinar linearmente os parâmetros (várias formas)

Para o exemplo anterior:

Redefina o modelo com a parametrização \(\mu_{i} = \mu + \tau_i\) e escreva a solução matricial. Qual o posto da nova matriz? Como ficam as hipóteses a serem testadas?
Escreva o modelo com as restrições:
- \(\tau_1 + \tau_2 = 0\)
- \(\tau_1 = 0\)
- \(\tau_2 = 0\)

CE 074 - Controle de Processos Industriais

http://www.leg.ufpr.br/ce074

Modelos lineares e ANOVA