Subsecções

9 Regressão

9.1 Idéia básica

Em certas situações podemos estar interessados em descrever a relação entre duas variáveis, e também predizer o valor de uma a partir de outra. Por exemplo, se sabemos a altura de um certo estudante, mas não o seu peso, qual seria um bom chute para o peso deste estudante? O coeficiente de correlação apenas indica a grau de associação como um único número.

Retorne aos dados de altura e peso de estudantes na página 13. Denote as alturas por $x_1, x_2, \ldots, x_n$, e os pesos por $y_1,y_2,\ldots,y_n$. (Por enquanto vamos ignorar se eles são do sexo masculino ou feminino). Se estamos interessados em predizer peso de altura então não temos uma relação simétrica entre as duas variáveis. Chamamos peso a variável resposta ou dependente, e altura a variável explanatória, preditora ou independente. A variável resposta é sempre disposta no eixo vertical $y$, e a variável explanatória é sempre disposta no eixo $x$.

\includegraphics[width=4.5in]{pics/htwt.ps}

Se a relação entre as duas variáveis é aproximadamente linear, então os dados podem ser resumidos através do ajuste de uma reta passando pelos dados. A equação dessa reta é dada por

\begin{displaymath}y = a + bx\end{displaymath}

onde $a$ é conhecida como o intercepto e $b$ é a inclinação. Intuitivamente, queremos uma reta que forneça pequenas diferenças entre os verdadeiros pesos e aqueles dados pela reta para as alturas correspondentes.

O método padrão para obter a melhor reta ajustada é chamado mínimos quadrados o qual literalmente miniza a soma dos quadrados das distâncias de $y_i$ à reta ajustada. Em princípio isto requer traçar retas possíveis, calculando a soma dos quadrados das distâncias:

\begin{displaymath}
S = \sum_{i=1}^n (y_i - \hat{y}_i)^2 \quad = \sum_{i=1}^n \{y_i -
(a+b x_i)\}^2\end{displaymath}

e encontrar os valores de $a$ e $b$ (equivalentemente a reta) que fornecem o menor valor de $S$. É possível mostrar que a melhor reta é aquela tal que

\begin{displaymath}b= \frac{ \sum (y_i - \bar{y})(x_i - \bar{x})}{ \sum (x_i -
...
...x} \bar{y} }
{ \sum x^2 - n \bar{x}^2 } = \frac{s_{xy}}{s_x^2}
\end{displaymath}

e

\begin{displaymath}
a = \bar{y} - b\bar{x}.
\end{displaymath}

Para os dados de altura e peso $a = -51.17$kg e $b =0.68$kg/cm; então a reta de regressão é

\begin{displaymath}
y = -51.17 + 0.68 x.
\end{displaymath}

Nossa reta ajustada é uma estimativa da reta de regressão populacional, $y=\alpha + \beta x$. Nossos $a$ e $b$ são estimativas de $\alpha$ e $\beta $. (É comum, denotar-se estas estimativas por $\hat{\alpha}$ e $\hat{\beta}$ ao invés de $a$ e $b$.)

O próximo passo é construir intervalos de confiança etc para $\alpha$ e $\beta $ (intercepto e inclinação populacional), mas para fazer isto precisamos pensar mais cuidadosamente sobre nossas suposições acerca da população.

9.2 Modelo de regressão linear simples

Este é o modelo mais simples para descrever a relação entre uma variável explanatória $x$ e uma variável resposta $y$. O modelo faz a seguintes suposições, em ordem decrescente de importância:

  1. o valor médio da variável resposta é uma funçãi linear de $x$,
  2. a variância da variável resposta é constante (ou seja, a mesma para todos os valores de $x$),
  3. a variação aleatória da variável resposta para qualquer valor fixo de $x$ segue uma distribuição Normal, e estes termos de erro são independentes.

Em termos algébricos, seja $(x_i,y_i)$ para $i = 1, \dots, n$ os valores observados da variável explanatória $x$ e da variável resposta $y$ para os $n$ sujeitos.

O modelo de regressão linear é

\begin{displaymath}y_i = \alpha + \beta x_i +
\varepsilon_i\end{displaymath}

onde $\varepsilon_i$ representa desvios independentes aleatórios da relação linear entre $y$ e $x$ e (para satisfazer nossas três suposições acima)

\begin{displaymath}\varepsilon_i \sim \mbox{Normal}(0,\sigma^2).\end{displaymath}

Note que $\alpha$ e $\beta $ são parâmetros da população, e eles são frequentemente conhecidos como coeficientes. Em particular, $\beta $ é denominado coeficiente, ou efeito, de $x$.





Os dados abaixo parecem satisfazer todas as três suposições:

\includegraphics[width=3.4in]{pics/transform.ps}

Um exemplo construído de dados que não satisfazem nenhuma das suposições é mostrado abaixo:

\includegraphics[width=3.4in]{pics/assump.ps}

9.3 Estimando os parâmetros do modelo

Uma tarefa importante associada com o modelo de regressão linear é a estimação dos valores de $\alpha$ e $\beta $, os quais juntos determinam a equação da reta ajustada.

Um método padrão de estimação em estatística chamado máxima vaerossimilhança leva às mesmas estimativas de mínimos quadrados descrito na Seção 9.1, ou seja

\begin{displaymath}
\hat{\beta} = s_{xy}/{s_x^2} \quad \quad \mbox{e} \quad
\quad
\hat{\alpha} = \overline{y} - \hat{\beta} \overline{x}
\end{displaymath}

Em aplicações, não existe garantia de que o modelo de regressão linear será resoável para nossos dados. Devemos sempre sobrepor a reta ajustada $y = \hat{\alpha} + \hat{\beta} x$ sobre um scatterplot dos dados para checar se o modelo é razoável. Devemos procurar por evidências de uma relação não-linear, ou desvios muito extremos da reta ajustada.

Se acharmos que o modelo está razoável, podemos também estimar $\sigma^2$, a variância dos erros $\varepsilon_i$, usando a fórmula

\begin{displaymath}\hat{\sigma}^2 = \frac{(n-1)}{(n-2)}\{s^2_y - \hat{\beta}^2s^2_x\}\end{displaymath}

onde $s_y^2$ e $s_x^2$ denotam a variância amostral de $y$ e de $x$, respectivamente.

9.3.1 Exemplo

Para os nossos dados, já sabemos que $\hat{\alpha}=-51.17$ e que $\hat{\beta}=0.68$. Um gráfico dos dados com a reta ajustada é:

\includegraphics[width=4in]{pics/htwtline.ps}

O ajuste da reta não parece tão bom. Existem dois pontos bem distantes da reta ajustada, e o da esquerda em particular parece ter uma grande influência na reta ajustada. Na prática é aconselhavel investigar a acurácia destes valores e/ou verificar quanto muda a reta ajsutada quando estes pontos são removidos. Contudo, por enquanto prosseguiremos assumindo que está tudo ok!

Para sermos capazes de calcular erros padrão e intervalos de confiança, é importante manter tantas casa decimais quanto possível: $\hat{\beta}=0.6846253$. As outras quantidades são:

\begin{displaymath}n=37, \quad s_x = 11.38700, \quad s_y=
11.70791, \quad s_{xy} = 88.77102.\end{displaymath}

Podemos agora obter $\hat{\sigma}^2$:

\begin{displaymath}\hat{\sigma}^2=\frac{36}{35}\{(11.70791^2)-(0.6846253^2)
(11.38700^2)\}=78.48\end{displaymath}



Então uma estimativa do desvio padrão dos desvios aleatórios $\varepsilon_i$ em torno da reta é

\begin{displaymath}\hat{\sigma}=\sqrt{78.48}=8.86\end{displaymath}



9.4 I.C. e teste para $\beta $

Usualmente é de interesse saber qual a nossa precisão na estimativa de $\beta $. Para responder esta questão, podemos calcular um intervalo de confiança de 95% para $\beta $, como segue:

  1. Calcule o erro padrão de $\hat{\beta}$,

    \begin{displaymath}{\rm SE} = \sqrt{\hat{\sigma}^2/\{(n-1)s^2_x\}}\end{displaymath}

  2. Encontre o valor de $t_{n-2,0.05}$, que está na tabela $t$: linha $r=n-2$ e coluna 0.05.
  3. Um Intervalo de confiança de $95$% é: $\hat{\beta} \pm t \times {\rm SE}$

Podemos também ter interesse em testar a hipótese H$_0$: $\beta =
0$, ou seja, de que não exista relação entre $x$ e $y$. Nesse caso, procedemos como segue:

  1. Calcule $t =(\hat{\beta}-0)/{\rm SE}$.
  2. Procure na tabela $t$, o $p$-valor correspondente ao seu valor de $t$ na linha $r=n-2$ da tabela para sumarizar a evidência contra H$_0$.

9.4.1 Exemplo

Para os dados dos estudantes, um teste da hipótese nula de não existência de relação entre altura e peso fica como segue.

\begin{displaymath}SE=\sqrt{78.48/(36*11.387002^2)}=0.1297\end{displaymath}


\begin{displaymath}t=0.6846/0.1297= 5.28\,\,(\mbox{com} \, n-2=35 gl \rightarrow P<0.001)\end{displaymath}



Podemos calcular um intervalo de confiança de 99% para $\beta $ (o coeficiente de altura):


\begin{displaymath}(0.6846 \pm 2.032 \times 0.1297)=(0.42, 0.95)\end{displaymath}



9.5 Transformações de dados

Uma forma de estender a aplicabilidade do modelo de regressão linear é aplicar uma transformação em $x$ ou $y$, ou ambos, antes de ajustar o modelo. Ou seja, se a relação entre duas variáveis é não-linear (uma curva pareceria ajusta melhor do que uma reta), então frequentemente a relação pode ser feita linear transformando uma ou ambas as variáveis.

Transformações podem ser muito úteis em algumas circunstâncias, mas deveria somente ser considerada como um último recurso uma vez que quando uma or ambas as variáveis são transformadas, os coeficientes deixam de ter interpretações diretas.

A idéia é escolher uma transformação que faça a relação aproximadamente linear enquanto ainda premanecendo interpretáveis. Frequentemente, relações biológicas são multiplicativas e não aditivas e transformações logarítmicas são particularmente úteis nestes casos.



9.6 Resumo

Regressão permite-nos:



9.7 Exercícios 8

  1. Com relação aos dados apresentados no Capítulo 8 sobre processos praianos condicionando a inclinação da zona pós-praia abaixa da linha da maré baixa.

    1. Ajuste um modelo de regressão linear simples a partir do qual podemos predizer a inclinação do fundo oceânico situado logo após a linha da maré baixa a estirâncio em termos do diâmetro médio do sedimento do fundo oceânico. Adicione a reta ajustada ao gráfico de dispersão apresentado no capítulo anterior.
    2. Explique em palavras o que a equação de regressão está lhe dizendo.
    3. Quais suposições foram feitas para obrter essa equação?
    4. Como você poderia decidir se a aparente associação entre inclinação e diâmetro foi ou não meramente casual?
    5. Com base nesse equação, qual seria sua predição para a inclinação da zona pós-praia para um diâmetro médio do sedimento do fundo oceânico de 0.50$mm$?

Paulo Justiniano Ribeiro Jr