Introdução
- Foi visto na aula anterior que o coeficiente de correlação de Pearson é utilizado para mensurar o grau de associação entre duas variáveis quantitativas.
- E se o nosso interesse for ir além disso, ou seja, se estivermos interessados em saber o quanto o aumento no número de horas de treinamento de um empregado irá reduzir o número de acidentes daquele empregado?
- Ou ainda, o aumento em uma hora de sono irá aumentar em quanto o tempo de reação de uma pessoa?
- E se estivéssimos interessados em prever o tempo de reação de uma pessoa para uma determinada quantidade de horas de sono. Como fazer?
- Para responder a estas perguntas utilizaremos a análise de regressão linear simples.
Objetivo
- Estudar a relação funcional entre duas variáveis quantitativas.
- Estabelecer um modelo para entender a relação funcional entre as variáveis.
- Fazer predições como o modelo ajustado principalmente para valores que não foram observados na amostra.
O modelo
- O modelo matemático que estabele a relação funcional entre duas variáveis é definido como:
\[
\begin{aligned}
y = \beta_0 + \beta_{1}x + \varepsilon
\end{aligned}
\]
em que:
\(y\)= é a variável dependente
\(\beta_0\)= é o coeficiente linear ou intercepto da reta de regressão
\(\beta_1\)= é o coeficiente angular ou inclinação (declive) da reta de regressão
\(x\)= é a variável independente
\(\varepsilon\)= é o erro aleatório referente a variabilidade em \(y\) quem não pode ser explicada pela variável \(x\).
Possíveis retas de regressão linear simples

Entendendo o comportamento de \(\beta_0\) e \(\beta_1\)
Ajuste da regressão
- Agora que já entendemos como funciona os parâmetros de uma regressão, chegou a hora de ajustarmos um modelo de regressão aos dados provenientes de uma amostra.
- Observemos a seguinte situação
- Suponhamos que o dono de uma rede de restaurantes esteja interessado em saber a relação entre a quantidade de estudantes que almoçam em seus restaurantes com o lucro obtido trimestralmente.
- Uma amostra de dez restaurantes foi coletado e os dados podem ser visualizados a seguir:
## restaurante estudantes vendas_trimestrais
## 1 1 2 58
## 2 2 6 105
## 3 3 8 88
## 4 4 8 118
## 5 5 12 117
## 6 6 16 137
## 7 7 20 157
## 8 8 20 169
## 9 9 22 149
## 10 10 26 202
- O primeiro passo é verificarmos qual variável é causa e qual é efeito, ou seja, quem é a variável independente (x) e quem é a variável dependente (y).
- No nosso exemplo, verificamos que as vendas estão em função da quantidade de estudantes, ou seja, quem determina a venda é a quantidade de estudantes que adentram o restaurante.
- Logo, a variável estudante será considerada independente e vendas a variável dependente.
- O segundo passo, é elaborarmos um diagrama de dispersão para detectarmos o tipo de relação existente entre as variáveis.

- Agora vem a grande pergunta.
- Como podemos ajustar uma regressão que explique o máximo de variabilidade possível dos dados e com um mínimo de erro?
- A resposta é: método dos mínimos quadraos.
Método dos mínimos quadrados
- A idéia é encontrar valores de b e a que faça com que a reta de regressão passe na menor distância possível entre os pontos observados, minimizando o máximo possível o erro e fazendo com que o modelo explique o máximo possível a variabilidade dos dados.
- As letras b e a são os estimadores dos parâmetros \(\beta_0\) e \(\beta_1\) respectivamente.
- Primeiramente vamos demonstrar o método de maneira interativa, ou seja, vamos tentar encontrar valores de b e a que minimiza a soma de quadrados do erro.
- Acesse aqui
- Matematicamente o que queremos é minimizar a seguinte quantidade:
\[
\sum \varepsilon^2 = \sum(y - \beta_0 - \beta_1x)^2
\]
- Qual é o mínimo que desejamos para \(\sum \varepsilon^2\)?
- Obviamente que a resposta é zero.
- Então basta substituirmos \(\sum \varepsilon^2\) por zero, e derivarmos a expressão em relação a \(\beta_0\) e \(\beta_1\).
- Portanto, tem-se as seguintes equações para determinar os estimadores a e b:
\[
a = \bar{y} - b \bar{x}
\]
e
\[
b = \frac{\sum xy - \frac{\sum x \sum y}{n}}{\sum x^2 - \frac{(\sum x)^2}{n}}
\]
Exemplo
- Voltando ao exemplo anterior, vamos obter as estimativas de \(a\) e \(b\) para elaborarmos uma equação de regressão.
#-------------------- opção 1 - na unha!-------------------
sumxy = sum(estudantes*vendas_trimestrais)
sumxsumy = sum(estudantes)*sum(vendas_trimestrais)
n = length(estudantes)
sumx2 = sum(estudantes^2)
sumx = sum(estudantes)
# Portanto, b é igual:
b = (sumxy - sumxsumy/n)/(sumx2 - (sumx)^2/n)
b
## [1] 5
# Calculando a, tem-se:
ybarra = mean(vendas_trimestrais)
xbarra = mean(estudantes)
a = ybarra - b*xbarra
a
## [1] 60
- Portanto, a equação de regressão estimada é dada da seguinte forma:
\[
\hat{y} = 60 + 5x
\]