Capítulo 8 Exercícios

No arquivo de dados glass.dat temos informações sobre fragmentos de vidro coletados em trabalhos forenses. Considere que \(RI\) seja o índice de refracção e que \(Al\) seja o teor de alumínio. Realize uma regressão não paramétrica para ajustar o modelo \(RI = r(Al) + \epsilon\). Utilize os seguintes estimadores:
Em cada caso, utilizar o método de validação cruzada para escolher o parâmetro de alisamento. Estime a variância. Construir bandas de confiança de 95% para as suas estimativas.

A leitura dos dados pode ser feita utilizando o comando R:
```
glass = read.table("http://leg.ufpr.br/~lucambio/Nonparam/glass.dat", header = TRUE)
head(glass)
```
```
##      RI    Na   Mg   Al    Si    K   Ca Ba   Fe type
## 1  3.01 13.64 4.49 1.10 71.78 0.06 8.75  0 0.00 WinF
## 2 -0.39 13.89 3.60 1.36 72.73 0.48 7.83  0 0.00 WinF
## 3 -1.82 13.53 3.55 1.54 72.99 0.39 7.78  0 0.00 WinF
## 4 -0.34 13.21 3.69 1.29 72.61 0.57 8.22  0 0.00 WinF
## 5 -0.58 13.27 3.62 1.24 73.08 0.55 8.07  0 0.00 WinF
## 6 -2.04 12.79 3.61 1.62 72.97 0.64 8.07  0 0.26 WinF
```
O número de laranjas podres (\(\mbox{laranjas.podres}\)), em 10 caixas selecionadas aleatoriamente de uma grande remessa é contada depois de armazenadas por um número determinado de dias (\(\mbox{dias}\)).
```
dias = c(3,5,8,11,15,18,20,25,27,30)
laranjas.podres = c(2,4,7,10,17,23,29,45,59,73)
```
Use o método Theil-Kendall para calcular a inclinação de uma linha reta ajustada a esses dados e obtenha uma estimativa apropriada do intercepto. Mostre os dados gráficamente e encontre o modelo ajustado. O ajuste parece razoável?
Os seguintes dados têm como base no censo de agricultura dos EUA, que fornece, em intervalos de aproximadamente 10 anos, de 1920 a 1980, as porcentagens de fazendas dos EUA com tratores e fazendas com cavalos.
```
Percentagem.de.tratores = c(9.2,30.9,58.8,72.7,89.9,88.7,90.2)
Percentagem.de.cavalos = c(91.8,88.0,80.6,43.6,16.7,14.4,10.5)
```
Explique por que seria inútil ou errado ajustar uma regressão linear para a porcentagem de tratores versus porcentagem de cavalos utilizando esses dados. Sugira que tipo alternativo de regressão pode ser mais apropriado.

O arquivo de dados motor.dat contêm informações simuladas em 94 acidentes de motocicleta. A covariável é times, o tempo até o impacto uma vez acinado o freio, medido em milissegundos e a resposta é accel, a aceleração no momento do impacto.

motor = read.table("http://leg.ufpr.br/~lucambio/Nonparam/motor.dat", 
                   header = TRUE)   
head(motor)

##   times accel strata   v
## 1   2.4   0.0      1 3.7
## 2   2.6  -1.3      1 3.7
## 3   3.2  -2.7      1 3.7
## 4   3.6   0.0      1 3.7
## 5   4.0  -2.7      1 3.7
## 6   6.2  -2.7      1 3.7

Use validação cruzada para ajustar uma curva suave usando a regressão linear local.

Em 1976 dois pesquisadores mediram a concentração de amônia (\(\mbox{concentra}\)) em mg/l em várias profundidades (\(\mbox{profundidades}\)), em metros, no Mar Morto.
```
profundidades = c(25,50,100,150,155,187,200,237,287,290,300)
concentra = c(6.13,5.51,6.18,6.70,7.22,7.28,7.22,7.48,7.38,7.38,7.64)
```
Ajustar uma regressão linear para a concentração segundo as profundidades usando o método de Kendall-Theil e obter um intervalo de confiançãa aproximado de 95% para \(\beta\).

Uma pesquisa em 1965 fornece-nos dados para o peso do alimento ingerido (\(\mbox{peso.alimento}\)) e o ganho de peso (\(\mbox{ganho.de.peso}\)) para 10 suínos alimentados com um tipo de alimento A e para 10 alimentados com um segundo tipo B.

Use o método adequado para ajustar as regressões lineares a cada uma das situações e testar se a hipótese de que as inclinações são iguais é adequada.

peso.alimento = c(575,585,628,632,637,638,661,674,694,713,
                  625,646,651,678,710,722,728,754,763,831)
tipo.alimento = c(rep("A",10),rep("B",10))
ganho.de.peso = c(130,146,156,164,158,151,159,165,167,170,
                  147,164,149,160,184,173,193,189,200,201)
dados = data.frame(peso.alimento,tipo.alimento,ganho.de.peso)
head(dados)

##   peso.alimento tipo.alimento ganho.de.peso
## 1           575             A           130
## 2           585             A           146
## 3           628             A           156
## 4           632             A           164
## 5           637             A           158
## 6           638             A           151

Sejam \(Y_i \sim N(\mu_i,1)\) para \(i=1,2,\cdots,n\) observações independentes. Encontre os estimadores que minimizam cada uma das seguintes somas de quadrados penalizadas:
Seja \(\widehat{r}_n(x_1,x_2)=\sum_{i=1}^n Y_il_i(x_1,x_2)\) um estimador linear da função de regressão múltipla \(r(x_1,x_2)\). Suponha queremos testar a hipótese de que a covariável \(x_2\) pode ser descartada da regressão. Uma possibilidade seria formar um estimador linear da forma \[ \widetilde{r}_n(x_1)=\sum_{i=1}^n Y_i\widetilde{l}_i(x_1) \] e, em seguida, calcular \[ T \, = \, \sum_{i=1}^n \Big(\widehat{r}_n(x_{1i},x_{2i})-\widetilde{r}_n(x_{1i}) \Big)^2\cdot \]