Capítulo 8 Exercícios
-
No arquivo de dados glass.dat temos informações sobre fragmentos de vidro coletados em trabalhos forenses. Considere que \(RI\) seja o índice de refracção e que \(Al\) seja o teor de alumínio. Realize uma regressão não paramétrica para ajustar o modelo \(RI = r(Al) + \epsilon\). Utilize os seguintes estimadores:
regressograma,
kernel,
regressão linear local,
spline.
Em cada caso, utilizar o método de validação cruzada para escolher o parâmetro de alisamento. Estime a variância. Construir bandas de confiança de 95% para as suas estimativas.
A leitura dos dados pode ser feita utilizando o comando R:
## RI Na Mg Al Si K Ca Ba Fe type ## 1 3.01 13.64 4.49 1.10 71.78 0.06 8.75 0 0.00 WinF ## 2 -0.39 13.89 3.60 1.36 72.73 0.48 7.83 0 0.00 WinF ## 3 -1.82 13.53 3.55 1.54 72.99 0.39 7.78 0 0.00 WinF ## 4 -0.34 13.21 3.69 1.29 72.61 0.57 8.22 0 0.00 WinF ## 5 -0.58 13.27 3.62 1.24 73.08 0.55 8.07 0 0.00 WinF ## 6 -2.04 12.79 3.61 1.62 72.97 0.64 8.07 0 0.26 WinF
-
O número de laranjas podres (\(\mbox{laranjas.podres}\)), em 10 caixas selecionadas aleatoriamente de uma grande remessa é contada depois de armazenadas por um número determinado de dias (\(\mbox{dias}\)).
Use o método Theil-Kendall para calcular a inclinação de uma linha reta ajustada a esses dados e obtenha uma estimativa apropriada do intercepto. Mostre os dados gráficamente e encontre o modelo ajustado. O ajuste parece razoável?
-
Os seguintes dados têm como base no censo de agricultura dos EUA, que fornece, em intervalos de aproximadamente 10 anos, de 1920 a 1980, as porcentagens de fazendas dos EUA com tratores e fazendas com cavalos.
Percentagem.de.tratores = c(9.2,30.9,58.8,72.7,89.9,88.7,90.2) Percentagem.de.cavalos = c(91.8,88.0,80.6,43.6,16.7,14.4,10.5)
Explique por que seria inútil ou errado ajustar uma regressão linear para a porcentagem de tratores versus porcentagem de cavalos utilizando esses dados. Sugira que tipo alternativo de regressão pode ser mais apropriado.
-
O arquivo de dados motor.dat contêm informações simuladas em 94 acidentes de motocicleta. A covariável é times, o tempo até o impacto uma vez acinado o freio, medido em milissegundos e a resposta é accel, a aceleração no momento do impacto.
## times accel strata v ## 1 2.4 0.0 1 3.7 ## 2 2.6 -1.3 1 3.7 ## 3 3.2 -2.7 1 3.7 ## 4 3.6 0.0 1 3.7 ## 5 4.0 -2.7 1 3.7 ## 6 6.2 -2.7 1 3.7
Use validação cruzada para ajustar uma curva suave usando a regressão linear local.
-
Em 1976 dois pesquisadores mediram a concentração de amônia (\(\mbox{concentra}\)) em mg/l em várias profundidades (\(\mbox{profundidades}\)), em metros, no Mar Morto.
profundidades = c(25,50,100,150,155,187,200,237,287,290,300) concentra = c(6.13,5.51,6.18,6.70,7.22,7.28,7.22,7.48,7.38,7.38,7.64)
Ajustar uma regressão linear para a concentração segundo as profundidades usando o método de Kendall-Theil e obter um intervalo de confiançãa aproximado de 95% para \(\beta\).
-
Uma pesquisa em 1965 fornece-nos dados para o peso do alimento ingerido (\(\mbox{peso.alimento}\)) e o ganho de peso (\(\mbox{ganho.de.peso}\)) para 10 suínos alimentados com um tipo de alimento A e para 10 alimentados com um segundo tipo B.
Use o método adequado para ajustar as regressões lineares a cada uma das situações e testar se a hipótese de que as inclinações são iguais é adequada.
peso.alimento = c(575,585,628,632,637,638,661,674,694,713, 625,646,651,678,710,722,728,754,763,831) tipo.alimento = c(rep("A",10),rep("B",10)) ganho.de.peso = c(130,146,156,164,158,151,159,165,167,170, 147,164,149,160,184,173,193,189,200,201) dados = data.frame(peso.alimento,tipo.alimento,ganho.de.peso) head(dados)
## peso.alimento tipo.alimento ganho.de.peso ## 1 575 A 130 ## 2 585 A 146 ## 3 628 A 156 ## 4 632 A 164 ## 5 637 A 158 ## 6 638 A 151
-
Sejam \(Y_i \sim N(\mu_i,1)\) para \(i=1,2,\cdots,n\) observações independentes. Encontre os estimadores que minimizam cada uma das seguintes somas de quadrados penalizadas:
- \(\displaystyle \sum_{i=1}^n (Y_i-\widehat{\mu}_i)^2 \, + \, \lambda\sum_{i=1}^n \widehat{\mu}_i^2\).
- \(\displaystyle \sum_{i=1}^n (Y_i-\widehat{\mu}_i)^2 \, + \, \lambda\sum_{i=1}^n |\widehat{\mu}_i|\).
- \(\displaystyle \sum_{i=1}^n (Y_i-\widehat{\mu}_i)^2 \, + \, \lambda\sum_{i=1}^n I\big(\widehat{\mu}_i=0\big)\).
Seja \(\widehat{r}_n(x_1,x_2)=\sum_{i=1}^n Y_il_i(x_1,x_2)\) um estimador linear da função de regressão múltipla \(r(x_1,x_2)\). Suponha queremos testar a hipótese de que a covariável \(x_2\) pode ser descartada da regressão. Uma possibilidade seria formar um estimador linear da forma \[ \widetilde{r}_n(x_1)=\sum_{i=1}^n Y_i\widetilde{l}_i(x_1) \] e, em seguida, calcular \[ T \, = \, \sum_{i=1}^n \Big(\widehat{r}_n(x_{1i},x_{2i})-\widetilde{r}_n(x_{1i}) \Big)^2\cdot \]
Suponhamos o modelo \(Y_i=r(x_{1i})+\epsilon_i\), onde \(\epsilon_i\sim N(0,\sigma^2)\) como sendo verdadeiro e, por simplicidade, assumimos \(\sigma^2\) conhecido. Encontre uma expressão para a distribuição de \(T\).
A distribuição nula na parte (a) depende da função desconhecida \(r(x_{1i})\). Como você pode estimar a distribuição nula?
Crie dados simulados do modelo em (a), use qualquer função \(r(x_{1i})\) desejada, e veja se o método proposto em (b) aproxima a distribuição nula.