Capítulo 8 Exercícios

  1. No arquivo de dados glass.dat temos informações sobre fragmentos de vidro coletados em trabalhos forenses. Considere que \(RI\) seja o índice de refracção e que \(Al\) seja o teor de alumínio. Realize uma regressão não paramétrica para ajustar o modelo \(RI = r(Al) + \epsilon\). Utilize os seguintes estimadores:

      1. regressograma,

      2. kernel,

      3. regressão linear local,

      4. spline.

    Em cada caso, utilizar o método de validação cruzada para escolher o parâmetro de alisamento. Estime a variância. Construir bandas de confiança de 95% para as suas estimativas.

    A leitura dos dados pode ser feita utilizando o comando R:

    glass = read.table("http://leg.ufpr.br/~lucambio/Nonparam/glass.dat", header = TRUE)
    head(glass)
    ##      RI    Na   Mg   Al    Si    K   Ca Ba   Fe type
    ## 1  3.01 13.64 4.49 1.10 71.78 0.06 8.75  0 0.00 WinF
    ## 2 -0.39 13.89 3.60 1.36 72.73 0.48 7.83  0 0.00 WinF
    ## 3 -1.82 13.53 3.55 1.54 72.99 0.39 7.78  0 0.00 WinF
    ## 4 -0.34 13.21 3.69 1.29 72.61 0.57 8.22  0 0.00 WinF
    ## 5 -0.58 13.27 3.62 1.24 73.08 0.55 8.07  0 0.00 WinF
    ## 6 -2.04 12.79 3.61 1.62 72.97 0.64 8.07  0 0.26 WinF
  2. O número de laranjas podres (\(\mbox{laranjas.podres}\)), em 10 caixas selecionadas aleatoriamente de uma grande remessa é contada depois de armazenadas por um número determinado de dias (\(\mbox{dias}\)).

    dias = c(3,5,8,11,15,18,20,25,27,30)
    laranjas.podres = c(2,4,7,10,17,23,29,45,59,73)

    Use o método Theil-Kendall para calcular a inclinação de uma linha reta ajustada a esses dados e obtenha uma estimativa apropriada do intercepto. Mostre os dados gráficamente e encontre o modelo ajustado. O ajuste parece razoável?

  3. Os seguintes dados têm como base no censo de agricultura dos EUA, que fornece, em intervalos de aproximadamente 10 anos, de 1920 a 1980, as porcentagens de fazendas dos EUA com tratores e fazendas com cavalos.

    Percentagem.de.tratores = c(9.2,30.9,58.8,72.7,89.9,88.7,90.2)
    Percentagem.de.cavalos = c(91.8,88.0,80.6,43.6,16.7,14.4,10.5)

    Explique por que seria inútil ou errado ajustar uma regressão linear para a porcentagem de tratores versus porcentagem de cavalos utilizando esses dados. Sugira que tipo alternativo de regressão pode ser mais apropriado.

  4. O arquivo de dados motor.dat contêm informações simuladas em 94 acidentes de motocicleta. A covariável é times, o tempo até o impacto uma vez acinado o freio, medido em milissegundos e a resposta é accel, a aceleração no momento do impacto.

    motor = read.table("http://leg.ufpr.br/~lucambio/Nonparam/motor.dat", 
                       header = TRUE)   
    head(motor)
    ##   times accel strata   v
    ## 1   2.4   0.0      1 3.7
    ## 2   2.6  -1.3      1 3.7
    ## 3   3.2  -2.7      1 3.7
    ## 4   3.6   0.0      1 3.7
    ## 5   4.0  -2.7      1 3.7
    ## 6   6.2  -2.7      1 3.7

    Use validação cruzada para ajustar uma curva suave usando a regressão linear local.

  5. Em 1976 dois pesquisadores mediram a concentração de amônia (\(\mbox{concentra}\)) em mg/l em várias profundidades (\(\mbox{profundidades}\)), em metros, no Mar Morto.

    profundidades = c(25,50,100,150,155,187,200,237,287,290,300)
    concentra = c(6.13,5.51,6.18,6.70,7.22,7.28,7.22,7.48,7.38,7.38,7.64)

    Ajustar uma regressão linear para a concentração segundo as profundidades usando o método de Kendall-Theil e obter um intervalo de confiançãa aproximado de 95% para \(\beta\).

  6. Uma pesquisa em 1965 fornece-nos dados para o peso do alimento ingerido (\(\mbox{peso.alimento}\)) e o ganho de peso (\(\mbox{ganho.de.peso}\)) para 10 suínos alimentados com um tipo de alimento A e para 10 alimentados com um segundo tipo B.

    Use o método adequado para ajustar as regressões lineares a cada uma das situações e testar se a hipótese de que as inclinações são iguais é adequada.

    peso.alimento = c(575,585,628,632,637,638,661,674,694,713,
                      625,646,651,678,710,722,728,754,763,831)
    tipo.alimento = c(rep("A",10),rep("B",10))
    ganho.de.peso = c(130,146,156,164,158,151,159,165,167,170,
                      147,164,149,160,184,173,193,189,200,201)
    dados = data.frame(peso.alimento,tipo.alimento,ganho.de.peso)
    head(dados)
    ##   peso.alimento tipo.alimento ganho.de.peso
    ## 1           575             A           130
    ## 2           585             A           146
    ## 3           628             A           156
    ## 4           632             A           164
    ## 5           637             A           158
    ## 6           638             A           151
  7. Sejam \(Y_i \sim N(\mu_i,1)\) para \(i=1,2,\cdots,n\) observações independentes. Encontre os estimadores que minimizam cada uma das seguintes somas de quadrados penalizadas:
      1. \(\displaystyle \sum_{i=1}^n (Y_i-\widehat{\mu}_i)^2 \, + \, \lambda\sum_{i=1}^n \widehat{\mu}_i^2\).
      2. \(\displaystyle \sum_{i=1}^n (Y_i-\widehat{\mu}_i)^2 \, + \, \lambda\sum_{i=1}^n |\widehat{\mu}_i|\).
      3. \(\displaystyle \sum_{i=1}^n (Y_i-\widehat{\mu}_i)^2 \, + \, \lambda\sum_{i=1}^n I\big(\widehat{\mu}_i=0\big)\).
  8. Seja \(\widehat{r}_n(x_1,x_2)=\sum_{i=1}^n Y_il_i(x_1,x_2)\) um estimador linear da função de regressão múltipla \(r(x_1,x_2)\). Suponha queremos testar a hipótese de que a covariável \(x_2\) pode ser descartada da regressão. Uma possibilidade seria formar um estimador linear da forma \[ \widetilde{r}_n(x_1)=\sum_{i=1}^n Y_i\widetilde{l}_i(x_1) \] e, em seguida, calcular \[ T \, = \, \sum_{i=1}^n \Big(\widehat{r}_n(x_{1i},x_{2i})-\widetilde{r}_n(x_{1i}) \Big)^2\cdot \]

      1. Suponhamos o modelo \(Y_i=r(x_{1i})+\epsilon_i\), onde \(\epsilon_i\sim N(0,\sigma^2)\) como sendo verdadeiro e, por simplicidade, assumimos \(\sigma^2\) conhecido. Encontre uma expressão para a distribuição de \(T\).

      2. A distribuição nula na parte (a) depende da função desconhecida \(r(x_{1i})\). Como você pode estimar a distribuição nula?

      3. Crie dados simulados do modelo em (a), use qualquer função \(r(x_{1i})\) desejada, e veja se o método proposto em (b) aproxima a distribuição nula.