18 Intervalos de confiança e testes de hipótese

Nesta sessão vamos ver mais alguns exemplos sobre como utilizar o R para obter intervalos de confiança e testar hipóteses sobre parâmetros de interesse na população, a partir de dados obtidos em amostras. Para isto vamos ver alguns problemas típicos de cursos de estatística básica.

18.1 Teste χ2 de independência

Quando estudamos a relação entre duas variáveis qualitativas fazemos uma tabela com o resultado do cruzamento desta variáveis. Em geral existe interesse em verificar se as variáveis estão associadas e para isto calcula-se uma medida de associação tal como o χ2, coeficiente de contingência C, ou similar. O passo seguinte é verificar se existe evidência suficiente nos dados para declarar que a variáveis estão associadas. Uma possível forma de testar tal hipótese é utilizando o teste χ2 .

Para ilustrar o teste vamos utilizar o conjunto de dados HairEyeColor que já vem disponível com o R. Para carregar e visualizar os dados use os comando abaixo.

> data(HairEyeColor)  
> HairEyeColor  
> as.data.frame(HairEyeColor)

Para saber mais sobre estes dados veja help(HairEyeColor) Note que estes dados já vem “resumidos” na forma de uma tabela de frequências tri-dimensional, com cada uma das dimensões correspondendo a um dos atributos - cor dos cabelos, olhos e sexo.

Para ilustrar aqui o teste χ2 vamos verificar se existe associação entre 2 atributos: cor dos olhos e cabelos entre os indivíduos do sexo feminino. Portanto as hipóteses são:

H0 :não existe associação
Ha : existe associação

Vamos adotar α = 5% como nível de significância. Nos comandos abaixo primeiro isolamos apenas a tabela com os indivíduos do sexo masculino e depois aplicamos o teste sobre esta tabela.

> HairEyeColor[,,1]  
       Eye  
Hair    Brown Blue Hazel Green  
  Black    32   11    10     3  
  Brown    38   50    25    15  
  Red      10   10     7     7  
  Blond     3   30     5     8  
> chisq.test(HairEyeColor[,,1])  
 
        Pearson's Chi-squared test  
 
data:  HairEyeColor[, , 1]  
X-squared = 42.1633, df = 9, p-value = 3.068e-06  
 
Warning message:  
Chi-squared approximation may be incorrect in: chisq.test(HairEyeColor[, , 1])

O p - value sugere que a associação é significativa. Entretanto este resultado deve ser visto com cautela pois a mensagem de alerta (Warning message) emitida pelo programa chama atenção ao fato de que há várias caselas com baixa frequência na tabela e portanto as condições para a validade do teste não são perfeitamente satisfeitas.

Uma possibilidade neste caso é então usar o p - value calculado por simulação, ao invés do resultado assintótico usado no teste tradicional.

> chisq.test(HairEyeColor[,,1], sim=T)  
 
        Pearson's Chi-squared test with simulated p-value (based on 2000  
        replicates)  
 
data:  HairEyeColor[, , 1]  
X-squared = 42.1633, df = NA, p-value = 0.0004998

Note que agora a mensagem de alerta não é mais emitida e que a significância foi confirmada (P-valor < 0.05). Note que se voce rodar este exemplo poderá obter um p - value um pouco diferente porque as simulações não necessariamente serão as mesmas.

Lembre-se de inspecionar help(chisq.test) para mais detalhes sobre a implementação deste teste no R.

18.2 Teste para o coeficiente de correlação linear de Pearson

Quando temos duas variáveis quantitativas podemos utilizar o coeficiente de correlação linear para medir a associação entre as variáveis, se a relação entre elas for linear. Para ilustrar o teste para o coeficiente linear de Pearson vamos estudar a relação entre o peso e rendimento de carros. Para isto vamos usar as variáveis wt (peso) e mpg (milhas por galão) do conjunto de dados mtcars.

> data(mtcars)  
> attach(mtcars)  
> cor(wt, mpg)  
[1] -0.8676594  
> cor.test(wt, mpg)  
 
        Pearson's product-moment correlation  
 
data:  wt and mpg  
t = -9.559, df = 30, p-value = 1.294e-10  
alternative hypothesis: true correlation is not equal to 0  
95 percent confidence interval:  
 -0.9338264 -0.7440872  
sample estimates:  
       cor  
-0.8676594  
 
> detach(mtcars)

Portanto o p-valor acima mmostra que a correlação encontrada de -0.87 difere significativamente de zero. Note que uma análise mais cuidadosa deveria incluir o exame do gráfico entre estas duas variáveis para ver se o coeficiente de correlação linear é adequado para medir a associação.

18.3 Comparação de duas médias

Quando temos uma variável qualitativa com dois níveis e outra quantitativa a análise em geral recai em comparar as médias da quantitativa para cada grupo da qualitativa. Para isto podemos utilizar o testeT. Há diferentes tipos de teste T: para amostras independentes ou pareadas, variâncias iguais ou desiguais. Além disto podemos fazer testes uni ou bilaterais. Todos estes podem ser efetuados com a função t.test. Usando argumentos desta função definimos o tipo de teste desejado. No exemplo abaixo veremos um teste unilateral, para dois grupos com variâncias consideradas iguais.

Considere o seguinte exemplo:
Os dados a seguir correpondem a teores de um elemento indicador da qualidade de um certo produto vegetal. Foram coletadas 2 amostras referentes a 2 métodos de produção e deseja-se comparar as médias dos métodos fazendo-se um teste t bilateral, ao nível de 5% de significância e considerando-se as variâncias iguais.












Método 10.92.59.23.23.71.31.22.43.68.3
Método 25.36.35.53.64.12.72.01.55.13.5











> m1 <- c(0.9, 2.5, 9.2, 3.2, 3.7, 1.3, 1.2, 2.4, 3.6, 8.3)  
> m2 <- c(5.3, 6.3, 5.5, 3.6, 4.1, 2.7, 2.0, 1.5, 5.1, 3.5)  
 
 t.test(m1,m2, var.eq=T)  
 
        Two Sample t-test  
 
data:  m1 and m2  
t = -0.3172, df = 18, p-value = 0.7547  
alternative hypothesis: true difference in means is not equal to 0  
95 percent confidence interval:  
 -2.515419  1.855419  
sample estimates:  
mean of x mean of y  
     3.63      3.96

Os resultados mostram que não á evidências para rejeitar a hipótese de igualdade entre as médias.

18.4 Exercícios

  1. Revisite os dados milsa visto na aula de estatística descritiva e selecione pares de variáveis adequadas para efetuar:
    1. um teste χ2
    2. um teste para o coeficiente de correlação
    3. um teste t
  2. Inspecione o conjunto de dados humanos.txt, selecione variáveis a aplique os testes vistos nesta Seção.
  3. Queremos verificar se machos e fêmeas de uma mesma espécie possuem o mesmo comprimento (em mm) Para isso, foram medidos 6 exemplares de cada sexo e obtivemos os seguintes comprimentos:

    Machos145127136142141137







    Fêmeas 143128132138142132

    Obtenha intervalos de confiança para a razão das variâncias e para a diferença das médias dos dois grupos.

    Dica: Use as funções var.test e t.test

  4. Carregue o conjunto de dados iris usando o comando data(iris).
    Veja a descrição dos dados em help(iris).
    Use a função cor.test para testar a correlação entre o comprimento de sépalas e pétalas.