Subsections

11 Testes de hipótese

Os exercícios abaixo são referentes ao conteúdo de Testes de Hipóteses conforme visto na disciplina de Estatística Geral II.

Eles devem ser resolvidos usando como referência qualquer texto de Estatística Básica.
Procure resolver primeiramente sem o uso de programa estatístico.

A idéia é relembrar como são feitos alguns testes de hipótese básicos e corriqueiros em estatística.

Nesta sessão vamos verificar como utilizar o R para fazer teste de hipóteses sobre parâmetros de distribuições para as quais os resultados são bem conhecidos.

Os comandos e cálculos são bastante parecidos com os vistos em intervalos de confiança e isto nem poderia ser diferente visto que intervalos de confiança e testes de hipótese são relacionados.

Assim como fizemos com intervalos de confiança, aqui sempre que possível e para fins didáticos mostrando os recursos do R vamos mostrar três possíveis soluções:

  1. fazendo as contas passo a passo, utilizando o R como uma calculadora
  2. escrevendo uma função
  3. usando uma função já existente no R

11.1 Comparação de variâncias de uma distribuição normal

Queremos verificar se duas máquinas produzem peças com a mesma homogeneidade quanto a resistência à tensão. Para isso, sorteamos dias amostras de 6 peças de cada máquina, e obtivemos as seguintes resistências:

Máquina A 145 127 136 142 141 137
Máquina B 143 128 132 138 142 132

O que se pode concluir fazendo um teste de hipótese adequado?

Solução:

Da teoria de testes de hipótese sabemos que, assumindo a distribuição normal, o teste para a hipótese:

\begin{displaymath}H_0: \sigma^2_A = \sigma^2_B \;\;\;versus\;\;\; H_a: \sigma^2_A \neq \sigma^2_B \end{displaymath}

que é equivalente à

\begin{displaymath}H_0: \frac{\sigma^2_A}{\sigma^2_B} = 1 \;\;\;versus\;\;\; H_a: \frac{\sigma^2_A}{\sigma^2_B} \neq 1\end{displaymath}

é feito calculando-se a estatística de teste:

\begin{displaymath}F_{calc} = \frac{S^2_A}{S^2_B}\end{displaymath}

e em seguida comparando-se este valor com um valor da tabela de $F$ e/ou calculando-se o $p$-valor associado com $n_A-1$ e $n_B-1$ graus de liberdade. Devemos também fixar o nível de significância do teste, que neste caso vamos definir como sendo 5%.

Para efetuar as análises no R vamos primeiro entrar com os dados nos objetos que vamos chamar de ma e mb e calcular os tamanhos das amostras que vão ser armazenados nos objetos na e nb.

> ma <- c(145, 127, 136, 142, 141, 137)
> na <- length(ma)
> na
[1] 6
> mb <- c(143, 128, 132, 138, 142, 132)
> nb <- length(mb)
> nb
[1] 6

11.1.1 Fazendo as contas passo a passo

Vamos calcular a estatística de teste. Como temos o computador a disposição não precisamos de da tabela da distribuição $F$ e podemos calcular o $p$-valor diretamente.

> ma.v <- var(ma)
> ma.v
[1] 40
> mb.v <- var(mb)
> mb.v
[1] 36.96667
> fcalc <- ma.v/mb.v
> fcalc
[1] 1.082056
> pval <- 2 * pf(fcalc, na-1, nb-1, lower=F)
> pval
[1] 0.9331458
No cálculo do P-valor acima multiplicamos o valor encontrado por 2 porque estamos realizando um teste bilateral.

11.1.2 Escrevendo uma função

Esta fica por sua conta!
Escreva a sua própria função para testar hipóteses sobre variâncias de duas distribuições normais.

11.1.3 Usando uma função do R

O R já tem implementadas funções para a maioria dos procedimentos estatísticos ``usuais''. Por exemplo, para testar variâncias neste exemplo utilizamos a função var.test. Vamos verificar os argumentos da função.
> args(var.test)
function (x, ...) 
NULL
Note que esta saída não é muito informativa. Este tipo de resultado indica que var.test é um método com mais de uma função associada. Portanto devemos pedir os argumentos da função ``default''.
> args(var.test.default)
function (x, y, ratio = 1, alternative = c("two.sided", "less", 
    "greater"), conf.level = 0.95, ...) 
NULL
Neste argumentos vemos que a função recebe dois vertores de de dados (x e y), que por ``default'' a hipótese nula é que o quociente das variâncias é 1 e que a alternativa pode ser bilateral ou unilateral. Como ''two.sided'' é a primeira opção o ``default'' é o teste bilateral. Finalmente o nível de confiança é 95% ao menos que o último argumento seja modificado pelo usuário. Para aplicar esta função nos nossos dados basta digitar:
> var.test(ma, mb)

        F test to compare two variances

data:  ma and mb 
F = 1.0821, num df = 5, denom df = 5, p-value = 0.9331
alternative hypothesis: true ratio of variances is not equal to 1 
95 percent confidence interval:
 0.1514131 7.7327847 
sample estimates:
ratio of variances 
          1.082056
e note que a saída inclui os resultados do teste de hipótese bem como o intervalo de confiança. A decisão baseia-se em verificar se o P-valor é menor que o definido inicialmente.

11.2 Exercícios

Os exercícios a seguir foram retirados do libro de Bussab & Morettin.

Note que nos exercícios abaixo nem sempre voce poderá usar funções de teste do R porque em alguns casos os dados brutos não estão disponíveis. Nestes casos voce deverá fazer os cálculos usando o R como calculadora.

  1. Uma máquina automática de encher pacotes de café enche-os segundo uma distribuição normal, com média $\mu$ e variância $400 g^2$. O valor de $\mu$ pode ser fixado num mostrador situado numa posição um pouco inacessível dessa máquina. A máquina foi regulada para $\mu = 500 g$. Desejamos, de meia em meia hora, colher uma amostra de 16 pacotes e verificar se a produção está sob controle, isto é, se $\mu = 500 g$ ou não. Se uma dessas amostras apresentasse uma média $\bar{x} = 492 g$, voce pararia ou não a produção para verificar se o mostrador está na posição correta?

  2. Uma companhia de cigarros anuncia que o índice médio de nicotina dos cigarros que fabrica apresenta-se abaixo de $23 mg$ por cigarro. Um laboratório realiza 6 análises desse índice, obtendo: 27, 24, 21, 25, 26, 22. Sabe-se que o índice de nicotina se distribui normalmente, com variância igual a $4,86 mg^2$. Pode-se aceitar, ao nível de 10%, a afirmação do fabricante.

  3. Uma estação de televisão afirma que 60% dos televisores estavam ligados no seu programa especial de última segunda feira. Uma rede competidora deseja contestar essa afirmação, e decide, para isso, usar uma amostra de 200 famílias obtendo 104 respostas afirmativas. Qual a conclusão ao nível de 5% de significância?

  4. O tempo médio, por operário, para executar uma tarefa, tem sido 100 minutos, com um desvio padrão de 15 minutos. Introduziu-se uma modificação para diminuir esse tempo, e, após certo período, sorteou-se uma amostra de 16 operários, medindo-se o tempo de execução de cada um. O tempo médio da amostra foi de 85 minutos, o o desvio padrão foi 12 minutos. Estes resultados trazem evidências estatísticas da melhora desejada?

  5. Num estudo comparativo do tempo médio de adaptação, uma amostra aleatória, de 50 homens e 50 mulheres de um grande complexo industrial, produziu os seguintes resultados:

    Estatísticas Homens Mulheres
    Médias 3,2 anos 3,7 anos
    Desvios Padrões 0,8 anos 0,9 anos

    Pode-se dizer que existe diferença significativa entre o tempo de adaptação de homens e mulheres?

    A sua conclusão seria diferente se as amostras tivessem sido de 5 homens e 5 mulheres?

Paulo Justiniano Ribeiro Jr