Introdução aos Testes de Hipótese

O termo hipótese remete a formulação provisória, suposição, pressuposição ou ideia. O termo teste remete a exame, verificação, pôr à prova.

Hipótese Nula vs Hipótese Alternativa. Fonte: luminousmen.com

Assim, os testes de hipóteses fornecem ferramentas que nos permitem verificar, rejeitar ou não rejeitar, uma hipótese sobre a população através das evidências fornecidas pela amostra.

Através dos métodos estatísticos de teste de hipótese, desejamos verificar se as informações contidas na amostra contrariam ou não afirmações feitas sobre a população.

Alguns exemplos:

Através de uma amostra aleatória simples de uma população de consumidores, verificar se mais de metade desta uma população irá consumir um novo produto a ser lançado no mercado.
Através de 100 lançamentos de uma moeda, verificar se esta moeda é viciada.
Um fabricante de uma certa peça afirma que o tempo médio de vida das peças produzidas é de 1000 horas. Isso condiz com o lote de 50 peças apresentado pelo fabricante?
Um jornal afirma que 65% dos seus leitores têm curso superior. Através de uma amostra de 30 leitores deste jornal, um jornal concorrente deseja verificar a hipótese de que essa proporção é, de fato, menor.

Desta forma, uma hipótese estatística é uma afirmação sobre as características da distribuição de uma variável aleatória de uma população de interesse, em geral sobre seus parâmetros.

Os testes de hipóteses, no geral, apresentam duas hipóteses estatísticas:

Hipótese Nula (H\(_0\)): É uma hipótese a ser colocada em prova, implica uma questão de igualdade.

Hipótese Alternativa (H\(_1\) ou H\(_a\)): É uma hipótese que contraria a hipótese nula, complementar à H\(_0\), implica uma questão de desigualdade.

EXEMPLO: Fabricantes de certo material desportivo desenvolvem roupas sintéticas que deve satisfazer a algumas exigências, uma delas é a resistência à ruptura. As especificações técnicas variam de fabricante a fabricante e seus processos produtivos.

O catálogo de 2020 de um fabricante afirma que resistência média à ruptura é de 4kg, com desvio padrão de 1kg. Já para o catálogo de 2021 do mesmo fabricante, afirma que resistência média à ruptura é de 5kg e desvio padrão de 2kg.

O fabricante enviou, para teste e sem identificar o catálogo, uma amostra de 25 roupas esportivas para sua empresa, a qual só tem interesse na compra das roupas sintéticas de 2020.

Naturalmente, precisamos encontrar uma regra de decisão para decidirmos, após análise, se as roupas sintéticas são de fato do catálogo de 2020 ou do catálogo de 2021.

Uma regra intuitiva seria: se \(\bar{x} \le 4,5\mbox{kg}\) decidimos que as as roupas sintéticas são do catálogo de 2020.

Assim, temos formalmente:

Hipótese Nula (H\(_0\)): as roupas sintéticas são do catálogo de 2020.

\(\mu=4,5\) e \(\sigma=1\)

Hipótese Alternativa (H\(_1\)): as roupas sintéticas são do catálogo de 2021.

\(\mu=5\) e \(\sigma=2\)

Possível regra de decisão:

Se \(\bar{x} \le 4,5\mbox{kg}\), não rejeitamos H\(_0\).
Se \(\bar{x} > 4,5\mbox{kg}\), rejeitamos H\(_0\).

Porém, ao criamos qualquer regra de decisão, estamos sujeitos a erros.

A Tabela abaixo exibe os tipos de erros que podem ser cometidos com relação à hipótese nula.

Decisão	H\(_0\) Verdadeiro	H\(_0\) Falso
Rejeitar H\(_0\)	Erro Tipo 1	-
Não Rejeitar H\(_0\)	-	Erro Tipo 2

A probabilidade de cada erro acontecer é dada por

\[\alpha=P(\mbox{Erro Tipo 1})=P(\mbox{Rejeitar H}_0 | ~\mbox{H}_0 ~\mbox{Verdadeiro})\]

\[\beta=P(\mbox{Erro Tipo 2})=P(\mbox{Não Rejeitar H}_0 | ~\mbox{H}_0 ~\mbox{Falso})\]

Vulgarmente, a terminologia não rejeitar H\(_0\) pode ser entendida como aceitar H\(_0\), porém o termo aceitar deve ser evitado.

Além disso, \(\alpha\) mensura a chance de cometer o Erro Tipo 1, também conhecido como nível de significância.

Note que

\(\begin{aligned} 1-\alpha &=1-P(\mbox{Erro Tipo 1}) \\ &=P(\mbox{Não Rejeitar H}_0 | ~\mbox{H}_0 ~\mbox{Verdadeiro}) \\ &= \mbox{Nível de Confiança}\end{aligned}\)

\(\begin{aligned} 1-\beta &=1-P(\mbox{Erro Tipo 2}) \\ &=P(\mbox{Rejeitar H}_0 | ~\mbox{H}_0 ~\mbox{Falso}) \\ &= \mbox{Poder}\end{aligned}\)

EXEMPLO: Para o caso anterior, temos os seguintes tipos de erro.

ERRO TIPO 1: Rejeitar H\(_0\), porém H\(_0\) é verdadeiro

Rejeitar que as roupas sintéticas são do catálogo de 2020, sendo elas de fato do catálogo de 2020.

ERRO TIPO 2: Não Rejeitar H\(_0\), porém H\(_0\) é falso

Não rejeitar que as roupas sintéticas são do catálogo de 2020, sendo elas de fato do catálogo de 2021.

Para cada regra de decisão, temos uma probabilidade de ocorrência dos Erros Tipos 1 e Erros Tipo 2.

EXEMPLO: Para a regra de decisão adotada no caso anterior, temos que

\(\begin{aligned}\alpha &= P(\mbox{Rejeitar H}_0 | ~\mbox{H}_0 ~\mbox{Verdadeiro}) \\ &=P(\bar{X} > 4,5 | \mu=4,~\sigma=1) \\&=P\left( \frac{\bar{X}-\mu}{\sigma/\sqrt{n}} > \frac{4,5-\mu}{\sigma/\sqrt{n}} | \mu=4,~\sigma=1\right)\\ &=P\left(Z > \frac{4,5-4}{1/\sqrt{25}} \right) \\ &=P(Z > 2,5) =0,006\end{aligned}\)

\(\begin{aligned}\beta &= P(\mbox{ Não Rejeitar H}_0 | ~\mbox{H}_0 ~\mbox{Falso}) \\ &=P(\bar{X} \leq 4,5 | \mu=5,~\sigma=2) \\&=P\left( \frac{\bar{X}-\mu}{\sigma/\sqrt{n}} \leq \frac{4,5-\mu}{\sigma/\sqrt{n}} | \mu=5,~\sigma=2\right)\\ &=P\left(Z \leq \frac{4,5-5}{2/\sqrt{25}} \right) \\ &=P(Z \leq -1,25) =0,1056\end{aligned}\)

Caso a regra de decisão seja rejeitar H\(_0\) quando \(\bar{x} > 4,2\mbox{kg}\), as novas probabilidades de ocorrência do Erro Tipo 1 e Erro Tipo 2 seriam:

\(\begin{aligned}\alpha &= P(\mbox{Rejeitar H}_0 | ~\mbox{H}_0 ~\mbox{Verdadeiro}) \\ &=P(\bar{X} > 4,2 | \mu=4,~\sigma=1)\\ &=P(Z > 1) =0,1587\end{aligned}\)

\(\begin{aligned}\beta &= P(\mbox{ Não Rejeitar H}_0 | ~\mbox{H}_0 ~\mbox{Falso}) \\ &=P(\bar{X} \leq 4,2 | \mu=5,~\sigma=2) \\ &=P(Z \leq -2) =0,0228\end{aligned}\)

Note que a mudança da regra de 4,5 para 4,2 fez o Erro Tipo 1 subir e o Erro Tipo 2 descer.

Na prática, adotamos um valor fixo para a chance de ocorrência do Erro Tipo 1 (ou para o Erro Tipo 2 – menos comum) e verificamos qual regra de decisão deve ser a ideal.

Geralmente, o nível de significância \(\alpha\) é fixado em 0,01 ou 0,05 ou 0,10, sendo \(\alpha=5\%\) o mais comum. Trata-se da probabilidade máxima de rejeitar H\(_0\). Se, por exemplo, utilizarmos o nível de significância de \(5\%\), a hipótese nula (H\(_0\)) será rejeitada somente se o resultado da amostra for tão diferente do valor suposto, que uma diferença igual ou maior ocorreria com uma probabilidade máxima de 0,05.

Uma vez definido o nível de significância \(\alpha\), devemos encontrar a regra de decisão mais adequada, denotada por \(X_c\), também conhecida como valor crítico.

EXEMPLO: Assumindo um nível de significância de \(5\%\) para o caso anterior, temos que

\(\begin{aligned}\alpha = 5\%&= P(\mbox{Rejeitar H}_0 | ~\mbox{H}_0 ~\mbox{Verdadeiro}) \\ &=P(\bar{X} > x_c | \mu=4,~\sigma=1) \\&=P\left( \frac{\bar{X}-\mu}{\sigma/\sqrt{n}} > \frac{x_c-\mu}{\sigma/\sqrt{n}} | \mu=4,~\sigma=1\right)\\ &=P\left(Z > \frac{x_c-4}{1/\sqrt{25}} \right) =0,05\\ & \rightarrow \frac{x_c-4}{1/\sqrt{25}}=1,64 \\ & \rightarrow x_c=4,328\end{aligned}\)

Assim, rejeitamos H\(_0\) (rejeitamos a hipótese de as roupas sintéticas serem do catálogo de 2020) à 5% de significância se a média amostral da amostra enviada pelo fabricante for maior que 4,328 kg.

A Figura abaixo exibe o comportamento das distribuições sob H\(_0\) e H\(_1\) para o exemplo anterior, bem como as demais probabilidades associadas aos erros tipo 1 e 2.

Comportamento das distribuições sob H\(_0\) e H\(_1\)

Existem, basicamente, três tipos de testes de hipótese e eles são caracterizados pela hipótese alternativa. Para todos, a área de rejeição de \(H_0\) tem tamanho \(\alpha\) e a área de não rejeição de \(H_0\) tem tamanho \(1-\alpha\).

Teste unilateral à direita

É um teste cuja hipótese alternativa (H\(_1\)) é referente a desigualdade maior que (\(>\)). Ou seja, é aquele cujas hipóteses a serem testadas, para um parâmetro \(\theta\), são do tipo:

\[H_0: \theta \leq \theta_0 ~~~~\mbox{ou} ~~~~ \theta = \theta_0 \]

\[H_1: \theta > \theta_0\]

A Figura exibe curva do teste de hipótese unilateral à direita, exibindo a região crítica para rejeição de H\(_0\).

Região crítica para rejeição de H\(_0\) para teste unilateral à direita

Por exemplo,

\[\begin{cases} H_0: \theta = 100\\ H_1: \theta > 100 \end{cases}\]

Teste unilateral à esquerda

Similar ao teste unilateral anterior, porém quando a alternativa (H\(_1\)) é referente a desigualdade menor que (\(<\)). Ou seja, é aquele cujas hipóteses a serem testadas, para um parâmetro \(\theta\), são do tipo:

\[H_0: \theta \geq \theta_0 ~~~~\mbox{ou} ~~~~ \theta = \theta_0 \]

\[H_1: \theta < \theta_0\]

A Figura exibe curva do teste de hipótese unilateral à esquerda, exibindo a região crítica para rejeição de H\(_0\).

Região crítica para rejeição de H\(_0\) para teste unilateral à esquerda

Por exemplo,

\[\begin{cases} H_0: \theta = 100\\ H_1: \theta < 100 \end{cases}\]

Teste bilateral

É um tipo de teste em que a hipótese alternativa é relativa a não igualdade \(\not=\) (diferente de). Ou seja, é aquele cujas hipóteses a serem testadas, para um parâmetro \(\theta\), são do tipo:

\[H_0: \theta = \theta_0\]

\[H_1: \theta \not= \theta_0\]

A Figura exibe curva do teste de hipótese bilateral, exibindo a região crítica para rejeição de H\(_0\).

Região crítica para rejeição de H\(_0\) para teste bilateral

Por exemplo,

\[\begin{cases} H_0: \theta = 100\\ H_1: \theta \not= 100 \end{cases}\]

Procedimentos gerais para um teste de hipótese

A sequência de procedimentos abaixo compõe a construção geral de um teste de hipótese.

Definir as hipóteses estatísticas: Hipótese nula (H\(_0\)) e a Hipótese alternativa (H\(_1\)).
Definir um nível de significância \(\alpha\).
Definir o tipo de teste, com base na hipótese alternativa.
Calcular a estatística de teste, com base na distribuição amostral do estimador do parâmetro de interesse.
Determinar a região crítica (região de rejeição), com base no nível de significância \(\alpha\).
Concluir e interpretar o teste.

EXEMPLO: Uma empresa vende um repelente de insetos que alega ser eficiente pelo prazo mínimo de 400 horas. Uma análise de nove itens escolhidos aleatoriamente acusou uma média de eficiência de 380 horas.

Teste a afirmação da empresa, contra a alternativa que a duração é inferior a 400 horas, ao nível de significância de 5%, considere que desvio-padrão populacional é de 60 horas.

Resolução:

\[H_0: \mu = 400\] \[H_1: \mu < 400\]

Teste unilateral à direita, assim:

\[\begin{aligned}\alpha &= P(\mbox{Rejeitar H}_0 | ~\mbox{H}_0 ~\mbox{Verdadeiro}) \\ &=P(\bar{X} < X_c | \mu=400) \\&=P\left( \frac{\bar{X}-\mu}{\sigma/\sqrt{n}} < \frac{X_c-\mu}{\sigma/\sqrt{n}} | \mu=400\right)\\ &=P\left(Z < \frac{X_c-400}{60/\sqrt{9}} \right) =0,05\\ & \rightarrow Z_\alpha = -1.64 ~ \mbox{ e }~ \frac{X_c-400}{60/\sqrt{9}}=-1,64 \\ & \rightarrow X_c=367,2\end{aligned}\]

Desta forma, iremos rejeitar H\(_0\) à um nível de significância de 5% se a média amostral for menor que 367,2 horas.

Como a média amostral de eficiência foi de 380 horas, temos que \(\bar{x} > x_c\) e não rejeitamos H\(_0\). Ou seja, à 5% de significância, não rejeitamos a hipótese de que a empresa vende repelente de insetos eficiente pelo prazo mínimo de 400 horas.

P-valor

O p-valor é uma medida quantitativa em testes de hipótese que depende diretamente dos valores observados de uma determinada amostra e que auxilia o processo de tomada de decisão.

Ou seja, o p-valor tenta fornecer uma medida da força dos resultados observados, em contraste com uma simples decisão de sim ou não. Se a hipótese nula for verdadeira e a chance de variação aleatória for a única razão para as diferenças amostrais, então o p-valor é uma medida quantitativa para auxiliar o processo de tomada de decisão através da evidência da amostra (Arsham ⊕1988Arsham, Hossein. 1988. “Kuiper’s P-Value as a Measuring Tool and Decision Procedure for the Goodness-of-Fit Test.” Journal of Applied Statistics 15 (2): 131–35.).

A tabela abaixo fornece uma possível interpretação dos p-valores (Burdette and Gehan ⊕1970Burdette, Walter J, and Edmund A Gehan. 1970. Planning and Analysis of Clinical Studies. Thomas.):

P-valor	Interpretação
P \(<\) 0,01	Evidência muito forte contra H\(_0\)
0,01 \(\leq\) P \(<\) 0,05	Evidência moderada contra H\(_0\)
0,05 \(\leq\) P \(<\) 0,10	Evidência sugestiva contra H\(_0\)
0,10 \(\leq\) P	Pouca ou nenhuma evidência real contra H\(_0\)

Em termos práticos, o p-valor é uma forma rápida para verificar se o valor da estatística observada está na região de rejeição ou não rejeição de H\(_0\).

O cálculo do p-valor depende do tipo de teste que está sendo aplicado.

Para o caso de testes de hipótese para média populacional \(\mu\) com \(\sigma^2\) conhecido, temos que

\[z_{obs}=\frac{\bar{x}-\mu_0}{\sigma/\sqrt{n}}\]

Teste unilateral à direta

\[\mbox{p-valor} = P(Z > z_{obs})\]

Teste unilateral à esquerda

\[\mbox{p-valor} = P(Z < z_{obs})\]

Teste bilateral

\[\mbox{p-valor} = 2 × P(Z < z_{obs})\]

De uma forma geral, quando o p-valor é menor que o nível de significância adotado, rejeita-se H\(_0\) e quando o p-valor é maior que o nível de significância adotado não rejeita-se H\(_0\).

EXEMPLO: Para o caso anterior da empresa vendedora de repelente de insetos, temos que

\[z_{obs}=\frac{\bar{x}-\mu_0}{\sigma/\sqrt{n}}=\frac{380-400}{60/\sqrt{9}}=-1\]

\[\mbox{p-valor} = P(Z < z_{obs})=P(Z < -1)=0,1586\]

Como p-valor é maior que o nível de significância adotado, 0,1586 > 0,05, não rejeitamos H\(_0\).

Handout #10 in process

Estatística Descritiva e Inferencial Básica

Prof. Anderson Ara (DESt-UFPR)

01 set 2022

Introdução aos Testes de Hipótese

Teste unilateral à direita

Teste unilateral à esquerda

Teste bilateral

Procedimentos gerais para um teste de hipótese

P-valor