Handout #09

Estatística Descritiva e Inferencial Básica

Prof. Anderson Ara (DESt-UFPR)

01 set 2022

Introdução à Inferência

A Inferência Estatística tem por objetivo realizar afirmações sobre a população a partir da amostra (Upton and Cook 2014Upton, Graham, and Ian Cook. 2014. A Dictionary of Statistics 3e. Oxford university press.), ou seja, trata-se de um conjunto de procedimentos, baseados na Teoria de Probabilidades, para generalizar características de população a partir da informação contida na amostra.

Assim como os procedimentos de amostragem possuem por objetivo a coleta de informação sobre a população, a Inferência Estatística tem por objetivo concluir para a população informações através da amostra, através de uma parcela, concluir para o todo. A relação entre população/amostra e amostragem/inferência é representada na Figura ao lado.

 Intuição de Inferência Estatística Intuição de Inferência Estatística

Os procedimentos mais comuns de Inferência Estatística envolvem a estimação de parâmetros (de forma pontual e intervalar), e os testes de hipóteses.

Antes de introduzirmos tais procedimentos é importante a definição formal de amostra aleatória.

Amostra aleatória: As variáveis aleatórias \(X_1, X2, \ldots, X_n\) são uma amostra aleatória de tamanho \(n\), se:

– Forem independentes;

– Cada \(X_i\) tiver mesma distribuição de probabilidade.

Dizemos que uma amostra aleatória é independente e identicamente distribuída (i.i.d). Ou seja, para uma população em que se tem interesse em avaliar uma variável aleatória \(X\), com determinada distribuição de probabilidade indexada pelo(s) parâmetro(s) \(\theta\), retiramos uma amostra aleatória de tamanho \(n\) para realizar inferências sobre \(\theta\). Cada componente \(X_i,\ldots,X_n\) desta amostra aleatória é, também, uma variável aleatória antes de ser observada. Além disso, supomos que não há relação de dependência entre as componentes durante a retirada da amostra e que cada uma delas possui a mesma distribuição de probabilidade na população, ou seja, a mesma distribuição de \(X\).

Desta forma, qualquer função de uma amostra aleatória também é uma variável aleatória, está sujeita a variabilidade, e pode ter seu comportamento caracterizado por distribuições de probabilidades.

Distribuição amostral

A distribuição amostral representa todas os possíveis valores obtidos por meio de uma amostra de tamanho \(n\) de variável aleatória.

A convergência dessa distribuição amostral é balizada pela Lei dos Grandes Números e pelo Teorema Central do Limite.

O Teorema Central do Limite (TCL) é um dos teoremas mais importantes da Estatística e Probabilidade. Basicamente, ele estabelece que a distribuição da soma (ou média) de um grande número de variáveis aleatórias independentes e identicamente distribuídas (i.i.d.) será aproximadamente normal, independentemente da distribuição dessas variáveis.

Seja uma amostra aleatória simples \((X_{1},X_{2},...,X_{n})\) de tamanho \(n\) retirada de uma população com média \(\mu\) e variância \(\sigma ^{2}\) finita. Então, à medida que \(n\) cresce, a distribuição amostral da média \(\bar{X}=\frac{\sum^n_{i=1}X_i}{n}\) aproxima-se de uma distribuição normal com média \(\mu\) e variância \(\frac{\sigma^{2}}{n}\).

Ou seja,

\[\bar{X} \underset{n\rightarrow \infty} \sim N\left(\mu, \frac{\sigma^2}{n}\right)\]

sendo \(E(\bar{X})=\mu\) e \(\mbox{Var}(\bar{X})=\frac{\sigma^2}{n}\).

A Figura abaixo exibe a distribuição amostral de \(\bar{X}\) de uma amostra de tamanho \(n\) retirada de uma população com distribuição Poisson com \(\lambda=1\).

TCL em amostras de uma distribução Poisson com parâmetro 1

TCL em amostras de uma distribução Poisson com parâmetro 1

A Figura abaixo exibe a distribuição amostral de \(\bar{X}\) de uma amostra de tamanho \(n\) retirada de uma população com distribuição Uniforme \((1,5)\).

TCL em amostras de uma distribução Uniforme (1,5)

TCL em amostras de uma distribução Uniforme (1,5)

Em muitos casos de interesse prático, a aproximação normal será satisfatória para \(n ≥ 30\). Se \(n < 30\), o TCL funcionará razoavelmente se a distribuição da população não for muito diferente da distribuição normal.

Esse é um dos motivos do porquê a distribuição normal é bastante utilizada em métodos estatísticos como os quais abordaremos nas próximas seções.

Estimação Pontual

Suponha que estamos estudando uma população de tamanho \(N\) onde o interesse é obter informações sobre a média populacional, denotada por \(\theta\) e, uma vez observados todos os possíveis valores da variável aleatória \(X\) na população, temos que

\[\theta=\frac{\sum^N_{i=1}X_i}{N}\].

Para estimar \(\theta\) por meio de uma amostra aleatória de tamanho \(n\), \(X_1, \ldots, X_n\) utilizamos a média amostral \(\hat{\theta}\) ou \(\bar{X}\).

\[\hat{\theta}=\bar{X}=\frac{\sum^n_{i=1}X_i}{n}\]

Dizemos que \(\hat{\theta}\) é um estimador do parâmetro \(\theta\) e o valor observado de \(\hat{\theta}\) é uma estimativa pontual do parâmetro \(\theta\).

Note que \(\hat{\theta}\) é uma variável aleatória e está sujeito a variação, diferentes elementos observados da amostra poderão produzir diferentes valores de \(\hat{\theta}\), ou seja, produzir diferentes estimativas.

Além disso, muitos outros estimadores poderiam ser utilizados, por exemplo, retirar um único valor aleatoriamente da população, ou seja, uma amostra aleatória de tamanho \(n=1\).

Para ilustrar essa ideia, considere uma população que tenha distribuição normal com média 10 e desvio padrão 2, a Figura abaixo compara diferentes estimativas produzidas por duas possíveis formas de estimar a média populacional através da média amostral. Neste caso, para amostras de tamanho \(n=1\) e \(n=10\), respectivamente \(\bar{X}_1\) e \(\bar{X}_{10}\).

Comparação entre duas formas de estimar a média populacional

Comparação entre duas formas de estimar a média populacional

Para o caso da comparação entre duas formas de estimar a média populacional através de \(\bar{X}_1\) e \(\bar{X}_{10}\), temos que a média de ambos os estimadores é igual ao verdadeiro valor do parâmetro \(\theta=10\), porém notamos que \(\bar{X}_1\) possui uma maior variabilidade comparado a \(\bar{X}_{10}\). Dizemos que ambos são estimadores não viciados para \(\theta\), e que \(\bar{X}_{10}\) é mais eficiente que \(\bar{X}_{1}\), uma vez que possui uma menor variabilidade.

Uma outra situação onde podemos verificar a importância de construir processos corretos de estimação pontual, se dá para a estimação da variância populacional.

Seja a variância populacional \(\sigma^2\) dada por

\[\sigma^2=\frac{\sum_{i=1}^N (X_i-\mu)^2}{N}\]

Duas possíveis formas de estimar \(\sigma^2\) através de uma amostra são dadas por:

\[\hat{\sigma}^2=\frac{\sum_{i=1}^n (X_i-\bar{X})^2}{n}\]

e

\[S^2=\frac{\sum_{i=1}^n (X_i-\bar{X})^2}{n-1}\]

A Figura abaixo compara as diferentes estimativas produzidas por \(\hat{\sigma}\) e \(S\) para estimar o desvio padrão populacional de uma distribuição normal com média 10 e desvio padrão 2.

Comparação entre duas formas de estimar a variância populacional

Comparação entre duas formas de estimar a variância populacional

Para o caso da comparação entre as diferentes estimativas produzidas por \(\hat{\sigma}\) e \(S\) para estimar o desvio padrão populacional, notamos que ambos possuem variabilidade bastante semelhante. Porém, a média de \(\hat{\sigma}\) se afasta do verdadeiro valor da desvio padrão populacional. Dizemos que \(\hat{\sigma}\) é um estimador viciado para \(\sigma\), ao contrário de \(S\) que é um estimador não viciado.

Uma vez que existem diversos tipos de parâmetros e diversos tipos de distribuição de probabilidade, bem como os estimadores são baseados em amostras aleatórias, temos uma grande variedade de estimadores. Estes possuem propriedades desejáveis para serem considerados bons estimadores para seus respectivos parâmetros.

Algumas propriedades dos estimadores são:

Tais propriedades são importantes para comparar estimadores, porém elas não nos orientam sobre como construir bons estimadores. Existem métodos específicos para obtenção de estimadores, os mais comums são:

Devido ao escopo deste material, as propriedades dos estimadores e métodos de estimação não são aqui abordados. Para informações sobre tais metodologias consultar outras fontes como, por exemplo, Morettin and Bussab (2017Morettin, P. A., and W. O. Bussab. 2017. Estatística Básica. Editora Saraiva.) e Bolfarine and Sandoval (2001Bolfarine, Heleno, and Mônica Carneiro Sandoval. 2001. Introdução à Inferência Estatı́stica. Vol. 2. SBM.).

Estimação Intervalar

Encontramos, até agora, uma estimativa do parâmetro desconhecido em estudo através de estatísticas que especificam um único valor para o parâmetro.

Por exemplo, para a média populacional \(\mu\), ao calcularmos a estatística \(\bar{X}\) para uma determinada amostra, o valor que estima \(\mu\), é a única estimativa para a média populacional, ou seja, esta estimativa resume toda informação presente nos dados e, em geral, é utilizada quando precisamos obter informação sobre o verdadeiro valor do parâmetro.

Porém, a determinação de um valor para o parâmetro, em geral, é insuficiente, pois a probabilidade de que a estimativa encontrada seja exatamente igual ao verdadeiro valor do parâmetro é nula ou praticamente nula, uma vez que os estimadores podem ser vistos como variáveis aleatórias contínuas. Então, quando estimamos o parâmetro por apenas um único valor é quase certa a ocorrência de erro de estimação. Ou seja, o procedimento de estimação pontual não permite julgar a magnitude de um erro que possivelmente podemos cometer. Para sabermos a precisão de tal estimativa, podemos construir um intervalo de confiança para \(\mu\), ou seja, encontrar uma faixa de valores utilizada para estimar o verdadeiro valor do parâmetro.

Por serem variáveis aleatórias, os estimadores possuem distribuição de probabilidade. Então, podemos apresentar uma estimativa mais informativa para o parâmetro de interesse, que inclua uma medida de precisão no valor obtido. Esse método é chamado de Intervalo de Confiança. Este intervalo incorpora à estimativa pontual do parâmetro, informações a respeito de sua variabilidade. Intervalos de confiança são obtidos através da distribuição amostral de seus estimadores.


EXEMPLO: Em processos de controle de qualidade estatístico, geralmente, estamos preocupados em estimar a média populacional do processo de produção, ou seja, um valor específico e não conhecido, que expresse realmente o que o processo está produzindo. Por exemplo, conhecer o diâmetro médio de parafusos de cabeça chanfrada fabricados por todo o processo. Assim, obter estimativas mais informativas aumentam a confiabilidade de análise.


Ideia central: Construir um intervalo em torno da estimativa pontual e que este contenha o verdadeiro valor do parâmetro.

O intervalo deverá conter o verdadeiro valor do parâmetro e fornece informações adicionais sobre a variabilidade. Chamamos de nível de confiança \((1-\alpha)\) o grau de confiança do intervalo conter o verdadeiro valor do parâmetro, de modo que o verdadeiro valor do parâmetro esteja contido em \((1-\alpha)\) destes intervalos.

A probabilidade de erro é denotada por \(\alpha\), sendo esta a probabilidade de erro ao afirmar que o valor do parâmetro está contido no intervalo de confiança.

A fórmula geral para construção dos intervalos de confiança é:

\[\mbox{Valor pontual estimado} ± \mbox{fator de confiança}\times\mbox{Erro Padrão}\]

O fator de confiança depende do nível de confiança adotado e o erro padrão está associado a variabilidade do estimador utilizado.

O produto fator de confiança \(\times\) Erro Padrão é conhecido como margem de erro.

Algumas observações:

  1. Construímos, aqui, intervalos de confiança simétricos para a média populacional;

  2. O intervalo de confiança (i.c.) é aleatório, pois dependerá dos valores amostrais, e é construído para um parâmetro suposto constante;

  3. O intervalo conterá o verdadeiro valor com parâmetro com confiança \((1-\alpha)\). Da mesma forma, o intervalo não irá conter o verdadeiro valor do parâmetro com probabilidade \(\alpha\).

  4. Notação probabilística:

\[P\left(\mu-e_0 \leq \bar{X} \le \mu+e_0\right)=1-\alpha\]

  1. As escolhas comuns para \((1-\alpha)\) são 90%, 95% e 99%; porém, a mais utilizada é 95%, resultando em um bom equilíbrio entre precisão e confiabilidade.

Para a construção de intervalos de confiança para a média populacional, deve-se supor que:

Assim, temos três casos básicos para a construção de intervalo de confiança para a média populacional.

Caso 1: Intervalo de Confiança para \(\mu\): caso \(\sigma\) conhecido.

Seja \(X_1, \ldots, X_n\) uma amostra aleatória de uma população com \(\sigma\) conhecido. Para fazer inferências a respeito de \(\mu\), nos baseamos na média amostral \(\bar{X}\). Além disso, sabemos via o Teorema Central do Limite que:

\[Z=\left(\frac{\bar{X}-\mu}{\frac{\sigma}{\sqrt{n}}}\right)\sim N(0,1)\]

A estatística \(Z\) é função da amostra e do parâmetro \(\mu\), mas sua distribuição de probabilidade não depende de \(\mu\). Utilizando uma tabela da distribuição normal padrão \(N(0,1)\), podemos obter o valor \(z_{\alpha/2}\) tal que

\[P(-z_{\alpha/2} \leq Z \leq z_{\alpha/2})=1-\alpha\] Assim,

\[\begin{aligned} P\left(-z_{\alpha/2} \leq Z \leq z_{\alpha/2}\right) &=P\left(-z_{\alpha/2} \leq \frac{\bar{X}-\mu}{\frac{\sigma}{\sqrt{n}}} \leq z_{\alpha/2}\right)\\ &=P\left(-z_{\alpha/2}\frac{\sigma}{\sqrt{n}} \leq \bar{X}-\mu\leq z_{\alpha/2}\frac{\sigma}{\sqrt{n}}\right)=1-\alpha \end{aligned}\]

Note que o parâmetro \(\mu\) é desconhecido e fixo, portanto, não tem distribuição probabilística: não estamos construindo um intervalo de probabilidade para \(\mu\). Como os limites do intervalo são variáveis aleatórias e após a amostra ser obtida, podemos dizer,

\[\bar{X}-z_{\alpha/2}\frac{\sigma}{\sqrt{n}} \leq \mu \leq \bar{X}+z_{\alpha/2}\frac{\sigma}{\sqrt{n}}\]

Com \((1-\alpha)\) de confiança, sendo \(z_{\alpha/2}\) o quantil da distribuição normal.

O intervalo de confiança \((1-\alpha)100\%\) para \(\mu\) é dado por:

\[IC\left[\mu,(1-\alpha)100\%\right]=\left[\bar{X}-z_{\alpha/2}\frac{\sigma}{\sqrt{n}} ; \bar{X}+z_{\alpha/2}\frac{\sigma}{\sqrt{n}} \right]\]

Note que o intervalo de confiança para \(\mu\) é um indicador da precisão estimativa de \(\bar{X}\).

Caso 2: Intervalo de Confiança para \(\mu\): caso \(\sigma\) desconhecido e \(n \ge 30\).

Seja \(X_1, \ldots, X_n\) uma amostra aleatória de uma população com \(\sigma\) desconhecido. Para fazer inferências a respeito de \(\mu\), nos baseamos na média amostral \(\bar{X}\). Porém, neste caso, como a variância populacional é desconhecida, podemos utilizar a variância amostral como estimativa para \(\sigma^2\), dada por:

\[S^2=\frac{\sum_{i=1}^n(X_i-\bar{X})^2}{n-1}\]

O intervalo de confiança \((1-\alpha)100\%\) para \(\mu\) é dado por:

\[IC\left[\mu,(1-\alpha)100\%\right]=\left[\bar{X}-z_{\alpha/2}\frac{S}{\sqrt{n}} ; \bar{X}+z_{\alpha/2}\frac{S}{\sqrt{n}} \right]\]

Caso 3: Intervalo de Confiança para \(\mu\): caso \(\sigma\) desconhecido e \(n < 30\).

\[T=\left(\frac{\bar{X}-\mu}{\frac{S}{\sqrt{n}}}\right)\sim t_{n-1}\] A variável aleatória \(T\) tem distribuição t-student com \(n-1\) graus de liberdade, parâmetro desta distribuição. Essa distribuição é muito parecida com a distribuição normal padrão, pois também é simétrica e em formato sino em torno do zero. Porém, é mais “achatada” que a normal padrão. Considere a Figura abaixo para comparação entre a curva t-student e a curva normal padrão.

Distribuição Normal Padrão e Distribuição t-student

Distribuição Normal Padrão e Distribuição t-student

Os valores da distribuição t-student também são tabelados para diferentes graus de liberdade.

Um intervalo de confiança para \(\mu\) com \(\sigma\) desconhecido é construído de maneira análoga ao caso de \(\sigma\) conhecido, considerando apenas a distribuição t-student ao invés da distribuição normal padrão.

Então,

\[P\left(-t_{n-1,\alpha/2}\frac{S}{\sqrt{n}} \leq \bar{X}-\mu\leq t_{n-1,\alpha/2}\frac{S}{\sqrt{n}}\right)=1-\alpha\]

O intervalo de confiança \((1-\alpha)100\%\) para \(\mu\) é dado por:

\[IC\left[\mu,(1-\alpha)100\%\right]=\left[\bar{X}-t_{n-1,\alpha/2}\frac{S}{\sqrt{n}} ; \bar{X}+t_{n-1,\alpha/2}\frac{S}{\sqrt{n}} \right]\]


EXEMPLO: O departamento de RH deseja abrir uma nova vaga em uma determinada empresa, assim, deseja determinar o salário médio para o primeiro ano de trabalho de um profissional desta área. Assim, entrevistou alguns especialistas da área e, baseados na experiência, cada um sugeriu um salário adequado para o cargo. Os dados observados são expostos na tabela abaixo.

Entrevistado 1 Entrevistado 2 Entrevistado 3 Entrevistado 4 Entrevistado 5
R$ 1091.29 R$ 584.11 R$ 793.17 R$ 911.75 R$ 1000.33

i. Construa uma estimativa intervalar para o salário médio considerando 95% de confiança e a seguinte amostra.

Resolução: Para os dados temos que \(\bar{x}=876,13\) e \(s=196,94\), sendo \(n=5\), então devemos construir um intervalo de confiança de 95% através da distribuição t-student com 4 graus de liberdade.

\[IC\left[\mu,(1-\alpha)100\%\right]=\left[876,13-t_{n-1,\alpha/2}\frac{196,94}{\sqrt{5}} ; \bar{X}+t_{n-1,\alpha/2}\frac{196,94}{\sqrt{5}} \right]\]

sendo \(t_{4;~97,5\%}=2,776\), temos que

\[IC\left[\mu,(1-\alpha)100\%\right]=\left[876,13-2,776\frac{196,94}{\sqrt{5}} ; \bar{X}+2,776\frac{196,94}{\sqrt{5}} \right]=[631,64; 1120,62]\]

ii. Construa uma estimativa intervalar supondo, agora, que em um estudo prévio tenha sido encontrado que para tais salários, sendo \(\sigma= R\$ 250,00\).

Resolução: Como \(\sigma\) é suposto conhecido devemos construir um intervalo de confiança de 95% através da distribuição normal padrão.

sendo \(z_{97,5\%}=1,96\), temos que

\[IC\left[\mu,(1-\alpha)100\%\right]=\left[876,13-1,96\frac{250,00}{\sqrt{5}} ; \bar{X}+1,96\frac{250,00}{\sqrt{5}} \right]=[657,00; 1095,27]\]


Interpretação do Intervalo de confiança

Ao coletar a amostra, \(\bar{X}\) torna-se \(\bar{x}\) e, como conhecemos \(n\), \(\sigma\) ou \(S\) e \(z\) (ou \(t\)), o intervalo passa a ser expresso por dois valores numéricos. Desta forma, podemos interpretar o intervalo da seguinte forma: se obtivemos várias amostras de um mesmo tamanho e para cada uma calculamos os correspondentes intervalos de confiança com coeficiente de confiança \((1-\alpha)\) , esperamos que a proporção de intervalos que contenham o valor de \(\mu\) seja de \((1-\alpha)100\%\).

A Figura abaixo exibe 100 intervalos de 95% confiança para amostras de tamanho 50 retiradas de uma população com distribuição Poisson com \(\lambda=2\). Note que nos 100 intervalos, 95 deles contemplam o verdadeiro valor do parâmetro, sendo que 5 não contemplam.

Interpretação Intervalo de Confiança

Interpretação Intervalo de Confiança

Intervalos de Confiança em R

#Salários do exemplo anterior
salarios <- c(1091.29, 584.11, 793.17, 911.75, 1000.33)

#construção de IC de 95% de confiança via função t.test
ic95 <- t.test(salarios,conf.level = 0.95)
ic95$conf.int
## [1]  631.5929 1120.6671
## attr(,"conf.level")
## [1] 0.95
#construção de IC de 99% de confiança via função t.test
ic99 <- t.test(salarios,conf.level = 0.99)
ic99$conf.int
## [1]  470.6215 1281.6385
## attr(,"conf.level")
## [1] 0.99
#IC de 95% de confiança via função normal padrão
require(BSDA)
icz95 <- z.test(salarios,conf.level = 0.95,sigma.x=250)
icz95$conf.int
## [1]  656.9994 1095.2606
## attr(,"conf.level")
## [1] 0.95

Intervalos de Confiança em Python

import numpy as np
import math
import scipy.stats as st
  
#Salários do exemplo anterior
salarios = [1091.29, 584.11, 793.17, 911.75, 1000.33]


# st.sem calcula o erro padrão sigma.est/sqrt(n)
st.sem(salarios)
## 88.07561864670609
np.std(salarios,ddof=1)/math.sqrt(len(salarios))
## 88.07561864670609
#construção de IC de 95% conf. via t-student
st.t.interval(alpha=0.95, df=len(salarios)-1,
              loc=np.mean(salarios),
              scale=st.sem(salarios))
              
## (631.592879721085, 1120.6671202789153)
#IC de 95%  conf. via normal padrão com sigma=250    
st.norm.interval(alpha=0.95,
                 loc=np.mean(salarios),
                 scale=250/math.sqrt(len(salarios)))
## (656.9993648558548, 1095.2606351441455)