Subsecções

3 Populações e amostras

3.1 Inferência estatística

Inferência estatística é o processo pelo qual estatísticos tiram conclusões acerca da população usando informação de uma amostra.

Você pode estar familiar com o termo `população' num sentido biológico/geológico. Em estatística, o termo não se refere necessariamente a pessoas, plantas, animais, etc. Ele poderia também se referir, por exemplo, a fósseis, rochas e sedimentos num determinado local, etc.

A população se refere a todos os casos ou situações as quais o pesquisador quer fazer inferências ou estimativas. Diferentes pesquisadores podem querer fazer inferências acerca da concentração de poluentes num determinado lençol freático; predizer a quantidade de petróleo num poço a ser perfurado e assim por diante.

Note que o investigador não está interessado em todos os aspectos da população. O pesquisador pode não estar interessado em estudar a concentração de todos os tipos de poluentes, somente alguns poluentes mais importantes para seu estudo.

Uma amostra é um subconjunto da população usado para obter informação acerca do todo.

Mas exatamente por quê tomamos uma amostra? Por quê não usamos a população toda?

Características de uma população que diferem de um indivíduo para outro e as quais temos interesse em estudar são chamadas variáveis. Exemplos são comprimento, massa, idade, temperatura, número de ocorrências, etc. Cada unidade (membro) da população que é escolhido como parte de uma amostra fornece uma medida de uma ou mais variáveis, chamadas observações.

3.2 Princípios de estimação

Utilizamos estimativas de uma amostra como nosso ``melhor chute'' para os verdadeiros valores populacionais. Exemplos são a média amostral, o desvio padrão amostral, a mediana amostral, os quais estimam a verdadeira média, desvio padrão e mediana da população (que são desconhecidos). Os verdadeiros (desconhecidos) valores populacionais são chamados parâmetros.

Note que estatísticas são usualmente representadas por letras Romanas, (por exemplo, $\bar{x}$ para a média amostral, $s$ para o desvio padrão amostral), enquanto que parâmetros são usualmente representados por letras Gregas (por exemplo, $\mu$ para a média populacional, $\sigma$ para o desvio padrão populacional).

É claro que à medida que a amostra aumenta, mais informação nós teremos acerca da população de interesse, e portanto mais precisa serão as estimativas dos parâmetros de interesse.

3.3 Obtendo uma amostra

Obtemos uma amostra para fazer inferências de uma população. Nossas inferências são válidas somente se a amostra é representativa da população. Na prática não existe forma de garantir isto sem ter informação da população inteira para comparar com a amostra. E em tais circunstâncias não haveria necessidade de amostragem!

Ao invés disso, podemos assegurar que não existem vícios sistemáticos em nossa amostra através de uma seleção aleatória dos membros da população. Uma amostra aleatória independente é uma amostra selecionada de tal forma que

  1. todos os membros da população têm a mesma chance de serem selecionados;
  2. cada combinação possível de um dado número de membros tem a mesma chance de ser selecionada.

Em princípio, a melhor forma de obter uma amostra aleatória de tamanho $n$ é ter uma lista de todos os membros da população, dar a todos um número digamos de 1 a $N$, e então escolher aleatoriamente $n$ números de 1 a $N$ para definir a amostra. É claro que na prática isto não é exequível, especialmente quando a população é infinita.

Na maioria dos casos é difícil obter amostras aleatórias. Considere o seguinte diagrama que mostra a `população' de circulos. Pense neles como se fossem grânulos de tamanhos diferentes. O diâmetro médio destes circulos é mm.


\includegraphics[width=5.1in]{pics/circles.ps}


Suponha que selecionemos uma amostra de 5 destes círculos jogando um lápis sobre o papel repetidamente até que tenhamos atingido 5 circulos. Qual é o diâmetro médio de nossos 5 circulos? O valor está perto de mm?

No exemplo acima, o esquema amostral causou um vício. Um vício similar seria obtido por exemplo na amostragem de um particular tipo de animal - pode ser que os animais que se consegue capturar e medir são aqueles que não podem correr tão rápido, ou ao usar uma armadinha, você pode amostrar somente os animais mais famintos, etc.

Sempre que uma amostra é obtida, o processo de amostragem deve estar bem documentado de tal forma que quais inferências retiradas acerca da população pode avaliadas à luz da estratégia amostral.

Paulo Justiniano Ribeiro Jr