Handout #02

Estatística Descritiva e Inferencial Básica

Prof. Anderson Ara (DESt-UFPR)

24 jun 2022

Noções de Amostragem

Ao observar o mundo, muitas de nossas conclusões ou conhecimentos são baseados em amostras. Olhamos parte do céu para verificar a possibilidade de chuva, estudamos alguns livros para obter conhecimentos, ou ainda, ao se aproximar de qualquer pessoa podemos interpretar seus gestos e atitudes para tentar detectar algumas situações ou sentimentos. Todas estas observações são parte de um fenômeno mais extenso, que não pode ser observado continuamente. Porém, podemos observar uma parte deste para conhecê-lo ou tirar conclusões. Esta ideia é replicada para a área científica. Quando o interesse está em verificar se determinado medicamento é eficaz no combate de uma doença específica, testamos tal medicamento em um grupo de indivíduos portadores da doença. Se desejamos determinar a taxa de falha de um sistema produtivo, observamos os defeitos ocorridos em uma parcela de tempo. Para detectar o nível de satisfação de um grupo de clientes, podemos realizar uma pesquisa em uma parcela destes clientes. Para verificar a confiabilidade de um servidor, podemos observar algumas informações para um número específico de conexões a este servidor. Note que em nenhuma das aplicações acima é possível observar o fenômeno inteiro, por conta de alguns fatores. Por exemplo, dificuldade de termos acesso a todos os portadores da doença ou a todos itens que já foram, estão sendo ou serão produzidos, ou a todos possíveis clientes de uma empresa ou, ainda, a todas possíveis conexões de um servidor.

A coleta de dados no ambiente em que ocorre o fenômeno estudado é essencial e pode ser feita para uma parte da população de estudo. Amostragem é a parte da Estatística que trata das técnicas para obtenção de dados de uma parte da população (amostra), e da metodologia adequada à cada técnica

Segundo Cochran (2007Cochran, W. G. 2007. Sampling techniques. John Wiley & Sons.), a coleta de dados via amostragem possui as seguintes vantagens:

  1. redução de custos: em determinados ambientes de estudo, a coleta de informações envolve custo. Amostras menores tendem a ter menor custo do que amostras maiores, as quais possuem menor custo quando comparada à consulta de toda a população - desde que a consulta seja possível;

  2. maior rapidez: quando a consulta em todo ambiente de estudo é possível, a coleta de dados para apenas uma parte deste ambiente torna-se praticamente mais rápida;

  3. maior alcance e flexibilidade: é possível estudar os elementos amostrados com mais detalhes, coletar mais informações a respeito dos elementos que compõem a amostra;

  4. maior precisão: quando estamos analisando um conjunto de dados ou uma amostra o volume de trabalho é reduzido, fato que pode exigir maior precisão da equipe responsável pela coleta e análise dos dados.

A ideia geral da amostragem é baseada na retirada de uma parte do ambiente sob estudo. Como visto anteriormente, a terminologia estatística mais comum para o ambiente - universo - de estudo é população.

Ideia geral de amostragem. Ideia geral de amostragem.

Quando estudamos uma população geralmente estamos interessados em conhecer quantidades que descrevem o comportamento da população, em diversos aspectos. Estas quantidades (desconhecida) são chamadas de parâmetros. Exemplos de parâmetros são porcentagem de servidores que falham, grau médio de satisfação dos clientes, número de itens defeituosos produzidos por lote e, precisão média de um instrumento de calibração. A única forma de se obter o valor real do parâmetro é realizar uma coleta de dados envolvendo todos os elementos da população, o que na maioria das vezes pode ser impraticável. Desta forma, utilizamos a amostra para encontrar um valor para os parâmetros, ou seja, estimar o parâmetro. A Figura 1 exibe a ideia da amostragem, sendo o parâmetro denotado pela letra grega \(\theta\) e a estimativa do parâmetro denotada por \(\hat{\theta}\).


EXEMPLO: Considere a pesquisa divulgada pela revista VEJA em Setembro de 2012.

Título original: Desempenho escolar e comorbidade psiquiátrica em crianças com Migrânea e Cefaleia do Tipo Tensional.

Instituição: Instituto Glia de Cognição e Desenvolvimento.

Dados de amostragem: 5.671 crianças de 5 a 12 anos de idade.

Resultado geral: Cerca de \(8\%\) das crianças do Brasil têm enxaqueca.

População: Crianças brasileiras de 5 a 12 anos de idade.

Amostra: 5.671 crianças.

\(\theta\): Proporção de crianças com enxaqueca na população.

\(\hat{\theta}\): \(0,08\) ou \(8\%\).

Fonte: veja.abril.com.br




EXEMPLO: Considere a pesquisa realizada pelo Instituto de Pesquisa de Opinião (IPO) (http://www.ipo.inf.br/) no dia 9 de março de 2013. Entre outros, um dos objetivos da pesquisa era verificar a proporção de habitantes do município de Farroupilha-RS que não tinham preferência por times de futebol.

População: Habitantes do município de Farroupilha-RS, 67 mil habitantes.

Amostra: 407 entrevistados.

\(\theta\): Proporção de habitantes que não possuem preferência por times de futebol.

\(\hat{\theta}\): \(0,175\) ou \(17,5\%\).

Fonte: globoesporte.com




EXEMPLO: Considere a reportagem intitulada “Três em cada dez brasileiros usam máscara em local aberto, indica pesquisa” da Folha de São Paulo de 29 de abril de 2022. Entre outros objetivos, a pesquisa visava verificar a proporção de brasileiros que utilizavam máscara em locais abertos e fechados, uma vez que muitos estados já haviam desobrigado o uso de máscara em locais fechados na vigente da pandemia de Covid-19.

População: residentes nos 26 Estados e Distrito Federal (Unidades da Federação) e maiores de 16 anos.

Amostra: 2015 entrevistados

\(\theta_1\): Proporção de residentes que ainda utilizavam máscara em locais fechados;

\(\hat{\theta}_1\): \(0,53\) ou \(53\%\).

\(\theta_2\): Proporção de residentes que ainda utilizavam máscara em locais abertos;

\(\hat{\theta}_2\): \(0,29\) ou \(29\%\).

Fonte: www1.folha.uol.com.br



Uma boa coleta de dados via amostragem está baseada na obtenção de uma amostra que possui características equivalentes ao universo em estudo. Uma amostra deve possuir as mesmas características básicas da população no que diz às variáveis de interesse, ou seja, a amostra deve ser a mais parecida possível com a população em estudo. É importante salientar que uma amostra de má qualidade - não representativa da população - pode levar a conclusões erradas. Desta forma, deve-se ter uma grande preocupação com o procedimento utilizado para realizar a coleta de uma amostra.

Existem diversos procedimentos para obtenção de uma amostra da população, sendo que as principais são chamadas de técnicas de amostragem probabilísticas. A utilização de tais técnicas, balizadas pela teoria de probabilidades, garante que cada elemento da população tem uma chance (probabilidade) diferente de zero para ser selecionado, isto é, pertencer à amostra. Procedimentos que não possuem este balizamento são cientificamente não aceitos, como amostragem intencional, amostragem por cotas e amostragem a esmo. Mais detalhes sobre técnicas de amostragem não probabilísticas podem ser consultados em Bussab e Bolfarine (2005Bussab, W. de O., e H. Bolfarine. 2005. Elementos de amostragem. Ed. Edgard Blucher. São Paulo.).

A seguir, descrevemos sucintamente as principais técnicas de amostragem probabilísticas. A Denotamos por \(N\) o tamanho da população e por \(n\) o tamanho da amostra. Esta notação é usado ao longo do texto.

Amostragem Aleatória Simples

Também conhecida como casual simples, a amostragem aleatória simples é a maneira mais fácil de selecionar uma amostra. A população deve ser finita e todos os elementos da população devem ter a mesma chance de serem sorteados (como por exemplo, uma listagem). Todas as combinações da população de tamanho \(n\) (tamanho da amostra) devem ter a mesma probabilidade de seleção. O termo aleatório está relacionado a um mecanismo aleatório de sorteio. Antigamente, utilizava-se a tabela de números aleatórios para realizar um sorteio aleatório para este tipo de amostragem. Hoje em dia, o mecanismo de sorteio aleatório está implementado em muitos softwares. Ao final desta seção, exibimos os códigos para seleção de amostras aleatórias utilizando as linguagens R e Python.

Uma amostra aleatória pode ser retirada de uma população considerando duas formas: ou com reposição de elementos ou sem a reposição de elementos. Para ilustrar estes dois casos, consideramos a definição-exemplo dado por Spiegel (1976Spiegel, M. R. 1976. Estatı́stica. São Paulo: McGraw-Hill do Brasil.): Se extrairmos um objeto de uma urna, podemos repô-lo, ou não, na urna antes da nova extração. No primeiro caso, o objeto pode aparecer repetidas vezes, enquanto que, no segundo caso, o objeto só pode aparecer uma única vez. Chamamos o primeiro caso de amostragem com reposição e o segundo caso de amostragem sem reposição.

Note que a sequência de lançamentos de uma moeda, ou de um dado tradicional de 6 faces, pode ser considerada uma amostragem com reposição, uma vez que a cada lançamento os resultados podem ser repetidos. Ou seja, em uma população finita, \(N < \infty\), podemos retirar infinitas amostras com reposição. Como exemplo para este caso, poderíamos lançar a moeda infinitas vezes.

Em estudos práticos, a amostragem aleatória simples sem reposição é mais utilizada. A Figura 2 exibe o esquema geral de uma amostragem aleatória simples (sem reposição).

Obtenção de uma amostra aleatória simples (sem reposição) para indivíduos da população com duas características diferentes, $N=20$ e $n=4$. Obtenção de uma amostra aleatória simples (sem reposição) para indivíduos da população com duas características diferentes, \(N=20\) e \(n=4\).

Amostragem Aleatória Estratificada

Método de amostragem pelo qual, através de uma informação adicional, dividimos a população em grupos chamados estratos. Estes estratos possuem elementos que são parecidos; porém, os grupos são diferentes entre si. Este esquema é utilizado para minimizar a variabilidade de estimação do parâmetro de interesse e, aumentar a probabilidade de sorteio de uma amostra que represente a população. A Figura 3 exibe o esquema geral de uma amostragem aleatória estratificada tendo uma característica como informação adicional - raça dos indivíduos a serem selecionados. No sentido de especificar quantos elementos da amostra serão retirados em cada estrato, o tamanho da amostra pode ser o mesmo para todos os estratos ou, proporcional ao tamanho do estrato, ou ainda, de tamanho ótimo-proporcional ao tamanho e à variação de cada estrato. Mais detalhes sobre os tipos de amostragem estratificada podem ser encontrados em Kalton (1983Kalton, G. 1983. Introduction to survey sampling. Vol. 7. 35. SAGE University Paper series on Quantitative Applications in the Social Sciences, series no. 07-035, Beverly Hills; London: SAGE Publications, Inc,).

Obtenção de uma amostra aleatória estratificada para indivíduos da população com duas características diferentes, $N=20$ e $n=4$. Obtenção de uma amostra aleatória estratificada para indivíduos da população com duas características diferentes, \(N=20\) e \(n=4\).


EXEMPLO: Um especialista em qualidade trabalha em uma empresa de alta tecnologia que produz aparelhos médicos. O maquinário desta empresa possui mão de obra extremamente cara e é composto por apenas 8 máquinas (esquema abaixo). Assim, devido à atual política de qualidade da empresa, o grau de desgaste das máquinas precisa ser calculado. Porém, o grau só pode ser medido por consultores de fora da empresa e que é cobrado \(R\$ 3.000,00\) por máquina analisada. O ideal seria analisar todas as máquinas, porém o departamento financeiro liberou - no máximo - \(R\$ 12.000,00\) para tal operação.

Resolução: Ao observar o setor, vemos que a população em estudo é constituída por 8 máquinas e, através do custo, só há a possibilidade do estudo de 4 destas. Um vez que o grau de desgaste de toda a população deve ser avaliado, a melhor forma é realizar uma amostragem, retirando-se uma amostra aleatória estratificada com dois estratos: Estrato 1 (SS056, SS045, SS052 e SS064) e Estrato 2 (SS057, SS059, SS051 e SS050). Assim, seleciona-se duas máquinas aleatoriamente em cada estrato.


Amostragem por Conglomerados

Este tipo de amostragem é uma possível abordagem quando a população se encontra subdividida em grupos, de tal forma que os grupos sejam internamente diferentes e externamente parecidos; estes grupos são chamados de conglomerados. Note que o conceito de conglomerado é oposto ao conceito de estrato, visto na seção anterior.

Utilizamos a amostragem aleatória por conglomerados, muitas vezes, por motivos práticos e econômicos, na qual a população já está dividida em pequenos grupos (conglomerados). A amostra é obtida pelo sorteio aleatório de um número especificado de elementos destes grupos. A Figura 4 caracteriza graficamente o procedimento de amostragem por conglomerados.

Obtenção de uma amostra aleatória por conglomerados para indivíduos da população com duas características diferentes, $N=20$ e $n=4$. Obtenção de uma amostra aleatória por conglomerados para indivíduos da população com duas características diferentes, \(N=20\) e \(n=4\).


EXEMPLO: Uma pesquisadora de sistemas de informação pretende avaliar o conhecimento relativo à fontes de informação em alunos da oitava série de uma escola pública. O objetivo específico de sua pesquisa é avaliar o impacto da internet - como meio de informação - comparada à outras fontes. Para este fim, será aplicado um questionário em uma amostra destes alunos. Supondo que a amostra coletada seja de tamanho 30 e que a escola possui 6 turmas de oitava série, cada uma com 45 alunos, proponha um procedimento de amostragem aplicável a este caso.

Resolução: A população deste estudo é composta por todos os alunos da oitava série de uma escola pública específica, que estão naturalmente divididos em 6 turmas (subgrupos), totalizando \(6\times45=270\) alunos. Devido ao de fato que o objetivo da pesquisa é avaliar o conhecimento de fontes de informação, podemos supor que em cada sala de aula existem alunos com diferentes níveis de conhecimento destas fontes, alunos com um alto nível de conhecimento em fontes de informação e alunos com baixo nível de conhecimento de fontes de informação. Assim, temos que os alunos são diferentes entre si dentro de cada turma, mas as turmas podem ser consideradas parecidas entre elas. Neste caso, temos o conceito internamente diferentes e externamente parecidos o que configura uma amostragem por conglomerados. Como o tamanho de cada conglomerado (turma) é o mesmo, podemos considerar que cada turma irá compor a amostra com a mesma proporção. Portanto, sorteia-se 5 alunos aleatoriamente em cada turma para compor a amostra de 30 alunos.


Amostragem sistemática

A amostragem sistemática é um tipo de amostragem em que os elementos são obtidos por um critério de intervalos regulares (periodicidade), também conhecido como intervalo de amostragem; este esquema nomeia a técnica. Uma vez definido o tamanho da amostra e o tamanho da população, o intervalo de amostragem é dado por \(\frac{N}{n}\). Então, deve-se selecionar um elemento aleatoriamente de 1 até N e, após isso, considerar sistematicamente os próximos elementos de \(\frac{N}{n}\) em \(\frac{N}{n}\). A Figura 5 exibe o procedimento de amostragem para \(N=10\) e \(n=5\), ou seja, com intervalo de retirada \(\frac{10}{5}=2\), sendo este o primeiro elemento sorteado aleatoriamente, iniciando do processo de amostragem.

Obtenção de uma amostra aleatória sistemática para indivíduos da população com duas características diferentes, $N=10$ e $n=5$. Obtenção de uma amostra aleatória sistemática para indivíduos da população com duas características diferentes, \(N=10\) e \(n=5\).

Este tipo de amostragem é de fácil aplicação, bem como uma forma rápida para compor a amostra. Porém, existe o fato de que este procedimento é dependente da ordenação da população. A Figura 5 mostra tal dependência, resultando na escolha de apenas elementos pares.


EXEMPLO: Um estudo publicado na revista Caderno de Saúde Pública (Fajardo e Aerts 2009Fajardo, S., e S. L. Aerts D. R. G. C.and Bassanesi. 2009. «Metodologia Cientı́fica». Caderno de Saúde Pública.) teve como objetivo analisar acurácia do Sistema de Informações sobre mortalidade e a qualidade do preenchimento da causa básica do óbito pelo médico. Para isso, considere uma população de 4.360 óbitos elegíveis e organizados por data da ocorrência da morte e uma amostra sistemática de 1.090 óbitos registrados no Sistema de Informações sobre mortalidade. Obtenha o intervalo de amostragem e explique como tal amostra foi adquirida.

Resolução: Tendo o tamanho da população \(N=4360\) e \(n=1090\), o intervalo de amostragem é dado por \(\frac{N}{n}=\frac{4360}{1090}=4\). Isto é, para obtenção de uma amostragem aleatória sistemática, enumera-se os 4.360 óbitos (organizados) e sorteia-se um número aleatório de 1 a 4.360, sendo este o ponto inicial da amostragem e o primeiro registro selecionado. Após, considere o intervalo de amostragem para selecionar o restante da amostra retirando-se elementos de 4 em 4. Caso o ponto inicial sorteado seja o 98, a amostra seria composta pelos registros: 98, 102, 106, 110, 114, \(\ldots\), 4342, 4346, 4350, 4354, 4358, 6, 10, 14, \(\ldots\), 90 e 94.


Procedimentos de amostragem via Linguagem R

#AMOSTRAGEM ALEATÓRIA SIMPLES (COM REPOSIÇÃO)

N=20  #tamanho da população
n=4   #tamanho da amostra
pop=1:N
amostra=sample(pop,n,replace=T)

set.seed(100) #fixando semente de geração pseudoaleatória
pop
##  [1]  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20
amostra
## [1]  6  3 20 13
#AMOSTRAGEM ALEATÓRIA SIMPLES (SEM REPOSIÇÃO)

N=20  #tamanho da população
n=4   #tamanho da amostra
pop=1:N

set.seed(100) #fixando semente de geração pseudoaleatória
amostra=sample(pop,n)
pop
##  [1]  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20
amostra
## [1] 10  6 16 14
#AMOSTRAGEM ALEATÓRIA ESTRATIFICADA -  2 ESTRATOS

estrato1=c('b','b','b','b','b','b','b','b','b','b') #Estrato 1
estrato2=c('a','a','a','a','a','a','a','a','a','a') #Estrato 2
n=2   #tamanho da amostra para cada estrato

set.seed(100) #fixando semente de geração pseudoaleatória
amostra=c(sample(estrato1,n),sample(estrato2,n))
amostra
## [1] "b" "b" "a" "a"
#AMOSTRAGEM ALEATÓRIA POR CONGLOMERADOS

congl1=c('a','b','a','a','b','b','a','b','b','a') #Conglomerado 1
congl2=c('a','b','b','a','a','b','a','b','a','b') #Conglomerado 2
n=2   #tamanho da amostra para cada conglomerado

set.seed(100) #fixando semente de geração pseudoaleatória
amostra=c(sample(congl1,n),sample(congl2,n))
amostra
## [1] "a" "a" "b" "b"
#AMOSTRAGEM ALEATÓRIA SISTEMÁTICA

N=10  #populaçao
n=5   #amostra
amostra=rep(0,n)
pop=1:N

set.seed(100) #fixando semente de geração pseudoaleatória
amostra[1]=sample(pop,1)
k=N/n-1
for (i in 2:n) {
amostra[i]=amostra[1]+(i-1)*(k+1)
if(amostra[i]>N) amostra[i]=amostra[i]-N
}
pop
##  [1]  1  2  3  4  5  6  7  8  9 10
amostra
## [1] 10  2  4  6  8

Procedimentos de amostragem via Linguagem Python

#AMOSTRAGEM ALEATÓRIA SIMPLES (SEM REPOSIÇÃO)
N=20  #tamanho da população
n=4   #tamanho da amostra

import random

pop=[*range(1,N)] #criando uma lista de 1 a N

random.seed(100)
amostra=random.sample(pop,n)

print(pop)
## [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19]
print(amostra)
## [5, 15, 18, 6]


#AMOSTRAGEM ALEATÓRIA SIMPLES (COM REPOSIÇÃO)
N=20  #tamanho da população
n=4   #tamanho da amostra

import random

pop=[*range(1,N)] #criando uma lista de 1 a N

random.seed(100)
amostra=random.choices(pop,k=n)

print(pop)
## [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19]
print(amostra)
## [3, 9, 15, 14]


#AMOSTRAGEM ALEATÓRIA ESTRATIFICADA -  2 ESTRATOS

estrato1=['b','b','b','b','b','b','b','b','b','b'] #Estrato 1
estrato2=['a','a','a','a','a','a','a','a','a','a'] #Estrato 2
n=2   #tamanho da amostra para cada estrato

import random
random.seed(100) #fixando semente de geração pseudoaleatória
amostra=[random.sample(estrato1,n),random.sample(estrato2,n)]

print(amostra)
## [['b', 'b'], ['a', 'a']]


#AMOSTRAGEM POR CONGLOMERADOS -  2 CONGLOMERADOS

congl1=['a','b','a','a','b','b','a','b','b','a'] #Conglomerado 1
congl2=['a','b','b','a','a','b','a','b','a','b'] #Conglomerado 2
n=2   #tamanho da amostra para cada conglomerado

import random
random.seed(100) #fixando semente de geração pseudoaleatória
amostra=[random.sample(congl1,n),random.sample(congl2,n)]

print(amostra)
## [['a', 'b'], ['b', 'b']]


#AMOSTRAGEM ALEATÓRIA SISTEMÁTICA

N=10  #populaçao
n=5   #amostra
amostra=[0]*n
pop=[*range(1,N)]

import random

random.seed(100) #fixando semente de geração pseudoaleatória
amostra[0]=random.sample(pop,1)[0]

k=N/n-1

for i in range(1,n):
  amostra[i]=float(amostra[0])+(i)*(k+1)
  if amostra[i]>N: amostra[i]=float(amostra[i])-N

print(amostra)
## [3, 5.0, 7.0, 9.0, 1.0]


Comentários finais

Neste capítulo apresentamos noções dos procedimentos gerais dos principais métodos de amostragem probabilística, sem exibir grandes formulações matemáticas, complexos amostrais e sem mencionar o cálculo do tamanho amostral. De uma forma geral, a teoria que envolve conceitos de inferência estatística que ainda serão mencionados neste material. Para o leitor que desejar maiores detalhes sobre este tema, sugerimos a literatura de Kish (1995Kish, Leslie. 1995. Survey Sampling. New York, NY: John Wily & Sons.) e Silva (2001Silva, N. N. 2001. Amostragem Probabilı́stica. EDUSP.).