Não foi possível enviar o arquivo. Será algum problema com as permissões?
Diferenças
Aqui você vê as diferenças entre duas revisões dessa página.
— |
disciplinas:ce701:semana1:teoricas [2007/02/11 22:57] (atual) joel criada |
||
---|---|---|---|
Linha 1: | Linha 1: | ||
+ | ===== Conceitos Básicos em Estatística ====== | ||
+ | ==== O que é Estatística? ==== | ||
+ | |||
+ | A Estatística é um conjunto de métodos desenvolvidos com a finalidade de auxiliar a responder, de forma objetiva e segura, problemas que envolvem uma grande quantidade de informações. | ||
+ | |||
+ | No dicionário Aurélio, encontra-se como a primeira definição para Estatística: | ||
+ | |||
+ | //[Do fr. statistique.] S. f. 1. Parte da matemática em que se investigam os | ||
+ | processos de obtenção, organização e análise de dados sobre uma população | ||
+ | ou sobre uma coleção de seres quaisquer, e os métodos de tirar conclusões e | ||
+ | fazer ilações ou predições com base nesses dados.// | ||
+ | |||
+ | A //quantificação// de toda espécie de informações tem aumentado nas últimas décadas e é parte do nosso cotidiano desde a popularização dos computadores. No passado, tratar uma grande massa de números era uma tarefa custosa e cansativa, que exigia horas de trabalho tedioso. Recentemente, grande quantidade de informações pode ser analisada rapidamente com um computador pessoal e programas adequados. Desta forma, o computador contribui positivamente na difusão e uso de métodos estatísticos. Por outro lado, este possibilita uma automação que pode levar um indivíduo sem preparo a utilizar técnicas inadequadas para resolver um dado problema. Assim, é necessário a compreensão dos conceitos básicos da Estatística, bem como as suposições necessárias para o seu uso de forma criteriosa. | ||
+ | |||
+ | __Estatística é um conjunto de técnicas que permite, de forma sistemática, organizar, descrever, analisar e interpretar //dados// oriundos de estudos ou experimentos.__ | ||
+ | |||
+ | A grosso modo podemos dividir a Estatística em três áreas: | ||
+ | * **Estatística descritiva:** conjunto de técnicas destinadas a descrever e resumir dados. {{disciplinas:ce067:semana2:rte0104.pdf|Reis & Reis (2001)}} | ||
+ | * **Probabilidade:** teoria matemática utilizada para se estudar a //incerteza// oriunda de fenômenos de caráter //aleatório//. | ||
+ | * **Inferência estatística:** técnicas que possibilitam a extrapolação, a um grande conjunto de dados (//população//), dos resultados obtidos a partir de um subconjunto de valores (//amostra//). | ||
+ | |||
+ | Estudos complexos que envolvem o tratamento estatístico dos dados, usualmente, incluem as três áreas acima. | ||
+ | |||
+ | ---- | ||
+ | |||
+ | ==== Variação amostral ==== | ||
+ | |||
+ | Como dito, a Estatística refere-se a um conjunto de métodos para coleta e descrição dos dados, e então a verificação da força da evidência nos dados pró ou contra certas idéias científicas. A presença de uma //variação// não previsível nos dados faz disso uma tarefa pouco trivial. | ||
+ | |||
+ | Um exemplo em que a variação está presente nos dados: | ||
+ | |||
+ | Função pulmonar em pacientes com fibrose cística: A pressão inspiratória estática máxima (PImax) é um índice de vigor respiratório muscular. Os seguintes dados mostram a idade (anos) e uma medida de PImax (cm H$_2$O) de 25 pacientes com fibrose cística. | ||
+ | |||
+ | | Sujeito | Idade | PImax | | ||
+ | | 1 | 7 | 80 | | ||
+ | | 2 | 7 | 85 | | ||
+ | | 3 | 8 | 110 | | ||
+ | | 4 | 8 | 95 | | ||
+ | | 5 | 8 | 95 | | ||
+ | | 6 | 9 | 100 | | ||
+ | | 7 | 11 | 45 | | ||
+ | | 8 | 12 | 95 | | ||
+ | | 9 | 12 | 130 | | ||
+ | | 10 | 13 | 75 | | ||
+ | | 11 | 13 | 80 | | ||
+ | | 12 | 14 | 70 | | ||
+ | | 13 | 14 | 80 | | ||
+ | | 14 | 15 | 100 | | ||
+ | | 15 | 16 | 120 | | ||
+ | | 16 | 17 | 110 | | ||
+ | | 17 | 17 | 125 | | ||
+ | | 18 | 17 | 75 | | ||
+ | | 19 | 17 | 100 | | ||
+ | | 20 | 19 | 40 | | ||
+ | | 21 | 19 | 75 | | ||
+ | | 22 | 20 | 110 | | ||
+ | | 23 | 23 | 150 | | ||
+ | | 24 | 23 | 75 | | ||
+ | | 25 | 23 | 95 | | ||
+ | |||
+ | - Todos os pacientes com fibrose cística tem o mesmo valor de PImax? | ||
+ | - Assumindo que a idade não afeta PImax, qual é um valor de PImax típico para pacientes com fibrose cística? | ||
+ | - Quão grande é a variabilidade em torno deste valor típico? | ||
+ | - Será que a suposição de que idade não afeta PImax é consistente com os dados? | ||
+ | - Se idade na verdade afeta PImax, como você descreveria o valor típico de PImax e variabilidade? | ||
+ | - Que tipo de representação gráfica poderia ser utilizada para visualizar adequadamente estes dados? | ||
+ | |||
+ | ---- | ||
+ | |||
+ | ==== Organização de dados ==== | ||
+ | |||
+ | Dado um conjunto de dados, como tratar os valores numéricos ou não, a fim de se extrair informações a respeito de uma ou mais características de interesse? Fazendo uso de tabelas e gráficos. | ||
+ | |||
+ | === Exemplo === | ||
+ | Um questionário foi aplicado aos alunos do primeiro ano de uma escola fornecendo as seguintes informações: | ||
+ | |||
+ | * id: identificação do aluno | ||
+ | * turma: turma a que o aluno foi alocado (A ou B) | ||
+ | * sexo: F se feminino, M se masculino | ||
+ | * idade: idade em anos | ||
+ | * alt: altura em metros | ||
+ | * peso: peso em quilogramas | ||
+ | * filhos: número de filhos na família | ||
+ | * fuma: hábito de fumar, sim ou não | ||
+ | * toler: tolerância ao cigarro: (I) indiferente, (P) incomoda pouco, (M) incomoda muito | ||
+ | * exerc: horas de atividade física, por semana | ||
+ | * cine: número de vezes em que vaiao cinema por semana | ||
+ | * opcine: opinão a respeito das salas de cinema na cidade: (B) regular e boa, (M) muito boa | ||
+ | * tv: horas gastas assistindo tv, por semana | ||
+ | * optv: opinião a respeito da qualidade da programação na tv: (R) ruim, (M) média, (B) boa, (N) não sabe | ||
+ | |||
+ | |||
+ | {{disciplinas:ce067:semana2:questionario.txt|Tabela 1.1: Informações de questionário estudantil - dados brutos}} | ||
+ | |||
+ | Note que: | ||
+ | |||
+ | * A tabela de dados brutos é composta por linhas (indivíduos ou objetos) e colunas (//variáveis//). | ||
+ | * As variáveis têm naturezas diferentes: numéricas (//quantitativas//) e não numéricas (//qualitativas//). | ||
+ | * Variáveis qualitativas podem ter: ordenação natural (//qualitativa ordinal//) ou não (//qualitativa nominal//) | ||
+ | * Variáveis quantitativas podem assumir: conjunto de valores é finito ou enumerável (//quantitativa discreta//) ou valores em intervalos dos números reais (//quantitativa contínua//) | ||
+ | |||
+ | |||
+ | Resumimos a classificação das variáveis no esquema abaixo: | ||
+ | |||
+ | {{ disciplinas:ce067:semana2:variaveis.jpg |}} | ||
+ | |||
+ | ---- | ||
+ | |||
+ | === Tabelas de frequências === | ||
+ | |||
+ | A partir da tabela de dados brutos, podemos construir uma (//tabela de frequências//) com informações resumidas para cada variável. | ||
+ | |||
+ | //**Tabela 1.2: Tabela de frequências para a variável Sexo**// | ||
+ | | Sexo | n<sub>i</sub> | f<sub>i</sub> | | ||
+ | | F | 37 | 0,74 | | ||
+ | | M | 13 | 0,26 | | ||
+ | | total | n=50 | 1| | ||
+ | |||
+ | * n<sub>i</sub>: frequência do valor i | ||
+ | * n: frequência total | ||
+ | * f<sub>i</sub>=n<sub>i</sub>/n: frequência relativa (útil quando comparando grupos de tamanhos diferentes) | ||
+ | |||
+ | |||
+ | Para variáveis cujos valores possuem ordenação natural faz sentido incluirmos também uma coluna contendo //frequências acumuladas// f<sub>ac</sub>. Sua utilidade principal é ajudar a estabelecer pontos de corte com uma determinada frequência de valores da variável. | ||
+ | |||
+ | //**Tabela 1.3: Tabela de frequências para a variável Idade**// | ||
+ | | Idade | n<sub>i</sub> | f<sub>i</sub> | f<sub>ac</sub> | | ||
+ | | 17 | 9 | 0,18 | 0,18 | | ||
+ | | 18 | 22 | 0,44 | 0,62 | | ||
+ | | 19 | 7 | 0,14 | 0,76 | | ||
+ | | 20 | 4 | 0,08 | 0,84 | | ||
+ | | 21 | 3 | 0,06 | 0,90 | | ||
+ | | 22 | 0 | 0 | 0,90 | | ||
+ | | 23 | 2 | 0,04 | 0,94 | | ||
+ | | 24 | 1 | 0,02 | 0,96 | | ||
+ | | 25 | 2 | 0,04 | 1,00 | | ||
+ | | total | n=50 | 1 | | | ||
+ | |||
+ | Observe que 90% dos alunos têm idades até 21 anos, de fato até 22, uma vez que este valor tem frequência zero. | ||
+ | |||
+ | |||
+ | Com relação à variável Peso (classificado como quantitativa contínua) podemos construir //classes// ou //faixas de valores// e contar o número de ocorrências em cada faixa (aqui usamos faixas de amplitude 10). | ||
+ | |||
+ | //**Tabela 1.4: Tabela de frequências para a variável Peso**// | ||
+ | | Peso | n<sub>i</sub> | f<sub>i</sub> | f<sub>ac</sub> | | ||
+ | | 40,0 ¦− 50,0 | 8 | 0,16 | 0,16 | | ||
+ | | 50,0 ¦− 60,0 | 22 | 0,44 | 0,60 | | ||
+ | | 60,0 ¦− 70,0 | 8 | 0,16 | 0,76 | | ||
+ | | 70,0 ¦− 80,0 | 6 | 0,12 | 0,88 | | ||
+ | |80,0 ¦− 90,0 | 5 | 0,10 | 0,98 | | ||
+ | |90,0 ¦− 100,0 | 1 | 0,02 | 1,00| | ||
+ | | total | 50 | 1 | | | ||
+ | |||
+ | * Escolhemos incluir o extremo inferior e excluir o superior. Ex: a faixa 40,0 ¦− 50,0 não inclui os alunos com peso igual a 50,0 kg. | ||
+ | * Não adotamos nenhuma regra formal quanto ao número de faixas mas utlizamos em geral, de 5 a 8 faixas com mesma amplitude. | ||
+ | |||
+ | |||
+ | Quando a variável é discreta, mas com conjunto de valores muito grande (ex. variável TV) o caminho adequado é tratar a variável como se fosse contínua e criar faixas para representar seus valores. | ||
+ | |||
+ | |||
+ | //**Tabela 1.5: Tabela de frequências para a variável TV**// | ||
+ | | TV | n<sub>i</sub> | f<sub>i</sub> | f<sub>ac</sub> | | ||
+ | | 0 ¦− 6 | 14 | 0,28 | 0,28 | | ||
+ | | 6 ¦− 12 | 17 | 0,34 | 0,62 | | ||
+ | | 12 ¦− 18 | 11 | 0,22 | 0,84 | | ||
+ | | 18 ¦− 24 | 4 | 0,08 | 0,92 | | ||
+ | | 24 ¦−¦ 36 | 4 | 0,08 | 1,00 | | ||
+ | | total | 50 | 1 | | | ||
+ | |||
+ | ---- | ||
+ | |||
+ | === Gráficos === | ||
+ | |||
+ | Muitas vezes as informações contidas em tabelas podem ser mais facilmente entendidas se visualizadas através de gráficos. Graças à proliferação recursos gráficos, existe hoje uma infinidade de tipos de gráficos que podem ser utilizados (veja Figura 1.3, pág 12). | ||
+ | |||
+ | Note no entanto que a utilização de recursos visuais deve ser feita cuidadosamente; um gráfico desproporcional em suas medidas pode dar falsa impressão de desempenho e conduzir a conclusões equivocadas ({{disciplinas:ce067:semana2:rte0104.pdf|Reis & Reis (2001)}}, exemplo da pág 23). | ||
+ | |||
+ | Vamos definir três tipos básicos de gráficos: //setores// ou //pizza//, //barras// e //histograma//. | ||
+ | |||
+ | == Gráfico de setores == | ||
+ | |||
+ | Adequado para representar variáveis qualitativas. Consiste em repartir um disco em setores circulares correspondentes às porcentagens de cada valor. | ||
+ | |||
+ | A Figura 1.4 abaixo apresenta o diagrama de disco para a variável Toler, obtida a partir da Tabela 1.1. | ||
+ | |||
+ | {{ disciplinas:ce067:semana2:fig1.4.jpg?340 |Figura 1.4: Diagrama circular para a variável Toler.}} | ||
+ | |||
+ | == Gráfico de barras == | ||
+ | |||
+ | Mais adequado para variáveis discretas ou qualitativas ordinais. | ||
+ | Utiliza o plano cartesiano com os valores da variável no eixo das abscissas e as frequências no eixo das ordenadas. Para cada valor da variável desenha-se uma barra com altura correspondendo à sua frequência. | ||
+ | |||
+ | {{ disciplinas:ce067:semana2:fig1.5.jpg?420 |Figura 1.5: Gráfico de barras para a variável Idade.}} | ||
+ | |||
+ | == Histograma == | ||
+ | |||
+ | Consiste em retângulos contíguos com base nas faixas de valores da variável e com área igual à frequência relativa da faixa. A altura de cada retângulo é denominada //densidade de frequência// ou simplesmente //densidade// definida pelo quociente da frequência relativa pela amplitude da faixa. | ||
+ | |||
+ | Para a variável Peso, as densidades de cada faixa podem ser obtidas dividindo-se a a coluna f<sub>i</sub> da Tabela 1.4 por 10, que é a amplitude de cada faixa. Veja o histograma obtido na Figura 1.6. | ||
+ | |||
+ | {{ disciplinas:ce067:semana2:fig1.6.jpg?420 |Figura 1.6: Histograma para a variável Peso.}} | ||
+ | |||
+ | **Nota:** Alguns autores usam a frequência absoluta ou porcentagem na construção do histograma. O uso da densidade impede que o histograma fique distorcido quando as faixas têm amplitudes diferentes. | ||
+ | |||
+ | ---- | ||
+ | |||
+ | === Quartis === | ||
+ | |||
+ | O histograma também pode ser utilizado no cálculo da //mediana// (//md<sub>obs</sub>//), que é o valor da variável que divide o conjunto de dados ordenados em dois subgrupos de mesmo tamanho. Isto é, das observações ordenadas, 50% estão abaixo e 50% estão acima da mediana. | ||
+ | |||
+ | **//Exemplo 1.1://** Vamos calcular a mediana da variável Peso através do histograma. | ||
+ | |||
+ | * Inicialmente identificamos o retângulo que deve conter a mediana. Como até o valor 60,0 kg temos acumuladas 60% das observações conluímos que a mediana pertence ao intervalo [50,0; 60,0). | ||
+ | * Dentro da faixa [50,0; 60,0) precisamos determinar um retângulo com percentual igual a 34%, que é o que falta para atingir os 50%. | ||
+ | * Com uso de proporções, estabelecemos a seguinte igualdade: | ||
+ | |||
+ | <latex>\[\frac{md_{obs}-50}{0,34}=\frac{60-50}{0,44} ~~\Rightarrow ~~ md_{obs}=57,73 kg\]</latex> | ||
+ | |||
+ | {{ disciplinas:ce067:semana2:figmed.jpg?420 |Cálculo da mediana usando o histograma para a variável Peso.}} | ||
+ | |||
+ | |||
+ | O conceito de mediana pode ser generalizado para situações em que o conjunto de dados é dividido em mais do que dois subgrupos. No caso de 4 subgrupos, além da mediana, dois valores tais que 25% das observações ordenadas estarão abaixo de um deles (//primeiro quartil (Q<sub>1</sub>)//) e 75% estarão abaixo do outro (//terceiro quartil (Q<sub>3</sub>)//). | ||
+ | |||
+ | Note que a mediana representa o //segundo quartil (Q<sub>2</sub>)//. | ||
+ | |||
+ | O cálculo dos valores dos quartis também pode ser feito através do histograma. | ||
+ | |||
+ | |||
+ | //**Exemplo 1.2:**// No histograma da variável Peso, vemos que o valor de Q<sub>1</sub> se encontra no intervalo [50,0; 60,0), ie corresponderá ao valor Q<sub>1</sub> que determinará um percentual de 9% no retângulo correspondente: | ||
+ | |||
+ | <latex>\[\frac{Q_1-50}{0,09}=\frac{60-50}{0,44} ~~ \Rightarrow ~~ Q_1=52,05 kg\] </latex> | ||
+ | |||
+ | {{ disciplinas:ce067:semana2:figq1.jpg?420 |Cálculo de Q<sub>1</sub> usando o histograma para a variável Peso.}} | ||
+ | |||
+ | O terceiro quartil pode ser obtido de forma semelhante (Q<sub>3</sub>=69,38). | ||
+ | |||
+ | Para o cálculo de quartis usando a tabela de dados brutos, precisamos ordenar as observações e escolher os valores que dividem os dados nas proporções desejadas. Em alguns casos pode ser necessário tomar médias de valores vizinhos. | ||
+ | |||
+ | ---- | ||
+ | |||
+ | === Box-Plot === | ||
+ | |||
+ | É uma forma de representação gráfica dos quartis. | ||
+ | |||
+ | * Definimos uma "caixa" com o nível superior dado por Q<sub>3</sub> e o nível inferior por Q<sub>1</sub>. | ||
+ | * A mediana é representada por um traço no interior da caixa | ||
+ | * Segmentos de reta são colocados da caixa até os valores máximo e mínimo, desde que estas não sejam observações discrepantes((O critério para decidir se uma observação é discrepante será discutido mais adiante no curso)). | ||
+ | |||
+ | |||
+ | //**Exemplo 1.3:**// Suponha que um produtor de laranjas costuma guardar as frutas em caixas e está interessado em estudar o número de laranjas por caixa. Após um dia de colheita, 20 caixas foram contadas. Os resultados brutos, após a ordenação, são: | ||
+ | |||
+ | 22 29 33 35 35 37 38 43 43 44 48 48 52 53 55 57 61 62 67 69 | ||
+ | |||
+ | Para estes dados temos que: | ||
+ | |||
+ | * <latex>$md_{obs}=(10o+11o.)/2=(44+48)/2=46$</latex> | ||
+ | * Q<sub>1</sub>=36 e Q<sub>3</sub>=56 | ||
+ | * Min=22 | ||
+ | * Máx=69 | ||
+ | |||
+ | O box-plot correspondente é apresentado na Figura 1.7. | ||
+ | |||
+ | {{ disciplinas:ce067:semana2:fig1.7.jpg?420 |Figura 1.7: Box-plot para o número de laranjas por caixa.}} | ||
+ | |||
+ | A representação gráfica através do box-plot informa, dentre outras coisas, a variabilidade e simetria dos dados. Na Figura 1.7 os dados apresentam simetria acentuada((A distância da mediana para os quartis é a mesma.)). | ||
+ | |||
+ | O box-plot para a variável Peso (Figura 1.8) por outro lado, apresenta uma pequena assimetria. | ||
+ | |||
+ | {{ disciplinas:ce067:semana2:fig1.8.jpg?420 |Figura 1.8: Box-plot para a variável Peso.}} | ||
+ | |||
+ | |||
+ | Gráficos do tipo box-plot também são úteis para detectar, descritivamente, diferenças nos comportamentos de grupos de variáveis (veja exemplo na Figura 1.9). | ||
+ | |||
+ | {{ disciplinas:ce067:semana2:fig1.9.jpg?420 |Figura 1.9: Box-plot para a variável Peso por sexo.}} | ||
+ | |||
+ | Podemos notar que os homens apresentam peso mediano superior ao das mulheres, além de uma maior variablidade e mais assimetria nos dados. |