Variáveis Qualitativas - Nominais e Ordinais

Iniciaremos essa apresentação com os dados de natureza qualitativa, que são os mais fáceis de tratar do ponto de vista da análise descritiva.

No exemplo dos ursos, uma das duas variáveis qualitativas presentes é o sexo dos animais.

Para organizar os dados provenientes de uma variável qualitativa, é usual fazer uma tabela de freqüências, como a Tabela 1, onde estão apresentadas as freqüências com que ocorrem cada um dos sexos no total dos 97 ursos observados.

Cada categoria da variável sexo (feminino, masculino) é representada numa linha da tabela. Há uma coluna com as contagens de ursos em cada categoria (freqüência absoluta) e outra com os percentuais que essas contagens representam no total de ursos (freqüência relativa). Esse tipo de tabela representa a distribuição de freqüências dos ursos segundo a variável sexo.

Como a variável sexo é qualitativa nominal, isto é, não há uma ordem natural em suas categorias, a ordem das linhas da tabela pode ser qualquer uma.


Tabela 1: Distribuição de freqüências dos ursos segundo sexo.
Sexo Freqüência Absoluta Freqüência Relativa (%)
Feminino 35 36,1
Masculino 62 63,9
Total 97 100,0
   

Quando a variável tabelada for do tipo qualitativa ordinal, as linhas da tabela de freqüências devem ser dispostas na ordem existente para as categorias.

A Tabela 2 mostra a distribuição de freqüências dos ursos segundo o mês de observação, que é uma variável qualitativa ordinal. Nesse caso, podemos acrescentar mais duas colunas com as freqüências acumuladas (absoluta e relativa), que mostram, para cada mês, a freqüência de ursos observados até aquele mês. Por exemplo, até o mês de julho, foram observados 31 ursos, o que representa 32,0% do total de ursos estudados.


Tabela 2: Distribuição de freqüências dos ursos segundo mês de observação.
  Freqüências Simples Freqüências Acumuladas
      Freqüência Freqüência
Mês de Freqüência Freqüência Absoluta Relativa
Observação Absoluta Relativa (%) Acumulada Acumulada
Abril 8 8,3 8 8,3
Maio 6 6,2 14 14,5
Junho 6 6,2 20 20,7
Julho 11 11,3 31 32,0
Agosto 23 23,7 54 55,7
Setembro 20 20,6 74 76,3
Outubro 14 14,4 88 90,7
Novembro 9 9,3 97 100,0
Total 97 100,0 --- ---
       

A visualização da distribuição de freqüências de uma variável fica mais fácil se fizermos um gráfico a partir da tabela de freqüências. Existem vários tipos de gráficos, dependendo do tipo de variável a ser representada. Para as variáveis do tipo qualitativas, abordaremos dois tipos de gráficos: os de setores e os de barras.

Os gráficos de setores, mais conhecidos como gráficos de pizza ou torta, são construídos dividindo-se um círculo (pizza) em setores (fatias), um para cada categoria, que serão proporcionais à freqüência daquela categoria.

A Figura 3 mostra um gráfico de setores para a variável sexo, construído a partir da Tabela 1. Através desse gráfico, fica mais fácil perceber que os ursos machos são a grande maioria dos ursos estudados. Como esse gráfico contém todas as informações da Tabela 1, pode substituí-la com a vantagem de tornar análise dessa variável mais agradável.

Figura 3: Gráfico de setores para a variável sexo.
\begin{figure}\centerline{\psfig{figure=figuras/pie1.ps,height=3.5in}}
\end{figure}

As vantagens da representação gráfica das distribuições de freqüências ficam ainda mais evidentes quando há a necessidade de comparar vários grupos com relação à variáveis que possuem muitas categorias, como veremos mais adiante.

Uma alternativa ao gráfico de setores é o gráfico de barras (colunas) como o da Figura 4. Ao invés de dividirmos um círculo, dividimos uma barra. Note que, em ambos os gráficos, as freqüências relativas das categorias devem somar 100%. Aliás, essa é a idéia dos gráficos: mostrar como se dá a divisão (distribuição) do total de elementos (100%) em partes (fatias).

Figura 4: Gráfico de barras para a variável sexo.
\begin{figure}\centerline{\psfig{figure=figuras/stacked1.ps,height=3.5in}}
\end{figure}

Uma situação diferente ocorre quando desejamos comparar a distribuição de freqüências de uma mesma variável em vários grupos, como por exemplo, a freqüência de ursos marrons em quatro regiões de um país.

Se quisermos usar o gráfico de setores para fazer essa comparação, devemos fazer quatro gráficos, um para cada região, com duas fatias cada um (ursos marrons e ursos não marrons). Uma alternativa é a construção de um gráfico de barras (horizontal ou vertical) como na Figura 5, com uma barra para cada região representando a freqüência de ursos marrons naquela região. Além de economizar espaço na apresentação, permite que as comparações sejam feitas de maneira mais rápida (tente fazer essa comparação usando quatro pizzas e comprove!!)

Figura 5: Gráfico de barras horizontais e verticais para a freqüência de ursos marrons em quatro regiões.
\begin{figure}\mbox{\centerline{\psfig{figure=figuras/barraregiao1.ps,height=2in}
\psfig{figure=figuras/barraregiao2.ps,height=2in}}}\\
\end{figure}

A ordem dos grupos pode ser qualquer, ou aquela mais adequada para a presente análise. Freqüentemente, encontramos as barras em ordem decrescente, já antecipando nossa intuição de ordenar os grupos de acordo com sua freqüência para facilitar as comparações. Caso a variável fosse do tipo ordinal, a ordem das barras seria a ordem natural das categorias, como na tabela de freqüências.

A Figura 6 mostra um gráfico de barras que pode ser usado da comparação da distribuição de freqüências de uma mesma variável em vários grupos. É também uma alternativa ao uso de vários gráficos de setores, sendo, na verdade, a junção de três gráficos com os da Figura 4 num só gráfico.

Figura 6: Gráfico de barras para comparação da distribuição de freqüências de uma variável (raça) em vários grupos (indigentes, pobres e população total).
\begin{figure}\centerline{\psfig{figure=figuras/barraregiao3.ps,height=2.5in}}
\end{figure}

Observação: Este tipo de gráfico só deve ser usado quando não houver muitos grupos a serem comparados e a variável em estudo não tiver muitas categorias (de preferência, só duas). No exemplo da Figura 6, a variável raça tem três categorias, mas uma delas é muito menos freqüente do que as outras duas.

Através desse gráfico, podemos observar que a população brasileira total, em 1999, dividia-se quase que igualmente entre brancos e negros, com uma pequena predominância de brancos. Porém, quando nos restringimos às classes menos favorecidas economicamente, essa situação se inverte, com uma considerável predominância de negros, principalmente na classe da população considerada indigente, indicando que a classe sócio-econômica influencia a distribuição de negros e brancos na população brasileira de 1999.

Freqüentemente, é necessário fazer comparações da distribuição de freqüências de uma variável em vários grupos simultaneamente. Nesse caso, o uso de gráficos bem escolhidos e construídos torna a tarefa muito mais fácil. Na Figura 7, está representada a distribuição de freqüências da reprovação segundo as variáveis sexo do aluno, período e área de estudo.

Figura 7: Distribuição de freqüências de reprovação segundo área, período e sexo do aluno.
\begin{figure}\centerline{\psfig{figure=figuras/barraregiao4.ps,height=5in}}
Fon...
...A Evasão no Ciclo Básico da UFMG, em Cadernos de Avaliação 3, 2000.
\end{figure}

Analisando os três gráficos da Figura 7, podemos notar que o percentual de reprovação entre os alunos do sexo masculino é sempre maior do que o percentual de reprovação entre os alunos do sexo feminino, em todas as áreas, durante todos os períodos.

A área de ciências exatas é a que possui os maiores percentuais de reprovação, em todos os períodos, nos dois sexos.

Na área de ciências humanas, o percentual de reprovação entre os alunos do sexo masculino cresce com os períodos, enquanto esse percentual entre as alunas se mantém praticamente constante durante os períodos.

Na área de ciências biológicas, há uma diminuição do percentual de reprovação, a partir do segundo período, entre os alunos do dos sexos, sendo mais acentuado entre os estudantes do sexo masculino.

Chegar às conclusões colocadas acima através de comparação numérica de tabelas de freqüências seria muito mais árduo do que através da comparação visual possibilitada pelo uso dos gráficos. Os gráficos são ferramentas poderosas e devem ser usadas sempre que possível.

É importante observar que a comparação dos três gráficos da Figura 7 só foi possível porque eles usam a mesma escala, tanto no eixo dos períodos (mesma ordem) quanto no eixo dos percentuais de reprovação (mais importante). Essa observação é válida para toda comparação entre gráficos de quaisquer tipo.

silvia 2012-09-20