A distribuição Normal

A distribuição Normal é a mais familiar das distribuições de probabilidade e também uma das mais importantes em estatística.

Exemplo: O peso de recém-nascidos é uma variável aleatória contínua. A Figura 31 e Figura 32 abaixo mostram a distribuição de frequências relativas de 100 e 5000 pesos de recém-nascidos com intervalos de classe de 500g e 125g, respectivamente.

Figura 31: Histograma de frequências relativas a 100 pesos de reçem-nascidos com intervalo de classe de 500g
\begin{figure}\centerline{\psfig{figure=figuras/norm1.ps,width=4in}}
\end{figure}

Figura 32: Histograma de frequências relativas a 5000 pesos de reçem-nascidos com intervalo de classe de 125g
\begin{figure}\centerline{\psfig{figure=figuras/norm2.ps,width=4in}}
\end{figure}

O segundo histograma é um refinamento do primeiro, obtido aumentando-se o tamanho da amostra e reduzindo-se a amplitude dos intervalos de classe. Ele sugere a curva na Figura 33, que é conhecida como curva normal ou Gaussiana.

Figura 33: Função de densidade de probabilidade para a variável aleatória contínua X=peso do recém-nascido (g)
\begin{figure}\centerline{\psfig{figure=figuras/norm3.ps,width=5in}}
\end{figure}

A variável aleatória considerada neste exemplo e muitas outras variáveis da área biológica podem ser descritas pelo modelo normal ou Gaussiano.

A equação da curva Normal é especificada usando 2 parâmetros: a média $\mu$, e o desvio padrão $\sigma$.

Denotamos N($\mu, \sigma$) à curva Normal com média $\mu$ e desvio padrão $\sigma$.

A média refere-se ao centro da distribuição e o desvio padrão ao espalhamento (ou achatamento) da curva.

A distribuição normal é simétrica em torno da média o que implica que e média, a mediana e a moda são todas coincidentes.

Para referência, a equação da curva é

\begin{displaymath}
f(x) = \frac{1}{\sqrt{(2\pi\sigma^2)}}\exp\left\{-\frac{(x-\mu)^2}
{2\sigma^2}\right\}.
\end{displaymath} (8)

Felizmente, você não tem que memorizar esta equação. O importante é que você entenda como a curva é afetada pelos valores numéricos de $\mu$ e $\sigma$. Isto é mostrado no diagrama da Figura 34.

Figura 34: distribuições normais com mesma média $\mu$ e vários valores de $\sigma$
\begin{figure}\centerline{\psfig{figure=figuras/normstu.ps,width=4.5in}}
\end{figure}

A área sob a curva normal (na verdade abaixo de qualquer função de densidade de probabilidade) é 1. Então, para quaisquer dois valores específicos podemos determinar a proporção de área sob a curva entre esses dois valores.

Para a distribuição Normal, a proporção de valores caindo dentro de um, dois, ou três desvios padrão da média são:

Range      Proportion
$\mu \pm 1\sigma$      68.3%  
$\mu \pm 2\sigma$      95.5%  
$\mu \pm 3\sigma$      99.7%  

Exemplo: Suponhamos que no exemplo do peso do recém-nascidos $\mu=2800g$ e $\sigma=500g$. Então:

$P(2300 \leq X \leq 3300)=0,683$
$P(1800 \leq X \leq 3800)=0,955$
$P(1300 \leq X \leq 4300)=0,997$

Usando este modelo podemos dizer que cerca de 68% dos recém-nascidos pesam entre 2300g e 3300g. O peso de aproximadamente 95% dos recém-nascidos está entre 1800g e 3800g. Praticamente todos os bebês desta população nascem com peso no intervalo (1300,4300).

Na prática desejamos calcular probabilidades para diferentes valores de $\mu$ e $\sigma$.

Para isso, a variável $X$ cuja distribuição é $N(\mu,\sigma)$ é transformada numa forma padronizada $Z$ com distribuição $N(0,1)$ (distribuição normal padrão) pois tal distribuição é tabelada.

A quantidade $Z$ é dada por

\begin{displaymath}
Z=\frac{X-\mu}{\sigma}
\end{displaymath} (9)

Exemplo: A concentração de um poluente em água liberada por uma fábrica tem distribuição N(8,1.5). Qual a chance, de que num dado dia, a concentração do poluente exceda o limite regulatório de 10 ppm?

A solução do problema resume-se em determinar a proporção da distribuição que está acima de 10 ppm, ie $P(X>10)$. Usando a estatística $Z$ temos:

\begin{displaymath}
P(X>10)=P(Z>\frac{10-8}{1.5})=P(Z>1.33)=1-P(Z \leq 1.33)=0.09
\end{displaymath} (10)

Portanto, espera-se que a água liberada pela fábrica exceda os limites regulatórios cerca de 9% do tempo.

Exercício: A concentração de cadmio em cinzas de um certo lixo radioativo tem distribuição N(1,0.72). Quais são as chances de que uma amostra aleatória das cinzas tenha uma concentração de cadmio entre 0.5 e 1.75 ppm?

Silvia Shimakura 2005-11-08