next up previous contents
Next: 4. Computação Bayesiana Up: Introdução a Inferência Bayesiana Previous: 2. Distribuições a Priori   Sumário

Subsections


3. Estimação

A distribuição a posteriori de um parâmetro $ \theta$ contém toda a informação probabilística a respeito deste parâmetro e um gráfico da sua função de densidade a posteriori é a melhor descrição do processo de inferência. No entanto, algumas vezes é necessário resumir a informação contida na posteriori através de alguns poucos valores numéricos. O caso mais simples é a estimação pontual de $ \theta$ onde se resume a distribuição a posteriori através de um único número, $ \hat{\theta}$. Como veremos a seguir, será mais fácil entender a escolha de $ \hat{\theta}$ no contexto de teoria da decisão.

3.1 Introdução à Teoria da Decisão

Um problema de decisão fica completamente especificado pela descrição dos seguintes espaços:

(i) Espaço do parâmetro ou estados da natureza, $ \Theta$.
(ii) Espaço dos resultados possíveis de um experimento, $ \Omega$.
(iii) Espaço de possíveis ações, $ A$.

Uma regra de decisão $ \delta$ é uma função definida em $ \Omega$ que assume valores em $ A$, i.e. $ \delta:\Omega\rightarrow A$. A cada decisão $ \delta$ e a cada possível valor do parâmetro $ \theta$ podemos associar uma perda $ L(\delta,\theta)$ assumindo valores positivos. Definimos assim uma função de perda.

O risco de uma regra de decisão, denotado por $ R(\delta)$, é a perda esperada a posteriori, i.e. $ R(\delta)=E_{\theta\vert\bfx}
[L(\delta,\theta)]$.

Uma regra de decisão $ \delta^*$ é ótima se tem risco mínimo, i.e. $ R(\delta^*)<R(\delta), ~\forall \delta$. Esta regra será denominada regra de Bayes e seu risco, risco de Bayes.

Um laboratório farmaceutico deve decidir pelo lançamento ou não de uma nova droga no mercado. É claro que o laboratório só lançará a droga se achar que ela é eficiente mas isto é exatamente o que é desconhecido. Podemos associar um parâmetro $ \theta$ aos estados da natureza: droga é eficiente ($ \theta=1$), droga não é eficiente ($ \theta=0$) e as possíveis ações como lança a droga ($ \delta=1$), não lança a droga ($ \delta=0$). Suponha que foi possível construir a seguinte tabela de perdas levando em conta a eficiência da droga,

  eficiente não eficiente
lança -500 600
não lança 1500 100

Vale notar que estas perdas traduzem uma avaliação subjetiva em relação à gravidade dos erros cometidos. Suponha agora que a incerteza sobre os estados da natureza é descrita por $ P(\theta=1)=\pi$, $ 0<\pi<1$ avaliada na distribuição atualizada de $ \theta$ (seja a priori ou a posteriori). Note que, para $ \delta$ fixo, $ L(\delta,\theta)$ é uma variável aleatória discreta assumindo apenas dois valores com probabilidades $ \pi$ e $ 1-\pi$. Assim, usando a definição de risco obtemos que

$\displaystyle R(\delta=0)$ $\displaystyle =$ $\displaystyle E(L(0,\theta))=\pi 1500 +(1-\pi) 100 = 1400\pi + 100$  
$\displaystyle R(\delta=1)$ $\displaystyle =$ $\displaystyle E(L(1,\theta))=\pi(-500)+(1-\pi) 600 =-1100\pi + 600$  

Uma questão que se coloca aqui é, para que valores de $ \pi$ a regra de Bayes será de lançar a droga. Não é difícil verificar que as duas ações levarão ao mesmo risco, i.e. $ R(\delta=0)=R(\delta=1)$ se somente se $ \pi=0,20$. Além disso, para $ \pi<0,20$ temos que $ R(\delta=0)<R(\delta=1)$ e a regra de Bayes consiste em não lançar a droga enquanto que $ \pi>0,20$ implica em $ R(\delta=1)<R(\delta=0)$ e a regra de Bayes deve ser de lançar a droga.

3.2 Estimadores de Bayes

Seja agora uma amostra aleatória $ X_1,\dots,X_n$ tomada de uma distribuição com função de (densidade) de probabilidade $ p(x\vert\theta)$ aonde o valor do parâmetro $ \theta$ é desconhecido. Em um problema de inferência como este o valor de $ \theta$ deve ser estimado a partir dos valores observados na amostra.

Se $ \theta\in\Theta$ então é razoável que os possíveis valores de um estimador $ \delta(\bfX)$ também devam pertencer ao espaço $ \Theta$. Além disso, um bom estimador é aquele para o qual, com alta probabilidade, o erro $ \delta(\bfX)-\theta$ estará próximo de zero. Para cada possível valor de $ \theta$ e cada possível estimativa $ a\in\Theta$ vamos associar uma perda $ L(a,\theta)$ de modo que quanto maior a distância entre $ a$ e $ \theta$ maior o valor da perda. Neste caso, a perda esperada a posteriori é dada por

$\displaystyle E[L(a,\theta)\vert\bfx] = \int L(a,\theta)p(\theta\vert\bfx) d\theta
$

e a regra de Bayes consiste em escolher a estimativa que minimiza esta perda esperada.

Aqui vamos discutir apenas funções de perda simétricas, já que estas são mais comumente utilizadas. Dentre estas a mais utilizada em problemas de estimação é certamente a função de perda quadrática, definida como $ L(a,\theta)=(a-\theta)^2$. Neste caso, pode-se mostrar que o estimador de Bayes para o parâmetro $ \theta$ será a média de sua distribuição atualizada.

Suponha que queremos estimar a proporção $ \theta$ de itens defeituosos em um grande lote. Para isto será tomada uma amostra aleatória $ X_1,\dots,X_n$ de uma distribuição de Bernoulli com parâmetro $ \theta$. Usando uma priori conjugada Beta( $ \alpha,\beta$) sabemos que após observar a amostra a distribuição a posteriori é Beta( $ \alpha+t,\beta+n-t$) onde $ t=\sum_{i=1}^n x_i$. A média desta distribuição Beta é dada por $ (\alpha+t)/(\alpha+\beta+n)$ e portanto o estimador de Bayes de $ \theta$ usando perda quadrática é

$\displaystyle \delta(\bfX)= \frac{\alpha+\sum_{i=1}^n X_i}{\alpha+\beta+n}.
$



A perda quadrática é as vezes criticada por penalizar demais o erro de estimação. A função de perda absoluta, definida como $ L(a,\theta)=\vert a-\theta\vert$, introduz punições que crescem linearmente com o erro de estimação e pode-se mostrar que o estimador de Bayes associado é a mediana da distribuição atualizada de $ \theta$.

Para reduzir ainda mais o efeito de erros de estimação grandes podemos considerar funções que associam uma perda fixa a um erro cometido, não importando sua magnitude. Uma tal função de perda, denominada perda 0-1, é definida como

\begin{displaymath}
L(a,\theta)=\left\{
\begin{array}{ccc}
1 &\mbox{se}& \vert a...
...
0 &\mbox{se}& \vert a-\theta\vert<\epsilon
\end{array}\right.
\end{displaymath}

para todo $ \epsilon>0$. Neste caso pode-se mostrar que o estimador de Bayes é a moda da distribuição atualizada de $ \theta$. A moda da posteriori de $ \theta$ também é chamado de estimador de máxima verossimilhança generalizado (EMVG) e é o mais fácil de ser obtido dentre os estimadores vistos até agora. No caso contínuo devemos obter a solução da equação

$\displaystyle \frac{\partial p(\theta\vert\bfx)}{\partial\theta} =0.
$

Se $ X_1,\dots,X_n$ é uma amostra aleatória da $ N(\theta,\s)$ com $ \s$ conhecido e usarmos a priori conjugada, i.e. $ \theta\sim
N(\mu_0,\tau_0^2)$ então a posteriori também será normal e neste caso média, mediana e moda coincidem. Portanto, o estimador de Bayes de $ \theta$ é dado por

$\displaystyle \delta(\bfX)=\frac{\tau_0^{-2}\mu_0+n\invs\overline{\bfX}}{\tau_0^{-2}+n\invs}.
$

No exemplo 3..2 suponha que foram observados 100 itens dos quais 10 eram defeituosos. Usando perda quadrática a estimativa de Bayes de $ \theta$ é

$\displaystyle \delta(\bfx) = \frac{\alpha+10}{\alpha+\beta+100}
$

Assim, se a priori for Beta(1,1), ou equivalentemente $ U(0,1)$, então $ \delta(\bfx) =0,108$. Por outro lado se especificarmos uma priori Beta(1,2), que é bem diferente da anterior, então $ \delta(\bfx) =0,107$. Ou seja, as estimativas de Bayes são bastante próximas, e isto é uma consequência do tamanho amostral ser grande. Note também que ambas as estimativas são próximas da proporção amostral de defeituosos 0,1, que é a estimativa de máxima verossimilhança.

3.3 Estimação por Intervalos

Voltamos a enfatizar que a forma mais adequada de expressar a informação que se tem sobre um parâmetro é através de sua distribuição a posteriori. A principal restrição da estimação pontual é que quando estimamos um parâmetro através de um único valor numérico toda a informação presente na distribuição a posteriori é resumida através deste número. É importante também associar alguma informação sobre o quão precisa é a especificação deste número. Para os estimadores vistos aqui as medidas de incerteza mais usuais são a variância ou o coeficiente de variação para a média a posteriori, a medida de informação observada de Fisher para a moda a posteriori, e a distância entre quartis para a mediana a posteriori.

Nesta seção vamos introduzir um compromisso entre o uso da própria distribuição a posteriori e uma estimativa pontual. Será discutido o conceito de intervalo de credibilidade (ou intervalo de confiança Bayesiano) baseado no distribuição a posteriori.

C é um intervalo de credibilidade de 100(1-$ \alpha$)%, ou nível de credibilidade (ou confiança) $ 1-\alpha$, para $ \theta$ se $ P(\theta\in C)\ge 1-\alpha$.

Note que a definição expressa de forma probabilística a pertinência ou não de $ \theta$ ao intervalo. Assim, quanto menor for o tamanho do intervalo mais concentrada é a distribuição do parâmetro, ou seja o tamanho do intervalo informa sobre a dispersão de $ \theta$. Além disso, a exigência de que a probabilidade acima possa ser maior do que o nível de confiança é essencialmente técnica pois queremos que o intervalo seja o menor possível, o que em geral implica em usar uma igualdade. No entanto, a desigualdade será útil se $ \theta$ tiver uma distribuição discreta onde nem sempre é possível satisfazer a igualdade.

Outro fato importante é que os intervalos de credibilidade são invariantes a transformações 1 a 1, $ \phi(\theta)$. Ou seja, se $ C=[a,b]$ é um intervalo de credibilidade 100(1-$ \alpha$)% para $ \theta$ então $ [\phi(a),\phi(b)]$ é um intervalo de credibilidade 100(1-$ \alpha$)% para $ \phi(\theta)$. Note que esta propriedade também vale para intervalos de confiança na inferência clássica.

É possível construir uma infinidade de intervalos usando a definição acima mas estamos interessados apenas naquele com o menor comprimento possível. Pode-se mostrar que intervalos de comprimento mínimo são obtidos tomando-se os valores de $ \theta$ com maior densidade a posteriori, e esta idéia é expressa matematicamente na definição abaixo.

Um intervalo de credibilidade $ C$ de 100(1-$ \alpha$)% para $ \theta$ é de máxima densidade a posteriori (MDP) se $ C=\{\theta\in\Theta:p(\theta\vert\bfx)\ge k(\alpha)\}$ onde $ k(\alpha)$ é a maior constante tal que $ P(\theta\in C)\ge 1-\alpha$.

Usando esta definição, todos os pontos dentro do intervalo MDP terão densidade maior do que qualquer ponto fora do intervalo. Além disso, no caso de distribuições com duas caudas, e.g. normal, $ t$ de Student, o intervalo MDP é obtido de modo que as caudas tenham a mesma probabilidade.

Um problema com os intervalos MDP é que eles não são invariantes a transformações 1 a 1, a não ser para transformações lineares. O mesmo problema ocorre com intervalos de comprimento mínimo na inferência clássica.

3.4 Estimação no Modelo Normal

Os resultados desenvolvidos nos capítulos anteriores serão aplicados ao modelo normal para estimação da média e variância em problemas de uma ou mais amostras e em modelos de regressão linear. A análise será feita com priori conjugada e priori não informativa quando serão apontadas as semelhanças com a análise clássica. Assim como nos capítulos anteriores a abordagem aqui é introdutória. Um tratamento mais completo do enfoque Bayesiano em modelos lineares pode ser encontrado em Broemeling (1985) e Box e Tiao (1992).

Nesta seção considere uma amostra aleatória $ X_1,\cdots,X_n$ tomada da distribuição $ N(\theta,\s)$.

3.4.1 Variância Conhecida

Se $ \s$ é conhecido e a priori de $ \theta$ é $ N(\mu_0,\tau_0^2)$ então, pelo Teorema 1.1, a posteriori de $ \theta$ é $ N(\mu_1,\tau_1^2)$. Intervalos de confiança Bayesianos para $ \theta$ podem então ser construídos usando o fato de que

$\displaystyle \frac{\theta-\mu_1}{\tau_1}\vert\bfx\sim N(0,1).
$

Assim, usando uma tabela da distribuição normal padronizada podemos obter o valor do percentil $ z_{\alpha/2}$ tal que

$\displaystyle P\left(-z_{\alpha/2}\le \frac{\theta-\mu_1}{\tau_1} \le
z_{\alpha/2}\right) = 1-\alpha
$

e após isolar $ \theta$, obtemos que

$\displaystyle P\left(\mu_1-z_{\alpha/2}\tau_1\le \theta \le
\mu_1+z_{\alpha/2}\tau_1\right) = 1-\alpha.
$

Portanto $ \left(\mu_1-z_{\alpha/2}\tau_1; \mu_1+z_{\alpha/2}\tau_1\right)$ é o intervalo de confiança 100(1-$ \alpha$)% MDP para $ \theta$, devido à simetria da normal.

A priori não informativa pode ser obtida fazendo-se a variância da priori tender a infinito, i.e. $ \tau_0^2\rightarrow\infty$. Neste caso, é fácil verificar que $ \tau_1^{-2}\rightarrow n\sigma^{-2}$ e $ \mu_1\rightarrow\overline{\bfx}$, i.e. a média e a precisão da posteriori convergem para a média e a precisão amostrais. Média, moda e mediana a posteriori coincidem então com a estimativa clássica de máxima verossimilhança, $ \overline{\bfx}$. O intervalo de confiança Bayesiano 100(1-$ \alpha$)% é dado por

$\displaystyle \left(
\overline{\bfx}-z_{\alpha/2}~\sigma/\sqrt{n};~
\overline{\bfx}+z_{\alpha/2}~\sigma/\sqrt{n}\right)
$

e também coincide numericamente com o intervalo de confiança clássico. Aqui entretanto a interpretação do intervalo é como uma afirmação probabilística sobre $ \theta$.

3.4.2 Média e Variância desconhecidas

Neste caso, usando a priori conjugada Normal-Gama vista no Capítulo 2 temos que a distribuição a posteriori marginal de $ \theta$ é dada por

$\displaystyle \theta\vert\bfx\sim t_{n_1}(\mu_1,\sigma_1^2/c_1).
$

Portanto, média, moda e mediana a posteriori coincidem e são dadas por $ \mu_1$. Denotando por $ t_{\alpha/2,n_1}$ o percentil 100(1-$ \alpha/2$)% da distribuição $ t_{n_1}(0,1)$ podemos obter este percentil tal que

$\displaystyle P\left(-t_{\alpha/2,n_1}\le
\sqrt{c_1}\frac{\theta-\mu_1}{\sigma_1} \le t_{\alpha/2,n_1}\right) =1-\alpha
$

e após isolar $ \theta$, usando a simetria da distribuição $ t$-Student obtemos que

$\displaystyle \left(\mu_1-t_{\alpha/2,n_1}\frac{\sigma_1}{\sqrt{c_1}}\le \theta \le
\mu_1+t_{\alpha/2,n_1}\frac{\sigma_1}{\sqrt{c_1}}\right)
$

é o intervalo de confiança Bayesiano 100(1-$ \alpha$)% de MDP para $ \theta$.

No caso da variância populacional $ \s$ intervalos de confiança podem ser obtidos usando os percentis da distribuição qui-quadrado uma vez que a distribuição a posteriori de $ \phi$ é tal que $ n_1\sigma_1^2\phi\vert\bfx\sim \chi^2_{n_1}$. Denotando por

$\displaystyle \underline{\chi}^2_{\alpha/2,n_1}$   e$\displaystyle \quad \overline{\chi}%%
^2_{\alpha/2,n_1}
$

os percentis $ \alpha/2$ e $ 1-\alpha/2$ da distribuição qui-quadrado com $ n_1$ graus de liberdade respectivamente, podemos obter estes percentis tais que

$\displaystyle P\left( \frac{\underline{\chi}^2_{\alpha/2,n_1}}{n_1\sigma_1^2}
\...
...i \le \frac{\overline{\chi}^2_{\alpha/2,n_1}}{n_1\sigma_1^2}\right)=1-\alpha.
$

Note que este intervalo não é de MDP já que a distribuição qui-quadrado não é simétrica. Como $ \sigma^2=1/\phi$ é uma função 1 a 1 podemos usar a propriedade de invariância e portanto

$\displaystyle \left(\frac{n_1\sigma_1^2}{\overline{\chi}^2_{\alpha/2,n_1}}; \frac{%%
n_1\sigma_1^2}{\underline{\chi}^2_{\alpha/2,n_1}}\right)
$

é o intervalo de confiança Bayesiano 100(1-$ \alpha$)% para $ \sigma^2$.

Um caso particular é quanto utilizamos uma priori não informativa. Vimos na Seção 2.4 que a priori não informativa de locação e escala é $ p(\theta,\sigma)\propto 1/\sigma$, portanto pela propriedade de invariância segue que a priori não informativa de $ (\theta,\phi)$ é obtida fazendo-se $ p(\theta,\phi)\propto
\phi^{-1}$. Note que este é um caso particular (degenerado) da priori conjugada natural com $ c_0=0$, $ \sigma_0^2=0$ e $ n_0=-1$. Neste caso a distribuição a posteriori marginal de $ \theta$ fica

$\displaystyle \theta\vert\bfx\sim t_{n-1}(\overline{\bfx},s^2/n) $

onde $ s^2=1/(n-1)\sum_{i=1}^n (x_i-\overline{x})^2$.

Mais uma vez média, moda e mediana a posteriori de $ \theta$ coincidem com a média amostral $ \overline{x}$ que é a estimativa de máxima verossimilhança. Como $ \sqrt{n}(\theta-\overline{x})/s\sim t_{n-1}(0,1)$ segue que o intervalo de confiança 100(1-$ \alpha$)% para $ \theta$ de MDP é

$\displaystyle \left(\overline{x}-t_{\alpha/2,n-1}\frac{s}{\sqrt{n}}; \overline{x} +
t_{\alpha/2,n-1}\frac{s}{\sqrt{n}}\right)
$

que coincide numericamente com o intervalo de confiança clássico.

Para fazer inferências sobre $ \sigma^2$ temos que

$\displaystyle \phi\vert\bfx\sim$   Gama$\displaystyle \left(\frac{n-1}{2},\frac{(n-1)s^2}{2}\right)$   ou$\displaystyle \quad (n-1)s^2\phi\vert\bfx\sim\chi^2_{n-1}.
$

A estimativa pontual de $ \sigma^2$ utilizada é $ [E(\phi\vert x)]^{-1}=s^2$ que coincide com a estimativa clássica uma vez que o estimador de máxima verossimilhança
$ (n-1)S^2/n$ é viciado e normalmente substituido por $ S^2$ (que é não viciado). Os intervalos de confiança 100(1-$ \alpha$)% Bayesiano e clássico também coincidem e são dados por

$\displaystyle \left(\frac{(n-1)s^2}{\overline{\chi}_{\alpha/2,n-1}^2}; \frac{(n-1)s^2}{%%
\underline{\chi}_{\alpha/2,n-1}^2}\right).
$

Mais uma vez vale enfatizar que esta coincidência com as estimativas clássicas é apenas numérica uma vez que as interpretações dos intervalos diferem radicalmente.

3.4.3 O Caso de duas Amostras

Nesta seção vamos assumir que $ X_{11},\dots,X_{1n_1}$ e $ X_{21},\dots,X_{2n_2}$ são amostras aleatórias das distribuições $ N(\theta_1,\s_1)$ e $ N(\theta_2,\s_2)$ respectivamente e que as amostras são independentes.

Para começar vamos assumir que as variâncias $ \s_1$ e $ \s_2$ são conhecidas. Neste caso, a função de verossimilhança é dada por

$\displaystyle p(\bfx_1,\bfx_2\vert\theta_1,\theta_2)=p(\bfx_1\vert\theta_1)p(\b...
..._1)^2\right\}
\exp\left\{-\frac{n_2}{2\s_2}(\theta_2-\overline{x}_2)^2\right\}
$

isto é, o produto de verossimilhanças relativas a $ \theta_1$ e $ \theta_2$. Assim, se assumirmos que $ \theta_1$ e $ \theta_2$ são independentes a priori então eles também serão independentes a posteriori já que

$\displaystyle p(\theta_1,\theta_2\vert\bfx_1,\bfx_2)=
\frac{p(\bfx_1\vert\theta...
...heta_1)}{p(\bfx_1)}\times
\frac{p(\bfx_2\vert\theta_2)p(\theta_2)}{p(\bfx_2)}
$

Se usarmos a classe de prioris conjugadas $ \theta_i\sim
N(\mu_i,\tau_i^2)$ então as posterioris independentes serão $ \theta_i\vert\bfx_i\sim N(\mu_i^*,\tau_i^{*^2})$ onde

$\displaystyle \mu_i^*=
\frac{\tau_i^{-2}\mu_i + n_i\invs_i~\overline{\bfx}_i}
{\tau_i^{-2}+n_i\invs_i}$   e$\displaystyle \quad
\tau_i^{*^2}=1/(\tau_i^{-2}+n_i\invs_i),\quad i=1,2.
$

Em geral estaremos interessados em comparar as médias populacionais, i.e queremos estimar $ \beta=\theta_1-\theta_2$. Neste caso, a posteriori de $ \beta$ é facilmente obtida, devido à independência, como

$\displaystyle \beta\vert\bfx_1,\bfx_2\sim N(\mu_1^*-\mu_2^*,\tau_1^{*^2}+\tau_2^{*^2})
$

e podemos usar $ \mu_1^*-\mu_2^*$ como estimativa pontual para a diferença e também construir um intervalo de credibilidade MDP para esta diferença. Note que se usarmos priori não informativa, i.e. fazendo $ \tau_i^2\rightarrow\infty$, $ i=1,2$ então a posteriori fica

$\displaystyle \beta\vert\bfx_1,\bfx_2\sim
N\left(\overline{\bfx}_1-\overline{\bfx}_2,
\frac{\s_1}{n_1}+\frac{\s_2}{n_2}\right)
$

e o intervalo obtido coincidirá mais uma vez com o intervalo de confiança clássico.

No caso de variâncias populacionais desconhecidas porém iguais, temos que $ \phi=\invs_1=\invs_2=\s$. A priori conjugada pode ser construída em duas etapas. No primeiro estágio, assumimos que, dado $ \phi$, $ \theta_1$ e $ \theta_2$ são a priori condicionalmente independentes, e especificamos

$\displaystyle \theta_i\vert\phi\sim N(\mu_i,(c_i\phi)^{-1}), i=1,2.
$

e no segundo estágio, especificamos a priori conjugada natural para $ \phi$, i.e.

$\displaystyle \phi\sim$Gama$\displaystyle \left(\frac{n_0}{2},\frac{n_0\s_0}{2}\right).
$

Combinando as prioris acima não é difícil verificar que a priori conjunta de $ (\theta_1,\theta_2,\phi)$ é
$\displaystyle p(\theta_1,\theta_2,\phi)$ $\displaystyle =$ $\displaystyle p(\theta_1\vert\phi)p(\theta_2\vert\phi)p(\phi)$  
  $\displaystyle \propto$ $\displaystyle \phi^{n_0/2}
\exp\left\{-\frac{\phi}{2}
\bigg[n_0\s_0+c_1(\theta_1-\mu_1)^2+c_2(\theta_2-\mu_2)^2
\bigg]\right\}.$  

Além disso, também não é difícil obter a priori condicional de $ \beta=\theta_1-\theta_2$, dado $ \phi$, como

$\displaystyle \beta\vert\phi\sim N(\mu_1-\mu_2,\phi^{-1}(c_1^{-1}+c_2^{-1}))
$

e portanto, usando os resultados da Seção 2.3.5 segue que a distribuição a priori marginal da diferença é

$\displaystyle \beta\sim t_{n_0}(\mu_1-\mu_2,\s_0(c_1^{-1}+c_2^{-1})).
$

Podemos mais uma vez obter a posteriori conjunta em duas etapas já que $ \theta_1$ e $ \theta_2$ também serão condicionalmente independentes a posteriori, dado $ \phi$. Assim, no primeiro estágio usando os resultados obtidos anteriormente para uma amostra segue que

$\displaystyle \theta_i\vert\phi,\bfx\sim N(\mu_i^*,(c_1^*\phi)^{-1}),\quad i=1,2
$

onde

$\displaystyle \mu_i^*=\frac{c_i\mu_i + n_i\overline{x}_i}{c_i+n_i}$   e$\displaystyle \quad c_i^*=c_i+n_i.
$

Na segunda etapa temos que combinar a verossimilhança com a priori de $ (\theta_1,\theta_2,\phi)$. Definindo a variância amostral combinada

$\displaystyle s^2 = \frac{(n_1 - 1)S_1^2 + (n_2 - 1)S_2^2}{n_1 + n_2 - 2}
$

e denotando $ \nu=n_1 + n_2 - 2$, a função de verossimilhança pode ser escrita como

$\displaystyle p(\bfx_1,\bfx_2\vert\theta_1,\theta_2,\phi)=
\phi^{(n_1+n_2)/2}
\...
...\theta_1-\overline{\bfx}_1)^2+n_2(\theta_2-\overline{\bfx}_2)^2
\bigg]\right\}
$

e após algum algebrismo obtemos que a posteriori é proporcional a

$\displaystyle \phi^{(n_0+n_1+n_2)/2}
\exp\left\{-\frac{\phi}{2}\bigg[n_0\s_0+\n...
...}{c_i^*}(\mu_i-\overline{\bfx}_i)^2+
c_i^*(\theta_i-\mu_i^*)^2
\bigg]\right\}.
$

Como esta posteriori tem o mesmo formato da priori segue por analogia que

$\displaystyle \phi\vert\bfx\sim$Gama$\displaystyle \left(\frac{n_0^*}{2},\frac{n_0^*\sigma_0^{*^2}}{2}\right)
$

onde $ n_0^*=n_0+n_1+n_2$ e $ n_0^*\sigma_0^{*^2}=n_0\s_0+\nu s^2+
\sum_{i=1}^2 c_i n_i (\mu_i-\overline{\bfx}_i)^2/c_i^*$. Ainda por analogia com o caso de uma amostra, a posteriori marginal da diferença é dada por

$\displaystyle \beta\vert\bfx\sim
t_{n_0^*}(\mu_1^*-\mu_2^*,\sigma_0^{*^2}(c_1^{*^{-1}}+c_2^{*^{-1}})).
$

Assim, média, moda e mediana a posteriori de $ \beta$ coincidem e a estimativa pontual é $ \mu_1^*-\mu_2^*$. Também intervalos de credibilidade de MDP podem ser obtidos usando os percentis da distribuição $ t$ de Student. Para a variância populacional a estimativa pontual usual é $ \sigma_0^{*^2}$ e intervalos podem ser construídos usando os percentis da distribuição qui-quadrado já que $ n_0^*\sigma_0^{*^2}\phi~\vert~\bfx\sim\chi^2_{n_0^*}$

Vejamos agora como fica a análise usando priori não informativa. Neste caso, $ p(\theta_1,\theta_2,\phi)\propto\phi^{-1}$ e isto equivale a um caso particular (degenerado) da priori conjugada com $ c_i=0$, $ \s_0=0$ e $ n_0=-2$. Assim, temos que $ c_i^*=n_i$, $ \mu_i^*=\overline{\bfx}_i$, $ n_0^*=\nu$ e $ n_0^*\sigma_0^{*^2}=\nu
s^2$ e a estimativa pontual concide com a estimativa de máxima verossimilhança $ \hat{\beta}=\overline{\bfx}_1-\overline{\bfx}_2$. O intervalo de $ 100(1-\alpha)\%$ de MDP para $ \beta$ tem limites

$\displaystyle \overline{\bfx}_1-\overline{\bfx}_2\pm
t_{\frac{\alpha}{2},\nu}\,s\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}
$

que coincide numericamente com o intervalo de confiança clássico.

O intervalo de $ 100(1-\alpha)\%$ para $ \s$ é obtido de maneira análoga ao caso de uma amostra usando a distribuição qui-quadrado, agora com $ \nu$ graus de liberdade, i.e.

$\displaystyle \left(
\frac{\nu s^2}{\overline {\chi}^2_{\frac{\alpha}{2},\nu}},
\frac{\nu s^2}{\underline{\chi}^2_{\frac{\alpha}{2},\nu}}
\right).
$

3.4.4 Variâncias desiguais

Até agora assumimos que as variâncias populacionais desconhecidas eram iguais (ou pelo menos aproximadamente iguais). Na inferência clássica a violação desta suposição leva a problemas teóricos e práticos uma vez que não é trivial encontrar uma quantidade pivotal para $ \beta$ com distribuição conhecida ou tabelada. Na verdade, se existem grandes diferenças de variabilidade entre as duas populações pode ser mais apropriado analisar conjuntamente as consequências das diferenças entre as médias e as variâncias. Assim, caso o pesquisador tenha interesse no parâmetro $ \beta$ deve levar em conta os problemas de ordem teóricas introduzidos por uma diferença substancial entre $ \s_1$ e $ \s_2$.

Do ponto de vista Bayesiano o que precisamos fazer é combinar informação a priori com a verossimilhança e basear a estimação na distribuição a posteriori. A função de verossimilhança agora pode ser fatorada como

$\displaystyle p(\bfx_1,\bfx_2\vert\theta_1,\theta_2,\s_1\s_2)=
p(\bfx_1\vert\theta_1,\s_1)p(\bfx_2\vert\theta_2,\s_2)
$

e vamos adotar prioris conjugadas normal-gama independentes com parâmetros $ (\mu_i,c_i,\nu_i,\s_{0i})$ para cada uma das amostras. Fazendo as operações usuais para cada amostra, e usando a conjugação da normal-gama, obtemos as seguintes distribuições a posteriori independentes

$\displaystyle \theta_i\vert\bfx\sim t_{n_{0i}^*}(\mu_i^*,\sigma_{0i}^{*^2}/c_i^*)$   e$\displaystyle \quad
\phi_i\vert\bfx\sim$Gama$\displaystyle \left(\frac{n_{0i}^*}{2},\frac{n_{0i}^*\sigma_{0i}^{*^2}}{2}\right),
\quad i=1,2.
$

Pode-se mostrar que $ \beta$ tem uma distribuição a posteriori chamada Behrens-Fisher, que é semelhante à $ t$ de Student e é tabelada. Assim, intervalos de credibilidade podem ser construídos usando-se estes valores tabelados.

Outra situação de interesse é a comparação das duas variâncias populacionais. Neste caso, faz mais sentido utilizar a razão de variâncias ao invés da diferença já que elas medem a escala de uma distribuição e são sempre positivas. Neste caso temos que obter a distribuição a posteriori de $ \s_2/\s_1=\phi_1/\phi_2$. Usando a independência a posteriori de $ \phi_1$ e $ \phi_2$ e após algum algebrismo pode-se mostrar que

$\displaystyle \frac{\sigma_{01}^{*^2}}{\sigma_{02}^{*^2}}\frac{\phi_1}{\phi_2}
\sim F(n_{01}^*,n_{02}^*)
$

Embora sua função de distribuição não possa ser obtida analiticamente os valores estão tabelados em muitos livros de estatística e também podem ser obtidos na maioria dos pacotes computacionais. Os percentis podem então ser utilizados na construção de intervalos de credibilidade para a razão de variâncias.

Uma propriedade bastante útil para calcular probabilidade com a distribuição $ F$ vem do fato de que se $ X\sim F(\nu_2,\nu_1)$ então $ X^{-1}\sim F(\nu_1,\nu_2)$ por simples inversão na razão de distribuições qui-quadrado independentes. Assim, denotando os quantis $ \alpha$ e $ 1-\alpha$ da distribuição $ F(\nu_1,\nu_2)$ por $ \underline{F}_{\alpha}(\nu_1,\nu_2)$ e $ \overline{F}_{\alpha}(\nu_1,\nu_2)$ respectivamente segue que

$\displaystyle \underline{F}_{\alpha}(\nu_1,\nu_2) =
\frac{1}{\overline{F}_{\alpha}(\nu_2,\nu_1)}.
$

Note que é usual que os livros forneçam tabelas com os percentis superiores da distribuição $ F$ para várias combinações de valores de $ \nu_1$ e $ \nu_2$ devido à propriedade acima. Por exemplo, se temos os valores tabelados dos quantis 0,95 podemos obter também um quantil 0,05. Basta procurar o quantil 0,95 inverterndo os graus de liberdade.

Finalmente, a análise usando priori não informativa pode ser feita para $ p(\theta_1,\theta_2,\s_1,\s_2)\propto\invs_1\invs_2$ e será deixada como exercício.


next up previous contents
Next: 4. Computação Bayesiana Up: Introdução a Inferência Bayesiana Previous: 2. Distribuições a Priori   Sumário
Ricardo Ehlers & Paulo Justiniano