3. Estimação

A distribuição a posteriori de um parâmetro $\theta$ contém toda a informação probabilística a respeito deste parâmetro e um gráfico da sua função de densidade a posteriori é a melhor descrição do processo de inferência. No entanto, algumas vezes é necessário resumir a informação contida na posteriori através de alguns poucos valores numéricos. O caso mais simples é a estimação pontual de $\theta$ onde se resume a distribuição a posteriori através de um único número, $\hat{\theta}$ . Como veremos a seguir, será mais fácil entender a escolha de $\hat{\theta}$ no contexto de teoria da decisão.

3.1 Introdução à Teoria da Decisão

Um problema de decisão fica completamente especificado pela descrição dos seguintes espaços:

Uma regra de decisão $\delta$ é uma função definida em $\Omega$ que assume valores em

, i.e. $\delta:\Omega\rightarrow A$ . A cada decisão $\delta$ e a cada possível valor do parâmetro $\theta$ podemos associar uma perda $L(\delta,\theta)$ assumindo valores positivos. Definimos assim uma função de perda.

O risco de uma regra de decisão, denotado por $R(\delta)$ , é a perda esperada a posteriori, i.e. $R(\delta)=E_{\theta\vert\bfx} [L(\delta,\theta)]$ .

Uma regra de decisão $\delta^*$ é ótima se tem risco mínimo, i.e. $R(\delta^*)<R(\delta), ~\forall \delta$ . Esta regra será denominada regra de Bayes e seu risco, risco de Bayes.

Um laboratório farmaceutico deve decidir pelo lançamento ou não de uma nova droga no mercado. É claro que o laboratório só lançará a droga se achar que ela é eficiente mas isto é exatamente o que é desconhecido. Podemos associar um parâmetro $\theta$ aos estados da natureza: droga é eficiente ( $\theta=1$ ), droga não é eficiente ( $\theta=0$ ) e as possíveis ações como lança a droga ( $\delta=1$ ), não lança a droga ( $\delta=0$ ). Suponha que foi possível construir a seguinte tabela de perdas levando em conta a eficiência da droga,

	eficiente	não eficiente
lança	-500	600
não lança	1500	100

Vale notar que estas perdas traduzem uma avaliação subjetiva em relação à gravidade dos erros cometidos. Suponha agora que a incerteza sobre os estados da natureza é descrita por $P(\theta=1)=\pi$ , $0<\pi<1$ avaliada na distribuição atualizada de $\theta$ (seja a priori ou a posteriori). Note que, para $\delta$ fixo, $L(\delta,\theta)$ é uma variável aleatória discreta assumindo apenas dois valores com probabilidades $\pi$ e $1-\pi$ . Assim, usando a definição de risco obtemos que

$\displaystyle R(\delta=0)$	$\displaystyle =$	$\displaystyle E(L(0,\theta))=\pi 1500 +(1-\pi) 100 = 1400\pi + 100$
$\displaystyle R(\delta=1)$	$\displaystyle =$	$\displaystyle E(L(1,\theta))=\pi(-500)+(1-\pi) 600 =-1100\pi + 600$

3.2 Estimadores de Bayes

Seja agora uma amostra aleatória $X_1,\dots,X_n$ tomada de uma distribuição com função de (densidade) de probabilidade $p(x\vert\theta)$ aonde o valor do parâmetro $\theta$ é desconhecido. Em um problema de inferência como este o valor de $\theta$ deve ser estimado a partir dos valores observados na amostra.

Se $\theta\in\Theta$ então é razoável que os possíveis valores de um estimador $\delta(\bfX)$ também devam pertencer ao espaço $\Theta$ . Além disso, um bom estimador é aquele para o qual, com alta probabilidade, o erro $\delta(\bfX)-\theta$ estará próximo de zero. Para cada possível valor de $\theta$ e cada possível estimativa $a\in\Theta$ vamos associar uma perda $L(a,\theta)$ de modo que quanto maior a distância entre

e $\theta$ maior o valor da perda. Neste caso, a perda esperada a posteriori é dada por

$\displaystyle E[L(a,\theta)\vert\bfx] = \int L(a,\theta)p(\theta\vert\bfx) d\theta$

Aqui vamos discutir apenas funções de perda simétricas, já que estas são mais comumente utilizadas. Dentre estas a mais utilizada em problemas de estimação é certamente a função de perda quadrática, definida como $L(a,\theta)=(a-\theta)^2$ . Neste caso, pode-se mostrar que o estimador de Bayes para o parâmetro $\theta$ será a média de sua distribuição atualizada.

Suponha que queremos estimar a proporção $\theta$ de itens defeituosos em um grande lote. Para isto será tomada uma amostra aleatória $X_1,\dots,X_n$ de uma distribuição de Bernoulli com parâmetro $\theta$ . Usando uma priori conjugada Beta( $\alpha,\beta$ ) sabemos que após observar a amostra a distribuição a posteriori é Beta( $\alpha+t,\beta+n-t$ ) onde $t=\sum_{i=1}^n x_i$ . A média desta distribuição Beta é dada por $(\alpha+t)/(\alpha+\beta+n)$ e portanto o estimador de Bayes de $\theta$ usando perda quadrática é

$\displaystyle \delta(\bfX)= \frac{\alpha+\sum_{i=1}^n X_i}{\alpha+\beta+n}.$

A perda quadrática é as vezes criticada por penalizar demais o erro de estimação. A função de perda absoluta, definida como $L(a,\theta)=\vert a-\theta\vert$ , introduz punições que crescem linearmente com o erro de estimação e pode-se mostrar que o estimador de Bayes associado é a mediana da distribuição atualizada de $\theta$ .

Para reduzir ainda mais o efeito de erros de estimação grandes podemos considerar funções que associam uma perda fixa a um erro cometido, não importando sua magnitude. Uma tal função de perda, denominada perda 0-1, é definida como

$\begin{displaymath} L(a,\theta)=\left\{ \begin{array}{ccc} 1 &\mbox{se}& \vert a... ... 0 &\mbox{se}& \vert a-\theta\vert<\epsilon \end{array}\right. \end{displaymath}$

$\displaystyle \frac{\partial p(\theta\vert\bfx)}{\partial\theta} =0.$

Se $X_1,\dots,X_n$ é uma amostra aleatória da $N(\theta,\s)$ com $\s$ conhecido e usarmos a priori conjugada, i.e. $\theta\sim N(\mu_0,\tau_0^2)$ então a posteriori também será normal e neste caso média, mediana e moda coincidem. Portanto, o estimador de Bayes de $\theta$ é dado por

$\displaystyle \delta(\bfX)=\frac{\tau_0^{-2}\mu_0+n\invs\overline{\bfX}}{\tau_0^{-2}+n\invs}.$

No exemplo 3..2 suponha que foram observados 100 itens dos quais 10 eram defeituosos. Usando perda quadrática a estimativa de Bayes de $\theta$ é

$\displaystyle \delta(\bfx) = \frac{\alpha+10}{\alpha+\beta+100}$

3.3 Estimação por Intervalos

Voltamos a enfatizar que a forma mais adequada de expressar a informação que se tem sobre um parâmetro é através de sua distribuição a posteriori. A principal restrição da estimação pontual é que quando estimamos um parâmetro através de um único valor numérico toda a informação presente na distribuição a posteriori é resumida através deste número. É importante também associar alguma informação sobre o quão precisa é a especificação deste número. Para os estimadores vistos aqui as medidas de incerteza mais usuais são a variância ou o coeficiente de variação para a média a posteriori, a medida de informação observada de Fisher para a moda a posteriori, e a distância entre quartis para a mediana a posteriori.

Nesta seção vamos introduzir um compromisso entre o uso da própria distribuição a posteriori e uma estimativa pontual. Será discutido o conceito de intervalo de credibilidade (ou intervalo de confiança Bayesiano) baseado no distribuição a posteriori.

C é um intervalo de credibilidade de 100(1- $\alpha$ )%, ou nível de credibilidade (ou confiança) $1-\alpha$ , para $\theta$ se $P(\theta\in C)\ge 1-\alpha$ .

Note que a definição expressa de forma probabilística a pertinência ou não de $\theta$ ao intervalo. Assim, quanto menor for o tamanho do intervalo mais concentrada é a distribuição do parâmetro, ou seja o tamanho do intervalo informa sobre a dispersão de $\theta$ . Além disso, a exigência de que a probabilidade acima possa ser maior do que o nível de confiança é essencialmente técnica pois queremos que o intervalo seja o menor possível, o que em geral implica em usar uma igualdade. No entanto, a desigualdade será útil se $\theta$ tiver uma distribuição discreta onde nem sempre é possível satisfazer a igualdade.

Outro fato importante é que os intervalos de credibilidade são invariantes a transformações 1 a 1, $\phi(\theta)$ . Ou seja, se

é um intervalo de credibilidade 100(1- $\alpha$ )% para $\theta$ então $[\phi(a),\phi(b)]$ é um intervalo de credibilidade 100(1- $\alpha$ )% para $\phi(\theta)$ . Note que esta propriedade também vale para intervalos de confiança na inferência clássica.

É possível construir uma infinidade de intervalos usando a definição acima mas estamos interessados apenas naquele com o menor comprimento possível. Pode-se mostrar que intervalos de comprimento mínimo são obtidos tomando-se os valores de $\theta$ com maior densidade a posteriori, e esta idéia é expressa matematicamente na definição abaixo.

Um intervalo de credibilidade

de 100(1- $\alpha$ )% para $\theta$ é de máxima densidade a posteriori (MDP) se $C=\{\theta\in\Theta:p(\theta\vert\bfx)\ge k(\alpha)\}$ onde $k(\alpha)$ é a maior constante tal que $P(\theta\in C)\ge 1-\alpha$ .

Usando esta definição, todos os pontos dentro do intervalo MDP terão densidade maior do que qualquer ponto fora do intervalo. Além disso, no caso de distribuições com duas caudas, e.g. normal,

de Student, o intervalo MDP é obtido de modo que as caudas tenham a mesma probabilidade.

Um problema com os intervalos MDP é que eles não são invariantes a transformações 1 a 1, a não ser para transformações lineares. O mesmo problema ocorre com intervalos de comprimento mínimo na inferência clássica.

3.4 Estimação no Modelo Normal

Os resultados desenvolvidos nos capítulos anteriores serão aplicados ao modelo normal para estimação da média e variância em problemas de uma ou mais amostras e em modelos de regressão linear. A análise será feita com priori conjugada e priori não informativa quando serão apontadas as semelhanças com a análise clássica. Assim como nos capítulos anteriores a abordagem aqui é introdutória. Um tratamento mais completo do enfoque Bayesiano em modelos lineares pode ser encontrado em Broemeling (1985) e Box e Tiao (1992).

Nesta seção considere uma amostra aleatória $X_1,\cdots,X_n$ tomada da distribuição $N(\theta,\s)$ .

3.4.1 Variância Conhecida

Se $\s$ é conhecido e a priori de $\theta$ é $N(\mu_0,\tau_0^2)$ então, pelo Teorema 1.1, a posteriori de $\theta$ é $N(\mu_1,\tau_1^2)$ . Intervalos de confiança Bayesianos para $\theta$ podem então ser construídos usando o fato de que

$\displaystyle \frac{\theta-\mu_1}{\tau_1}\vert\bfx\sim N(0,1).$

$\displaystyle P\left(-z_{\alpha/2}\le \frac{\theta-\mu_1}{\tau_1} \le z_{\alpha/2}\right) = 1-\alpha$

$\displaystyle P\left(\mu_1-z_{\alpha/2}\tau_1\le \theta \le \mu_1+z_{\alpha/2}\tau_1\right) = 1-\alpha.$

A priori não informativa pode ser obtida fazendo-se a variância da priori tender a infinito, i.e. $\tau_0^2\rightarrow\infty$ . Neste caso, é fácil verificar que $\tau_1^{-2}\rightarrow n\sigma^{-2}$ e $\mu_1\rightarrow\overline{\bfx}$ , i.e. a média e a precisão da posteriori convergem para a média e a precisão amostrais. Média, moda e mediana a posteriori coincidem então com a estimativa clássica de máxima verossimilhança, $\overline{\bfx}$ . O intervalo de confiança Bayesiano 100(1- $\alpha$ )% é dado por

$\displaystyle \left( \overline{\bfx}-z_{\alpha/2}~\sigma/\sqrt{n};~ \overline{\bfx}+z_{\alpha/2}~\sigma/\sqrt{n}\right)$

3.4.2 Média e Variância desconhecidas

Neste caso, usando a priori conjugada Normal-Gama vista no Capítulo 2 temos que a distribuição a posteriori marginal de $\theta$ é dada por

$\displaystyle \theta\vert\bfx\sim t_{n_1}(\mu_1,\sigma_1^2/c_1).$

$\displaystyle P\left(-t_{\alpha/2,n_1}\le \sqrt{c_1}\frac{\theta-\mu_1}{\sigma_1} \le t_{\alpha/2,n_1}\right) =1-\alpha$

$\displaystyle \left(\mu_1-t_{\alpha/2,n_1}\frac{\sigma_1}{\sqrt{c_1}}\le \theta \le \mu_1+t_{\alpha/2,n_1}\frac{\sigma_1}{\sqrt{c_1}}\right)$

No caso da variância populacional $\s$ intervalos de confiança podem ser obtidos usando os percentis da distribuição qui-quadrado uma vez que a distribuição a posteriori de $\phi$ é tal que $n_1\sigma_1^2\phi\vert\bfx\sim \chi^2_{n_1}$ . Denotando por

$\displaystyle \underline{\chi}^2_{\alpha/2,n_1}$ e $\displaystyle \quad \overline{\chi}%% ^2_{\alpha/2,n_1}$

$\displaystyle P\left( \frac{\underline{\chi}^2_{\alpha/2,n_1}}{n_1\sigma_1^2} \... ...i \le \frac{\overline{\chi}^2_{\alpha/2,n_1}}{n_1\sigma_1^2}\right)=1-\alpha.$

$\displaystyle \left(\frac{n_1\sigma_1^2}{\overline{\chi}^2_{\alpha/2,n_1}}; \frac{%% n_1\sigma_1^2}{\underline{\chi}^2_{\alpha/2,n_1}}\right)$

Um caso particular é quanto utilizamos uma priori não informativa. Vimos na Seção 2.4 que a priori não informativa de locação e escala é $p(\theta,\sigma)\propto 1/\sigma$ , portanto pela propriedade de invariância segue que a priori não informativa de $(\theta,\phi)$ é obtida fazendo-se $p(\theta,\phi)\propto \phi^{-1}$ . Note que este é um caso particular (degenerado) da priori conjugada natural com

, $\sigma_0^2=0$ e

. Neste caso a distribuição a posteriori marginal de $\theta$ fica

$\displaystyle \theta\vert\bfx\sim t_{n-1}(\overline{\bfx},s^2/n)$

Mais uma vez média, moda e mediana a posteriori de $\theta$ coincidem com a média amostral $\overline{x}$ que é a estimativa de máxima verossimilhança. Como $\sqrt{n}(\theta-\overline{x})/s\sim t_{n-1}(0,1)$ segue que o intervalo de confiança 100(1- $\alpha$ )% para $\theta$ de MDP é

$\displaystyle \left(\overline{x}-t_{\alpha/2,n-1}\frac{s}{\sqrt{n}}; \overline{x} + t_{\alpha/2,n-1}\frac{s}{\sqrt{n}}\right)$

$\displaystyle \phi\vert\bfx\sim$ Gama $\displaystyle \left(\frac{n-1}{2},\frac{(n-1)s^2}{2}\right)$ ou $\displaystyle \quad (n-1)s^2\phi\vert\bfx\sim\chi^2_{n-1}.$

$\displaystyle \left(\frac{(n-1)s^2}{\overline{\chi}_{\alpha/2,n-1}^2}; \frac{(n-1)s^2}{%% \underline{\chi}_{\alpha/2,n-1}^2}\right).$

Mais uma vez vale enfatizar que esta coincidência com as estimativas clássicas é apenas numérica uma vez que as interpretações dos intervalos diferem radicalmente.

3.4.3 O Caso de duas Amostras

Nesta seção vamos assumir que $X_{11},\dots,X_{1n_1}$ e $X_{21},\dots,X_{2n_2}$ são amostras aleatórias das distribuições $N(\theta_1,\s_1)$ e $N(\theta_2,\s_2)$ respectivamente e que as amostras são independentes.

Para começar vamos assumir que as variâncias $\s_1$ e $\s_2$ são conhecidas. Neste caso, a função de verossimilhança é dada por

$\displaystyle p(\bfx_1,\bfx_2\vert\theta_1,\theta_2)=p(\bfx_1\vert\theta_1)p(\b... ..._1)^2\right\} \exp\left\{-\frac{n_2}{2\s_2}(\theta_2-\overline{x}_2)^2\right\}$

$\displaystyle p(\theta_1,\theta_2\vert\bfx_1,\bfx_2)= \frac{p(\bfx_1\vert\theta... ...heta_1)}{p(\bfx_1)}\times \frac{p(\bfx_2\vert\theta_2)p(\theta_2)}{p(\bfx_2)}$

Se usarmos a classe de prioris conjugadas $\theta_i\sim N(\mu_i,\tau_i^2)$ então as posterioris independentes serão $\theta_i\vert\bfx_i\sim N(\mu_i^*,\tau_i^{*^2})$ onde

$\displaystyle \mu_i^*= \frac{\tau_i^{-2}\mu_i + n_i\invs_i~\overline{\bfx}_i} {\tau_i^{-2}+n_i\invs_i}$ e $\displaystyle \quad \tau_i^{*^2}=1/(\tau_i^{-2}+n_i\invs_i),\quad i=1,2.$

Em geral estaremos interessados em comparar as médias populacionais, i.e queremos estimar $\beta=\theta_1-\theta_2$ . Neste caso, a posteriori de $\beta$ é facilmente obtida, devido à independência, como

$\displaystyle \beta\vert\bfx_1,\bfx_2\sim N(\mu_1^*-\mu_2^*,\tau_1^{*^2}+\tau_2^{*^2})$

$\displaystyle \beta\vert\bfx_1,\bfx_2\sim N\left(\overline{\bfx}_1-\overline{\bfx}_2, \frac{\s_1}{n_1}+\frac{\s_2}{n_2}\right)$

No caso de variâncias populacionais desconhecidas porém iguais, temos que $\phi=\invs_1=\invs_2=\s$ . A priori conjugada pode ser construída em duas etapas. No primeiro estágio, assumimos que, dado $\phi$ , $\theta_1$ e $\theta_2$ são a priori condicionalmente independentes, e especificamos

$\displaystyle \theta_i\vert\phi\sim N(\mu_i,(c_i\phi)^{-1}), i=1,2.$

$\displaystyle \phi\sim$ Gama $\displaystyle \left(\frac{n_0}{2},\frac{n_0\s_0}{2}\right).$

$\displaystyle p(\theta_1,\theta_2,\phi)$	$\displaystyle =$	$\displaystyle p(\theta_1\vert\phi)p(\theta_2\vert\phi)p(\phi)$
	$\displaystyle \propto$	$\displaystyle \phi^{n_0/2} \exp\left\{-\frac{\phi}{2} \bigg[n_0\s_0+c_1(\theta_1-\mu_1)^2+c_2(\theta_2-\mu_2)^2 \bigg]\right\}.$

Além disso, também não é difícil obter a priori condicional de $\beta=\theta_1-\theta_2$ , dado $\phi$ , como

$\displaystyle \beta\vert\phi\sim N(\mu_1-\mu_2,\phi^{-1}(c_1^{-1}+c_2^{-1}))$

$\displaystyle \beta\sim t_{n_0}(\mu_1-\mu_2,\s_0(c_1^{-1}+c_2^{-1})).$

Podemos mais uma vez obter a posteriori conjunta em duas etapas já que $\theta_1$ e $\theta_2$ também serão condicionalmente independentes a posteriori, dado $\phi$ . Assim, no primeiro estágio usando os resultados obtidos anteriormente para uma amostra segue que

$\displaystyle \theta_i\vert\phi,\bfx\sim N(\mu_i^*,(c_1^*\phi)^{-1}),\quad i=1,2$

$\displaystyle \mu_i^*=\frac{c_i\mu_i + n_i\overline{x}_i}{c_i+n_i}$ e $\displaystyle \quad c_i^*=c_i+n_i.$

$\displaystyle s^2 = \frac{(n_1 - 1)S_1^2 + (n_2 - 1)S_2^2}{n_1 + n_2 - 2}$

$\displaystyle p(\bfx_1,\bfx_2\vert\theta_1,\theta_2,\phi)= \phi^{(n_1+n_2)/2} \... ...\theta_1-\overline{\bfx}_1)^2+n_2(\theta_2-\overline{\bfx}_2)^2 \bigg]\right\}$

$\displaystyle \phi^{(n_0+n_1+n_2)/2} \exp\left\{-\frac{\phi}{2}\bigg[n_0\s_0+\n... ...}{c_i^*}(\mu_i-\overline{\bfx}_i)^2+ c_i^*(\theta_i-\mu_i^*)^2 \bigg]\right\}.$

$\displaystyle \phi\vert\bfx\sim$ Gama $\displaystyle \left(\frac{n_0^*}{2},\frac{n_0^*\sigma_0^{*^2}}{2}\right)$

$\displaystyle \beta\vert\bfx\sim t_{n_0^*}(\mu_1^*-\mu_2^*,\sigma_0^{*^2}(c_1^{*^{-1}}+c_2^{*^{-1}})).$

Assim, média, moda e mediana a posteriori de $\beta$ coincidem e a estimativa pontual é $\mu_1^*-\mu_2^*$ . Também intervalos de credibilidade de MDP podem ser obtidos usando os percentis da distribuição

de Student. Para a variância populacional a estimativa pontual usual é $\sigma_0^{*^2}$ e intervalos podem ser construídos usando os percentis da distribuição qui-quadrado já que $n_0^*\sigma_0^{*^2}\phi~\vert~\bfx\sim\chi^2_{n_0^*}$

Vejamos agora como fica a análise usando priori não informativa. Neste caso, $p(\theta_1,\theta_2,\phi)\propto\phi^{-1}$ e isto equivale a um caso particular (degenerado) da priori conjugada com

, $\s_0=0$ e

. Assim, temos que

, $\mu_i^*=\overline{\bfx}_i$ , $n_0^*=\nu$ e $n_0^*\sigma_0^{*^2}=\nu s^2$ e a estimativa pontual concide com a estimativa de máxima verossimilhança $\hat{\beta}=\overline{\bfx}_1-\overline{\bfx}_2$ . O intervalo de $100(1-\alpha)\%$ de MDP para $\beta$ tem limites

$\displaystyle \overline{\bfx}_1-\overline{\bfx}_2\pm t_{\frac{\alpha}{2},\nu}\,s\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}$

O intervalo de $100(1-\alpha)\%$ para $\s$ é obtido de maneira análoga ao caso de uma amostra usando a distribuição qui-quadrado, agora com $\nu$ graus de liberdade, i.e.

$\displaystyle \left( \frac{\nu s^2}{\overline {\chi}^2_{\frac{\alpha}{2},\nu}}, \frac{\nu s^2}{\underline{\chi}^2_{\frac{\alpha}{2},\nu}} \right).$

3.4.4 Variâncias desiguais

Até agora assumimos que as variâncias populacionais desconhecidas eram iguais (ou pelo menos aproximadamente iguais). Na inferência clássica a violação desta suposição leva a problemas teóricos e práticos uma vez que não é trivial encontrar uma quantidade pivotal para $\beta$ com distribuição conhecida ou tabelada. Na verdade, se existem grandes diferenças de variabilidade entre as duas populações pode ser mais apropriado analisar conjuntamente as consequências das diferenças entre as médias e as variâncias. Assim, caso o pesquisador tenha interesse no parâmetro $\beta$ deve levar em conta os problemas de ordem teóricas introduzidos por uma diferença substancial entre $\s_1$ e $\s_2$ .

Do ponto de vista Bayesiano o que precisamos fazer é combinar informação a priori com a verossimilhança e basear a estimação na distribuição a posteriori. A função de verossimilhança agora pode ser fatorada como

$\displaystyle p(\bfx_1,\bfx_2\vert\theta_1,\theta_2,\s_1\s_2)= p(\bfx_1\vert\theta_1,\s_1)p(\bfx_2\vert\theta_2,\s_2)$

$\displaystyle \theta_i\vert\bfx\sim t_{n_{0i}^*}(\mu_i^*,\sigma_{0i}^{*^2}/c_i^*)$ e $\displaystyle \quad \phi_i\vert\bfx\sim$ Gama $\displaystyle \left(\frac{n_{0i}^*}{2},\frac{n_{0i}^*\sigma_{0i}^{*^2}}{2}\right), \quad i=1,2.$

Outra situação de interesse é a comparação das duas variâncias populacionais. Neste caso, faz mais sentido utilizar a razão de variâncias ao invés da diferença já que elas medem a escala de uma distribuição e são sempre positivas. Neste caso temos que obter a distribuição a posteriori de $\s_2/\s_1=\phi_1/\phi_2$ . Usando a independência a posteriori de $\phi_1$ e $\phi_2$ e após algum algebrismo pode-se mostrar que

$\displaystyle \frac{\sigma_{01}^{*^2}}{\sigma_{02}^{*^2}}\frac{\phi_1}{\phi_2} \sim F(n_{01}^*,n_{02}^*)$

Embora sua função de distribuição não possa ser obtida analiticamente os valores estão tabelados em muitos livros de estatística e também podem ser obtidos na maioria dos pacotes computacionais. Os percentis podem então ser utilizados na construção de intervalos de credibilidade para a razão de variâncias.

Uma propriedade bastante útil para calcular probabilidade com a distribuição

vem do fato de que se $X\sim F(\nu_2,\nu_1)$ então $X^{-1}\sim F(\nu_1,\nu_2)$ por simples inversão na razão de distribuições qui-quadrado independentes. Assim, denotando os quantis $\alpha$ e $1-\alpha$ da distribuição $F(\nu_1,\nu_2)$ por $\underline{F}_{\alpha}(\nu_1,\nu_2)$ e $\overline{F}_{\alpha}(\nu_1,\nu_2)$ respectivamente segue que

$\displaystyle \underline{F}_{\alpha}(\nu_1,\nu_2) = \frac{1}{\overline{F}_{\alpha}(\nu_2,\nu_1)}.$

Finalmente, a análise usando priori não informativa pode ser feita para $p(\theta_1,\theta_2,\s_1,\s_2)\propto\invs_1\invs_2$ e será deixada como exercício.