Next: 3. Estimação Up: Introdução a Inferência Bayesiana Previous: 1. Introdução Sumário

Subsections

2.1 Prioris Conjugadas
2.2 Conjugação na Família Exponencial
2.3 Principais Famílias Conjugadas
2.4 Priori não Informativa
2.5 Prioris Hierárquicas
2.6 Problemas

2. Distribuições a Priori

A utilização de informação a priori em inferência Bayesiana requer a especificação de uma distribuição a priori para a quantidade de interesse $\theta$ . Esta distribuição deve representar (probabilisticamente) o conhecimento que se tem sobre $\theta$ antes da realização do experimento. Neste capítulo serão discutidas diferentes formas de especificação da distribuição a priori.

2.1 Prioris Conjugadas

A partir do conhecimento que se tem sobre $\theta$ , pode-se definir uma família paramétrica de densidades. Neste caso, a distribuição a priori é representada por uma forma funcional, cujos parâmetros devem ser especificados de acordo com este conhecimento. Estes parâmetros indexadores da família de distribuições a priori são chamados de hiperparâmetros para distingui-los dos parâmetros de interesse $\theta$ .

Esta abordagem em geral facilita a análise e o caso mais importante é o de prioris conjugadas. A idéia é que as distribuições a priori e a posteriori pertençam a mesma classe de distribuições e assim a atualização do conhecimento que se tem de $\theta$ envolve apenas uma mudança nos hiperparâmetros. Neste caso, o aspecto sequencial do método Bayesiano pode ser explorado definindo-se apenas a regra de atualização dos hiperparâmetros já que as distribuições permanecem as mesmas.

Se $F=\{p(x\vert\theta), \theta\in\Theta \}$ é uma classe de distribuições amostrais então uma classe de distribuições é conjugada a se

$\displaystyle \forall\ p(x\vert\theta) \in F$ e $\displaystyle \quad p(\theta) \in P \Rightarrow p(\theta\vert x)\in P.$

Gamerman (1996, 1997 Cap. 2) alerta para o cuidado com a utilização indiscriminada de prioris conjugadas. Essencialmente, o problema é que a priori conjugada nem sempre é uma representação adequada da incerteza a priori. Sua utilização está muitas vezes associada à tratabilidade analítica decorrente.

Uma vez entendidas suas vantagens e desvantagens a questão que se coloca agora é `` como'' obter uma família de distribuições conjugadas.

: (i) Identifique a classe de distribuições para $\theta$ tal que $l(\theta;x)$ seja proporcional a um membro desta classe.
: (ii) Verifique se é fechada por amostragem, i.e., se $\forall$ $p_1,p_2\in P$ $\exists$ tal que $kp_1p_2\in P$ .

Se, além disso, existe uma constante tal que $k^{-1}=\int l(\theta;x)d\theta < \infty$ e todo $p\in P$ é definido como $p(\theta)=k~l(\theta;x)$ então é a família conjugada natural ao modelo amostral gerador de $l(\theta;x)$ .

Sejam $X_1,\dots,X_n\sim$ Bernoulli $(\theta)$ . Então a densidade amostral conjunta é

$\displaystyle p(\bfx\vert\theta)=\theta^t(1-\theta)^{n-t},\quad 0<\theta<1$ onde $\displaystyle \quad t=\sum_{i=1}^n x_i$

e pelo teorema de Bayes segue que

$\displaystyle p(\theta\vert\bfx)\propto \theta^t(1-\theta)^{n-t} p(\theta).$

Note que $l(\theta;x)$ é proporcional à densidade de uma distribuição
Beta(). Além disso, se e são as densidades das distribuições Beta() e Beta() então

$\displaystyle p_1p_2\propto \theta^{a_1+a_2-2}(1-\theta)^{b_1+b_2-2},$

ou seja

é proporcional a densidade da distribuição Beta(

). Conclui-se que a família de distribuições Beta com parâmetros inteiros é conjugada natural à família Bernoulli. Na prática esta classe pode ser ampliada para incluir todas as distribuições Beta, i.e. incluindo todos os valores positivos dos parâmetros.

2.2 Conjugação na Família Exponencial

A família exponencial inclui muitas das distribuições de probabilidade mais comumente utilizadas em Estatística, tanto contínuas quanto discretas. Uma característica essencial desta família é que existe uma estatística suficiente com dimensão fixa. Veremos adiante que a classe conjugada de distribuições é muito fácil de caracterizar.

A família de distribuições com função de (densidade) de probabilidade $p(x\vert\theta)$ pertence à família exponencial a um parâmetro se podemos escrever

$\displaystyle p(x\vert\theta)= a(x)\exp\{u(x)\phi(\theta) + b(\theta)\}.$

Note que pelo critério de fatoração de Neyman

é uma estatística suficiente para $\theta$ .

Neste caso, a classe conjugada é facilmente identificada como,

$\displaystyle p(\theta) = k(\alpha,\beta)\exp\{\alpha\phi(\theta) + \beta b(\theta)\}.$

e aplicando o teorema de Bayes segue que

$\displaystyle p(\theta\vert x) = k(\alpha+u(x),\beta+1)\exp\{[\alpha+u(x)]\phi(\theta) + [\beta+1]b(\theta)\}.$

Agora, usando a constante

, a distribuição preditiva pode ser facilmente obtida sem necessidade de qualquer integração. A partir da equação $p(x)p(\theta\vert x)=p(x\vert\theta)p(\theta)$ e após alguma simplificação segue que

$\displaystyle p(x) = \frac{p(x\vert\theta)p(\theta)}{p(\theta\vert x)} = \frac{a(x)k(\alpha,\beta)}{k(\alpha+u(x),\beta+1)}.$

Uma extensão direta do exemplo 2..1 é o modelo binomial, i.e. $X\vert\theta\sim$ Binomial $(n,\theta)$ . Neste caso,

$\displaystyle p(x\vert\theta) = {{n}\choose{x}} \exp\left\{x\log\left(\frac{\theta}{1-\theta}\right) + n\log(1-\theta)\right\}$

e a família conjugada natural é Beta(

). Podemos escrever então

$\displaystyle p(\theta)$	$\displaystyle \propto$	$\displaystyle \theta^{r-1}(1-\theta)^{s-1}$
	$\displaystyle \propto$	$\displaystyle \exp\left\{(r-1)\log\left(\frac{\theta}{1-\theta} \right)+\left(\frac{s+r-2}{n}\right)n\log(1-\theta)\right\}$
	$\displaystyle \propto$	$\displaystyle \exp\left\{\alpha\phi(\theta)+\beta b(\theta)\right\}.$

A posteriori também é Beta com parâmetros $\alpha+x$ e $\beta+1$ ou equivalentemente

, i.e.

$\displaystyle p(\theta\vert x)$	$\displaystyle \propto$	$\displaystyle \exp\left\{(r+x-1)\phi(\theta)+\left[\frac{s+r-2+n}{n}\right]b(\theta)\right\}$
	$\displaystyle \propto$	$\displaystyle \theta^{r+x-1}(1-\theta)^{s+n-x-1}.$

Então distribuição preditiva é dada por

$\displaystyle p(x)={{n}\choose{x}}\frac{B(r+x,s+n-x)}{B(r,s)},\quad x=0,1,\dots,n, \quad n\ge 1,$

onde $B^{-1}$ é a constante normalizadora da distribuição Beta. Esta distribuição é denominada Beta-Binomial.

No caso geral em que se tem uma amostra $X_1,\dots,X_n$ da família exponencial a natureza sequencial do teorema de Bayes permite que a análise seja feita por replicações sucessivas. Assim a cada observação os parâmetros da distribuição a posteriori são atualizados via

$\displaystyle \alpha_i$	$\displaystyle =$	$\displaystyle \alpha_{i-1} + u(x_i)$
$\displaystyle \beta_i$	$\displaystyle =$	$\displaystyle \beta_{i-1} + 1$

com $\alpha_0=\alpha$ e $\beta_0=\beta$ . Após

observações temos que

$\displaystyle \alpha_n$	$\displaystyle =$	$\displaystyle \alpha + \sum_{i=1}^n u(x_i)$
$\displaystyle \beta_n$	$\displaystyle =$	$\displaystyle \beta + n$

e a distribuição preditiva é dada por

$\displaystyle p(\bfx) = \left[\prod_{i=1}^n a(x_i)\right]\frac{k(\alpha,\beta)}{k(\alpha+\sum u(x_i),\beta+n)}.$

Finalmente, a definição de família exponencial pode ser extendida ao caso multiparamétrico, i.e.

$\displaystyle p(\bfx\vert\bftheta) = \left[\prod_{i=1}^n a(x_i)\right] \exp\lef... ...{j=1}^r \left[\sum_{i=1}^n u_j(x_i)\right]\phi_j(\theta) + nb(\theta)\right\}$

onde $\bftheta=(\theta_1,\dots,\theta_r)$ . Neste caso, pelo critério de fatoração, temos que
$\sum U_1(x_i),\dots,\sum U_r(x_i)$ é uma estatística conjuntamente suficiente para o vetor de parâmetros $\bftheta$ .

2.3 Principais Famílias Conjugadas

Já vimos que a família de distribuições Beta é conjugada ao modelo Bernoulli e binomial. Não é difícil mostrar que o mesmo vale para as distribuições amostrais geométrica e binomial-negativa. A seguir veremos resultados para outros membros importantes da família exponencial.

2.3.1 Distribuição normal com variância conhecida

Para uma única observação vimos pelo teorema 1.1 que a família de distribuições normais é conjugada ao modelo normal. Para uma amostra de tamanho , a função de verssimilhança pode ser escrita como

$\displaystyle l(\theta;x)$	$\displaystyle =$	$\displaystyle (2\pi\sigma^2)^{-n/2} \exp\left\{-\frac{1}{2\sigma^2} \sum_{i=1}^n (x_i-\theta)^2\right\}$
	$\displaystyle \propto$	$\displaystyle \exp\left\{-\frac{n}{2\sigma^2}(\overline{x}-\theta)^2\right\}$

onde os termos que não dependem de $\theta$ foram incorporados à constante de proporcionalidade. Portanto, a verossimilhança tem a mesma forma daquela baseada em uma única observação bastando substituir

por $\overline{x}$ e $\s$ por $\s/n$ . Logo vale o teorema 1.1 com as devidas substituições, i.e. a distribuição a posteriori de $\theta$ dado $\bfx$ é $N(\mu_1,\tau_1^2)$ onde

$\displaystyle \mu_1=\frac{\tau_0^{-2}\mu_0+n\sigma^{-2}\overline{x}}{\tau_0^{-2}+n\sigma^{-2}}$ e $\displaystyle \quad \tau_1^{-2}=\tau_0^{-2}+n\sigma^{-2}.$

2.3.2 Distribuição de Poisson

Seja $X_1,\dots,X_n$ uma amostra aleatória da distribuição de Poisson com parâmetro $\theta$ . Sua função de probabilidade conjunta é dada por

$\displaystyle p(x\vert\theta)=\frac{e^{-n\theta}\theta^t}{\prod x_i!}\propto e^{-n\theta}\theta^t,\quad\theta>0,\quad t= \sum_{i=1}^n x_i.$

O núcleo da verossimilhança é da forma $\theta^a e^{-b\theta}$ que caracteriza a família de distribuições Gama que é fechada por amostragem. Assim, a priori conjugada natural de $\theta$ é Gama com parâmetros positivos $\alpha$ e $\beta$ , i.e.

$\displaystyle p(\theta)\propto \theta^{\alpha-1}e^{-\beta\theta}, \quad\alpha,\beta>0\quad\theta >0.$

A densidade a posteriori fica

$\displaystyle p(\theta\vert x)\propto \theta^{\alpha+ t -1} \exp\left\{-(\beta+n)\theta\right\}$

que corresponde à densidade Gama( $\alpha+t,\beta+n$ ). A distribuição preditiva também é facilmente obtida pois

$\displaystyle p(x\vert\theta)=\left[\prod_{i=1}^n\frac{1}{x_i!}\right] \exp\left\{t\theta-n\theta\right\}$

e portanto

$\displaystyle p(x)=\left[\prod_{i=1}^n\frac{1}{x_i!}\right]\frac{\beta^\alpha} {\Gamma(\alpha)} \frac{\Gamma(\alpha+t)}{(\beta+n)^ {\alpha+t}}.$

2.3.3 Distribuição multinomial

Denotando por $\bfX=(X_1,\dots,X_p)$ o número de ocorrências em cada uma de categorias em ensaios independentes, e por $\bftheta=(\theta_1,\dots,\theta_p)$ as probabilidades associadas deseja-se fazer inferência sobre estes parâmetros. No entanto, note que existem efetivamente parâmetros já que temos a seguinte restrição $\sum_{i=1}^p\theta_i=1$ . Além disso, a restrição $\sum_{i=1}^p X_i=n$ obviamente também se aplica. Dizemos que $\bfX$ tem distribuição multinomial com parâmetros e $\bftheta$ e função de probabilidade conjunta das contagens $\bfX$ é dada por

$\displaystyle p(\bfx\vert\bftheta) = \frac{n!}{\prod_{i=1}^p x_i!}\prod_{i=1}^p \theta_i^{x_i}.$

Note que esta é uma generalização da distribuição binomial que apenas duas categorias. Não é difícil mostrar que esta distribuição também pertence à família exponencial. A função de verossimilhança para $\bftheta$ é

$\displaystyle l(\bftheta;\bfx)\propto\prod_{i=1}^p \theta_i^{x_i}$

que tem o mesmo núcleo da função de densidade de uma distribuição de Dirichlet. A família Dirichlet com parâmetros inteiros $a_1,\dots,a_p$ é a conjugada natural do modelo multinomial, porém na prática a conjugação é extendida para parâmetros não inteiros. A distribuição a posteriori é dada por

$\displaystyle p(\bftheta\vert\bfx)\propto\prod_{i=1}^p \theta_i^{x_i}\prod_{i=1}^p \theta_i^{a_i-1}= \prod_{i=1}^p \theta_i^{x_i+a_i-1}.$

Note que estamos generalizando a análise conjugada para amostras binomiais com priori beta.

2.3.4 Distribuição normal com média conhecida e variância desconhecida

Seja $X_1,\dots,X_n$ uma amostra aleatória da distribuição $N(\theta,\sigma^2)$ , com $\theta$ conhecido e $\phi=\invs$ desconhecido. Neste caso a função de densidade conjunta é dada por

$\displaystyle p(\bfx\vert\theta,\phi)\propto\phi^{n/2}\exp\{-\frac{\phi}{2n}\sum_{i=1}^n (x_i-\theta)^2\}.$

Note que o núcleo desta verossimilhança tem a mesma forma daquele de uma distribuição Gama. Como sabemos que a família Gama é fechada por amostragem podemos considerar uma distribuição a priori Gama com parâmetros e $n_0\sigma_0^2/2$ , i.e.

$\displaystyle \phi\sim Gama\left(\frac{n_0}{2},\frac{n_0\sigma_0^2}{2}\right).$

Equivalentemente, podemos atribuir uma distribuição a priori qui-quadrado com

graus de liberdade para $n_0\sigma_0^2\phi$ . A forma funcional dos parâmetros da distribuição a priori é apenas uma conveniência matemática como veremos a seguir.

Definindo $ns_0^2=\sum_{i=1}^n (x_i-\theta)^2$ e aplicando o teorema de Bayes obtemos a distribuição a posteriori de $\phi$ ,

$\displaystyle p(\phi\vert\bfx)$	$\displaystyle \propto$	$\displaystyle \phi^{n/2}\exp\left\{-\frac{\phi}{2}ns_0^2\right\} \phi^{n_0/2-1}\exp\left\{-\frac{\phi}{2}n_0\sigma_0^2\right\}$
	$\displaystyle =$	$\displaystyle \phi^{(n_0+n)/2-1}\exp\left\{-\frac{\phi}{2}(n_0\sigma_0^2+ns_0^2)\right\}.$

Note que esta expressão corresponde ao núcleo da distribuição Gama, como era esperado devido à conjugação. Portanto,

$\displaystyle \phi\vert\bfx\sim Gama\left(\frac{n_0+n}{2},\frac{n_0\sigma_0^2+ns_0^2}{2}\right).$

Equivalentemente podemos dizer que $(n_0\sigma_0^2+ns_0^2)\phi~\vert~\bfx \sim \chi^2_{n_0+n}$ .

2.3.5 Distribuição normal com média e variância desconhecidos

Seja $X_1,\dots,X_n$ uma amostra aleatória da distribuição $N(\theta,\sigma^2)$ , com ambos $\theta$ e $\sigma^2$ desconhecidos. Neste caso a distribuição a priori conjugada será especificada em dois estágios. No primeiro estágio,

$\displaystyle \theta\vert\phi\sim N(\mu_0,(c_0\phi)^{-1}),\quad \phi=\sigma^{-2}$

e a distribuição a priori marginal de $\phi$ é a mesma do caso anterior, i.e.

$\displaystyle \phi\sim$ Gama $\displaystyle \left(\frac{n_0}{2}, \frac{n_0\sigma_0^2}{2}\right).$

A distribuição conjunta de $(\theta,\phi)$ é geralmente chamada de Normal-Gama com parâmetros $(\mu_0,c_0,n_0,\sigma_0^2)$ e sua função de densidade conjunta é dada por,

$\displaystyle p(\theta,\phi)$	$\displaystyle =$	$\displaystyle p(\theta\vert\phi)p(\phi)$
	$\displaystyle \propto$	$\displaystyle \phi^{1/2}\exp\left\{-\frac{c_0\phi}{2}(\theta-\mu_0)^2\right\} \phi^{n_0/2-1}\exp\left\{-\frac{n_0\sigma_0^2\phi}{2}\right\}$
	$\displaystyle =$	$\displaystyle \phi^{(n_0+1)/2-1} \exp\left\{-\frac{\phi}{2}(n_0\sigma_0^2+c_0(\theta-\mu_0)^2)\right\}.$

A partir desta densidade conjunta podemos obter a distribuição marginal de $\theta$ por integração

$\displaystyle p(\theta)$	$\displaystyle =$	$\displaystyle \int p(\theta\vert\phi)p(\phi)d\phi$
	$\displaystyle \propto$	$\displaystyle \int_0^\infty \phi^{1/2}\exp\left\{-\frac{c_0\phi}{2} (\theta-\mu_0)^2\right\}\phi^{n_0/2-1} \exp\left\{-\frac{n_0\sigma_0^2}{2} \phi\right\}d\phi$
	$\displaystyle \propto$	$\displaystyle \int_0^\infty \phi^{(n_0+1)/2-1} \exp\left\{-\frac {\phi}{2}[n_0\sigma_0^2 + c_0(\theta-\mu_0)^2]\right\} d\phi$
	$\displaystyle \propto$	$\displaystyle \left[\frac{n_0\sigma_0^2 + c_0(\theta-\mu_0)^2}{2} \right]^{-\fr... ...ft[1 + \frac{(\theta-\mu_0)^2} {n_0(\sigma_0^2/c_0)}\right]^{-\frac{n_0+1}{2}},$

que é o núcleo da distribuição

de Student com

graus de liberdade, parâmetro de locação $\mu_0$ e parâmetro de escala $\sigma_0^2/c_0$ . Denotamos $\theta\sim t_{n_0}(\mu_0,\sigma_0^2/c_0)$ . A distribuição condicional de $\phi$ dado $\theta$ também é facilmente obtida como

$\displaystyle p(\phi\vert\theta)$	$\displaystyle \propto$	$\displaystyle p(\theta\vert\phi)p(\phi)$
	$\displaystyle \propto$	$\displaystyle \phi^{(n_0+1)/2-1} \exp\left\{-\frac{\phi}{2}[n_0\sigma_0^2 + c_0(\theta-\mu_0)^2]\right\},$

e portanto,

$\displaystyle \phi\vert\theta\sim$ Gama $\displaystyle \left(\dfrac{n_0+1}{2},\dfrac{n_0\sigma_0^2+c_0(\theta-\mu_0)^2}{2}\right).$

A posteriori conjunta de $(\theta,\phi)$ também é obtida em 2 etapas como segue. Primeiro, para $\phi$ fixo podemos usar o resultado da seção 2.3.1 de modo que a distribuição a posteriori de $\theta$ dado $\phi$ fica

$\displaystyle \theta\vert\phi,\bfx\sim N(\mu_1,(c_1\phi)^{-1})$

onde

$\displaystyle \mu_1=\frac{c_0\phi\mu_0+n\phi\overline{x}}{c_0\phi+n\phi}= \frac{c_0\mu_0+n\overline{x}}{c_0+n}$ e $\displaystyle \quad c_1=c_0+n.$

Na segunda etapa, combinando a verossimilhança com a priori de $\phi$ obtemos que

$\displaystyle \phi\vert\bfx\sim$ Gama $\displaystyle \left(\frac{n_1}{2}, \frac{n_1\sigma_1^2}{2}\right)$

onde

$\displaystyle n_1=n_0+n$ e $\displaystyle \quad n_1\s_1=n_0\s_0+\sum (x_i-\overline{x})^2+c_0n(\mu_0-\overline{x})^2/(c_0+n).$

Equivalentemente, podemos escrever a posteriori de $\phi$ como $n_1\s_1\phi\sim\chi^2_{n_1}$ . Assim, a posteriori conjunta é $(\theta,\phi\vert\bfx)\sim$ Normal-Gama $(\mu_1,c_1,n_1,\sigma_1^2)$ e portanto a posteriori marginal de $\theta$ fica

$\displaystyle \theta~\vert~\bfx\sim t_{n_1}(\mu_1,\sigma_1^2/c_1).$

Em muitas situações é mais fácil pensar em termos de algumas características da distribuição a priori do que em termos de seus hiperparâmetros. Por exemplo, se $E(\theta)=2$ , $Var(\theta)=5$ , $E(\phi)=3$ e $Var(\phi)=3$ então

: (i) $\mu _0=2$ pois $E(\theta )=\mu _0$ .
: (ii) $\sigma _0^2=1/3$ pois $E(\phi )=1/\sigma _0^2$ .
: (iii) pois $Var(\phi)=2/(n_0\sigma _0^4)=18/n_0$ .
: (iv) pois $Var(\theta)=\left( \dfrac{n_0}{n_0-2}\right) \dfrac{\sigma _0^2}{c_0} = \dfrac 1{2c_0}$

2.4 Priori não Informativa

Esta seção refere-se a especificação de distribuições a priori quando se espera que a informação dos dados seja dominante, no sentido de que a nossa informação a priori é vaga. Os conceitos de `` conhecimento vago'', `` não informação'', ou `` ignorância a priori'' claramente não são únicos e o problema de caracterizar prioris com tais características pode se tornar bastante complexo.

Por outro lado, reconhece-se a necessidade de alguma forma de análise que, em algum sentido, consiga captar esta noção de uma priori que tenha um efeito mínimo, relativamente aos dados, na inferência final. Tal análise pode ser pensada como um ponto de partida quando não se consegue fazer uma elicitação detalhada do `` verdadeiro'' conhecimento a priori. Neste sentido, serão apresentadas aqui algumas formas de `` como'' fazer enquanto discussões mais detalhadas são encontradas em Berger (1985), Box e Tiao (1992), Bernardo e Smith (1994) e O'Hagan (1994).

A primeira idéia de `` não informação'' a priori que se pode ter é pensar em todos os possíveis valores de $\theta$ como igualmente prováveis, i.e., com uma distribuição a priori uniforme. Neste caso, fazendo $p(\theta)\propto k$ para $\theta$ variando em um subconjunto da reta significa que nenhum valor particular tem preferência (Bayes, 1763). Porém esta escolha de priori pode trazer algumas dificuldades técnicas

(i) Se o intervalo de variação de $\theta$ for ilimitado então a distribuição é imprópria, i.e.

$\displaystyle \int p(\theta )d\theta =\infty .$

(ii) Se $\phi =g(\theta )$ é uma reparametrização não linear monótona de $\theta$ então $p(\phi)$ é não uniforme já que pelo teorema de transformação de variáveis

$\displaystyle p(\phi)=p(\theta(\phi))\left\vert\frac{d\theta}{d\phi}\right\vert\propto \left\vert\frac{d\theta}{d\phi}\right\vert.$

Na prática, como estaremos interessados na distribuição a posteriori não daremos muita importância à impropriedade da distribuição a priori. No entanto devemos sempre nos certificar de que a posterior é própria para antes de fazer qualquer inferência.

A classe de prioris não informativas proposta por Jeffreys (1961) é invariante a transformações 1 a 1, embora em geral seja imprópria e será definida a seguir. Antes porém precisamos da definição da medida de informação de Fisher.

Considere uma única observação com função de (densidade) de probabilidade $p(x\vert\theta)$ . A medida de informação esperada de Fisher de $\theta$ através de é definida como

$\displaystyle I(\theta)=E \left[-\frac{\partial^2\log p(x\vert\theta)}{\partial\theta^2}\right]$

Se $\bftheta$ for um vetor paramétrico define-se então a matriz de informação esperada de Fisher de $\bftheta$ através de

como

$\displaystyle \bfI(\bftheta)= E \left[-\frac{\partial^2\log p(x\vert\bftheta)}{\partial\bftheta\partial\bftheta'} \right].$

Note que o conceito de informação aqui está sendo associado a uma espécie de curvatura média da função de verossimilhança no sentido de que quanto maior a curvatura mais precisa é a informação contida na verossimilhança, ou equivalentemente maior o valor de $I(\theta)$ . Em geral espera-se que a curvatura seja negativa e por isso seu valor é tomado com sinal trocado. Note também que a esperança matemática é tomada em relação à distribuição amostral $p(x\vert\theta)$ .

Podemos considerar então $I(\theta)$ uma medida de informação global enquanto que uma medida de informação local é obtida quando não se toma o valor esperado na definição acima. A medida de informação observada de Fisher $J(\theta)$ fica então definida como

$\displaystyle J(\theta)=-\frac{\partial^2\log p(x\vert\theta)}{\partial\theta^2}$

e que será utilizada mais adiante quando falarmos sobre estimação.

Seja uma observação com função de (densidade) de probabilidade $p(x\vert\theta)$ . A priori não informativa de Jeffreys tem função de densidade dada por

$\displaystyle p(\theta)\propto [I(\theta)]^{1/2}.$

Se $\bftheta$ for um vetor paramétrico então $p(\theta)\propto\vert\det I(\theta)\vert^{1/2}$ .

Seja $X_1,\dots,X_n\sim$ Poisson $(\theta)$ . Então o logaritmo da função de probabilidade conjunta é dado por

$\displaystyle \log p(\bfx\vert\theta)=-n\theta + \sum_{i=1}^n x_i\log\theta - \log\prod_{i=1}^n x_i!$

$\displaystyle \frac{\partial^2\log p(x\vert\theta)}{\partial\theta^2}= \frac{\p... ...n+\frac{\sum_{i=1}^n x_i}{\theta}\right] = -\frac{\sum_{i=1}^n x_i}{\theta^2}$

$\displaystyle I(\theta)=\frac{1}{\theta^2}E\left[\sum_{i=1}^n x_i\right]=n/\theta\propto\theta^{-1}.$

Portanto, a priori não informativa de Jeffreys para $\theta$ no modelo Poisson é $p(\theta)\propto\theta^{-1/2}$ . Note que esta priori é obtida tomando-se a conjugada natural Gama( $\alpha,\beta$ ) e fazendo-se $\alpha=1/2$ e $\beta\rightarrow 0$ .

Em geral a priori não informativa é obtida fazendo-se o parâmetro de escala da distribuição conjugada tender a zero e fixando-se os demais parâmetros convenientemente. Além disso, a priori de Jeffreys assume formas específicas em alguns modelos que são frequentemente utilizados como veremos a seguir.

tem um modelo de locação se existem uma função e uma quantidade $\theta$ tais que $p(x\vert\theta)=f(x-\theta)$ . Neste caso $\theta$ é chamado de parâmetro de locação.

A definição vale também quando $\theta$ é um vetor de parâmetros. Alguns exemplos importantes são a distribuição normal com variância conhecida, e a distribuição normal multivariada com matriz de variância-covariância conhecida. Pode-se mostrar que para o modelo de locação a priori de Jeffreys é dada por $p(\theta)\propto$ constante.

tem um modelo de escala se existem uma função e uma quantidade $\sigma$ tais que $p(x\vert\sigma)=(1/\sigma)f(x/\sigma)$ . Neste caso $\sigma$ é chamado de parâmetro de escala.

Alguns exemplos são a distribuição exponencial com parâmetro $\theta$ , com parâmetro de escala $\sigma=1/\theta$ , e a distribuição $N(\theta,\s)$ com média conhecida e escala $\sigma$ . Pode-se mostrar que para o modelo de escala a priori de Jeffreys é dada por $p(\sigma)\propto\sigma^{-1}$ .

tem um modelo de locação e escala se existem uma função e as quantidades $\theta$ e $\sigma$ tais que

$\displaystyle p(x\vert\theta,\sigma)=\frac{1}{\sigma}f\left(\frac{x-\theta}{\sigma}\right).$

Neste caso $\theta$ é chamado de parâmetro de locação e $\sigma$ de parâmetro de escala.

Alguns exemplos são a distribuição normal (uni e multivariada) e a distribuição de Cauchy. Em modelos de locação e escala, a priori não informativa pode ser obtida assumindo-se independência a priori entre $\theta$ e $\sigma$ de modo que $p(\theta,\sigma)=p(\theta)p(\sigma)\propto\sigma^{-1}$ .

Seja $X_1,\dots,X_n\sim N(\mu,\sigma^2)$ com $\mu$ e $%% \sigma^2$ desconhecidos. Neste caso,

$\displaystyle p(x\vert\mu,\sigma^2)\propto\frac{1}{\sigma}\exp\left\{-\frac{1}{2} \left(\frac{ x-\mu}{\sigma}\right)^2\right\},$

portanto $(\mu,\sigma)$ é parâmetro de locação-escala e $p(\mu,\sigma)\propto\sigma^{-1}$ é a priori não informativa. Então, pela propriedade da invariância, a priori não informativa para $(\mu,\sigma^2)$ no modelo normal é $p(\mu,\sigma^2)\propto\sigma^{-2}$ .

Vale notar entretanto que a priori não informativa de Jeffreys viola o princípio da verossimilhança, já que a informação de Fisher depende da distribuição amostral.

2.5 Prioris Hierárquicas

A idéia aqui é dividir a especificação da distribuição a priori em estágios. Além de facilitar a especificação esta abordagem é natural em determinadas situações experimentais.

A distribuição a priori de $\theta$ depende dos valores dos hiperparâmetros $\phi$ e podemos escrever $p(\theta\vert\phi)$ ao invés de $p(\theta)$ . Além disso, ao invés de fixar valores para os hiperparâmetros podemos especificar uma distribuição a priori $p(\phi)$ completando assim o segundo estágio na hierarquia. A distribuição a priori marginal de $\theta$ pode ser então obtida por integração como

$\displaystyle p(\theta)=\int p(\theta,\phi) d\phi = \int p(\theta\vert\phi)p(\phi)d\phi.$

Sejam $X_1,\dots,X_n$ tais que $X_i\sim N(\theta_i,\s)$ com $\s$ conhecido e queremos especificar uma distribuição a priori para o vetor de parâmetros $\bftheta=(\theta_1,\dots,\theta_n)$ . Suponha que no primeiro estágio assumimos que $\theta_i\sim N(\mu,\tau^2)$ , $i=1,\dots,n$ . Neste caso, se fixarmos o valor de $\tau^2=\tau_0^2$ e assumirmos que $\mu$ tem distribuição normal então $\bftheta$ terá distribuição normal multivariada. Por outro lado, fixando um valor para $\mu=\mu_0$ e assumindo que $\tau^{-2}$ tem distribuição Gama implicará em uma distribuição de Student multivariada para $\bftheta$ .

Teoricamente, não há limitação quanto ao número de estágios, mas devido às complexidades resultantes as prioris hierárquicas são especificadas em geral em 2 ou 3 estágios. Além disso, devido à dificuldade de interpretação dos hiperparâmetros em estágios mais altos é prática comum especificar prioris não informativas para este níveis.

Uma aplicação interessante do conceito de hierarquia é quando a informação a priori disponível só pode ser convenientemente resumida através de uma mistura de distribuições. Isto implica em considerar uma distribuição discreta para $\phi$ de modo que

$\displaystyle p(\theta) = \sum_{i=1}^k p(\theta\vert\phi_i)p(\phi_i).$

Não é difícil verificar que a distribuição a posteriori de $\theta$ é também uma mistura com veremos a seguir. Aplicando o teorema de Bayes temos que,

$\displaystyle p(\theta\vert x) = \frac{p(\theta)p(x\vert\theta)}{\dint p(\thet... ...)} {\dsum_{i=1}^k p(\phi_i) \dint p(x\vert\theta)p(\theta\vert\phi_i)d\theta}.$

Mas note que a posteriori condicional de $\theta$ dado $\phi_i$ é

$\displaystyle p(\theta\vert x,\phi_i)= \frac{p(x\vert\theta)p(\theta\vert\phi_i... ...\phi_i)d\theta} = \frac{p(x\vert\theta)p(\theta\vert\phi_i)}{m(x\vert\phi_i)}.$

Assim, podemos escrever a posteriori de $\theta$ como

$\displaystyle p(\theta\vert x) = \frac{\dsum_{i=1}^k p(\theta\vert x,\phi_i)m(... ...vert\phi_i)p(\phi_i)} = \sum_{i=1}^k p(\theta\vert x,\phi_i) p(\phi_i\vert x)$

Note também que $p(x)=\sum m(x\vert\phi_i)p(\phi_i)$ , isto é a distribuição preditiva, é uma mistura de preditivas condicionais.

Se $\theta \in (0,1)$ , a família de distribuições a priori Beta é conveniente. Mas estas são sempre unimodais e assimétricas à esquerda ou à direita. Outras formas interessantes, e mais de acordo com a nossa informação a priori, podem ser obtidas misturando-se 2 ou 3 elementos desta família. Por exemplo,

$\displaystyle \theta \sim 0,25$ Beta $\displaystyle (3,8)+0,75$ Beta $\displaystyle (8,3)$

representa a informação a priori de que $\theta \in (0,5;0,95)$ com alta probabilidade (0,71) mas também que $\theta \in (0,1;0,4)$ com probabilidade moderada (0,20). As modas desta distribuição são 0,23 e 0,78. Por outro lado

$\displaystyle \theta \sim 0,33$ Beta $\displaystyle (4,10)+0,33$ Beta $\displaystyle (15,28)+0,33$ Beta $\displaystyle (50,70)$

representa a informação a priori de que $\theta >0,6$ com probabilidade desprezível. Estas densidades estão representadas graficamente nas Figuras 2.1 e 2.2 a seguir. Note que a primeira mistura deu origem a uma distribuição a priori bimodal enquanto a segunda originou uma priori assimétrica à esquerda com média igual a 0,35.

**Figura:** Mistura de funções de densidade Beta(3,8) e Beta(8,3) com pesos 0,25 e 0,75.
$\begin{figure}\begin{center}\centerline\leavevmode \epsfig{file=figuras/betas1.ps,width=5.5in,height=4.0in}\end{center}\end{figure}$

**Figura:** Mistura de funções de densidade de Beta(4,10), Beta(15,28) e Beta(50,70) com pesos iguais a 0,33.
$\begin{figure}\begin{center}\centerline\leavevmode \epsfig{file=figuras/betas2.ps,width=5.5in,height=3.5in}\end{center}\end{figure}$

Using the Bayesian hierarchy and the prior independence assumption, the full conditional distribution for the hyperparameter $\s_a$ is also easily obtained as follows,

$\displaystyle \pi(\s_a\vert\dots)$	$\displaystyle \propto$	$\displaystyle \left[\prod_{i=1}^k p(a_i\vert\s_a)\right] p(\s_a\vert\alpha_a,\beta_a)$
	$\displaystyle \propto$	$\displaystyle (\s_a)^{-k/2}\exp\left(-\sum_{i=1}^k a_i^2/2\s_a\right)(\s_a)^{-\alpha_a+1} \exp(-\beta_a/\s_a)$
	$\displaystyle \propto$	$\displaystyle (\s_a)^{-(\alpha_a+k/2)+1}\exp\left(-\frac{1}{\s_a}\left(\beta_a+\frac{1}{2}\sum_{i=1}^k a_i^2\right)\right).$

Then,

$\displaystyle \s_a\vert\bfy,\bfa^{(k)},k \sim IG\left(\alpha_a+\frac{k}{2},\beta_a+\frac{1}{2}\sum^k_{i=1}a_i^2 \right).$

(2.1)

Note that this distribution does not depend on the observations as a direct consequence of the hierarchical structure that passes all information provided by $\bfy$ to $\s_a$ through $\bfa$ .

2.6 Problemas

Mostre que a família de distribuições Beta is conjugada em relação às distribuições amostrais binomial, geométrica e binomial negativa.
Para uma amostra aleatória de 100 observações da distribuição normal com média e desvio-padrão 2 foi especificada uma priori normal para .
1. Mostre que o desvio-padrão a posteriori será sempre menor do que 1/5. Interprete este resultado.
2. Se o desvio-padrão a priori for igual a 1 qual deve ser o menor número de observações para que o desvio-padrão a posteriori seja 0,1?
Seja $X_1,\dots,X_n$ uma amostra aleatória da distribuição $N(\theta,\s)$ , com $\theta$ conhecido. Utilizando uma distribuição a priori Gama para $\invs$ com coeficiente de variação 0,5, qual deve ser o tamanho amostral para que o coeficiente de variação a posteriori diminua para 0,1?
Seja uma amostra aleatória da distribuição , com e desconhecidos, e considere a priori conjugada de .
1. Determine os parâmetros $(\mu_0,c_0,n_0,\s_0)$ utilizando as seguintes informações a priori: $E(\theta)=0$ , $P(\vert\theta\vert<1,412)=0,5$ , $E(\phi)=2$ e $E(\phi^2)=5$ .
2. Em uma amostra de tamanho foi observado $\overline{X}=1$ e
  $\sum_{i=1}^n (X_i-\overline{X})^2=8$ . Obtenha a distribuição a posteriori de $\theta$ e esboce os gráficos das distribuições a priori, a posteriori e da função de verossimilhança, com $\phi$ fixo.
3. Calcule $P(\vert Y\vert>1\vert\bfx)$ onde é uma observação tomada da mesma população.
Suponha que o tempo, em minutos, para atendimento a clientes segue uma distribuição exponencial com parâmetro desconhecido. Com base na experiência anterior assume-se uma distribuição a priori Gama com média 0,2 e desvio-padrão 1 para .
1. Se o tempo médio para atender uma amostra aleatória de 20 clientes foi de 3,8 minutos, qual a distribuição a posteriori de $\theta$ .
2. Qual o menor número de clientes que precisam ser observados para que o coeficiente de variação a posteriori se reduza para 0,1?
Seja uma amostra aleatória da distribuição de Poisson com parâmetro .
1. Determine os parâmetros da priori conjugada de $\theta$ sabendo que $E(\theta)=4$ e o coeficiente de variação a priori é 0,5.
2. Quantas observações devem ser tomadas até que a variância a posteriori se reduza para 0,01 ou menos?
3. Mostre que a média a posteriori é da forma $\gamma_n\overline{x}+(1-\gamma_n)\mu_0$ , onde $\mu_0=E(\theta)$ e $\gamma_n\rightarrow 1$ quando $n\rightarrow\infty$ . Interprete este resultado.
O número médio de defeitos por 100 metros de uma fita magnética é desconhecido e denotado por $\theta$ . Atribui-se uma distribuição a priori Gama(2,10) para $\theta$ . Se um rolo de 1200 metros desta fita foi inspecionado e encontrou-se 4 defeitos qual a distribuição a posteriori de $\theta$ ?
Seja $X_1,\dots,X_n$ uma amostra aleatória da distribuição Bernoulli com parâmetro $\theta$ e usamos a priori conjugada . Mostre que a média a posteriori é da forma $\gamma_n\overline{x}+(1-\gamma_n)\mu_0$ , onde $\mu_0=E(\theta)$ e $\gamma_n\rightarrow 1$ quando $n\rightarrow\infty$ . Interprete este resultado.
Para uma amostra aleatória $X_1,\dots,X_n$ tomada da distribuição $U(0,\theta)$ , mostre que a família de distribuições de Pareto com parâmetros e , cuja função de densidade é $p(\theta)=ab^a/\theta^{a+1}$ , é conjugada à uniforme.
Para uma variável aleatória $\theta >0$ a família de distribuições Gama-invertida tem função de densidade de probabilidade dada por

$\displaystyle p(\theta) = \frac{\beta^{\alpha}}{\Gamma(\alpha)}\theta^{-(\alpha+1)}e^{-\beta/\theta}, \quad\alpha,\beta >0.$
Mostre que esta família é conjugada ao modelo normal com média $\mu$ conhecida e variância $\theta$ desconhecida.
Suponha que $\bfX=(X_1,X_2,X_3)$ tenha distribuição trinomial com parâmetros (conhecido) e $\bfpi=(\pi_1,\pi_2,\pi_3)$ com $\pi_1+\pi_2+\pi_3=1$ . Mostre que a priori não informativa de Jeffreys para $\bfpi$ é $p(\bfpi)\propto [\pi_1\pi_2(1-\pi_1-\pi_2)]^{-1/2}$ .
Para cada uma das distribuições abaixo verifique se o modelo é de locação, escala ou locação-escala e obtenha a priori não informativa para os parâmetros desconhecidos.
1. Cauchy(0, $\beta$ ).
2. $t_{\nu}(\mu,\s)$ , $\nu$ conhecido.
3. Pareto(), conhecido.
4. Uniforme $(\theta-1,\theta+1)$ .
5. Uniforme $(-\theta,\theta)$ .
Seja uma coleção de variáveis aleatórias independentes com distribuições $p(x_i\vert\theta_i)$ e seja $p_i(\theta_i)$ a priori não informativa de $\theta_i$ , $i=1,\dots,k$ . Mostre que a priori não informativa de Jeffreys para o vetor paramétrico $\bftheta=(\theta_1,\dots,\theta_k)$ é dada por $\prod_{i=1}^k p_i(\theta_i)$ .
Se $\theta$ tem priori não informativa $p(\theta)\propto k$ , $\theta >0$ mostre que a priori de $\phi=a\theta+b$ , $a\ne 0$ também é $p(\phi)\propto k$ .
Se $\theta$ tem priori não informativa $p(\theta)\propto \theta^{-1}$ mostre que a priori de $\phi=\theta^a$ , $a\ne 0$ também é $p(\phi)\propto \phi^{-1}$ e que a priori de $\psi=\log\theta$ é $p(\psi)\propto k$ .

Next: 3. Estimação Up: Introdução a Inferência Bayesiana Previous: 1. Introdução Sumário

Ricardo Ehlers & Paulo Justiniano