A utilização de informação a priori em inferência Bayesiana requer a especificação de uma distribuição a priori para a quantidade de interesse . Esta distribuição deve representar (probabilisticamente) o conhecimento que se tem sobre antes da realização do experimento. Neste capítulo serão discutidas diferentes formas de especificação da distribuição a priori.
A partir do conhecimento que se tem sobre , pode-se definir uma família paramétrica de densidades. Neste caso, a distribuição a priori é representada por uma forma funcional, cujos parâmetros devem ser especificados de acordo com este conhecimento. Estes parâmetros indexadores da família de distribuições a priori são chamados de hiperparâmetros para distingui-los dos parâmetros de interesse .
Esta abordagem em geral facilita a análise e o caso mais importante é o de prioris conjugadas. A idéia é que as distribuições a priori e a posteriori pertençam a mesma classe de distribuições e assim a atualização do conhecimento que se tem de envolve apenas uma mudança nos hiperparâmetros. Neste caso, o aspecto sequencial do método Bayesiano pode ser explorado definindo-se apenas a regra de atualização dos hiperparâmetros já que as distribuições permanecem as mesmas.
Se é uma classe de distribuições amostrais então uma classe de distribuições é conjugada a se
Gamerman (1996, 1997 Cap. 2) alerta para o cuidado com a utilização indiscriminada de prioris conjugadas. Essencialmente, o problema é que a priori conjugada nem sempre é uma representação adequada da incerteza a priori. Sua utilização está muitas vezes associada à tratabilidade analítica decorrente.
Uma vez entendidas suas vantagens e desvantagens a questão que se coloca agora é `` como'' obter uma família de distribuições conjugadas.
Se, além disso, existe uma constante tal que e todo é definido como então é a família conjugada natural ao modelo amostral gerador de .
Sejam Bernoulli. Então a densidade amostral conjunta é
Note que
é proporcional à densidade de uma distribuição
Beta(). Além disso, se e são as densidades
das distribuições Beta() e Beta() então
A família exponencial inclui muitas das distribuições de probabilidade mais comumente utilizadas em Estatística, tanto contínuas quanto discretas. Uma característica essencial desta família é que existe uma estatística suficiente com dimensão fixa. Veremos adiante que a classe conjugada de distribuições é muito fácil de caracterizar.
A família de distribuições com função de (densidade) de probabilidade pertence à família exponencial a um parâmetro se podemos escrever
Neste caso, a classe conjugada é facilmente identificada como,
Uma extensão direta do exemplo 2..1 é o modelo binomial, i.e. Binomial. Neste caso,
No caso geral em que se tem uma amostra
da família
exponencial a natureza sequencial do teorema de Bayes permite que a
análise seja feita por replicações sucessivas. Assim a cada observação os parâmetros da distribuição a posteriori são
atualizados via
Finalmente, a definição de família exponencial pode ser extendida ao caso multiparamétrico, i.e.
Já vimos que a família de distribuições Beta é conjugada ao modelo Bernoulli e binomial. Não é difícil mostrar que o mesmo vale para as distribuições amostrais geométrica e binomial-negativa. A seguir veremos resultados para outros membros importantes da família exponencial.
Para uma única observação vimos pelo teorema 1.1 que a
família de distribuições normais é conjugada ao modelo normal. Para
uma amostra de tamanho , a função de verssimilhança pode ser escrita
como
Seja uma amostra aleatória da distribuição de Poisson com parâmetro . Sua função de probabilidade conjunta é dada por
Denotando por o número de ocorrências em cada uma de categorias em ensaios independentes, e por as probabilidades associadas deseja-se fazer inferência sobre estes parâmetros. No entanto, note que existem efetivamente parâmetros já que temos a seguinte restrição . Além disso, a restrição obviamente também se aplica. Dizemos que tem distribuição multinomial com parâmetros e e função de probabilidade conjunta das contagens é dada por
Seja uma amostra aleatória da distribuição , com conhecido e desconhecido. Neste caso a função de densidade conjunta é dada por
Note que o núcleo desta verossimilhança tem a mesma forma daquele de uma distribuição Gama. Como sabemos que a família Gama é fechada por amostragem podemos considerar uma distribuição a priori Gama com parâmetros e , i.e.
Definindo
e aplicando o teorema de Bayes obtemos a distribuição a posteriori de
,
Note que esta expressão corresponde ao núcleo da distribuição Gama, como era esperado devido à conjugação. Portanto,
Seja uma amostra aleatória da distribuição , com ambos e desconhecidos. Neste caso a distribuição a priori conjugada será especificada em dois estágios. No primeiro estágio,
A partir desta densidade conjunta podemos obter a distribuição
marginal de por integração
A posteriori conjunta de também é obtida em 2 etapas como segue. Primeiro, para fixo podemos usar o resultado da seção 2.3.1 de modo que a distribuição a posteriori de dado fica
Em muitas situações é mais fácil pensar em termos de algumas características da distribuição a priori do que em termos de seus hiperparâmetros. Por exemplo, se , , e então
Esta seção refere-se a especificação de distribuições a priori quando se espera que a informação dos dados seja dominante, no sentido de que a nossa informação a priori é vaga. Os conceitos de `` conhecimento vago'', `` não informação'', ou `` ignorância a priori'' claramente não são únicos e o problema de caracterizar prioris com tais características pode se tornar bastante complexo.
Por outro lado, reconhece-se a necessidade de alguma forma de análise que, em algum sentido, consiga captar esta noção de uma priori que tenha um efeito mínimo, relativamente aos dados, na inferência final. Tal análise pode ser pensada como um ponto de partida quando não se consegue fazer uma elicitação detalhada do `` verdadeiro'' conhecimento a priori. Neste sentido, serão apresentadas aqui algumas formas de `` como'' fazer enquanto discussões mais detalhadas são encontradas em Berger (1985), Box e Tiao (1992), Bernardo e Smith (1994) e O'Hagan (1994).
A primeira idéia de `` não informação'' a priori que se pode ter é pensar em todos os possíveis valores de como igualmente prováveis, i.e., com uma distribuição a priori uniforme. Neste caso, fazendo para variando em um subconjunto da reta significa que nenhum valor particular tem preferência (Bayes, 1763). Porém esta escolha de priori pode trazer algumas dificuldades técnicas
Na prática, como estaremos interessados na distribuição a posteriori não daremos muita importância à impropriedade da distribuição a priori. No entanto devemos sempre nos certificar de que a posterior é própria para antes de fazer qualquer inferência.
A classe de prioris não informativas proposta por Jeffreys (1961) é invariante a transformações 1 a 1, embora em geral seja imprópria e será definida a seguir. Antes porém precisamos da definição da medida de informação de Fisher.
Considere uma única observação com função de (densidade) de probabilidade . A medida de informação esperada de Fisher de através de é definida como
Note que o conceito de informação aqui está sendo associado a uma espécie de curvatura média da função de verossimilhança no sentido de que quanto maior a curvatura mais precisa é a informação contida na verossimilhança, ou equivalentemente maior o valor de . Em geral espera-se que a curvatura seja negativa e por isso seu valor é tomado com sinal trocado. Note também que a esperança matemática é tomada em relação à distribuição amostral .
Podemos considerar então uma medida de informação global enquanto que uma medida de informação local é obtida quando não se toma o valor esperado na definição acima. A medida de informação observada de Fisher fica então definida como
Seja uma observação com função de (densidade) de probabilidade . A priori não informativa de Jeffreys tem função de densidade dada por
Seja Poisson. Então o logaritmo da função de probabilidade conjunta é dado por
Em geral a priori não informativa é obtida fazendo-se o parâmetro de escala da distribuição conjugada tender a zero e fixando-se os demais parâmetros convenientemente. Além disso, a priori de Jeffreys assume formas específicas em alguns modelos que são frequentemente utilizados como veremos a seguir.
tem um modelo de locação se existem uma função e uma quantidade tais que . Neste caso é chamado de parâmetro de locação.
A definição vale também quando é um vetor de parâmetros. Alguns exemplos importantes são a distribuição normal com variância conhecida, e a distribuição normal multivariada com matriz de variância-covariância conhecida. Pode-se mostrar que para o modelo de locação a priori de Jeffreys é dada por constante.
tem um modelo de escala se existem uma função e uma quantidade tais que . Neste caso é chamado de parâmetro de escala.
Alguns exemplos são a distribuição exponencial com parâmetro , com parâmetro de escala , e a distribuição com média conhecida e escala . Pode-se mostrar que para o modelo de escala a priori de Jeffreys é dada por .
tem um modelo de locação e escala se existem uma função e as quantidades e tais que
Alguns exemplos são a distribuição normal (uni e multivariada) e a distribuição de Cauchy. Em modelos de locação e escala, a priori não informativa pode ser obtida assumindo-se independência a priori entre e de modo que .
Seja com e desconhecidos. Neste caso,
Vale notar entretanto que a priori não informativa de Jeffreys viola o princípio da verossimilhança, já que a informação de Fisher depende da distribuição amostral.
A idéia aqui é dividir a especificação da distribuição a priori em estágios. Além de facilitar a especificação esta abordagem é natural em determinadas situações experimentais.
A distribuição a priori de depende dos valores dos hiperparâmetros e podemos escrever ao invés de . Além disso, ao invés de fixar valores para os hiperparâmetros podemos especificar uma distribuição a priori completando assim o segundo estágio na hierarquia. A distribuição a priori marginal de pode ser então obtida por integração como
Sejam
tais que
com
conhecido e queremos especificar uma distribuição a priori para o
vetor de parâmetros
. Suponha que
no primeiro estágio assumimos que
,
. Neste caso, se fixarmos o valor de
e
assumirmos que tem distribuição normal então terá
distribuição normal multivariada. Por outro lado, fixando um valor
para e assumindo que tem distribuição Gama
implicará em uma distribuição de Student multivariada para
.
Teoricamente, não há limitação quanto ao número de estágios, mas devido às complexidades resultantes as prioris hierárquicas são especificadas em geral em 2 ou 3 estágios. Além disso, devido à dificuldade de interpretação dos hiperparâmetros em estágios mais altos é prática comum especificar prioris não informativas para este níveis.
Uma aplicação interessante do conceito de hierarquia é quando a informação a priori disponível só pode ser convenientemente resumida através de uma mistura de distribuições. Isto implica em considerar uma distribuição discreta para de modo que
Se , a família de distribuições a priori Beta é conveniente. Mas estas são sempre unimodais e assimétricas à esquerda ou à direita. Outras formas interessantes, e mais de acordo com a nossa informação a priori, podem ser obtidas misturando-se 2 ou 3 elementos desta família. Por exemplo,
Using the Bayesian hierarchy and the prior independence assumption,
the full conditional distribution for the hyperparameter is
also easily obtained as follows,
(2.1) |