2.1 Inferência Bayesiana

Existem duas abordagens principais para o aprendizado estatístico de máquina: métodos frequentistas (ou clássicos) e métodos bayesianos. Na inferência frequentista, as probabilidades são propriedades físicas e interpretadas como frequências a longo prazo. O objetivo é criar procedimentos que garantam tais observações via frequências. Na inferência bayesiana, as probabilidades são interpretadas como graus subjetivos de crença. O objetivo é declarar e analisar tais crenças.

A conjectura bayesiana apoia-se em três principais postulados (Wasserman 2013): (1) A probabilidade descreve grau de crença e não frequência. Dessa forma é possível fazer afirmações probabilísticas sobre várias situações, não somente dados, as quais são sujeitas à variação aleatória; (2) É possível fazer afirmações probabilísticas sobre parâmetros, mesmo que eles sejam constantes fixas; e (3) A inferência de um parâmetro \(\theta\) pode ser feita produzindo-se a distribuição de probabilidade para \(\theta\). Assim, valores de interesse como estimativas pontuais e intervalares, são retirados dessa distribuição.

No ponto de vista bayesiano, definimos \(\Theta\) como uma variável cujos valores \(\theta\) correspondem aos possíveis valores verdadeiros da probabilidade em termos físicos.

A base para a inferência bayesiana é derivada do teorema de Bayes. De forma análoga ao exposto anteriormente, o evento \(B\) é substituído pelas observações \(x\), o evento \(A\) pelo conjunto de valores dos parâmetros \(\theta\) e as probabilidades \(P\) por funções de probabilidade \(p\) (densidade ou massa), resultando em

\[p(\theta|x)=\frac{p(x|\theta)p(\theta)}{p(x)}=\frac{p(x|\theta)p(\theta)}{\int_{\Theta} p(x|\theta)p(\theta)d\theta},\]

sendo \(p(\theta)\) e \(p(\theta|x)\) as distribuições a priori e a posteriori de \(\Theta\), respectivamente. Uma vez que o termo \(p(x)^{-1}\) não depende de \(\theta\), ele pode ser visto como uma constante normalizadora de \(p(\theta|x)\). Para um valor fixo de \(x\), a função \(l(\theta|x) = p(x|\theta)\) fornece a verossimilhança dos valores \(\theta\), também chamada de função de verossimilhança. Ou seja, tal função quantifica a plausibilidade dos valores de \(\theta\) para o valor observado \(x\).

Esquematicamente, temos que \[\textrm{distribuição a posteriori} \propto \textrm{verossimilhança} \times \textrm{distribuição a priori}.\]

O termo a posteriori significa depois da experiência, com apoio nos fatos. Já o termo a priori é o oposto de a posteriori e significa antes da experiência, sem apoio nos fatos. Desta forma, a distribuição a priori refere-se ao conhecimento/incerteza inicial a respeito de \(\theta\), a distribuição a posteriori refere-se ao conhecimento/incerteza a respeito de \(\Theta\) após a observações dos dados. Ou seja, o teorema de Bayes pode ser visto como uma fórmula de atualização do conhecimento a respeito de \(\Theta\) após a observação dos dados.

2.1.1 Distribuições Conjugadas

Distribuições conjugadas são úteis pois simplificam a atualização Bayesiana realizada entre as distribuições a priori e a posteriori em apenas uma atualização dos hiperparâmetros. Assim, garantem forma fechada e dispensam cálculos mais sofisticados.

Para uma noção intuitiva de conjugação, suponha que tenhamos dados com função de verossimilhança \(l(\theta|x)\) e que a distribuição a priori para \(\Theta\) faz parte de uma família de distribuições parametrizadas. Se a distribuição a posteriori para \(\Theta\) estiver nesta mesma família de distribuições, dizemos que a função de verossimilhança e a distribuição a priori são distribuições conjugadas e que a priori é uma priori conjugada. Ou seja, neste caso, através de uma priori conjugada, a posteriori terá o mesmo tipo de distribuição que a priori.

Para uma classe de distribuições conhecida como família exponencial, esses cálculos podem ser feitos de forma eficiente. Os membros desta classe incluem as distribuições Binomial, Multinominal, Normal, Gama, Poisson e Normal multivariada, entre outras.(Box e Tiao 2011)(Paulino, Turkman, e Murteira 2003)

Um exemplo tradicional de conjugação é que para uma verossimilhança binomial e uma priori beta, a posteriori também é uma distribuição beta, este caso é chamado de conjugação Binomial-Beta. Alguns tipos comuns de conjugação são: Poisson-Gama, Geométrica-Beta, Multinomial-Dirichlet, Normal-Normal, Normal-Gama e Exponencial-Gama.

A inferência bayesiana, de uma forma geral, pode envolver diferentes tipos de priori e diferentes tipos de verossimilhança, o que acarreta a geração de distribuições a posteriori que podem ser não fechadas ou, ainda, não próprias. Este fato gera uma investigação matemática intensa e, muitas vezes, a utilização de severos procedimentos computacionais.

2.2 Redes Bayesianas discretas e contínuas

As redes bayesianas possuem metodologias específicas baseadas no tipo de dados disponíveis. O tratamento de dados discretos é comumente realizado através da suposição de que tais dados seguem distribuição multinominal. O tratamento de dados contínuos é comumente realizado através da suposição de normalidade multivariada.

Dados multinominais: as distribuições conjuntas, marginais e condicionais são supostas multinominais e são representadas como tabelas de probabilidade ou contingência. Essa é a abordagem mais comum e tais redes bayesianas são chamadas de redes bayesianas discretas (ou simplesmente redes bayesianas).

Dados normais multivariados: A distribuição conjunta é suposta normal multivariada e as distribuições condicionais são variáveis aleatórias normais univariadas vinculadas por combinações lineares. Tais redes bayesianas são chamadas de redes gaussianas, ou redes bayesianas gaussianas (Geiger e Heckerman 1994).

Métodos mais sofisticados, como o de redes gaussianas lineares condicionais (Lauritzen e Jensen 2001), combinam variáveis discretas e contínuas usando uma mistura de distribuições normais, porém estes casos não serão abordados neste texto.

Redes bayesianas discretas são mais gerais, sendo capazes de modelar relacionamentos não lineares (Bielza e Larranaga 2014). Outras abordagens tiveram pouco sucesso por diversos motivos. Por exemplo, cópulas (Elidan 2010) e técnicas não-paramétricas de estimação de densidades(Langseth et al. 2012) (Shenoy e West 2011).

2.2.1 Dados multinominais

Para ilustrar a abordagem bayesiana para o caso discreto, considere o exemplo de uma tachinha comum - que pode ser encontrada na maioria dos supermercados (Heckerman 1997). Se jogarmos a tachinha para cima, ela vai parar com a ponta ou com a cabeça para cima.

Seja \(X_i\) a variável aleatória que representa o resultado do \(i\)-ésimo lançamento da tachinha, \(i= 1, \ldots, n + 1\) e \(x=\{ X_1=x_1, \ldots, X_n=x_n\}\) o conjunto de nossas observações em \(n\) lançamentos independentes. Em termos bayesianos, o problema se reduz em computar \(p(X_{n+1}|x)\) através da priori \(p(\theta)\). Seja \(\theta\) a probabilidade da tachinha parar, por exemplo, com a ponta para cima e \(X_{n+1}=\{0,1\}\), sendo \(1\) a indicadora da ponta para cima.

Utilizamos a regra de Bayes para obter a distribuição de probabilidade para \(\Theta\) dado \(x\), temos

\[p\left(\theta|x\right)=\frac{p\left(x|\theta\right)p\left(\theta\right)}{p(x)},\]

sendo \(p(x)=\int_\Theta p\left(x|\theta\right)p\left(\theta\right)d\theta\).

Em particular, o número de pontas para cima é denotado por \(h=\sum x_i\), o número de pontas para baixo é denotado por \(t=n-\sum x_i\), as observações em \(x\) são mutuamente independentes e a probabilidade de ponta para cima em qualquer observação é \(\theta\), tem-se

\[p\left(\theta|x\right)=\frac{\theta^{h}(1-\theta)^{t}p\left(\theta\right)}{p(x)}.\]

Então,

\[ \begin{aligned} p\left(X_{n+1}=1|x \right)=\int_\Theta p\left(X_{n+1}=1|\theta\right)p(\theta|x)d\theta \\ =\int_\Theta \theta p(\theta|x)d\theta=E_{p(\theta|x)}\left[\theta \right]. \end{aligned} \]

Ou seja, \(p\left(X_{n+1}=1|x \right)\) será a média da distribuição a posteriori de \(\Theta|x\). Para isso, adotamos a abordagem de distribuições Conjugadas Binomial-Beta:

\[p(\theta)=\frac{\Gamma\left(\alpha_{h}+\alpha_{t}\right)}{\Gamma\left(\alpha_{h}\right)\Gamma\left(\alpha_{t}\right)}\theta^{\alpha_{h}-1}\left(1-\theta\right)^{\alpha_{t}-1},\]

sendo \(\alpha_h>0\) e \(\alpha_t>0\) os parâmetros da distribuição beta e \(\Gamma()\) a função Gama. As quantidades \(\alpha_h\) e \(\alpha_t\) são chamadas de hiperparâmetros para distingui-las do parâmetro \(\theta\).

\[p(\theta|x)=\frac{\Gamma\left(\alpha_{h}+\alpha_{t}+n\right)}{\Gamma\left(\alpha_{h}+h\right)\Gamma\left(\alpha_{t}+t\right)}\theta^{\alpha_{h}+h-1}\left(1-\theta\right)^{\alpha_{t}+t-1}.\]

Isto é, a priori \(\Theta \sim Beta(\alpha_{h},\alpha_{t})\) e a posteriori \(\Theta|x \sim Beta(\alpha_{h}+h,\alpha_{t}+t)\).

Seja \(n=10\), \(h=8\) e \(t=2\). Vamos supor duas prioris: i) \(\alpha_h=\alpha_t=1\), uma priori uniforme; ii) \(\alpha_h=3\) e \(\alpha_t=2\).

Figura 2.1. Distribuições a priori (cinza), a posteriori (vermelho) e verossimilhança (preto) do caso conjugado Binomial-Beta.

Considere um experimento com \(k\) possíveis resultados, sendo que o \(i\)-ésimo resultado possui a probabilidade de ocorrência \(\theta_{i}\), \(\sum_{i=1}^{k}\theta_{i}=1\). Se o experimento for repetido de forma independente, \(n\) vezes, \(X_{i}\) a variável que representa o número de ocorrências do \(i\)-ésimo resultado em \(n\) repetições. O vetor aleatório \(\mathbf{X}=(X_1,\ldots,X_k)\) possui distribuição multinominal e sua função de probabilidade é dada por

\[ P(X_{1}=x_{1},\ldots,X_{k}=x_{k}|\theta_{_{1}},\ldots,\theta_{_{k}})=\frac{n!}{x_{1}!x_{2}!\ldots x_{k}!}\theta_{1}^{x_{1}}\theta_{2}^{x_{2}}\ldots \theta_{k}^{x_{k}}, \]

em que \(\sum_{i=1}^{k} x_{i}=n\) e \(\sum_{i=1}^{k} \theta_{i}=1\). Como o termo \(\frac{n!}{x_{1}!x_{2}!\ldots x_{k}!}\) pode ser visto como constante normalizadora, então

\[P(X_{1}=x_{1},\ldots,X_{k}=x_{k}|\theta_{_{1}},\ldots,\theta_{_{k}})\propto \theta_{1}^{x_{1}}\theta_{2}^{x_{2}}\ldots \theta_{k}^{x_{k}}.\]

A distribuição de Dirichlet, que denotamos \(Dir(\alpha_1,\ldots,\alpha_k)\), é parametrizada por escalares positivos \(\alpha_i>0\) para \(i=1,\ldots,k\) sendo

Podemos assumir que \(\theta_{_{1}},\ldots,\theta_{_{k}}\), com \(\sum^k_{i=1}\theta_i=1\) possui distribuição Dirichlet com hiperparâmetros \(\mathbf{\alpha}=(\alpha_{1},...,\alpha_{k})\), \(k \geq 2\) e \(\alpha_{0}=\sum_{i=1}^{k}\alpha_{i}\). A função densidade de probabilidade da distribuição Dirichlet é expressa por

\[ f(\theta_{_{1}},\ldots,\theta_{_{k}}|\mathbf{\alpha})=\frac{\Gamma(\alpha_{0})}{\Gamma(\alpha_{1})\Gamma(\alpha_{2})\ldots\Gamma(\alpha_{k})}\theta_{1}^{\alpha_{1}-1}\theta_{2}^{\alpha_{2}-1}\ldots \theta_{k}^{\alpha_{k}-1}. \]

Da mesma forma, como o termo \(\frac{\Gamma(\alpha_{0})}{\Gamma(\alpha_{1})\Gamma(\alpha_{2})\ldots\Gamma(\alpha_{k})}\) pode ser vista como constante normalizadora, então

\[f(\theta_{_{1}},\ldots,\theta_{_{k}}|\mathbf{\alpha})\propto \theta_{1}^{\alpha_{1}-1}\theta_{2}^{\alpha_{2}-1}\ldots \theta_{k}^{\alpha_{k}-1}.\]

Considerando que é a distribuição a priori para \(\theta_{_{1}},\ldots,\theta_{_{k}}\) é a distribuição Dirichlet com parâmetros \((\alpha_{1},...,\alpha_{k})\) e \(P(X_{1}=x_{1},\ldots,X_{k}=x_{k}|\theta_{_{1}},\ldots,\theta_{_{k}})\) é a função de verossimilhança, a distribuição a posteriori, \(\theta_1,\ldots,\theta_p|\mathbf{X},\mathbf{\alpha}\), é proporcional a

\[f(\theta_{_{1}},\ldots,\theta_{_{k}}|\mathbf{X},\mathbf{\alpha})\propto \theta_{1}^{\alpha_{1}+x_{1}-1}\theta_{2}^{\alpha_{2}+x_2-1}\ldots \theta_{k}^{\alpha_{k}+x_{k}-1},\]

que corresponde à distribuição Dirichlet com parâmetros \((\alpha_{1}+x_{1},...,\alpha_{k}+x_{k})\) e \(E(\theta_{i})=(\alpha_{i}+x_{i})/(\alpha_{0}+n)\).

Neste caso, a distribuição a posteriori pertence a mesma família de distribuições que a priori. Dizemos, portanto, que a família Dirichlet é conjugada para distribuição multinominal.

Desta forma, o problema de parametrizar redes multinominais torna-se uma solução simples de contagem (Spiegelhalter e Lauritzen 1990).

Seja \(n=10\), \(k=3\), \(x=(5,4,2)\) e \(\alpha=(1,1,1)\). Temos a distribuição a priori e a posteriori de \(\theta_1,\theta_2\), uma vez que \(\theta_3=1-\theta_1-\theta_2\).

Figura 2.2. Distribuições a priori e a posteriori do caso conjugado Multinomial-Dirichlet.

Tabela de Probabilidade Condicional

No caso de redes bayesianas discretas, tradicionalmente assumimos \(X_i|\Pi_{X_i} \sim Multinomial (\Theta_{X_i}|\Pi_{X_i})\) onde os parâmetros \(\Theta_{X_i}|\Pi_{X_i}\) são as probabilidades condicionais \(\theta_{ik|j} = P (X_i = k| \Pi_{X_i}= j)\). Ainda, assumimos a priori conjugada \(\Theta_{X_i}|\Pi_{X_i} \sim Dirichlet (\alpha_{ijk})\), \(\sum_{jk}\alpha_{ijk}=\alpha_i>0\) para obter a posteriori de forma fechada \(\Theta_{X_i}|\Pi_{X_i},D \sim Dirichlet (n_{ijk}+\alpha_{ijk})\) que usamos para estimar \(\theta_{ik|j}\) a partir das contagens \(n_{ijk}\), \(\sum_{ijk}n_{ijk}=n\) observado em \(D\).

Além disso, \(\alpha_i\) é conhecido como tamanho amostral imaginário ou tamanho de amostra equivalente e determina quanto peso é atribuído à priori em termos do tamanho de uma amostra imaginária. O valor de \(\alpha_i\) é normalmente escolhido para ser pequeno, geralmente entre 1 e 15, para permitir que a distribuição a priori seja facilmente dominada pelos dados (Nagarajan, Scutari, e Lèbre 2013).

As probabilidades posteriores estimadas são calculadas e organizadas em uma tabela chamada tabela de probabilidade condicional (TPC).

Assim, a tabela de probabilidade condicional (CPT) trata-se da exibição dos parâmetros de probabilidade condicional da variável sendo condicionada a seu(s) pai(s). Por exemplo, dado o conjunto de três variáveis \(X_1\), \(X_2\) e \(X_3\), todas dicotômicas e assumindo valores binários, sendo \(\Pi_{X_3}=\{X_2,X_1\}\), temos a Tabela 2.1.

Tabela 2.1. Tabela de Probabilidade Condicional \(P(X_3|X_2,X_1)\)

\(X_3\) \(X_2\) \(X_1\) \(P(X_3|X_2,X_1)\)
0 0 0 \(\theta_{30|\{0,0\}}=P(X_3=0|X_2=0,X_1=0)\)
0 0 1 \(\theta_{30|\{0,1\}}=P(X_3=0|X_2=0,X_1=1)\)
0 1 0 \(\theta_{30|\{1,0\}}=P(X_3=0|X_2=1,X_1=0)\)
0 1 1 \(\theta_{30|\{1,1\}}=P(X_3=0|X_2=1,X_1=1)\)
1 0 0 \(\theta_{31|\{0,0\}}=P(X_3=1|X_2=0,X_1=0)\)
1 0 1 \(\theta_{31|\{0,1\}}=P(X_3=1|X_2=0,X_1=1)\)
1 1 0 \(\theta_{31|\{1,0\}}=P(X_3=1|X_2=1,X_1=0)\)
1 1 1 \(\theta_{31|\{1,1\}}=P(X_3=1|X_2=1,X_1=1)\)

2.2.2 Dados normais multivariados

A distribuição normal é uma das mais importantes distribuições de probabilidade. Uma variável aleatória contínua \(X\) segue distribuição normal com parâmetros \(\mu \in \mathbb{R}\) e \(\sigma^2 >0\), denotada por \(X\sim N(\mu,\sigma^{2})\), se a sua função densidade de probabilidade é dada por

\[ f(x)=\frac{1}{\sqrt{2\pi\sigma^{2}}}\exp\left\{ -\frac{\left(x-\mu\right)^{2}}{2\sigma^{2}}\right\} ,\qquad-\infty<x<\infty. \]

sendo os parâmetros \(\mu\) e \(\sigma^2\), respectivamente, a esperança e a variância de \(X\), média e variância populacionais.

Seja \(\mathbf{X}=(X_1,\ldots,X_p)\) um vetor aleatório tal que \(E\mathbb(X_i)=\mu_i\), \(Var(X_i)=\sigma^2_i\), \(i=1,\ldots,p\), e \(\sigma_{ij} = Cov(X_{i}, X_{j})\), \(1\leq i<j\leq p\). O vetor \(\mathbf{X}\) possui distribuição normal multivariada de dimensão \(p\), com vetor de médias \(\mathbf{\mu}=(\mu_1,\ldots,\mu_p)\) e matriz de covariâncias \(\mathbf{\Sigma}\), dada por \[\mathbf{\Sigma}=\left( \begin{array}{cccc} \sigma_{1}^{2} & \sigma_{12} & \cdots & \sigma_{1p}\\ & \sigma_{2}^{2} & & \vdots\\ & & \ddots & \\ & & & \sigma_{p}^{2} \end{array}\right)\]

se a sua função densidade de probabilidade é dada por

\[ f(\mathbf{x})=\frac{1}{\left(2\pi\right)^{\frac{p}{2}}\left|\mathbf{\Sigma}\right|^{\frac{1}{2}}}\exp\left\{ -\frac{1}{2}\left(\mathbf{x}-\mathbf{\mu}\right)^{'}\mathbf{\Sigma}^{-1}\left(\mathbf{x}-\mathbf{\mu}\right)\right\}. \]

Quando \(p=1\), a expressão se reduz a densidade normal univariada.

Redes bayesianas contínuas são comumente desenvolvidas através da suposição de normalidade multivariada em que \(\mathbf{X}\sim N_p(\mathbf{\mu}, \mathbf{\Sigma})\). Essas redes são conhecidas como redes gaussianas (Geiger e Heckerman 1994) e assumem que cada \(X_i\) possui distribuição normal univariada, sendo vinculados por dependências lineares a seus pais. Isto é, \(X_i | \Pi_{X_i} \sim N (\mu_{X_i} + \Pi_{X_i}\beta_{X_i}, \Sigma_{X_i|\Pi_{X_i}})\), sendo \(\Sigma_{X_i|\Pi_{X_i}}\) a matriz de covariância condicional de \(X_{i}\) dados os pais \(\Pi_{X_i}\). Este método é essencialmente um modelo de regressão linear de \(X_i\) contra o conjunto \(\Pi_{X_i}\), com coeficientes de regressão \(\beta_{X_i}\). De forma equivalente, o \(X_i | \Pi_{X_i}\) pode ser parametrizado com as correlações parciais \(\rho_{X_i, X_j} | \Pi_{X_i,X_j}\) entre \(X_i\) e cada pai \(X_j\) dado o resto.

Nesta situação, tradicionalmente, os conceitos de inferência bayesiana não são aplicados, sendo os parâmetros estimados via procedimentos tradicionais.

2.3. Linguagem R

require(bnlearn)
require(qgraph)

data(lizards)
dag = model2network("[Species][Diameter|Species][Height|Species]")
qgraph(dag,asize=5,color="tomato")

par1=bn.fit(dag,lizards,method="mle")
bn.fit.barchart(par1$Diameter)

par1
## 
##   Bayesian network parameters
## 
##   Parameters of node Diameter (multinomial distribution)
## 
## Conditional probability table:
##  
##         Species
## Diameter    Sagrei Distichus
##   narrow 0.7195122 0.5469388
##   wide   0.2804878 0.4530612
## 
##   Parameters of node Height (multinomial distribution)
## 
## Conditional probability table:
##  
##       Species
## Height    Sagrei Distichus
##   high 0.7378049 0.5836735
##   low  0.2621951 0.4163265
## 
##   Parameters of node Species (multinomial distribution)
## 
## Conditional probability table:
##     Sagrei Distichus 
##  0.400978  0.599022
par2=bn.fit(dag,lizards,method="bayes",iss=1)
bn.fit.barchart(par2$Diameter)

par2
## 
##   Bayesian network parameters
## 
##   Parameters of node Diameter (multinomial distribution)
## 
## Conditional probability table:
##  
##         Species
## Diameter    Sagrei Distichus
##   narrow 0.7188450 0.5468432
##   wide   0.2811550 0.4531568
## 
##   Parameters of node Height (multinomial distribution)
## 
## Conditional probability table:
##  
##       Species
## Height    Sagrei Distichus
##   high 0.7370821 0.5835031
##   low  0.2629179 0.4164969
## 
##   Parameters of node Species (multinomial distribution)
## 
## Conditional probability table:
##     Sagrei Distichus 
## 0.4012195 0.5987805
par3=bn.fit(dag,lizards,method="bayes",iss=10)
bn.fit.barchart(par2$Diameter)

par3
## 
##   Bayesian network parameters
## 
##   Parameters of node Diameter (multinomial distribution)
## 
## Conditional probability table:
##  
##         Species
## Diameter    Sagrei Distichus
##   narrow 0.7130178 0.5460000
##   wide   0.2869822 0.4540000
## 
##   Parameters of node Height (multinomial distribution)
## 
## Conditional probability table:
##  
##       Species
## Height    Sagrei Distichus
##   high 0.7307692 0.5820000
##   low  0.2692308 0.4180000
## 
##   Parameters of node Species (multinomial distribution)
## 
## Conditional probability table:
##     Sagrei Distichus 
## 0.4033413 0.5966587

Referências

Bielza, Concha, e Pedro Larranaga. 2014. «Bayesian networks in neuroscience: a survey». Frontiers in computational neuroscience 8: 131.

Box, George EP, e George C Tiao. 2011. Bayesian inference in statistical analysis. Vol. 40. John Wiley & Sons.

Elidan, Gal. 2010. «Copula Bayesian Networks.» Em NIPS, 559–67.

Geiger, Dan, e David Heckerman. 1994. «Learning gaussian networks». Em Uncertainty Proceedings 1994, 235–43. Elsevier.

Heckerman, David. 1997. «Bayesian networks for data mining». Data mining and knowledge discovery 1 (1): 79–119.

Langseth, Helge, Thomas D Nielsen, Rafael Rumı, e Antonio Salmerón. 2012. «Mixtures of truncated basis functions». International Journal of Approximate Reasoning 53 (2): 212–27.

Lauritzen, Steffen L, e Frank Jensen. 2001. «Stable local computation with conditional Gaussian distributions». Statistics and Computing 11 (2): 191–203.

Nagarajan, Radhakrishnan, Marco Scutari, e Sophie Lèbre. 2013. «Bayesian networks in r». Springer 122: 125–27.

Paulino, Carlos Daniel Mimoso, Maria Antónia Amaral Turkman, e Bento Murteira. 2003. Estatı́stica bayesiana. Lisboa: Fundação Calouste Gulbenkian.

Shenoy, Prakash P, e James C West. 2011. «Inference in hybrid Bayesian networks using mixtures of polynomials». International Journal of Approximate Reasoning 52 (5): 641–57.

Spiegelhalter, David J, e Steffen L Lauritzen. 1990. «Sequential updating of conditional probabilities on directed graphical structures». Networks 20 (5): 579–605.

Wasserman, Larry. 2013. All of statistics: a concise course in statistical inference. Springer Science & Business Media.