1.1 Introdução

Os modelos gráficos probabilísticos são representações gráficas da dependência condicional entre variáveis aleatórias. Essa relação probabilística é expressa por meio de grafos. Tais modelos têm sido alguns dos principais interesses da área de aprendizado de máquina nas últimas duas décadas (Ghahramani 2015). Dentre esses modelos, as redes bayesianas - também conhecidas como redes de crença, redes casuais e gráficos de dependência probabilística - são representadas por um tipo específico de grafo denominado grafo acíclico direcionado. Assim, são modelos gráficos que representam, de forma visual, as dependências probabilísticas entre um conjunto de variáveis aleatórias (Nagarajan, Scutari, e Lèbre 2013). Elas podem ser utilizadas para tarefas de raciocínio diagnóstico, preditivo e, até mesmo, causal (Korb e Nicholson 2010). Além de serem amplamente exploradas na area de modelagem estatística, são também utilizadas em outros enredos, um destes enredos pode ser visto como uma subárea da Inteligência Artificial, denominada Inteligência Artificial Probabilística (Ghahramani 2015).

As redes bayesianas surgiram no final da década de 80, desenvolvidas por Judea Pearl (Pearl 1988), filósofo e cientista da computação, com o intuito de facilitar as tarefas de predição, indução e dedução em sistemas de inteligência artificial (Pearl 2009). Os trabalhos de Judea Pearl têm sido referência em estudos probabilísticos nas áreas de análise contrafactual, equações estruturais, causalidade e inteligência artificial.

Figura 1.1 Judea Pearl. Fonte: patch.com

Os métodos e teorias bayesianas para Inteligência Artificial Probabilística são frequentemente referidos como aprendizado bayesiano, desta forma, as redes bayesianas têm sido aplicadas em uma grande variedade de atividades do mundo real (Bobbio et al. 2001)(Cui et al. 2020). Algumas aplicações atuais se estendem às áreas como diagnóstico de falhas (Cai, Huang, e Xie 2017)(Pang, Yu, e Song 2021), agricultura (Drury et al. 2017)(Ianishi et al. 2020), previsão de ataques cibernéticos (Okutan, Yang, e McConky 2017), desastres e avaliação de impactos ambientais e mudanças climáticas (Sperotto et al. 2019)(Cook e Lewandowsky 2019)(Yin et al. 2021), problemas de trânsito (Afrin e Yodo 2021), bem como na assistência e diagnósticos médicos (Zagorecki, Orzechowski, e Hołownia 2013)(Arora et al. 2019)(McLachlan et al. 2020)(Michiels, Larrañaga, e Bielza 2020)(Neil et al. 2020).

Assim, as redes bayesianas têm sido utilizadas desde o seu surgimento como possível metodologia de modelagem para tratamento de incertezas. Tal fato é motivado pelo tratamento das relações entre variáveis envolvidas em um problema específico e suas distribuições de probabilidade. A representação visual, promovida por esta metodologia através de grafos, facilita a compreensão das influências diretas e indiretas entre as variáveis aleatórias (Jiang et al. 2011) (Leong 2016).

Segundo Neapolitan e others (2004), a técnica de redes bayesianas surgiu no contexto em que há um grande número de variáveis e o objetivo de verificar qual a influência probabilística não direta de uma variável para as demais.

Assim, a teoria de redes bayesianas combina princípios da Teoria de Grafos, Teoria de Probabilidades, Ciência da Computação e Estatística. Do ponto de vista de probabilidade, a representação visual de uma rede bayesiana é uma sumarização da distribuição de probabilidade conjunta das variáveis (Ben-Gal 2008).

Segundo Uusitalo (2007), as vantagens da utilização das redes bayesianas permeiam: adequação para conjuntos de dados pequenos e incompletos; possível aprendizagem estrutural; combinação de diferentes fontes de conhecimento; tratamento explícito da incerteza e suporte para análise de decisão, bem como a geração de respostas rápidas. Para Chen e Pollino (2012) alguns motivos que envolvem o uso das redes bayesianas são: melhorar a compreensão geral do sistema; modelagem participativa; descoberta de conhecimento; sintetização do conhecimento e dos dados; predição; análise exploratória; análise de trade-off; apoio à gestão e a tomada de decisão, bem como identificar lacunas de conhecimento dos dados.

No tratamento de dados incompletos, quando uma das entradas não é observada, muitos modelos irão produzir resultados imprecisos, pois não codificam corretamente a relação entre as variáveis. As redes bayesianas oferecem uma maneira natural de codificar essas dependências (Darwiche 2009).

Na literatura especializada, terminologias específicas são utilizadas para definir tipos de variáveis, dependências probabilísticas e outras propriedades das redes bayesianas. Neste texto, optamos pela tentativa de simplificar tal terminologia, quando possível, aproximando-a dos termos utilizados na modelagem estatística.

A teoria de redes bayesianas se baseia exaustivamente no Teorema de Bayes, exposto na próxima seção.

1.2 Teorema de Bayes

Figura 1.3. Thomas Bayes. Fonte: Pena (2006)

Considerando dois eventos \(A\) e \(B\), o raciocínio de Thomas Bayes tem como ponto de partida o conhecimento à priori sobre o evento \(A\), denotado por \(P(A)\) e, através de propriedades de probabilidade condicional, explicitar o conhecimento à posteriori sobre o evento \(A\), denotado por \(P(A|B)\), ou seja, realizar uma atualização de conhecimento sobre \(A\), supondo a ocorrência do evento \(B\). Assim, para chegar ao teorema de Bayes, partimos dos princípios básicos (Pena 2006):

  1. A probabilidade conjunta entre um evento \(A\) e um evento \(B\) é dada por:

\[P\left(A\cap B\right)=P\left(A|B\right)P\left(B\right);\]

  1. Essa probabilidade conjunta também pode ser representada por:

\[P(B\cap A)=P(A\cap B)=P(B|A)P(A);\]

  1. Combinando (1) e (2), tem-se:

\[P(A|B)P(B) = P(B|A)P(A);\]

  1. Reorganizando (3), tem-se:

\[P(A|B)=\frac{P(A \cap B)}{P(B)}=\frac{P(B|A)P(A)}{P(B)};\]

  1. Geralmente \(P(B)\) não é conhecido, então deve-se utilizar uma formulação alternativa, que é dada por:

\[P(B)=P(A\cap B)+P(A^c \cap B),\]

em que \(P(A^c)\) é a probabilidade complementar de \(A\), isto é, probabilidade de \(A\) não ocorrer;

  1. Combinando (2) e (5), tem-se:

\[P(B) = P(B|A) P(A) + P(B|A^c)P(A^c).\]

Logo, o Teorema de Bayes é descrito por:

\[P(A|B) = \frac{P(B|A)P(A)}{P(B|A)P(A) + P(B|A^c)P(A^c)}= \frac{P(B|A)}{P(B|A)P(A) + P(B|A^c)P(A^c)}P(A).\]

Suponha que o espaço dos eventos é dado em termos de \(A_j\) eventos exclusivos e exaustivos, com \(j=1,\ldots,k\), ou seja, que não possuem intersecção entre si e que a união deles retorna o espaço amostral. Logo, pela lei da probabilidade total, o cálculo da \(P(B)\) é dado por

\[P(B)=\sum^k_{j=1}P(B\cap A_j)=\sum^k_{j=1}P(B|A_j)P(A_j).\]

Por fim, o Teorema de Bayes pode ser descrito como

\[P(A_j|B) = \frac{P(B|A_j)}{\sum^k_{i=1}P(B|A_i)P(A_i)}P(A_j) \propto P(B|A_j)P(A_j),\]

sendo \(P(A_j)\) probabilidade a priori do evento \(A_j\) , \(P(A_j|B)\) probabilidade a posteriori do evento \(A_j\), \(P(B|A_i)\) e \(\sum^k_{i=1}P(B|A_i)P(A_i)\) conhecidas como verossimilhança e constante normalizadora, respectivamente.

Em outros termos, podemos dizer que a probabilidade a posteriori é proporcional a probabilidade a priori multiplicada pela verossimilhança.

1.3 Grafo acíclico não direcionado

Em uma rede bayesiana todas as variáveis são assumidamente variáveis aleatórias, consideradas como os nós de um grafo, assim, a dependência condicional entre elas é representada por arcos direcionados e a ausência desses arcos implica em independência condicional (Abellán et al. 2006). Tais relações são decodificadas, visualmente, através de um grafo (conectado) acíclico direcionado (DAG - Directed Acyclic Graph). O termo “direcionado” faz referência à presença de direção dos arcos, o termo “conectado” é utilizado para designar que todos os nós estão conectados na rede e, por fim, o termo “acíclico” se refere à propriedade de não retorno para um nó após seguida a direção dos arcos. A estrutura de conexão, sem orientação de arcos entre os nós, é chamada de esqueleto.

Figura 1.2. Estruturas básicas existentes na teoria de grafos.

Desta forma, através da Figura 1.2, notamos que as redes bayesianas envolvem alguns tipos de estruturas básicas: a estrutura de conexões simples, que engloba as estruturas de árvore simples e poliárvore, e a estrutura de múltiplas conexões. Para as estruturas de conexões simples é dada a regra geral de que existe apenas um caminho que conecta uma variável a outra, independente da direção dos arcos. Analogamente, para as estruturas de múltiplas conexões há mais de um possível caminho que conecta uma variável a outra, independente da direção dos arcos.

Nesse contexto, a terminologia de parentesco é utilizada para entender a estrutura de uma rede bayesiana. Para o caso da Figura 1.2, na estrutura poliárvore, temos que a variável A é dita pai da variável B, sendo a variável B filha da variável A e, ao mesmo tempo, esposa da variável C e pai de E. Os ancestrais da variável E são dados pelo conjunto \(\{\) A,B,C \(\}\). Ainda, as variáveis A e C são ditas raízes da rede e as variáveis D e E são ditas folhas da rede.

1.4 Formalização e elementos básicos

O estudo dos grafos é realizado pelo ramo da matemática denominado teoria de grafos e diz respeito ao estudo das relações de seus elementos, os quais são comumente chamados de nós e arcos. Os nós são elementos principais os quais representam as variáveis aleatórias consideradas no problema e são representados, geralmente, por círculos. Os arcos são setas que representam a relação de direta dependência entre um nó e outro, ou seja, representam a dependência probabilística direta entre duas variáveis. Arcos sem direcionamento são chamados de arestas, elementos que não compõem um DAG.

Seja \(\mathbf{X}=(X_1,\ldots, X_p)\) o vetor aleatório com \(p\) componentes, a estrutura do DAG, ou seja, o padrão de conexões de nós e arcos, pode ser denotada por \(G\) e codifica as relações de independência entre essas variáveis, ou seja, A estrutura gráfica \(G\) pode ser representada por \(\mathbf{X}\) e um conjunto de arcos (ou arestas) que podemos denotar por \(E\), sendo \(G=\{ \mathbf{X} , E \}\) . Desta forma, uma vez que a separação gráfica em \(G\) implica em independência condicional em probabilidade, \(G\) induz a fatoração

\[P\left(\mathbf{X}|G,\Theta\right)=\prod_{i=1}^{p}P\left(X_{i}|\Pi_{X_{i}},\Theta_{X_{i}}\right),\]

em que a distribuição conjunta de \(\mathbf{X}\) (com parâmetros \(\Theta\)) se decompõe em uma fatoração local para cada \(X_i\) (com parâmetros \(\Theta_{X_i}\), sendo \(\cup_{i=1}^{p} \Theta_{X_i} = \Theta\)) e condicional ao conjunto de seus pais, denotado por \(\Pi_{X_{i}}\). Tal decomposição é possível devido a suposição que uma rede bayesiana satisfaz a condição de Markov (Neapolitan e others 2004), de que cada nó é condicionalmente independente dos nós não descendentes dados seus pais.

Figura 1.4. Exemplo de uma rede bayesiana com seis variáveis.

Para o caso da rede bayesiana apresentada na Figura 1.4, a decomposição da distribuição conjunta de \((X_1,\ldots,X_6)\) é dada por

\[P\left( X_1, X_2, X_3, X_4,X_5,X_6\right)=P(X_1)P(X_2)P(X_3|X_1,X_2)P(X_4)P(X_5|X_3,X_4)P(X_6|X_5).\]

1.5 Propriedades

1.5.1 D-separação

Através das propriedades markovianas, uma variável é diretamente independente de outra se não existe nenhum arco as conectando. A relação, portanto, entre trios de variáveis auxiliam no processo de leitura das dependências, ou independências, condicionais.

Sejam \(X\), \(Z\) e \(Y\) variáveis de uma rede bayesiana, alguns tipos importantes de conexão são:

  1. Se \(X \rightarrow Z \rightarrow Y\), temos um relacionamento head-to-tail;

  2. Se \(X \leftarrow Z \rightarrow Y\), temos um relacionamento tail-to-tail;

  3. Se \(X \rightarrow Z \leftarrow Y\), temos um relacionamento head-to-head.

Figura 1.5. Tipos de conexões considerando 3 variáveis.

Porém, é possível definir independência condicional entre grupos específicos de variáveis. Tal situação pode ser verificada através da generalização dos tipos de conexões acima.

Neste sentido, a correspondência entre a independência condicional (das variáveis aleatórias) e a separação gráfica (dos nós correspondentes do gráfico) foi estendida por Pearl (1988) para um grupo arbitrário de três subconjuntos disjuntos através do conceito de d-separação (de dependente da direção separação).

Para isso, considere três conjuntos disjuntos e arbitrários \(\mathbf{U}\), \(\mathbf{V}\) e \(\mathbf{W}\), sendo \(\mathbf{V} \subset \mathbf{X}\), bem como \(\mathbf{U}\) e \(\mathbf{W}\) \(\subset \mathbf{X}-\mathbf{V}\). Seja \(Z \in \mathbf{V}\), \(X \in \mathbf{U}\) e \(Y \in \mathbf{W}\). Para os casos 1 e 2, \(Z\) bloqueará o caminho entre \(X\) e \(Y\). Para o caso 3, se consideramos que \(Z\) e seus descendentes \(\notin \mathbf{V}\), \(Z\) também bloqueará o caminho entre \(X\) e \(Y\). Se o caminho entre duas variáveis, ou conjunto de variáveis, é bloqueado, dizemos que essas variáveis, ou conjuntos, são d-separados, ou seja, \(\mathbf{U} \perp \mathbf{W} \text{ }| \text{ } \mathbf{Z}\).

A Figura 1.6 ilustra os três casos de d-separação, em situações que os conjuntos \(\mathbf{U}\) e \(\mathbf{W}\) são d-separados.

Figura 1.6. Tipos de d-separação, \(\mathbf{U}\) e \(\mathbf{W}\) d-separados.

1.5.2 Cobertura de Markov

Outro conceito muito utilizado na teoria de Redes Bayesianas é a cobertura de Markov, que consiste no conjunto formado pelas variáveis-pai, variáveis-filhos e pais dos filhos de uma determinada variável. Como exemplo, para a variável \(X_3\) da Figura 1.4 temos que a cobertura de Markov envolve o conjunto formado pelas variáveis \(\{X_1, X_2, X_4\) e \(X_5\}\). Outro exemplo de cobertura de Markov pode ser visualizado na Figura 1.7 que exibe a cobertura de Markov para a variável A. As variáveis contidas na cobertura de Markov de uma variável específica são as únicas variáveis necessárias para predizer o comportamento de tal variável.

Figura 1.7. Cobertura de Markov da variável A é representada pelas demais variáveis em vermelho.

1.5.3 Equivalência de Markov

A decomposição exposta na Seção 1.4 não identifica exclusivamente uma única rede bayesiana, mas agrupa redes bayesianas em classes de equivalência de modelos que são indistinguíveis probabilisticamente (Chickering 1995). Assim, existem inúmeras estruturas que podem representar uma mesma distribuição de probabilidade conjunta, porém, podemos construir para cada conjunto de variáveis um grupo de estruturas semelhantes, chamadas de equivalentes de Markov (Verma e Pearl 1991).

Segundo Neapolitan e others (2004), dois grafos são equivalentes quando mantêm as mesmas independências condicionais, desta forma, dois grafos são considerados equivalentes quando conservam as mesmas conexões de arcos entre as variáveis independente da direção, com exceção às conexões head-to-head, ou seja, quando uma variável-filho possui mais que uma variável-pai.

Todas as redes bayesianas na mesma classe de equivalência têm o mesmo grafo não direcionado subjacente e estruturas head-to-head (padrões de arcos como \(X \rightarrow Z \leftarrow Y\)). Cada classe de equivalência pode ser caracterizada por um grafo acíclico parcialmente direcionado e completo (CPDAG - Completed Partially Directed Acyclic Graph).

Assim, considere o exemplo da Figura 1.8.

Figura 1.8. Exemplo de identificação de redes bayesianas markov equivalentes.

Analisando a Figura 1.8, notamos que a estrutura (a) não é equivalente a (b), pois além de não preservar a conexão head-to-head, a estrutura (b) não mantém a conexão entre as variáveis A e B. Esses mesmos motivos fazem (b) ser não equivalente à estrutura (c). Comparando a estrutura (a) com (c), notamos que existe apenas diferença entre a direção de conexão entre as variáveis A e B, ou seja, (a) e (c) são equivalentes. Dizemos que (a) e (c) pertencem à mesma classe de equivalência markoviana.

1.5.4 Causalidade

A importância das redes bayesianas para causalidade está relacionada ao trabalho de 1956 de Hans Reichenbach sobre causalidade (Reichenbach 1991), que propôs o seguinte princípio (Korb e Nicholson 2010):

Princípio da causa comum: Se duas variáveis são marginalmente dependentes probabilisticamente, então uma causa à outra (direta ou indiretamente) ou elas possuem um ancestral comum.

Esse princípio, em essência, afirma que por trás de cada dependência probabilística há uma dependência causal explicativa. Tais relações de dependência estão vinculadas às estruturas de conexões vistas na Seção 1.5.1.

Neste enredo, a suposição de suficiência causal é importante, a qual afirma que não existem variáveis não observadas que sejam pais de uma ou mais variáveis observadas. Ou seja, não existem variáveis não observadas que possam explicar as dependências ou independência entre as demais variáveis. Esta suposição é inválida na maioria dos casos, principalmente devido à facilidade de imaginar mais variáveis que poderiam ser incluídas como filhos ou pais de uma das variáveis envolvidas (Margaritis 2003).

Ainda, as características de classes de equivalência atuam no sentido de que, para algumas estruturas, existe uma indistinguibilidade probabilística, o que pode impedir a interpretação de causa-efeito do direcionamento de arcos (Nagarajan, Scutari, e Lèbre 2013).

Deste modo, a influência de arcos em uma estrutura de uma rede bayesiana deve ser investigada de forma prática por uma equipe de especialistas da área, pois devido a tais situações, apenas a orientação de arcos não pode ser entendida ou garantia como causalidade (Uusitalo 2007).

1.5.5 As redes bayesianas são bayesianas?

Existe uma grande discussão na literatura sobre as redes bayesianas serem ou não, de fato, bayesianas. Alega-se que esse termo seja uma nomenclatura inadequada. Tal discussão baseia-se, do ponto de vista estatístico, na utilização do termo com maior vínculo ao Teorema de Bayes em comparação aos métodos de inferência bayesiana.

Korb e Nicholson (2010) evidenciam a pronúncia formal do Professor Geoff Webb, especialista em mineração de dados da universidade australiana de Monash, que declarou dois pontos de vista:

  1. A técnica de redes bayesianas pode ser considerada um método de mineração de dados que utiliza métodos não-Bayesianos.

  2. As redes bayesianas são um método para representar probabilidades, que pode ser interpretado de forma Bayesiana ou não.

Deste modo, notamos que atualmente essa discussão pode gerar bastante polêmica entre os especialistas da área. Porém, temos que o objetivo fundamental da técnica é realizar inferência e estimativas com base em condicionamentos e atualizações de informações, o que gera uma ponte sólida com a filosofia Bayesiana. Assim, a utilização de redes bayesianas aliadas as técnicas estatísticas de inferência bayesiana facilitam a combinação de conhecimento sobre o domínio e os dados.

Ainda, os métodos de estimação dentro da teoria de redes bayesianas podem ser realizados por métodos bayesianos ou não-bayesianos. De uma forma geral, elas recebem o nome ”Bayesianas” pois se utilizam da implementação do Teorema de Bayes para construir um mecanismo de análise baseado em fragmentos de evidências (Cowell et al. 2006). Apesar disso, em muitas situações, podem ser analisadas através de métodos frequentistas ou bayesianos, conforme abordagem utilizada para a estimação de seus elementos.

1.6 Estruturas via Linguagem R

Existem vários pacotes que permitem o manuseio de redes bayesianas utilizando a linguagem R. Porém, nesta seção abordamos dois deles.

bnlearn é um pacote em R para estimar a estrutura de redes Bayesianas, estimar seus parâmetros e realizar algumas inferências. Os métodos implementados são baseados na literatura recente, aprimorados com otimizações algorítmicas e suporte para computação paralela (Scutari 2010).

qgraph é um pacote específico para visualização de grafos, assim ele cria automaticamente uma rede apropriada e a envia para o método apropriado de plotagem (Epskamp et al. 2012).

require(bnlearn)
require(qgraph)

estr <- empty.graph(LETTERS[1:5])
class(estr)
## [1] "bn"
graf <- qgraph(estr,asize=5,color="tomato")

graf
## From     To  Weight
##          
arcos = matrix(c("A", "C", "B", "E", "C", "E"),
               ncol = 2, byrow = TRUE,
               dimnames = list(NULL, c("from", "to")))
arcos
##      from to 
## [1,] "A"  "C"
## [2,] "B"  "E"
## [3,] "C"  "E"
arcs(estr) <- arcos

estr <- set.arc(estr,from="D",to="A")

qgraph(estr,asize=5,color="tomato",
       layout=graf$layout)

estr <- reverse.arc(estr,from="D",to="A")

narcs(estr)
## [1] 4
parents(estr, "B")
## character(0)
children(estr, "B")
## [1] "E"
ancestors(estr, "C")
## [1] "A"
spouses(estr, "B")
## [1] "C"
mb(estr, "E")
## [1] "B" "C"
root.nodes(estr)
## [1] "A" "B"
leaf.nodes(estr)
## [1] "D" "E"
directed.arcs(estr)
##      from to 
## [1,] "A"  "C"
## [2,] "B"  "E"
## [3,] "C"  "E"
## [4,] "A"  "D"
undirected.arcs(estr)
##      from to
qgraph(estr,asize=5,color="tomato",
       layout=graf$layout)

acyclic(estr)
## [1] TRUE
adj = matrix(0L, ncol = 5, nrow = 5,
             dimnames = list(LETTERS[1:5], 
                             LETTERS[1:5]))
adj["A", "C"] = 1L
adj["B", "C"] = 1L
adj["C", "E"] = 1L
adj["A", "E"] = 1L
adj
##   A B C D E
## A 0 0 1 0 1
## B 0 0 1 0 0
## C 0 0 0 0 1
## D 0 0 0 0 0
## E 0 0 0 0 0
amat(estr) = adj
qgraph(estr,asize=5,color="tomato",
       layout=graf$layout)

estr <- model2network("[A][B|A][C|E][D|C][E|A:B]")
qgraph(estr,asize=5,color="tomato",
       layout=graf$layout)

estr <- skeleton(estr)
qgraph(estr,asize=5,color="tomato",
       layout=graf$layout)

dag1 = model2network("[A][B|A][C|A]")
dag2 = model2network("[A|B:C][B][C]")
all.equal(dag1, dag2)
## [1] "Different arc sets"
compare(dag1, dag2)
## $tp
## [1] 0
## 
## $fp
## [1] 2
## 
## $fn
## [1] 2
dsep(dag1,"A","B")
## [1] FALSE
all.equal(skeleton(dag1), skeleton(dag2))
## [1] TRUE

Referências

Abellán, Joaquı́n, Manuel Gómez-Olmedo, Serafı́n Moral, e others. 2006. «Some Variations on the PC Algorithm.» Em Probabilistic Graphical Models, 1–8. Citeseer.

Afrin, Tanzina, e Nita Yodo. 2021. «A probabilistic estimation of traffic congestion using Bayesian network». Measurement 174: 109051.

Arora, Paul, Devon Boyne, Justin J Slater, Alind Gupta, Darren R Brenner, e Marek J Druzdzel. 2019. «Bayesian networks for risk prediction using real-world data: a tool for precision medicine». Value in Health 22 (4): 439–45.

Ben-Gal, Irad. 2008. «Bayesian networks». Encyclopedia of statistics in quality and reliability 1.

Bobbio, Andrea, Luigi Portinale, Michele Minichino, e Ester Ciancamerla. 2001. «Improving the analysis of dependable systems by mapping fault trees into Bayesian networks». Reliability Engineering & System Safety 71 (3): 249–60.

Cai, Baoping, Lei Huang, e Min Xie. 2017. «Bayesian networks in fault diagnosis». IEEE Transactions on Industrial Informatics 13 (5): 2227–40.

Chen, Serena H, e Carmel A Pollino. 2012. «Good practice in Bayesian network modelling». Environmental Modelling & Software 37: 134–45.

Chickering, DM. 1995. «A transformational characterization of equivalent Bayesian network structures». Proceedings of the 11th Conference on Uncertainty in Artificial Intelligence, 87–98.

Cook, J, e S Lewandowsky. 2019. «Rational irrationality: modeling climate change belief polarization using Bayesian networks». Topics in Cognitive Science 8 (1): 160–79.

Cowell, Robert G, Philip Dawid, Steffen L Lauritzen, e David J Spiegelhalter. 2006. Probabilistic networks and expert systems: Exact computational methods for Bayesian networks. Springer Science & Business Media.

Cui, Jiaxu, Qi Tan, Chunxu Zhang, e Bo Yang. 2020. «A Novel Framework of Graph Bayesian Optimization and Its Applications to Real-World Network Analysis». Expert Systems with Applications, 114524.

Darwiche, Adnan. 2009. Modeling and reasoning with Bayesian networks. Cambridge university press.

Drury, Brett, Jorge Valverde-Rebaza, Maria-Fernanda Moura, e Alneu de Andrade Lopes. 2017. «A survey of the applications of Bayesian networks in agriculture». Engineering Applications of Artificial Intelligence 65: 29–42.

Epskamp, Sacha, Angélique OJ Cramer, Lourens J Waldorp, Verena D Schmittmann, Denny Borsboom, e others. 2012. «qgraph: Network visualizations of relationships in psychometric data». Journal of Statistical Software 48 (4): 1–18.

Ghahramani, Zoubin. 2015. «Probabilistic machine learning and artificial intelligence». Nature 521 (7553): 452–59.

Ianishi, Paula, Oilson Alberto Gonzatto Junior, Marcos Jardel Henriques, Diego Carvalho do Nascimento, Gabriel Kamada Mattar, Pedro Luiz Ramos, Anderson Ara, e Francisco Louzada. 2020. «Probability on Graphical Structure: A Knowledge-Based Agricultural Case». Annals of Data Science, 1–19.

Jiang, Xia, Richard E Neapolitan, M Michael Barmada, e Shyam Visweswaran. 2011. «Learning genetic epistasis using Bayesian network scoring criteria». BMC bioinformatics 12 (1): 1–12.

Korb, Kevin B, e Ann E Nicholson. 2010. Bayesian artificial intelligence. CRC press.

Leong, Chee Kian. 2016. «Credit risk scoring with bayesian network models». Computational Economics 47 (3): 423–46.

Margaritis, Dimitris. 2003. «Learning Bayesian network model structure from data». Carnegie-Mellon Univ Pittsburgh Pa School of Computer Science.

McLachlan, Scott, Kudakwashe Dube, Graham A Hitman, Norman E Fenton, e Evangelia Kyrimi. 2020. «Bayesian networks in healthcare: Distribution by medical condition». Artificial Intelligence in Medicine 107: 101912.

Michiels, Mario, Pedro Larrañaga, e Concha Bielza. 2020. «BayeSuites: An open web framework for massive Bayesian networks focused on neuroscience». Neurocomputing 428: 166–81.

Nagarajan, Radhakrishnan, Marco Scutari, e Sophie Lèbre. 2013. «Bayesian networks in r». Springer 122: 125–27.

Neapolitan, Richard E, e others. 2004. Learning bayesian networks. Vol. 38. Pearson Prentice Hall Upper Saddle River, NJ.

Neil, Martin, Norman Fenton, Magda Osman, e Scott McLachlan. 2020. «Bayesian Network Analysis of Covid-19 data reveals higher Infection Prevalence Rates and lower Fatality Rates than widely reported». Journal of Risk Research 23 (7-8): 866–79.

Okutan, Ahmet, Shanchieh Jay Yang, e Katie McConky. 2017. «Predicting cyber attacks with bayesian networks using unconventional signals». Em Proceedings of the 12th Annual Conference on Cyber and Information Security Research, 1–4.

Pang, Tian Yang, Tian Xiang Yu, e Bi Feng Song. 2021. «Fault diagnosis for mechanical system using dynamic Bayesian network». Em IOP Conference Series: Materials Science and Engineering, 1043:032062. 3. IOP Publishing.

Pearl, J. 1988. Probabilistic Reasoning in Intelligent Systems. Morgan Kaufmann, San Mateo, CA.

Pearl, Judea. 2009. «Introduction to probabilities, graphs, and causal models». Causality: models, reasoning and inference, 1–40.

Pena, Sérgio Danilo. 2006. «Thomas Bayes: ocara’!» Ciência hoje 38 (228): 22.

Reichenbach, Hans. 1991. The direction of time. Vol. 65. Univ of California Press.

Scutari, Marco. 2010. «Learning Bayesian networks with the bnlearn R package». Journal of Statistical Software 35 (3): 1–22.

Sperotto, A, JL Molina, S Torresan, A Critto, M Pulido-Velazquez, e A Marcomini. 2019. «A Bayesian Networks approach for the assessment of climate change impacts on nutrients loading». Environmental Science & Policy 100: 21–36.

Uusitalo, Laura. 2007. «Advantages and challenges of Bayesian networks in environmental modelling». Ecological modelling 203 (3-4): 312–18.

Verma, Thomas, e Judea Pearl. 1991. Equivalence and synthesis of causal models. UCLA, Computer Science Department.

Yin, Bangtang, Boyao Li, Gang Liu, Zhiyuan Wang, e Baojiang Sun. 2021. «Quantitative risk analysis of offshore well blowout using bayesian network». Safety Science 135: 105080.

Zagorecki, Adam, Piotr Orzechowski, e Katarzyna Hołownia. 2013. «Online diagnostic system based on Bayesian networks». Em Conference on Artificial Intelligence in Medicine in Europe, 145–49. Springer.