Red bayesiana - Bayesian network

Una red bayesiana (también conocida como red Bayes , red Bayes , red de creencias o red de decisiones ) es un modelo gráfico probabilístico que representa un conjunto de variables y sus dependencias condicionales mediante un gráfico acíclico dirigido (DAG). Las redes bayesianas son ideales para tomar un evento que ocurrió y predecir la probabilidad de que cualquiera de las posibles causas conocidas fuera el factor contribuyente. Por ejemplo, una red bayesiana podría representar las relaciones probabilísticas entre enfermedades y síntomas. Dados los síntomas, la red se puede utilizar para calcular las probabilidades de presencia de diversas enfermedades.

Los algoritmos eficientes pueden realizar inferencias y aprendizaje en redes bayesianas. Las redes bayesianas que modelan secuencias de variables ( por ejemplo , señales de voz o secuencias de proteínas ) se denominan redes bayesianas dinámicas . Las generalizaciones de redes bayesianas que pueden representar y resolver problemas de decisión bajo incertidumbre se denominan diagramas de influencia .

Modelo grafico

Formalmente, las redes bayesianas son grafos acíclicos dirigidos (DAG) cuyos nodos representan variables en el sentido bayesiano : pueden ser cantidades observables, variables latentes , parámetros desconocidos o hipótesis. Los bordes representan dependencias condicionales; los nodos que no están conectados (ninguna ruta conecta un nodo con otro) representan variables que son condicionalmente independientes entre sí. Cada nodo está asociado con una función de probabilidad que toma, como entrada, un conjunto particular de valores para las variables principales del nodo y da (como salida) la probabilidad (o distribución de probabilidad, si corresponde) de la variable representada por el nodo. Por ejemplo, si los nodos principales representan variables booleanas , entonces la función de probabilidad podría representarse mediante una tabla de entradas, una entrada para cada una de las posibles combinaciones principales. Se pueden aplicar ideas similares a gráficos no dirigidos, y posiblemente cíclicos, como las redes de Markov .

Ejemplo

Una red bayesiana simple con tablas de probabilidad condicionales

Dos eventos pueden hacer que el césped se moje: un aspersor activo o lluvia. La lluvia tiene un efecto directo sobre el uso del aspersor (es decir, que cuando llueve, el aspersor generalmente no está activo). Esta situación se puede modelar con una red bayesiana (que se muestra a la derecha). Cada variable tiene dos valores posibles, T (verdadero) y F (falso).

La función de probabilidad conjunta es, por la regla de probabilidad de la cadena ,

donde G = "Hierba mojada (verdadero / falso)", S = "Aspersor encendido (verdadero / falso)" y R = "Lloviendo (verdadero / falso)".

El modelo puede responder preguntas sobre la presencia de una causa dada la presencia de un efecto (la llamada probabilidad inversa) como "¿Cuál es la probabilidad de que llueva, dado que el césped está húmedo?" utilizando la fórmula de probabilidad condicional y sumando todas las variables molestas :

Usando la expansión para la función de probabilidad conjunta y las probabilidades condicionales de las tablas de probabilidad condicional (CPT) indicadas en el diagrama, se puede evaluar cada término en las sumas del numerador y denominador. Por ejemplo,

Luego, los resultados numéricos (subindicados por los valores de las variables asociadas) son

Para responder una pregunta intervencionista, como "¿Cuál es la probabilidad de que llueva, dado que mojamos el césped?" La respuesta se rige por la función de distribución conjunta posterior a la intervención.

obtenido al eliminar el factor de la distribución previa a la intervención. El operador do obliga a que el valor de G sea verdadero. La probabilidad de lluvia no se ve afectada por la acción:

Para predecir el impacto de encender el rociador:

con el término eliminado, mostrando que la acción afecta a la hierba pero no a la lluvia.

Estas predicciones pueden no ser factibles dadas las variables no observadas, como en la mayoría de los problemas de evaluación de políticas. Sin embargo, el efecto de la acción aún puede predecirse siempre que se satisfaga el criterio de la puerta trasera. Establece que, si se puede observar un conjunto Z de nodos que d -separa (o bloquea) todas las rutas de puerta trasera de X a Y, entonces

Una ruta de acceso de la puerta trasera es uno que termina con una flecha en X . Los conjuntos que satisfacen el criterio de la puerta trasera se denominan "suficientes" o "admisibles". Por ejemplo, el conjunto Z  =  R es admisible para predecir el efecto de S  =  T en G , porque R d desconectadores la trayectoria (solamente) de la puerta trasera S  ←  R  →  G . Sin embargo, si no se observa S , ningún otro conjunto d separa este camino y el efecto de encender el aspersor ( S  =  T ) sobre el césped ( G ) no se puede predecir a partir de observaciones pasivas. En ese caso, P ( G  | do ( S  =  T )) no está "identificado". Esto refleja el hecho de que, a falta de datos intervencionistas, la dependencia observada entre S y G se debe a una conexión causal o es espuria (dependencia aparente que surge de una causa común, R ). (ver la paradoja de Simpson )

Para determinar si una relación causal se identifica a partir de una red bayesiana arbitraria con variables no observadas, se pueden usar las tres reglas de " hacer -cálculo" y probar si todos los términos de hacer pueden eliminarse de la expresión de esa relación, confirmando así que el valor deseado la cantidad se puede estimar a partir de los datos de frecuencia.

El uso de una red bayesiana puede ahorrar una cantidad considerable de memoria en comparación con tablas de probabilidad exhaustivas, si las dependencias en la distribución conjunta son escasas. Por ejemplo, una forma ingenua de almacenar las probabilidades condicionales de 10 variables de dos valores como una tabla requiere espacio de almacenamiento para los valores. Si la distribución local de ninguna variable depende de más de tres variables principales, la representación de la red bayesiana almacena la mayoría de los valores.

Una ventaja de las redes bayesianas es que es intuitivamente más fácil para un ser humano comprender (un conjunto escaso de) las dependencias directas y las distribuciones locales que las distribuciones conjuntas completas.

Inferencia y aprendizaje

Las redes bayesianas realizan tres tareas principales de inferencia:

Inferir variables no observadas

Dado que una red bayesiana es un modelo completo de sus variables y sus relaciones, se puede utilizar para responder consultas probabilísticas sobre ellas. Por ejemplo, la red se puede utilizar para actualizar el conocimiento del estado de un subconjunto de variables cuando se observan otras variables (las variables de evidencia ). Este proceso de calcular la distribución posterior de las variables dada la evidencia se llama inferencia probabilística. El posterior proporciona una estadística suficiente universal para aplicaciones de detección, al elegir valores para el subconjunto de variables que minimizan alguna función de pérdida esperada, por ejemplo, la probabilidad de error de decisión. Por tanto, una red bayesiana puede considerarse un mecanismo para aplicar automáticamente el teorema de Bayes a problemas complejos.

Los métodos de inferencia exacta más comunes son: eliminación de variables , que elimina (por integración o suma) las variables no observadas que no son de consulta una a una distribuyendo la suma sobre el producto; la propagación del árbol de clique , que almacena en caché el cálculo para que se puedan consultar muchas variables a la vez y se puedan propagar nuevas pruebas rápidamente; y el condicionamiento recursivo y la búsqueda Y / O, que permiten una compensación de espacio-tiempo y igualan la eficiencia de la eliminación de variables cuando se usa suficiente espacio. Todos estos métodos tienen una complejidad exponencial en el ancho del árbol de la red . Los algoritmos de inferencia aproximada más comunes son el muestreo de importancia , la simulación estocástica de MCMC , la eliminación de mini cubos, la propagación de creencias descabelladas , la propagación de creencias generalizadas y los métodos variacionales .

Aprendizaje de parámetros

Para especificar completamente la red bayesiana y, por lo tanto, representar completamente la distribución de probabilidad conjunta , es necesario especificar para cada nodo X la distribución de probabilidad de X condicionada a los padres de X. La distribución de X condicionada a sus padres puede tener cualquier forma. Es común trabajar con distribuciones discretas o gaussianas ya que eso simplifica los cálculos. A veces, solo se conocen las limitaciones de la distribución; entonces se puede usar el principio de máxima entropía para determinar una sola distribución, la que tiene la mayor entropía dadas las restricciones. (De manera análoga, en el contexto específico de una red bayesiana dinámica , la distribución condicional para la evolución temporal del estado oculto se especifica comúnmente para maximizar la tasa de entropía del proceso estocástico implícito).

A menudo, estas distribuciones condicionales incluyen parámetros que se desconocen y deben estimarse a partir de datos, por ejemplo, mediante el enfoque de máxima verosimilitud . La maximización directa de la probabilidad (o de la probabilidad posterior ) es a menudo compleja dadas las variables no observadas. Un enfoque clásico de este problema es el algoritmo de maximización de expectativas , que alterna el cálculo de los valores esperados de las variables no observadas condicionadas a los datos observados, con la maximización de la probabilidad completa (o posterior) asumiendo que los valores esperados previamente calculados son correctos. En condiciones de regularidad leve, este proceso converge en valores de máxima verosimilitud (o máximo posterior) para los parámetros.

Un enfoque más completamente bayesiano de los parámetros es tratarlos como variables adicionales no observadas y calcular una distribución posterior completa sobre todos los nodos condicionada a los datos observados, y luego integrar los parámetros. Este enfoque puede ser costoso y conducir a modelos de grandes dimensiones, lo que hace que los enfoques clásicos de establecimiento de parámetros sean más manejables.

Aprendizaje estructurado

En el caso más simple, un experto especifica una red bayesiana y luego se utiliza para realizar inferencias. En otras aplicaciones, la tarea de definir la red es demasiado compleja para los humanos. En este caso, la estructura de la red y los parámetros de las distribuciones locales deben aprenderse a partir de los datos.

El aprendizaje automático de la estructura gráfica de una red bayesiana (BN) es un desafío perseguido dentro del aprendizaje automático . La idea básica se remonta a un algoritmo de recuperación desarrollado por Rebane y Pearl y se basa en la distinción entre los tres patrones posibles permitidos en un DAG de 3 nodos:

Patrones de unión
Patrón Modelo
Cadena
Tenedor
Colisionador

Los primeros 2 representan las mismas dependencias ( y son independientes ) y, por lo tanto, no se pueden distinguir. El colisionador, sin embargo, se puede identificar de forma única, ya que y son marginalmente independientes y todos los demás pares son dependientes. Por lo tanto, mientras que los esqueletos (los gráficos sin flechas) de estos tres tripletes son idénticos, la direccionalidad de las flechas es parcialmente identificable. La misma distinción se aplica cuando y tienen padres comunes, excepto que primero se debe condicionar a esos padres. Se han desarrollado algoritmos para determinar sistemáticamente el esqueleto del gráfico subyacente y, luego, orientar todas las flechas cuya direccionalidad está dictada por las independientes condicionales observadas.

Un método alternativo de aprendizaje estructural utiliza la búsqueda basada en optimización. Requiere una función de puntuación y una estrategia de búsqueda. Una función de puntuación común es la probabilidad posterior de la estructura dada los datos de entrenamiento, como el BIC o el BDeu. El requisito de tiempo de una búsqueda exhaustiva que devuelve una estructura que maximiza la puntuación es superexponencial en el número de variables. Una estrategia de búsqueda local realiza cambios incrementales destinados a mejorar la puntuación de la estructura. Un algoritmo de búsqueda global como la cadena de Markov Monte Carlo puede evitar quedar atrapado en mínimos locales . Friedman y col. discutir el uso de información mutua entre variables y encontrar una estructura que maximice esto. Lo hacen restringiendo el conjunto de candidatos padre a k nodos y buscando exhaustivamente en él.

Un método particularmente rápido para el aprendizaje exacto de BN consiste en plantear el problema como un problema de optimización y resolverlo mediante la programación de enteros . Las restricciones de aciclicidad se agregan al programa entero (IP) durante la resolución en forma de planos de corte . Dicho método puede manejar problemas con hasta 100 variables.

Para hacer frente a problemas con miles de variables, es necesario un enfoque diferente. Una es probar primero un pedido y luego encontrar la estructura BN óptima con respecto a ese pedido. Esto implica trabajar en el espacio de búsqueda de los posibles ordenamientos, lo cual es conveniente por ser más pequeño que el espacio de las estructuras de la red. A continuación, se muestrean y evalúan varios pedidos. Se ha demostrado que este método es el mejor disponible en la literatura cuando el número de variables es enorme.

Otro método consiste en enfocarse en la subclase de modelos descomponibles, para los cuales los MLE tienen una forma cerrada. Entonces es posible descubrir una estructura consistente para cientos de variables.

El aprendizaje de las redes bayesianas con un ancho de árbol limitado es necesario para permitir una inferencia exacta y manejable, ya que la complejidad de la inferencia en el peor de los casos es exponencial en el ancho del árbol k (según la hipótesis del tiempo exponencial). Sin embargo, como propiedad global del gráfico, aumenta considerablemente la dificultad del proceso de aprendizaje. En este contexto, es posible utilizar K-tree para un aprendizaje eficaz.

Introducción estadística

Dados los datos y los parámetros , un análisis bayesiano simple comienza con una probabilidad previa (a priori ) y una probabilidad para calcular una probabilidad posterior .

A menudo, lo anterior depende a su vez de otros parámetros que no se mencionan en la probabilidad. Entonces, el prior debe ser reemplazado por una probabilidad , y se requiere un prior en los parámetros recién introducidos , lo que resulta en una probabilidad posterior.

Este es el ejemplo más simple de un modelo de Bayes jerárquico .

El proceso puede repetirse; por ejemplo, los parámetros pueden depender a su vez de parámetros adicionales , que requieren su propia previa. Finalmente, el proceso debe terminar, con antecedentes que no dependen de parámetros no mencionados.

Ejemplos introductorios

Dadas las cantidades medidas, cada una con errores distribuidos normalmente de desviación estándar conocida ,

Suponga que estamos interesados ​​en estimar el . Un enfoque sería estimar el uso de un enfoque de máxima verosimilitud ; dado que las observaciones son independientes, la probabilidad se factoriza y la estimación de máxima verosimilitud es simplemente

Sin embargo, si las cantidades están relacionadas, de modo que, por ejemplo, el individuo se ha extraído de una distribución subyacente, entonces esta relación destruye la independencia y sugiere un modelo más complejo, por ejemplo,

con distribuciones a priori impropias , . Cuando , este es un modelo identificado (es decir, existe una solución única para los parámetros del modelo), y la posterior distribución de la persona tenderá a moverse, o encogerse lejos de las estimaciones de máxima verosimilitud hacia su media común. Esta contracción es un comportamiento típico en los modelos jerárquicos de Bayes.

Restricciones sobre antecedentes

Se necesita cierto cuidado al elegir a priori en un modelo jerárquico, particularmente en variables de escala en niveles superiores de la jerarquía, como la variable del ejemplo. Los anteriores habituales, como el anterior de Jeffreys, a menudo no funcionan, porque la distribución posterior no será normalizable y las estimaciones realizadas minimizando la pérdida esperada serán inadmisibles .

Definiciones y conceptos

Se han ofrecido varias definiciones equivalentes de una red bayesiana. Para lo siguiente, deje que G = ( V , E ) un gráfico acíclico dirigido (DAG) y dejar que X = ( X v ), vV ser un conjunto de variables aleatorias indexadas por V .

Definición de factorización

X es una red bayesiana con respecto a G si su función de densidad de probabilidad conjunta (con respecto a una medida de producto ) se puede escribir como un producto de las funciones de densidad individuales, condicionada a sus variables madre:

donde pa ( v ) es el conjunto de padres de v (es decir, aquellos vértices que apuntan directamente a v a través de un solo borde).

Para cualquier conjunto de variables aleatorias, la probabilidad de cualquier miembro de una distribución conjunta se puede calcular a partir de probabilidades condicionales utilizando la regla de la cadena (dado un orden topológico de X ) de la siguiente manera:

Usando la definición anterior, esto se puede escribir como:

La diferencia entre las dos expresiones es la independencia condicional de las variables de cualquiera de sus no descendientes, dados los valores de sus variables padre.

Propiedad local de Markov

X es una red bayesiana con respecto a G si satisface la propiedad local de Markov : cada variable es condicionalmente independiente de sus no descendientes dadas sus variables padre:

donde de ( v ) es el conjunto de descendientes y V  \ de ( v ) es el conjunto de no descendientes de v .

Esto se puede expresar en términos similares a la primera definición, como

El conjunto de padres es un subconjunto del conjunto de no descendientes porque el gráfico es acíclico .

Desarrollando redes bayesianas

El desarrollo de una red bayesiana a menudo comienza con la creación de un DAG G tal que X satisface la propiedad de Markov locales con respecto a G . A veces, este es un DAG causal . Se evalúan las distribuciones de probabilidad condicional de cada variable dados sus padres en G. En muchos casos, en particular en el caso en el que las variables son discretas, si la distribución conjunta de X es el producto de estas distribuciones condicionales, entonces X es una red bayesiana con respecto a G .

Manta de markov

El manto de Markov de un nodo es el conjunto de nodos que consta de sus padres, sus hijos y cualquier otro padre de sus hijos. La manta de Markov hace que el nodo sea independiente del resto de la red; la distribución conjunta de las variables en el manto de Markov de un nodo es conocimiento suficiente para calcular la distribución del nodo. X es una red bayesiana con respecto a G si cada nodo es condicionalmente independiente de todos los demás nodos de la red, dado su manto de Markov .

d -separación

Esta definición puede hacerse más general definiendo la "d" -separación de dos nodos, donde d significa direccional. Primero definimos la separación "d" de un camino y luego definiremos la separación "d" de dos nodos en términos de eso.

Sea P un camino desde el nodo u hasta v . Un camino es un camino sin bucles, no dirigido (es decir, se ignoran todas las direcciones de los bordes) entre dos nodos. Entonces P se dice que es d -separado por un conjunto de nodos de Z si cualquiera de las condiciones siguientes bodegas:

  • P contiene (pero no necesita ser completamente) una cadena dirigida, o , tal que el nodo medio m está en Z ,
  • P contiene una bifurcación`` tal que el nodo medio m está en Z , o
  • P contiene un tenedor invertida (o colisionador), de tal manera que el medio nodo m no está en Z y no descendiente de m está en Z .

Los nodos u y v son d Separados por Z si todos los caminos entre ellos son d Separado. Si u y v no están separados-d, que están conectados-d.

X es una red bayesiana con respecto a G si, para dos nodos cualesquiera u , v :

donde Z es un conjunto que d desconectadores u y v . (La manta Markov es el conjunto mínimo de nodos que d desconectadores nodo v de todos los otros nodos.)

Redes causales

Aunque las redes bayesianas se utilizan a menudo para representar relaciones causales , no es necesario que sea así: un borde dirigido de u a v no requiere que X v sea ​​causalmente dependiente de X u . Esto se demuestra por el hecho de que las redes bayesianas en los gráficos:

son equivalentes: es decir, imponen exactamente los mismos requisitos de independencia condicional.

Una red causal es una red bayesiana con el requisito de que las relaciones sean causales. La semántica adicional de las redes causales especifica que si se provoca activamente que un nodo X esté en un estado x dado (una acción escrita como do ( X  =  x )), entonces la función de densidad de probabilidad cambia a la de la red obtenida al cortar el enlaces de los padres de X a X , y estableciendo X en el valor causado x . Usando esta semántica, se puede predecir el impacto de las intervenciones externas a partir de los datos obtenidos antes de la intervención.

Inferencia de complejidad y algoritmos de aproximación

En 1990, mientras trabajaba en la Universidad de Stanford en grandes aplicaciones bioinformáticas, Cooper demostró que la inferencia exacta en redes bayesianas es NP-difícil . Este resultado impulsó la investigación sobre algoritmos de aproximación con el objetivo de desarrollar una aproximación manejable a la inferencia probabilística. En 1993, Paul Dagum y Michael Luby demostraron dos resultados sorprendentes sobre la complejidad de la aproximación de la inferencia probabilística en redes bayesianas. Primero, demostraron que ningún algoritmo determinista manejable puede aproximar la inferencia probabilística dentro de un error absoluto ɛ  <1/2. En segundo lugar, demostraron que ningún algoritmo aleatorio manejable puede aproximar la inferencia probabilística dentro de un error absoluto ɛ  <1/2 con una probabilidad de confianza mayor que 1/2.

Aproximadamente al mismo tiempo, Roth demostró que la inferencia exacta en redes bayesianas es de hecho # P-completo (y por lo tanto tan difícil como contar el número de asignaciones satisfactorias de una fórmula de forma normal conjuntiva (CNF) y esa inferencia aproximada dentro de un factor 2 n 1− ɛ para cada ɛ > 0, incluso para redes bayesianas con arquitectura restringida, es NP-hard.

En términos prácticos, estos resultados de complejidad sugirieron que, si bien las redes bayesianas eran representaciones ricas para aplicaciones de aprendizaje automático y de inteligencia artificial, su uso en grandes aplicaciones del mundo real tendría que ser moderado por restricciones estructurales topológicas, como las redes Bayes ingenuas, o por restricciones. en las probabilidades condicionales. El algoritmo de varianza acotada desarrollado por Dagum y Luby fue el primer algoritmo de aproximación rápida demostrable para aproximar de manera eficiente la inferencia probabilística en redes bayesianas con garantías en la aproximación del error. Este poderoso algoritmo requería que la restricción menor en las probabilidades condicionales de la red bayesiana fuera delimitada desde cero y uno por 1 / p ( n ) donde p ( n ) era cualquier polinomio en el número de nodos en la red  n .

Software

El software notable para redes bayesianas incluye:

  • Solo otra muestra de Gibbs (JAGS): alternativa de código abierto a WinBUGS. Utiliza muestreo de Gibbs.
  • OpenBUGS : desarrollo de código abierto de WinBUGS.
  • SPSS Modeler : software comercial que incluye una implementación para redes bayesianas.
  • Stan (software) : Stan es un paquete de código abierto para obtener inferencias bayesianas utilizando el muestreador No-U-Turn (NUTS), una variante de Hamiltonian Monte Carlo.
  • PyMC3 : una biblioteca de Python que implementa un lenguaje específico de dominio integrado para representar redes bayesianas y una variedad de muestreadores (incluido NUTS)
  • BNLearn : una biblioteca de Python con más capacidades y permite la expansión de una red bayesiana regular.
  • WinBUGS : una de las primeras implementaciones computacionales de muestreadores MCMC. Ya no se mantiene.

Historia

El término red bayesiana fue acuñado por Judea Pearl en 1985 para enfatizar:

  • la naturaleza a menudo subjetiva de la información de entrada
  • la dependencia del condicionamiento de Bayes como base para actualizar la información
  • la distinción entre modos de razonamiento causal y probatorio

A finales de la década de 1980, Pearl's Probabilistic Reasoning in Intelligent Systems y Naapolitan 's Probabilistic Reasoning in Expert Systems resumieron sus propiedades y las establecieron como un campo de estudio.

Ver también

Notas

Referencias

Una versión anterior aparece como Microsoft Research , 1 de marzo de 1995. El artículo trata sobre el aprendizaje tanto de parámetros como de estructuras en redes bayesianas.

Otras lecturas

enlaces externos