Modelos causales en inteligencia artificial. Un caso práctico

Alicia E. Silva Ávila
Alma J. Domínguez Lugo
Abraham Castorena Peña
Roxana Elizondo Díaz
Facultad de Ingeniería Mecánica y Eléctrica
alicia.silva@uadec.edu.mx

descarga artículo PDF


Resumen

Los sistemas expertos surgieron en los años setenta como programas capaces de imitar el razonamiento de expertos humanos e, incluso, con la intención de sustituirlos cuando fuera necesario. Sin embrago, en las décadas siguientes, durante los años ochenta y noventa, el principal objetivo de la inteli-gencia artificial pasó de imitar la inteligencia natural a convertirse en colaborador de los humanos, expertos o no, de forma sinérgica. De hecho, Clancey resalta que la revista Knowledge Acquisition decía en su nota para los autores: “la cuestión clave no es la inteligencia artificial, sino cómo mejorar la inteligencia natural con la ayuda de los sistemas basados en conocimiento”. Una de las principales aptitudes de los expertos humanos es su capacidad para comunicar su conocimiento y explicar el razonamiento llevado a cabo para obtener un resultado.

Palabras Clave: inteligencia artificial, sistemas expertos, redes bayesianas, modelos causales 

Redes bayesianas

Las redes bayesianas modelan un fenómeno mediante un conjunto de variables y las re-laciones de dependencia entre ellas. Dado este modelo, se puede hacer inferencia baye-siana; es decir, estimar la probabilidad poste-rior de las variables no conocidas con base en las variables conocidas. Estos modelos pue-den tener diversas aplicaciones, para clasi-ficación, predicción, diagnóstico, etcétera.

Además, pueden proporcionar información interesante sobre la manera como se rela-cionan las variables del dominio, las cuales pueden ser interpretadas en ocasiones como relaciones de causa-efecto.

Las redes bayesianas son una represen-tación gráfica de dependencias para razo-namiento probabilístico, en la cual los nodos representan variables aleatorias y los arcos representan relaciones de dependencia direc-ta entre las variables.

En una RB todas las relaciones de inde-pendencia condicional representadas en el grafo corresponden a relaciones de inde-pendencia en la distribución de probabilidad.

Causalidad

Desde un punto de vista matemático, una red bayesiana es simplemente un modelo para representar dependencias e independencias probabilísticas; en este caso, un enlace, con-siderado por sí mismo no tiene ningún sig-nificado. Sin embargo, cuando se construye una red bayesiana como un modelo de un sistema del mundo real, un enlace A B es causal si A es una causa de B, es decir, si existe un mecanismo mediante el cual el valor que tome A influye sobre el valor de B. Una red bayesiana se dice que es causal cuando todos sus enlaces son causales. Las razones para usar modelos causales en inteligencia artifi-cial, especialmente en sistemas expertos probabilistas, son múltiples, entre las que destacamos las siguientes.

  • Los seres humanos tendemos a inter-pretar los hechos en términos de relacio-nes causa-efecto. Por tanto, los modelos causales son más fáciles de construir y de modificar, puesto que tienden a ser más simples que los no causales. En consecuencia, también son más fáciles de entender por los usuarios.
  • Muchos dominios de aplicación reales están organizados en forma de jerarquías causales, como el caso de la medicina, cuyo conocimiento está estructurado en forma causa-efecto: desde la invasión de determinados organismos (virus, bacte-rias, etc.) en el cuerpo humano, pasando por las anomalías físicas que produce, hasta sus complicaciones, síndromes, es-tados clínicos y los síntomas que genera.
  • Los modelos causales aportan mucha más información que los modelos meramente probabilísticos. Una distri-bución conjunta nos aporta información sobre las probabilidades de ciertos even-tos y sobre como variarán estas después de diferentes observaciones, un modelo causal además nos indica como variarán dichas probabilidades como resultado de intervenciones externas.
  • Existen modelos canónicos probabilís-ticos (puerta OR, puerta MAX, puerta AND, etc.) basados en la interpretación de los padres de un nodo como causas o condiciones para dicho nodo y sobre la asunción de independencia de interac-ciones causales. Estos modelos reducen el número de parámetros de la red, simplificando la adquisición del conoci-miento e incluso produciendo cálculos más eficientes.
  • Las redes bayesianas causales propor-cionan determinados modelos de razona-miento cualitativo que pueden ser iden-tificados con el objetivo de explicar los resultados de la inferencia.

Metodología

Métodos y técnicas

Se manejó el proceso de modo manual mediante la colaboración entre los ingenieros del conocimiento y los expertos en el dominio que se desea representar. En este caso, los modelos que se suelen desarrollar corres-ponden a redes causales, pues los expertos humanos suelen tener el conocimiento estruc-turado en forma causal.

Red bayesiana

La figura 1 muestra cómo quedó la red bayesiana después de realizar varias depu-raciones, se observa que consta de tres niveles. Recordando, las redes bayesianas se deben estructurar como causa-efecto por lo que: el primer nivel de la red (de abajo hacia arriba) corresponde al objetivo principal de este caso la cual es la “innovación tecnoló-gica” (el efecto). Enseguida se observan las categorías y, por último, el tercer nivel representa los puntos más relevantes de cada uno de los ítems del método usado. Dentro de esta figura se muestran las relaciones que existen entre los nodos, de las cuales se hace mención más adelante, del significado de sus colores.

 

Figura 1. Red bayesiana en modo edición. Elaboración propia.

 

 

Cuando las redes se editan con la interfaz gráfica elegida, durante el proceso de construcción del grafo cualitativo todos los enlaces están coloreados en negro, represen-tando el hecho de que aún no se han asignado las probabilidades. Así, cuando se han asig-nado las probabilidades asociadas a un nodo, el color de los enlaces cambia al color de la influencia transmitida por cada uno de sus padres. Por otra parte, un enlace puede tener el color negro incluso después de asignar las probabilidades, cuando los valores que toma el padre no modifican la probabilidad del hijo ésta puede eliminarse ya que no es necesario ese enlace. La figura 2 muestra los enlaces que resultaron de esta red canónica. La inter-pretación de cada color de enlace es la siguiente:

– Rojo: indica que hay una influencia positiva, es decir, que al aumentar el valor del padre, aumenta el valor del nodo hijo.

– Azul: indica influencia negativa.

– Negro. Indica que el enlace no transmite información

– Violeta: indica que hay influencia ambigua, es decir, que en algunos valores del padre hay influencia positiva y para otras negativas.

 

Figura 2. Representación de influencias en modo edición entre los nodos, donde el color rojo indica que hay una influencia positiva entre los nodos. Elaboración propia.

 

En la figura 3 se pueden observar los resultados a priori del modelo en cuestión del cual se captan las siguientes probabilidades para cada nodo:

– trayectoria= 0.72

– visión= 0.56

– estrategia= 0.68

– captación= 0.76

– recursos humanos= 0.72

– financiación=0.76

Con esto se observa que, si en todos los nodos elegimos sí, es decir, en todos los nodos elegimos como positivo cada uno de ellos, el resultado que arrojará en modo inferencia para el nodo innovación será de 1.00.

Figura 3. Modelo inferencia mostrando las probabilidades de los nodos a priori. Elaboración propia.

 

Resultados

En la construcción del grafo cualitativo, de acuerdo a la bibliografía estudiada, los cons-tructos elegidos para el modelo normalmente corresponden a posibles causas como: que las estrategias existan o no, que se tenga su-ficiente capital monetario, así como suficiente y eficiente recurso humano, etc.

Durante el proceso de construcción del grafo cualitativo uno de los pasos importantes fue la definición de los estados de cada variable; todas las variables tienen un nombre significativo y además todas son binarias, con valores del tipo ausente-presente, no-sí, positivo-negativo, ya que, lo que interesa conocer de cada una de ellas es si tienen valor distinto al habitual.

Al haber realizado el modelo se procedió a la aplicación de éste alimentándolo con diversos datos de entrada y obteniendo los resultados mostrados en la tabla 3. Para evaluar el resultado de la aplicación del modelo se utilizaron los arreglos ortogonales de Taguchi. El arreglo ortogonal es una herramienta ingenieril que simplifica, y en algunos casos elimina, gran parte de los esfuerzos de diseño estadístico. Es una forma de examinar simultáneamente muchos facto-res a bajo costo. El doctor Taguchi reco-mienda el uso de arreglos ortogonales para hacer matrices que contengan los controles y los factores de ruido en el diseño de experimentos. La ventaja de los arreglos ortogonales es que pueden aplicarse al diseño experimental involucrando un gran número de factores. Un arreglo ortogonal permite asegu-rar que el efecto de “B” en “A1” es el mismo efecto de “B” en “A2”. Así se podrá estar seguro de que se están haciendo comparaciones entre efectos de niveles de un factor.

Arreglo ortogonal que representa La(b)C donde:

L = indica que es un arreglo ortogonal

a = número de corridas experimentales

b = número de niveles para cada factor

c = número de columnas o factores de un arreglo ortogonal

 

ARREGLO ORTOGONAL L8(2)6

Tabla 3. Arreglo ortogonal. 1=Presente y 2=Ausente. Elaboración propia.

 

Enseguida se muestran los casos realizados en el software ELVIRA. En cada uno se observan los movimientos realizados en cada nodo y el resultado que se obtiene al realizar dicho movimiento.

 

Figura 4. Resultados obtenidos en modo inferencia. Elaboración propia

 

Conclusiones 

  • Se tiene la posibilidad de generar respuestas a través del modelo representado en la red bayesiana y estas explicaciones se pueden presentar de forma verbal y de modo gráfico:
  • La explicación verbal del modelo consiste en mostrar la informa-ción asociada a un nodo o enlace seleccionado por el usuario.
  • La explicación gráfica consiste en representar el tipo de influencia que transmite cada nodo a sus hijos dibujando los enlaces con distintos colores.
  • Se da la posibilidad de gestionar distintos casos de evidencia, lo cual propicia la visualización de los resul-tados del análisis de sensibilidad de cada nodo respecto de la evidencia y el razonamiento hipotético ofreciendo un modo sencillo de estudiar los resultados obtenidos.
  • La clasificación de los hallazgos que forman la evidencia, dependiendo del tipo y la cantidad de influencia que ejercen sobre una variable determi-nada, permite obtener información sobre el porqué de los resultados obtenidos sobre dicha variable.
  • Las explicaciones únicamente se ofrecen cuando el usuario lo solicita.
  • Se controlan mediante el software las posibles inconsistencias que se pue-den producir al intentar realizar ac-ciones no permitidas.

 

 

 

Bibliografía

C., L. (2002). explicacion en redes bayesianas causales. Aplicaciones medicas. Madrid: Tesis doctoral.

George L. Michael, R. D. (2005). The lean six sigma pocket toolbook. internacional: pocket toolbook.

Jova Aguiar Santiago, O. S. (2008). La transferencia de tecnologia, la innovacion tecnologica y su incidencia en el desarrollo local.

Uffe B. Kyaerulff, M. A. (2008). Bayesian Networks and Influence Diagrams. ISBN 978-0-387-74100-0.

 

 

Post Author: CC

Deja un comentario