Inteligencia artificial explicable - Explainable artificial intelligence

La IA explicable ( XAI ) es la inteligencia artificial (IA) en la que los humanos pueden entender los resultados de la solución. Contrasta con el concepto de " caja negra " en el aprendizaje automático, donde incluso sus diseñadores no pueden explicar por qué una IA llegó a una decisión específica. XAI puede ser una implementación del derecho social a la explicación . XAI es relevante incluso si no existe ningún derecho legal o requisito reglamentario; por ejemplo, XAI puede mejorar la experiencia del usuario de un producto o servicio al ayudar a los usuarios finales a confiar en que la IA está tomando buenas decisiones. De esta forma, el objetivo de XAI es explicar qué se ha hecho, qué se hace ahora mismo, qué se hará a continuación y desvelar la información en la que se basan las acciones. Estas características permiten (i) confirmar el conocimiento existente (ii) cuestionar el conocimiento existente y (iii) generar nuevos supuestos.

Los algoritmos utilizados en la IA se pueden diferenciar en algoritmos de aprendizaje automático (ML) de caja blanca y caja negra. Los modelos de caja blanca son modelos de aprendizaje automático que proporcionan resultados comprensibles para los expertos en el dominio. Los modelos de caja negra, por otro lado, son extremadamente difíciles de explicar y difícilmente pueden ser entendidos incluso por expertos en el dominio. Se considera que los algoritmos XAI siguen los tres principios transparencia, interpretabilidad y explicabilidad. La transparencia se da "si los procesos que extraen los parámetros del modelo de los datos de entrenamiento y generan etiquetas a partir de los datos de prueba pueden ser descritos y motivados por el diseñador del enfoque". La interpretabilidad describe la posibilidad de comprender el modelo ML y presentar la base subyacente para la toma de decisiones de una manera que sea comprensible para los humanos. La explicabilidad es un concepto que se reconoce como importante, pero aún no se dispone de una definición conjunta. Se sugiere que la explicabilidad en ML puede considerarse como “la colección de características del dominio interpretable, que han contribuido a que un ejemplo dado produzca una decisión (por ejemplo, clasificación o regresión)”. Si los algoritmos cumplen con estos requisitos, proporcionan una base para justificar decisiones, rastrearlas y, por lo tanto, verificarlas, mejorar los algoritmos y explorar nuevos hechos.

A veces también es posible lograr un resultado con alta precisión con un algoritmo ML de caja blanca que es interpretable en sí mismo. Esto es especialmente importante en dominios como la medicina, la defensa, las finanzas y el derecho, donde es crucial comprender las decisiones y generar confianza en los algoritmos.

Los sistemas de inteligencia artificial optimizan el comportamiento para satisfacer un sistema de objetivos matemáticamente especificado elegido por los diseñadores del sistema, como el comando "maximizar la precisión de evaluar qué tan positivas son las reseñas de películas en el conjunto de datos de prueba". La IA puede aprender reglas generales útiles del conjunto de pruebas, como "las reseñas que contienen la palabra 'horrible' probablemente sean negativas". Sin embargo, también puede aprender reglas inapropiadas, como "las reseñas que contienen ' Daniel Day-Lewis ' suelen ser positivas"; tales reglas pueden ser indeseables si se considera probable que no se generalicen fuera del conjunto de prueba, o si las personas consideran que la regla es "engañosa" o "injusta". Un humano puede auditar las reglas en un XAI para tener una idea de la probabilidad de que el sistema se generalice a datos futuros del mundo real fuera del conjunto de prueba. Esto es especialmente importante para las herramientas de inteligencia artificial desarrolladas para aplicaciones médicas porque el costo de las predicciones incorrectas suele ser alto. XAI podría aumentar la solidez de los algoritmos y aumentar la confianza de los médicos.

Metas

La cooperación entre agentes , en este caso algoritmos y humanos, depende de la confianza. Si los humanos van a aceptar prescripciones algorítmicas, deben confiar en ellas. La incompletitud en la formalización de los criterios de confianza es una barrera para los enfoques de optimización sencillos. Por esa razón, la interpretabilidad y la explicabilidad se postulan como metas intermedias para verificar otros criterios.

Los sistemas de IA a veces aprenden trucos indeseables que hacen un trabajo óptimo al satisfacer objetivos explícitos preprogramados en los datos de entrenamiento, pero que no reflejan los complicados deseos implícitos de los diseñadores de sistemas humanos. Por ejemplo, un sistema de 2017 encargado del reconocimiento de imágenes aprendió a "hacer trampa" buscando una etiqueta de derechos de autor que estuviera asociada con las imágenes de caballos, en lugar de aprender a saber si un caballo estaba realmente representado. En otro sistema de 2017, una IA de aprendizaje supervisada encargada de agarrar elementos en un mundo virtual aprendió a hacer trampa colocando su manipulador entre el objeto y el espectador de una manera tal que parecía estar agarrando el objeto falsamente.

Un proyecto de transparencia, el programa DARPA XAI, tiene como objetivo producir modelos de "caja de cristal" que se puedan explicar a un "humano en el circuito", sin sacrificar en gran medida el rendimiento de la IA. Los usuarios humanos deben poder comprender la cognición de la IA (tanto en tiempo real como después del hecho), y deben poder determinar cuándo confiar en la IA y cuándo se debe desconfiar de la IA. Otras aplicaciones de XAI son la extracción de conocimientos de modelos de caja negra y las comparaciones de modelos. El término "caja de cristal" también se ha utilizado para los sistemas que monitorean las entradas y salidas de un sistema, con el propósito de verificar la adherencia del sistema a los valores éticos y socio-legales y, por lo tanto, producir explicaciones basadas en valores. Además, el mismo término se ha utilizado para nombrar a un asistente de voz que produce declaraciones contrafácticas como explicaciones.

Historia y métodos

Durante las décadas de 1970 a 1990, se exploraron sistemas de razonamiento simbólico, como MYCIN , GUIDON, SOPHIE y PROTOS, que podían representar, razonar y explicar su razonamiento con fines de diagnóstico, instrucción o aprendizaje automático (aprendizaje basado en explicaciones). MYCIN, desarrollado a principios de la década de 1970 como un prototipo de investigación para el diagnóstico de infecciones por bacteriemia del torrente sanguíneo, podría explicar cuál de sus reglas codificadas a mano contribuyó a un diagnóstico en un caso específico. La investigación en sistemas de tutoría inteligente desarrolló sistemas como SOPHIE que podrían actuar como un 'experto articulado', explicando la estrategia de resolución de problemas a un nivel que el estudiante podría entender, para saber qué acción tomar a continuación. Por ejemplo, SOPHIE podría explicar el razonamiento cualitativo detrás de su solución de problemas electrónicos, aunque en última instancia se basó en el simulador de circuito SPICE . De manera similar, GUIDON agregó reglas de tutoría para complementar las reglas de nivel de dominio de MYCIN para que pudiera explicar la estrategia para el diagnóstico médico. Los enfoques simbólicos del aprendizaje automático, especialmente los que se basan en el aprendizaje basado en explicaciones, como PROTOS, se basaron explícitamente en representaciones de explicaciones, tanto para explicar sus acciones como para adquirir nuevos conocimientos.

Desde la década de 1980 hasta principios de la de 1990, se desarrollaron sistemas de mantenimiento de la verdad (TMS) para ampliar las capacidades de los sistemas de inferencia de razonamiento causal, basados ​​en reglas y basados ​​en lógica. Un TMS actúa para rastrear explícitamente líneas alternas de razonamiento, justificaciones de conclusiones y líneas de razonamiento que conducen a contradicciones, lo que permite que el razonamiento futuro evite estos callejones sin salida. Para proporcionar una explicación, trazan el razonamiento desde las conclusiones hasta los supuestos a través de operaciones de reglas o inferencias lógicas, lo que permite que se generen explicaciones a partir de los trazos del razonamiento. Como ejemplo, considere un solucionador de problemas basado en reglas con solo unas pocas reglas sobre Sócrates que concluye que ha muerto por veneno:

Con sólo trazar la estructura de dependencia, el solucionador de problemas puede construir la siguiente explicación: "Sócrates murió porque era mortal y bebió veneno, y todos los mortales mueren cuando beben veneno. Sócrates era mortal porque era un hombre y todos los hombres son mortales. Sócrates bebió veneno porque tenía creencias disidentes, el gobierno era conservador y los que tienen creencias disidentes conservadoras bajo gobiernos conservadores deben beber veneno ".

En la década de 1990, los investigadores también comenzaron a estudiar si es posible extraer de manera significativa las reglas no codificadas a mano generadas por redes neuronales entrenadas opacas. Los investigadores en sistemas de expertos clínicos que crean un soporte de decisiones basado en redes neuronales para los médicos han buscado desarrollar explicaciones dinámicas que permitan que estas tecnologías sean más confiables y confiables en la práctica. En la década de 2010, las preocupaciones del público sobre los prejuicios raciales y de otro tipo en el uso de la inteligencia artificial para las decisiones de sentencias penales y los hallazgos de solvencia pueden haber llevado a una mayor demanda de inteligencia artificial transparente. Como resultado, muchos académicos y organizaciones están desarrollando herramientas para ayudar a detectar sesgos en sus sistemas.

Marvin Minsky y col. planteó la cuestión de que la IA puede funcionar como una forma de vigilancia, con los sesgos inherentes a la vigilancia, sugiriendo HI (Inteligencia Humanística) como una forma de crear una IA "humana en el circuito" más justa y equilibrada.

Las modernas técnicas de IA complejas, como el aprendizaje profundo y los algoritmos genéticos, son naturalmente opacas. Para abordar este problema, se han desarrollado muchos métodos nuevos para hacer que los nuevos modelos sean más explicables e interpretables. Esto incluye muchos métodos, como la propagación de relevancia por capas (LRP), una técnica para determinar qué características en un vector de entrada particular contribuyen más fuertemente a la salida de una red neuronal. Se han desarrollado otras técnicas para explicar una predicción particular hecha por un modelo de caja negra (no lineal), un objetivo denominado "interpretabilidad local". Vale la pena señalar que la mera transposición de los conceptos de interpretabilidad local a un contexto remoto (donde el modelo de caja negra se ejecuta en un tercero) está actualmente bajo escrutinio.

Además, se ha trabajado en árboles de decisión, conjuntos de árboles y redes bayesianas, que son más transparentes a la inspección. En 2018 se estableció una conferencia interdisciplinaria llamada FAT * (Equidad, Responsabilidad y Transparencia) para estudiar la transparencia y la explicabilidad en el contexto de los sistemas socio-técnicos, muchos de los cuales incluyen inteligencia artificial.

Algunas técnicas permiten visualizar las entradas a las que las neuronas individuales responden con más fuerza. Varios grupos han descubierto que las neuronas se pueden agregar en circuitos que realizan funciones comprensibles para los humanos, algunas de las cuales surgen de manera confiable a través de diferentes redes entrenadas de forma independiente.

En un nivel superior, existen varias técnicas para extraer representaciones comprimidas de las características de las entradas dadas, que luego pueden analizarse mediante técnicas de agrupamiento estándar. Alternativamente, las redes pueden ser capacitadas para generar explicaciones lingüísticas de su comportamiento, que luego son directamente interpretables por humanos. El comportamiento del modelo también se puede explicar con referencia a los datos de entrenamiento, por ejemplo, evaluando qué entradas de entrenamiento influyeron más en un comportamiento determinado.

Regulación

A medida que los reguladores, los organismos oficiales y los usuarios en general lleguen a depender de los sistemas dinámicos basados ​​en inteligencia artificial, se requerirá una responsabilidad más clara en los procesos de toma de decisiones para garantizar la confianza y la transparencia. La evidencia de que este requisito está ganando más impulso se puede ver con el lanzamiento de la primera conferencia global dedicada exclusivamente a esta disciplina emergente, la Conferencia Internacional Conjunta sobre Inteligencia Artificial: Taller sobre Inteligencia Artificial Explicable (XAI).

La Unión Europea introdujo un derecho a la explicación en el derecho general de protección de datos (GDPR) como un intento de abordar los posibles problemas derivados de la creciente importancia de los algoritmos. La implementación de la regulación comenzó en 2018. Sin embargo, el derecho a explicación en GDPR cubre solo el aspecto local de interpretabilidad. En los Estados Unidos, las compañías de seguros deben poder explicar sus decisiones sobre tarifas y cobertura.

Sectores

XAI se ha investigado en muchos sectores, que incluyen:

Referencias

enlaces externos