Comparteix a través de


Análisis contrafactual e hipotético

Los contrahechos hipotéticos abordan la pregunta de lo que el modelo predeciría si cambiara la entrada de la acción. Permiten comprender y depurar un modelo de aprendizaje automático en términos de cómo reacciona a los cambios de entrada (característica).

Las técnicas de interpretación estándar aproximan un modelo de aprendizaje automático o clasifican características por su importancia predictiva. Por el contrario, el análisis de contrahechos "interroga" a un modelo para determinar qué cambios en un punto de datos determinado desviaría la decisión del modelo.

Este análisis ayuda a eliminar el impacto de las características correlacionadas de forma aislada. También ayuda a conocer con más detalle la cantidad de cambios en las características que se necesitan para ver una desviación de la decisión del modelo en los modelos de clasificación y un cambio de decisión en los modelos de regresión.

El componente de análisis de contrahechos y las hipótesis del panel inteligencia artificial responsable tiene dos funciones:

  • Generar un conjunto de ejemplos con cambios mínimos en un punto determinado, de modo que cambien la predicción del modelo (que muestra los puntos de datos más cercanos con precisiones de modelo opuestas).
  • Permitir que los usuarios generen sus propias alteraciones de hipótesis para comprender cómo reacciona el modelo a los cambios de características.

Uno de los principales diferenciadores del componente de análisis de contrahechos del panel de inteligencia artificial responsable es el hecho de que puede identificar qué características variar y sus intervalos permitidos para ejemplos de contrahechos válidos y lógicos.

Las funcionalidades de este componente proceden del paquete DiCE.

Use contrahechos hipotéticos cuando necesite:

  • Examinar los criterios de equidad y confiabilidad como evaluador de decisiones (con atributos confidenciales como el géneroy el origen étnico) y observar si cambian las predicciones del modelo.
  • Depurar instancias de entrada específicas en profundidad.
  • Proporcionar soluciones a los usuarios y determinar lo que pueden hacer para obtener un resultado deseable del modelo.

¿Cómo se generan ejemplos contrafactuales?

Para generar contrafactuales, DiCE implementa algunas técnicas independientes al modelo. Estos métodos se aplican a cualquier clasificador o regresor opaco. Se basan en el muestreo de puntos cercanos a un punto de entrada, al tiempo que optimizan una función de pérdida basada en la proximidad (y, opcionalmente, dispersión, diversidad y viabilidad). Los métodos admitidos actualmente son:

  • Búsqueda aleatoria: este método muestra puntos aleatoriamente cerca del punto de consulta y devuelve como contrahechos aquellos puntos cuya etiqueta prevista es la clase deseada.
  • Búsqueda genética: este método muestra puntos mediante un algoritmo genético, dado el objetivo combinado de optimizar la proximidad al punto de consulta, cambiando las menos características posibles y buscando la diversidad entre los contrahechos generados.
  • Búsqueda de árboles KD: este algoritmo devuelve contrahechos del conjunto de datos de entrenamiento. Construye un árbol KD sobre los puntos de datos de entrenamiento según una función de distancia y, a continuación, devuelve los puntos más cercanos a un punto de consulta determinado que produce la etiqueta prevista deseada.

Pasos siguientes