Crear directivas controladas por datos e influir en la toma de decisiones

Los modelos de Machine Learning son eficaces para identificar patrones en los datos y realizar predicciones. Pero ofrecen poco soporte técnico para calcular cómo cambia un resultado real en presencia de una intervención.

Los profesionales se han centrado cada vez más en el uso de datos históricos para alimentar sus decisiones futuras e intervenciones empresariales. Por ejemplo, ¿cómo se verían afectados los ingresos si una empresa siguiera una nueva estrategia de precios? ¿Un nuevo medicamento mejoraría el estado de salud de un paciente si todo lo demás se mantuviera igual?

Para abordar estas preguntas, el componente de inferencia causal del panel de IA responsable calcula el efecto de una característica en un resultado de interés promedio, en una población o cohorte y a nivel individual. Además, ayuda a construir intervenciones prometedoras mediante la simulación de respuestas de la característica a diversas intervenciones y la creación de reglas para determinar qué cohortes de la población se beneficiarían de una intervención. En conjunto, estas funcionalidades permiten a los responsables de la toma de decisiones aplicar nuevas directivas e impulsar el cambio real.

Las funcionalidades de este componente proceden del paquete EconML. Calcula efectos heterogéneos de tratamiento a partir de datos de observación a través de la técnica de aprendizaje automático doble.

Use la inferencia causal cuando tenga que:

  • Identificar las características que tengan el efecto más directo sobre el resultado de interés.
  • Decidir qué directiva general de tratamiento tomar para maximizar el impacto del mundo real en un resultado de interés.
  • Comprender cómo las personas con determinados valores de características responderían a una directiva de tratamiento determinada.

¿Cómo se genera la información de inferencia causal?

Nota:

Solo se requieren datos históricos para generar información causal. Los efectos causales calculados en función de las características de tratamiento son puramente una propiedad de datos. Por lo tanto, un modelo entrenado es opcional al calcular los efectos causales.

El aprendizaje automático doble es un método para calcular efectos heterogéneos de tratamiento cuando se observan todas las posibles variables de confusión o controles (factores que simultáneamente tuvieron un efecto directo sobre la decisión de tratamiento en los datos recopilados y el resultado observado), pero son demasiados (demasiadas dimensiones) pero existen uno de los problemas siguientes:

  • Hay demasiados para que los enfoques estadísticos clásicos sean aplicables. Es decir, tienen una alta dimensionalidad.
  • Su efecto en el tratamiento y el resultado no se puede modelar satisfactoriamente mediante funciones paramétricas. Es decir, no son paramétricos.

Puede usar técnicas de aprendizaje automático para solucionar ambos problemas. Para ver un ejemplo, consulte Chernozhukov2016.

El aprendizaje automático doble reduce el problema calculando primero dos tareas predictivas:

  • Predicción del resultado a partir de los controles
  • Predicción del tratamiento a partir de los controles

A continuación, el método combina estos dos modelos predictivos en una estimación de fase final para crear un modelo del efecto heterogéneo de tratamiento. Este enfoque permite usar algoritmos arbitrarios de aprendizaje automático para las dos tareas predictivas, a la vez que mantiene muchas propiedades estadísticas favorables relacionadas con el modelo final. Estas propiedades incluyen un pequeño error cuadrático medio, normal asintoticidad y construcción de intervalos de confianza.

¿Qué otras herramientas ofrece Microsoft para la inferencia causal?

  • Project Azua ofrece un marco nuevo centrado en la inferencia causal integral.

    La tecnología DECI (inferencia causal integral profunda) de Azua es un único modelo que puede encargarse simultáneamente la detección causal y la inferencia causal. El usuario proporciona datos, y el modelo pueda generar las relaciones causales entre todas las variables.

    Por sí mismo, este enfoque puede proporcionar información sobre los datos. Permite el cálculo de métricas como el efecto de tratamiento individual (ITE), el efecto medio de tratamiento (ATE) y el efecto de tratamiento medio condicional (CATE). A continuación, puede usar estos cálculos para tomar decisiones óptimas.

    El marco es escalable para datos de gran tamaño, tanto en cuanto al número de variables como al número de puntos de datos. También puede controlar las entradas de datos que faltan con tipos estadísticos mixtos.

  • EconML impulsa el back-end del componente de inferencia causal del panel de inteligencia artificial responsable. Es un paquete de Python que aplica las técnicas de aprendizaje automático para calcular las respuestas causales individualizadas a partir de datos observacionales y experimentales.

    El conjunto de métodos de estimación que se ofrece en EconML representa los avances más recientes en el aprendizaje automático causal. Estos métodos, al incorporar pasos de aprendizaje automático individuales en los modelos causales interpretables, mejoran la confiabilidad de las predicciones hipotéticas y hacen que el análisis causal sea más rápido y fácil para una amplia gama de usuarios.

  • DoWhy es una biblioteca de Python que pretende impulsar el pensamiento y análisis causales. DoWhy ofrece una interfaz de cuatro pasos, con principios para la inferencia causal, que se centra en modelar explícitamente los supuestos causales y validarlos en la mayor medida posible.

    La característica clave de DoWhy es su API de refutación de vanguardia que puede probar automáticamente los supuestos causales para cualquier método de estimación. Hace que la inferencia sea más sólida y accesible para los no expertos.

    DoWhy admite la estimación del efecto causal medio para la puerta trasera, la puerta delantera, la variable instrumental y otros métodos de identificación. También admite la estimación de CATE a través de una integración con la biblioteca EconML.

Pasos siguientes