Supervisión de modelos para aplicaciones de inteligencia artificial generativa (versión preliminar)

La supervisión de modelos en producción es una parte esencial del ciclo de vida de la inteligencia artificial. Los cambios en los datos y el comportamiento del consumidor pueden influir en la aplicación de inteligencia artificial generativa a lo largo del tiempo, lo que da lugar a sistemas obsoletos que afectan negativamente a los resultados empresariales y exponen a las organizaciones a riesgos de cumplimiento, económicos y de reputación.

Importante

La supervisión de modelos para aplicaciones de IA generativas se encuentra actualmente en versión preliminar pública. Estas versiones preliminares se ofrecen sin Acuerdo de Nivel de Servicio y no es recomendable usarlas para cargas de trabajo de producción. Es posible que algunas características no sean compatibles o que tengan sus funcionalidades limitadas. Para más información, consulte Términos de uso complementarios de las Versiones Preliminares de Microsoft Azure.

La supervisión de modelos de Azure Machine Learning para aplicaciones de inteligencia artificial generativa facilita la supervisión de las aplicaciones de LLM en producción en lo que respecta a seguridad y calidad en una cadencia que garantiza el máximo impacto empresarial. La supervisión, en última instancia, ayuda a mantener la calidad y la seguridad de las aplicaciones de inteligencia artificial generativa. Entre las funcionalidades y las integraciones se incluyen las siguientes:

Para conocer los conceptos básicos generales de la supervisión de modelos, consulte Supervisión de modelos con Azure Machine Learning (versión preliminar). En este artículo, aprenderá a supervisar una aplicación de inteligencia artificial generativa respaldada por un punto de conexión en línea administrado. Los pasos son:

Métricas de evaluación

Las métricas se generan mediante los siguientes modelos de lenguaje GPT de última generación configurados con instrucciones de evaluación específicas (plantillas de solicitud) que actúan como modelos de evaluador para tareas de secuencia en secuencia. Esta técnica ha demostrado resultados empíricos sólidos y una alta correlación con el juicio humano en comparación con las métricas de evaluación de la IA generativa estándar. Para más información sobre la evaluación del flujo de solicitudes, consulte Envío de pruebas masivas y evaluación de un flujo (versión preliminar).

Estos modelos GPT se admiten y se configurarán como su recurso de Azure OpenAI:

  • GPT-3.5 Turbo
  • GPT-4
  • GPT-4-32k

Se admiten las siguientes métricas. Para obtener información más detallada sobre cada métrica, consulte Descripciones y casos de uso de la supervisión de métricas de evaluación.

  • Base: evalúa el nivel de alineación de las respuestas generadas del modelo con la información del origen de entrada.
  • Relevancia: evalúa la medida en que las respuestas generadas del modelo son pertinentes y directamente relacionadas con las preguntas formuladas.
  • Coherencia: evalúa en qué medida el modelo de lenguaje puede producir flujos de salida con facilidad, que se lean con naturalidad y se asemejen al lenguaje humano.
  • Fluidez: evalúa el dominio del idioma de una respuesta predicha de IA generativa. Evalúa el nivel de conformidad del texto generado con las reglas gramaticales, estructuras sintácticas y uso adecuado del vocabulario, lo que da lugar a respuestas lingüísticas correctas y naturales.
  • Similitud: evalúa la similitud entre una frase verdadera básica (o documento) y la frase de predicción generada por un modelo de IA.

Requisitos de configuración de las métricas

Las siguientes entradas (nombres de columnas de datos) son necesarias para medir la seguridad y la calidad de la generación:

  • texto de la solicitud: la solicitud original especificada (también conocida como "entradas" o "pregunta")
  • texto de finalización: la finalización de la llamada API que se devuelve (también conocida como "salidas" o "respuesta")
  • texto de contexto: los datos de contexto que se envían a la llamada API, junto con la solicitud original. Por ejemplo, si espera obtener resultados de búsqueda solo de determinados orígenes de información o sitios web certificados, puede definirlo en los pasos de evaluación. Este es un paso opcional que se puede configurar mediante flujo de avisos.
  • texto verdadero básico: el texto definido por el usuario como "origen de verdad" (opcional)

Los parámetros que se configuran en el recurso de datos determinan qué métricas puede generar, según esta tabla:

Métrica Prompt Completion Context Cierto
Coherencia Obligatorio Obligatorio - -
Fluidez Obligatorio Obligatorio - -
Base Obligatorio Obligatorio Obligatorio -
Relevancia Obligatorio Obligatorio Obligatorio -
Similitud Obligatorio Obligatorio - Obligatorio

Requisitos previos

  1. Recurso de Azure OpenAI: debe crear un recurso de Azure OpenAI con cuota suficiente. Este recurso se usa como punto de conexión de evaluación.
  2. Identidad administrada: cree una identidad administrada asignada por el usuario (UAI) y asóciela al área de trabajo mediante las instrucciones de Asociación de identidades administradas asignadas por el usuario mediante la CLI v2con acceso de rol suficiente, tal como se define en el paso siguiente.
  3. Acceso a roles: para asignar un rol con los permisos necesarios, debe tener el permiso de propietario o Microsoft.Authorization/roleAssignments/write sobre el recurso. La actualización de conexiones y permisos puede tardar varios minutos en surtir efecto. Estos roles adicionales se deben asignar a la UAI:
    • Recurso: área de trabajo
    • Rol: científico de datos de Azure Machine Learning
  4. Conexión del área de trabajo:si sigue esta guía, usará una identidad administrada que representa las credenciales para el punto de conexión de Azure OpenAI que se usa para calcular las métricas de supervisión. NO elimine la conexión una vez que se haya usado en el flujo.
    • Versión de API: 2023-03-15-preview
  5. Implementación del flujo de solicitudes: cree un entorno de ejecución de flujos de solicitudes mediante esta guía, ejecute el flujo y asegúrese de que la implementación está configurada con las indicaciones de este artículo como guía.
    • Entradas y salidas de flujos: tiene que asignar un nombre adecuado a las salidas del flujo y recordar estos nombres de columna al crear el monitor. En este artículo, se usa lo siguiente:
      • Entradas (obligatorias): "prompt"
      • Salidas (obligatorias): "finalización"
        • Salidas (opcionales): "context" | "ground truth"
    • Recopilación de datos: en la "Implementación" (paso 2 del Asistente para la implementación de flujo de avisos), el botón de alternancia "recopilación de datos de inferencia" debe estar habilitado mediante el Recopilador de datos de modelos
    • Salidas: en las salidas (paso 3 del asistente para la implementación de flujo de avisos), confirme que ha seleccionado las salidas obligatorias indicadas antes (por ejemplo, completion | context | ground_truth) que cumplen los requisitos de configuración de métricas

Nota:

Si la instancia de proceso está detrás de una red virtual, vea Aislamiento de red en el flujo de avisos.

Creación del monitor

Cree el monitor en la página de información general de Supervisión Screenshot showing how to create a monitor for your application.

Configuración de las opciones de supervisión básicas

En el asistente para la creación de supervisión, cambie el tipo de tarea de modelo a aviso y completar, como se muestra en (A) en la captura de pantalla. Screenshot showing how to configure basic monitoring settings for generative AI.

Configuración del recurso de datos

Si ha usado el recopilador de datos de modelos, seleccione los dos recursos de datos (entradas y salidas). Screenshot showing how to configure your data asset for generative AI.

Selección de señales de supervisión

Screenshot showing monitoring signal configuration options on the monitoring settings dialog.

  1. Configure la conexión del área de trabajo (A) como se indica en la captura de pantalla.
    1. Debe configurar correctamente la conexión del área de trabajo o verá lo siguiente: Screenshot showing an unconfigured monitoring signal.
  2. Escriba el nombre de implementación del evaluador de Azure OpenAI (B).
  3. (Opcional) Una las salidas y las entradas de datos de producción: las entradas y salidas de modelos de producción se unen automáticamente mediante el servicio Supervisión (C). Puede personalizarlo si lo necesita, pero no es necesario que haga nada. De forma predeterminada, la columna de combinación es correlationid.
  4. (Opcional) Configure umbrales de métricas: una puntuación aceptable por instancia puede fijarse en 3/5. Puede ajustar el porcentaje total de aprobado en el intervalo [1,99] %
  • Especifique manualmente los nombres de columna del flujo de solicitudes (E). Los nombres estándar son ("prompt" | "completion" | "context" | "ground_truth") pero puede configurarlos según el recurso de datos.

  • (Opcional) Establezca la frecuencia de muestreo (F).

  • Una vez configurada, la señal dejará de mostrar una advertencia. Screenshot showing monitoring signal configurations without a warning.

Configuración de notificaciones

No hace falta realizar ninguna acción. Puede configurar más destinatarios si es necesario. Screenshot showing monitoring notification configurations.

Confirmación de la configuración de señales de supervisión

Una vez configurado correctamente, el monitor debería tener el siguiente aspecto: Screenshot showing a configured monitoring signal.

Confirmación del estado de la supervisión

Si se ha configurado correctamente, su trabajo de la canalización de supervisión muestra lo siguiente: Screenshot showing a successfully configured monitoring signal.

Consumo de resultados

Página de información general del monitor

La información general del monitor proporciona información general sobre el rendimiento de la señal. Puede ir a la página de detalles de la señal para obtener más información. Screenshot showing monitor overview.

Página de detalles de la señal

La página de detalles de la señal permite ver las métricas a lo largo del tiempo (A) y ver histogramas de distribución (B).

Screenshot showing a signal details page.

Resolución de alertas

Solo es posible ajustar los umbrales de señal. La puntuación aceptable se fija en 3/5 y solo es posible ajustar el campo "porcentaje total de aprobado aceptable". Screenshot adjusting signal thresholds.

Pasos siguientes