Supervisión de modelos para aplicaciones de inteligencia artificial generativa (versión preliminar)

Artículo
09/13/2023

La supervisión de modelos en producción es una parte esencial del ciclo de vida de la inteligencia artificial. Los cambios en los datos y el comportamiento del consumidor pueden influir en la aplicación de inteligencia artificial generativa a lo largo del tiempo, lo que da lugar a sistemas obsoletos que afectan negativamente a los resultados empresariales y exponen a las organizaciones a riesgos de cumplimiento, económicos y de reputación.

Importante

La supervisión de modelos para aplicaciones de IA generativas se encuentra actualmente en versión preliminar pública. Estas versiones preliminares se ofrecen sin Acuerdo de Nivel de Servicio y no es recomendable usarlas para cargas de trabajo de producción. Es posible que algunas características no sean compatibles o que tengan sus funcionalidades limitadas. Para más información, consulte Términos de uso complementarios de las Versiones Preliminares de Microsoft Azure.

La supervisión de modelos de Azure Machine Learning para aplicaciones de inteligencia artificial generativa facilita la supervisión de las aplicaciones de LLM en producción en lo que respecta a seguridad y calidad en una cadencia que garantiza el máximo impacto empresarial. La supervisión, en última instancia, ayuda a mantener la calidad y la seguridad de las aplicaciones de inteligencia artificial generativa. Entre las funcionalidades y las integraciones se incluyen las siguientes:

Recopilar datos de producción mediante el recopilador de datos de modelos.
Métricas de evaluación de inteligencia artificial responsable, como la base, la coherencia, la fluidez, la relevancia y la similitud, que son interoperables con las métricas de evaluación del flujo de solicitudes de Azure Machine Learning.
Capacidad de configurar alertas para infracciones basadas en objetivos de la organización y de ejecutar la supervisión periódicamente.
Consumo de resultados en un panel enriquecido dentro de un área de trabajo de Estudio de Azure Machine Learning.
Integración con métricas de evaluación de flujo de solicitudes de Azure Machine Learning, análisis de los datos de producción recopilados para proporcionar alertas oportunas y visualización de las métricas a lo largo del tiempo.

Para conocer los conceptos básicos generales de la supervisión de modelos, consulte Supervisión de modelos con Azure Machine Learning (versión preliminar). En este artículo, aprenderá a supervisar una aplicación de inteligencia artificial generativa respaldada por un punto de conexión en línea administrado. Los pasos son:

Configurar los requisitos previos
Crear el monitor
Confirmar el estado de la supervisión
Consumir los resultados de la supervisión

Métricas de evaluación

Las métricas se generan mediante los siguientes modelos de lenguaje GPT de última generación configurados con instrucciones de evaluación específicas (plantillas de solicitud) que actúan como modelos de evaluador para tareas de secuencia en secuencia. Esta técnica ha demostrado resultados empíricos sólidos y una alta correlación con el juicio humano en comparación con las métricas de evaluación de la IA generativa estándar. Para más información sobre la evaluación del flujo de solicitudes, consulte Envío de pruebas masivas y evaluación de un flujo (versión preliminar).

Estos modelos GPT se admiten y se configurarán como su recurso de Azure OpenAI:

GPT-3.5 Turbo
GPT-4
GPT-4-32k

Se admiten las siguientes métricas. Para obtener información más detallada sobre cada métrica, consulte Descripciones y casos de uso de la supervisión de métricas de evaluación.

Base: evalúa el nivel de alineación de las respuestas generadas del modelo con la información del origen de entrada.
Relevancia: evalúa la medida en que las respuestas generadas del modelo son pertinentes y directamente relacionadas con las preguntas formuladas.
Coherencia: evalúa en qué medida el modelo de lenguaje puede producir flujos de salida con facilidad, que se lean con naturalidad y se asemejen al lenguaje humano.
Fluidez: evalúa el dominio del idioma de una respuesta predicha de IA generativa. Evalúa el nivel de conformidad del texto generado con las reglas gramaticales, estructuras sintácticas y uso adecuado del vocabulario, lo que da lugar a respuestas lingüísticas correctas y naturales.
Similitud: evalúa la similitud entre una frase verdadera básica (o documento) y la frase de predicción generada por un modelo de IA.

Requisitos de configuración de las métricas

Las siguientes entradas (nombres de columnas de datos) son necesarias para medir la seguridad y la calidad de la generación:

texto de la solicitud: la solicitud original especificada (también conocida como "entradas" o "pregunta")
texto de finalización: la finalización de la llamada API que se devuelve (también conocida como "salidas" o "respuesta")
texto de contexto: los datos de contexto que se envían a la llamada API, junto con la solicitud original. Por ejemplo, si espera obtener resultados de búsqueda solo de determinados orígenes de información o sitios web certificados, puede definirlo en los pasos de evaluación. Este es un paso opcional que se puede configurar mediante flujo de avisos.
texto verdadero básico: el texto definido por el usuario como "origen de verdad" (opcional)

Los parámetros que se configuran en el recurso de datos determinan qué métricas puede generar, según esta tabla:

Métrica	Prompt	Completion	Context	Cierto
Coherencia	Obligatorio	Obligatorio	-	-
Fluidez	Obligatorio	Obligatorio	-	-
Base	Obligatorio	Obligatorio	Obligatorio	-
Relevancia	Obligatorio	Obligatorio	Obligatorio	-
Similitud	Obligatorio	Obligatorio	-	Obligatorio

Requisitos previos

Recurso de Azure OpenAI: debe crear un recurso de Azure OpenAI con cuota suficiente. Este recurso se usa como punto de conexión de evaluación.
Identidad administrada: cree una identidad administrada asignada por el usuario (UAI) y asóciela al área de trabajo mediante las instrucciones de Asociación de identidades administradas asignadas por el usuario mediante la CLI v2con acceso de rol suficiente, tal como se define en el paso siguiente.
Acceso a roles: para asignar un rol con los permisos necesarios, debe tener el permiso de propietario o Microsoft.Authorization/roleAssignments/write sobre el recurso. La actualización de conexiones y permisos puede tardar varios minutos en surtir efecto. Estos roles adicionales se deben asignar a la UAI:
- Recurso: área de trabajo
- Rol: científico de datos de Azure Machine Learning
Conexión del área de trabajo:si sigue esta guía, usará una identidad administrada que representa las credenciales para el punto de conexión de Azure OpenAI que se usa para calcular las métricas de supervisión. NO elimine la conexión una vez que se haya usado en el flujo.
- Versión de API: 2023-03-15-preview
Implementación del flujo de solicitudes: cree un entorno de ejecución de flujos de solicitudes mediante esta guía, ejecute el flujo y asegúrese de que la implementación está configurada con las indicaciones de este artículo como guía.
- Entradas y salidas de flujos: tiene que asignar un nombre adecuado a las salidas del flujo y recordar estos nombres de columna al crear el monitor. En este artículo, se usa lo siguiente:
  - Entradas (obligatorias): "prompt"
  - Salidas (obligatorias): "finalización"
    - Salidas (opcionales): "context" | "ground truth"
- Recopilación de datos: en la "Implementación" (paso 2 del Asistente para la implementación de flujo de avisos), el botón de alternancia "recopilación de datos de inferencia" debe estar habilitado mediante el Recopilador de datos de modelos
- Salidas: en las salidas (paso 3 del asistente para la implementación de flujo de avisos), confirme que ha seleccionado las salidas obligatorias indicadas antes (por ejemplo, completion | context | ground_truth) que cumplen los requisitos de configuración de métricas

Nota:

Si la instancia de proceso está detrás de una red virtual, vea Aislamiento de red en el flujo de avisos.

Creación del monitor

Cree el monitor en la página de información general de Supervisión

Configuración de las opciones de supervisión básicas

En el asistente para la creación de supervisión, cambie el tipo de tarea de modelo a aviso y completar, como se muestra en (A) en la captura de pantalla.

Configuración del recurso de datos

Si ha usado el recopilador de datos de modelos, seleccione los dos recursos de datos (entradas y salidas).

Selección de señales de supervisión

Configure la conexión del área de trabajo (A) como se indica en la captura de pantalla.
1. Debe configurar correctamente la conexión del área de trabajo o verá lo siguiente:
Escriba el nombre de implementación del evaluador de Azure OpenAI (B).
(Opcional) Una las salidas y las entradas de datos de producción: las entradas y salidas de modelos de producción se unen automáticamente mediante el servicio Supervisión (C). Puede personalizarlo si lo necesita, pero no es necesario que haga nada. De forma predeterminada, la columna de combinación es correlationid.
(Opcional) Configure umbrales de métricas: una puntuación aceptable por instancia puede fijarse en 3/5. Puede ajustar el porcentaje total de aprobado en el intervalo [1,99] %

Especifique manualmente los nombres de columna del flujo de solicitudes (E). Los nombres estándar son ("prompt" | "completion" | "context" | "ground_truth") pero puede configurarlos según el recurso de datos.
(Opcional) Establezca la frecuencia de muestreo (F).
Una vez configurada, la señal dejará de mostrar una advertencia.

Configuración de notificaciones

No hace falta realizar ninguna acción. Puede configurar más destinatarios si es necesario.

Confirmación de la configuración de señales de supervisión

Una vez configurado correctamente, el monitor debería tener el siguiente aspecto:

Confirmación del estado de la supervisión

Si se ha configurado correctamente, su trabajo de la canalización de supervisión muestra lo siguiente:

Consumo de resultados

Página de información general del monitor

La información general del monitor proporciona información general sobre el rendimiento de la señal. Puede ir a la página de detalles de la señal para obtener más información.

Página de detalles de la señal

La página de detalles de la señal permite ver las métricas a lo largo del tiempo (A) y ver histogramas de distribución (B).

Resolución de alertas

Solo es posible ajustar los umbrales de señal. La puntuación aceptable se fija en 3/5 y solo es posible ajustar el campo "porcentaje total de aprobado aceptable".