Compartir a través de


Evaluación de aplicaciones y modelos de IA generativa con Azure AI Foundry

Para evaluar exhaustivamente el rendimiento de los modelos y aplicaciones de IA generativa cuando se aplica a un conjunto de datos sustancial, puede iniciar un proceso de evaluación. Durante esta evaluación, la aplicación o el modelo se prueban con el conjunto de datos determinado y su rendimiento se mide cuantitativamente con métricas basadas en principios matemáticos y métricas asistidas por IA. Esta ejecución de evaluación proporciona información completa sobre las funcionalidades y limitaciones de la aplicación.

Para llevar a cabo esta evaluación, puede utilizar la funcionalidad de evaluación en Azure AI Foundry, una plataforma completa que ofrece herramientas y características para evaluar el rendimiento y la seguridad del modelo de IA generativa. En el portal de Azure AI Foundry, puede registrar, ver y analizar métricas de evaluación detalladas.

En este artículo, aprenderá a crear una ejecución de evaluación frente a un modelo o un conjunto de datos de prueba con métricas de evaluación integradas desde Azure AI Foundry UI. Para mayor flexibilidad, puede establecer un flujo de evaluación personalizado y emplear la característica de evaluación personalizada. Alternativamente, si el objetivo es realizar únicamente una ejecución por lotes sin ninguna evaluación, también puede usar la característica de evaluación personalizada.

Prerrequisitos

Para ejecutar una evaluación con métricas asistidas por IA, debe tener lo siguiente listo:

  • Un conjunto de datos de prueba en uno de estos formatos: csv o jsonl.
  • Una conexión de Azure OpenAI. Una implementación de uno de estos modelos: modelos GPT 3.5, modelos GPT 4 o modelos Davinci. Solo es necesario cuando se ejecuta la evaluación de calidad asistida por IA.

Creación de una evaluación con métricas de evaluación integradas

Una ejecución de evaluación permite generar salidas de métricas para cada fila de datos del conjunto de datos de prueba. Puede elegir una o varias métricas de evaluación para evaluar la salida desde diferentes aspectos. Puede crear una ejecución de evaluación desde las páginas de evaluación o catálogo de modelos en el portal de Azure AI Foundry. A continuación, aparecerá el asistente para la creación de evaluaciones para guiarlo por el proceso de configuración de una ejecución de evaluación.

Desde la página de evaluación

En el menú izquierdo contraíble, seleccione Evaluación>+ Crear una nueva evaluación.

Captura de pantalla del botón para crear una nueva evaluación.

Desde la página del catálogo de modelos

En el menú izquierdo contraíble, seleccione Catálogo de modelos> vaya al modelo específico> vaya a la pestaña de pruebas comparativas > Probar con sus propios datos. Se abre el panel de evaluación de modelos para que cree una ejecución de evaluación contra el modelo seleccionado.

Recorte de pantalla del botón Probar con sus propios datos de la página Catálogo de modelos.

Destino de evaluación

Al iniciar una evaluación desde la página de evaluación, debe decidir cuál es el objetivo de evaluación primero. Al especificar el destino de evaluación adecuado, podemos adaptar la evaluación a la naturaleza específica de la aplicación, lo que garantiza métricas precisas y pertinentes. Apoyamos dos tipos de objetivo de evaluación:

  • Modelo afinado: desea evaluar la salida generada por el modelo seleccionado y la indicación definida por el usuario.
  • Conjunto de datos: ya tiene los resultados generados por el modelo en un conjunto de datos de prueba.

Recorte de pantalla de la selección del destino de evaluación.

Configurar los datos de prueba

Al entrar en el Asistente para la creación de evaluaciones, puede seleccionar entre conjuntos de datos preexistentes o cargar un nuevo conjunto de datos específicamente para realizar una evaluación. El conjunto de datos de prueba debe tener las salidas generadas por el modelo que se usarán para la evaluación. En el panel derecho se mostrará una vista previa de los datos de prueba.

  • Elija el conjunto de datos existente: puede elegir el conjunto de datos de prueba de la colección de conjuntos de datos establecida.

    Captura de pantalla de la opción para elegir los datos de prueba al crear una nueva evaluación.

  • Agregar nuevo conjunto de datos: puede cargar archivos desde el almacenamiento local. Solo se admiten formatos de archivo .csv y .jsonl. En el panel derecho se mostrará una vista previa de los datos de prueba.

    Captura de pantalla de la opción cargar archivo al crear una nueva evaluación.

Configuración de criterios de prueba

Se admiten tres tipos de métricas mantenidas por Microsoft para facilitar una evaluación completa de la aplicación:

  • Calidad de IA (asistida por IA): estas métricas evalúan la calidad general y la coherencia del contenido generado. Para ejecutar estas métricas, es necesaria una implementación de modelo como juez.
  • Calidad de IA (NLP): estas métricas de NLP se basan en principios matemáticos y también evalúan la calidad general del contenido generado. A menudo requieren datos de verdad básica, pero no requieren la implementación de modelo como juez.
  • Métricas de riesgo y seguridad: Estas métricas se centran en identificar posibles riesgos de contenido y garantizar la seguridad del contenido generado.

Captura de pantalla de la adición de criterios de prueba.

A medida que agregue los criterios de prueba, se usarán diferentes métricas como parte de la evaluación. Puede consultar la tabla para obtener la lista completa de métricas para las que ofrecemos compatibilidad en cada escenario. Para obtener información más detallada sobre cada definición de métrica y cómo se calcula, consulte ¿Qué son los evaluadores?.

Calidad de IA (asistida por IA) Calidad de IA (NLP) Métricas de riesgo y seguridad
Base, relevancia, coherencia, fluidez, similitud de GPT Puntuación F1, Puntuación ROUGE, Puntuación BLEU, Puntuación GLEU, Puntuación METEOR Contenido relacionado con autolesiones, Contenido de odio e injusto, Contenido violento, Contenido sexual, Material protegido, Ataque indirecto

Al ejecutar la evaluación de calidad asistida por IA, debe especificar un modelo GPT para el proceso de cálculo y calificación.

Recorte de pantalla del evaluador a escala de Likert con las métricas de calidad de inteligencia artificial (asistida por IA) enumeradas en presenta.

Las métricas de calidad de IA (NLP) son medidas basadas en principios matemáticos que evalúan el rendimiento de una aplicación. A menudo requieren datos de verdad básica para el cálculo. ROUGE es una familia de métricas. Puede seleccionar el tipo ROUGE para calcular las puntuaciones. Varios tipos de métricas ROUGE ofrecen distintas formas de evaluar la calidad de la generación de texto. ROUGE-N mide la superposición de n-gramas entre los textos candidato y de referencia.

Captura de pantalla de la similitud de texto con las métricas de calidad de inteligencia artificial (procesamiento del lenguaje natural, NLP) enumeradas en la presentación.

En el caso de las métricas de riesgo y seguridad, no es necesario proporcionar una implementación. La evaluación de seguridad de Azure AI Foundry aprovisiona un modelo GPT-4 que puede generar puntuaciones de gravedad de riesgo de contenido y razonamiento para permitirle evaluar la aplicación por daños en el contenido.

Captura de pantalla del contenido violento una de las métricas de riesgo y seguridad.

Nota:

Las métricas de seguridad y riesgo asistidos por IA se hospedan en el servicio back-end de evaluaciones de seguridad de Azure AI Foundry y solo están disponibles en las siguientes regiones: Este de EE. UU. 2, Centro de Francia, Sur de Reino Unido, Centro de Suecia

Precaución

Compatibilidad con versiones anteriores para usuarios de Azure OpenAI que se incorporaron a Foundry Developer Platform:

Los usuarios que anteriormente usaban oai.azure.com para administrar sus implementaciones de modelos y ejecutar evaluaciones y que se han incorporado a Foundry Developer Platform (FDP) tendrán algunas limitaciones al usar ai.azure.com:

  • En primer lugar, los usuarios no podrán ver sus evaluaciones creadas mediante la API de Azure OpenAI. En su lugar, para verlos, los usuarios tienen que volver a oai.azure.com.

  • En segundo lugar, los usuarios no podrán usar la API de Azure OpenAI para ejecutar evaluaciones en AI Foundry. En su lugar, estos usuarios deben seguir usando oai.azure.com para esto. Sin embargo, los usuarios pueden usar los evaluadores de Azure OpenAI que están disponibles directamente en AI Foundry (ai.azure.com) en la opción de creación de evaluación del conjunto de datos. No se admite la opción de evaluación del modelo ajustado si la implementación es una migración de Azure OpenAI a Azure Foundry.

  • En el caso de la carga del conjunto de datos + traiga su propio escenario de almacenamiento, es necesario realizar algunos requisitos de configuración:

    • La autenticación de la cuenta debe ser Entra ID.
    • El almacenamiento debe agregarse a la cuenta (si se agrega al proyecto, obtendrá errores de servicio).
    • El usuario debe agregar su proyecto a su cuenta de almacenamiento mediante el control de acceso en Azure Portal.

Para más información sobre cómo crear evaluaciones específicamente con los evaluadores de evaluación de OpenAI en Azure OpenAI Hub, consulte Uso de Azure OpenAI en la evaluación de modelos de Azure AI Foundry.

Mapeo de datos

Asignación de datos para la evaluación: para cada métrica agregada, debe especificar qué columnas de datos del conjunto de datos corresponden a las entradas necesarias en la evaluación. Las diferentes métricas de evaluación exigen distintos tipos de entradas de datos para cálculos precisos.

Durante la evaluación, la respuesta del modelo se evalúa en las entradas clave, como:

  • Consulta: necesaria para todas las métricas
  • Contexto: opcional.
  • Verdad de base: opcional, necesaria para las métricas de calidad de IA (NLP)

Estas asignaciones garantizan una alineación precisa entre los datos y los criterios de evaluación.

Recorte de pantalla de la consulta, el contexto y la asignación de verdad básica a la entrada de evaluación.

Para obtener instrucciones sobre los requisitos de asignación de datos específicos para cada métrica, consulte la información proporcionada en la tabla:

Requisitos de métricas de consultas y respuestas
Métrica Consulta Respuesta Contexto Cierto
Base Obligatorio: Str Obligatorio: Str Obligatorio: Str No disponible
Coherencia Obligatorio: Str Obligatorio: Str No disponible No disponible
Fluidez Obligatorio: Str Obligatorio: Str No disponible No disponible
Pertinencia Obligatorio: Str Obligatorio: Str Obligatorio: Str No disponible
Similitud de GPT Obligatorio: Str Obligatorio: Str No disponible Obligatorio: Str
Puntuación F1 No disponible Obligatorio: Str No disponible Obligatorio: Str
Puntuación BLEU No disponible Obligatorio: Str No disponible Obligatorio: Str
Puntuación de GLEU No disponible Obligatorio: Str No disponible Obligatorio: Str
Puntuación de METEOR No disponible Obligatorio: Str No disponible Obligatorio: Str
Puntuación de ROUGE No disponible Obligatorio: Str No disponible Obligatorio: Str
Contenido relacionado con autolesiones Obligatorio: Str Obligatorio: Str No disponible No disponible
Contenido injusto y de odio Obligatorio: Str Obligatorio: Str No disponible No disponible
Contenido violento Obligatorio: Str Obligatorio: Str No disponible No disponible
Contenido sexual Obligatorio: Str Obligatorio: Str No disponible No disponible
Material protegido Obligatorio: Str Obligatorio: Str No disponible No disponible
Ataque indirecto Obligatorio: Str Obligatorio: Str No disponible No disponible
  • Consulta: búsqueda de información específica.
  • Respuesta: el resultado de la consulta generada por el modelo.
  • Contexto: el origen con respecto al cual se genera la respuesta (es decir, los documentos de base).
  • Verdad de base: la respuesta a la consulta generada por el usuario/humano como respuesta verdadera.

Revisar y finalizar

Después de completar todas las configuraciones necesarias, puede proporcionar un nombre opcional para la evaluación. A continuación, puede revisar y continuar seleccionando Enviar para enviar la ejecución de evaluación.

Captura de pantalla de la página de revisión para crear una nueva evaluación.

Evaluación de modelos finamente ajustados

Para crear una nueva evaluación para la implementación de modelos seleccionada, puede usar un modelo GPT para generar preguntas de ejemplo o elegir entre la colección de conjuntos de datos establecida.

Captura de pantalla de la selección del origen de datos en la creación de una nueva evaluación.

Configuración de datos de prueba para el modelo optimizado

Configure el conjunto de datos de prueba que se usa para la evaluación. Este conjunto de datos se envía al modelo para generar respuestas para la evaluación. Tiene dos opciones para configurar los datos de prueba:

  • Generación de preguntas de ejemplo
  • Uso del conjunto de datos existente (o carga de un nuevo conjunto de datos)
Generación de preguntas de ejemplo

Si no tiene un conjunto de datos disponible fácilmente y desea ejecutar una evaluación con un ejemplo pequeño, seleccione la implementación del modelo que desea evaluar en función de un tema elegido. Se admiten modelos de Azure OpenAI y otros modelos abiertos compatibles con la implementación estándar, como los modelos de familia Meta LIama y Phi-3. El tema ayuda a adaptar el contenido generado a su área de interés. Las consultas y respuestas se generan en tiempo real y tiene la opción de volver a generarlas según sea necesario.

Recorte de pantalla de la creación de un resaltado de datos de prueba con el que se genera.

Uso del conjunto de datos

También puede elegir entre la colección de conjuntos de datos establecida o cargar un nuevo conjunto de datos.

Recorte de pantalla de la selección del origen de datos resaltado mediante el conjunto de datos existente.

Elección de las métricas de evaluación

Después, puede presionar siguiente para configurar los criterios de prueba. A medida que selecciona los criterios, se agregan métricas y debe asignar las columnas del conjunto de datos a los campos necesarios para la evaluación. Estas asignaciones garantizan una alineación precisa entre los datos y los criterios de evaluación. Una vez que seleccione los criterios de prueba que desee, puede revisar la evaluación, si lo desea, cambiar el nombre de la evaluación y, a continuación, seleccionar Enviar para enviar la ejecución de evaluación y ir a la página de evaluación para ver los resultados.

Captura de pantalla de la evaluación de revisión.

Nota:

El conjunto de datos generado se guarda en el almacenamiento de blobs del proyecto una vez creada la ejecución de evaluación.

Visualización y administración de los evaluadores en la biblioteca de evaluadores

La biblioteca de evaluadores es un lugar centralizado que le permite ver los detalles y el estado de los evaluadores. Puede ver y administrar evaluadores mantenidos por Microsoft.

La biblioteca de evaluadores también habilita la administración de versiones. Puede comparar diferentes versiones del trabajo, restaurar versiones anteriores si es necesario y colaborar con otros usuarios con mayor facilidad.

Para usar la biblioteca de evaluador en el portal de Azure AI Foundry, vaya a la página Evaluación del proyecto y seleccione la pestaña Biblioteca de evaluador.

Captura de pantalla de la página para seleccionar evaluadores de la biblioteca de evaluadores.

Puede seleccionar el nombre del evaluador para ver más detalles. Puede ver el nombre, la descripción y los parámetros, así como comprobar los archivos asociados al evaluador. Estos son algunos ejemplos de evaluadores mantenidos por Microsoft:

  • En el caso de los evaluadores de rendimiento y calidad mantenidos por Microsoft, puede ver la solicitud de anotación en la página de detalles. Puede adaptar estas indicaciones a su propio caso de uso cambiando los parámetros o criterios según sus datos y objetivos en el SDK de evaluación de Azure AI. Por ejemplo, puede seleccionar Groundedness-Evaluator y consultar el archivo Prompty que muestra cómo calculamos la métrica.
  • Para los evaluadores de riesgos y seguridad mantenidos por Microsoft, puede ver la definición de las métricas. Por ejemplo, puede seleccionar Self-Harm-Related-Content-Evaluator y saber lo que significa y cómo Microsoft determina los distintos niveles de gravedad para esta métrica de seguridad.

Obtenga más información sobre cómo evaluar las aplicaciones de IA generativa: