Compartir vía


Ejecución de una evaluación en Azure DevOps (versión preliminar)

Importante

Los elementos marcados (versión preliminar) en este artículo se encuentran actualmente en versión preliminar pública. Esta versión preliminar se ofrece sin acuerdo de nivel de servicio y no se recomienda para las cargas de trabajo de producción. Es posible que algunas características no sean compatibles o que tengan sus funcionalidades limitadas. Para obtener más información, vea Supplemental Terms of Use for Microsoft Azure Previews.

Esta extensión Azure DevOps habilita la evaluación sin conexión de Microsoft Foundry Agents dentro de las pipelines de CI/CD. Simplifica el proceso de evaluación sin conexión, por lo que puede identificar posibles problemas y realizar mejoras antes de publicar una actualización en producción.

Para usar esta extensión, proporcione un conjunto de datos con consultas de prueba y una lista de evaluadores. Esta tarea invoca a los agentes con las consultas, las evalúa y genera un informe resumido.

Características

  • Evaluación del agente: automatice la evaluación de preproducción de los agentes de Microsoft Foundry en el flujo de trabajo de CI/CD.
  • Evaluadores: Use cualquier evaluador del catálogo de evaluadores de Foundry.
  • Análisis estadístico: los resultados de la evaluación incluyen intervalos de confianza y pruebas de importancia estadística para determinar si los cambios son significativos y no debido a una variación aleatoria.

Categorías del evaluador

Prerrequisitos

Entradas

Parámetros

Nombre ¿Obligatorio? Description
azure-ai-project-endpoint Punto de conexión del proyecto Microsoft Foundry.
nombre de implementación Nombre del despliegue del modelo de IA de Azure para su uso en la evaluación.
ruta de datos Ruta de acceso al archivo de datos que contiene los evaluadores y las consultas de entrada para las evaluaciones.
identificadores de agente Identificador de uno o varios agentes a evaluar en formato agent-name:version (por ejemplo, my-agent:1 o my-agent:1,my-agent:2). Varios agentes están separados por comas y se comparan con los resultados estadísticos de las pruebas.
baseline-agent-id No Identificador del agente de referencia para comparar al evaluar múltiples agentes. Si no se facilita algún dato, se usa el primer agente.

Archivo de datos

El archivo de datos de entrada debe ser un archivo JSON con la siguiente estructura:

Campo Tipo ¿Obligatorio? Description
nombre cuerda / cadena Nombre del conjunto de datos de evaluación.
evaluadores string[] Lista de nombres de evaluadores que se van a usar. Consulte la lista de evaluadores disponibles en el catálogo de evaluadores del proyecto en el portal de Foundry: Evaluaciones de construcción > Catálogo de evaluadores >.
datos objeto[] Matriz de objetos de entrada con query campos de evaluador opcionales como ground_truth, context. Asignación automática a evaluadores; use data_mapping para invalidarlo.
openai_graders objeto No Configuración de evaluadores basados en OpenAI (label_model, score_model, string_check, etc.).
parámetros_del_evaluador objeto No Parámetros de inicialización específicos del evaluador (por ejemplo, umbrales, configuración personalizada).
data_mapping objeto No Asignaciones de campos de datos personalizadas (generadas automáticamente a partir de datos si no se facilitan).

Archivo de datos de ejemplo básico


{
  "name": "test-data",
  "evaluators": [
    "builtin.fluency",
    "builtin.task_adherence",
    "builtin.violence",
  ],
  "data": [
    {
      "query": "Tell me about Tokyo disneyland"
    },
    {
      "query": "How do I install Python?"
    }
  ]
}

Archivos de datos de ejemplo adicionales

Filename Description
dataset-tiny.json Conjunto de datos con un número reducido de consultas y evaluadores de prueba.
dataset.json Conjunto de datos con todos los tipos de evaluador admitidos y suficientes consultas para el cálculo del intervalo de confianza y la prueba estadística.
dataset-builtin-evaluators.json Ejemplo de evaluadores integrados de fábrica (por ejemplo, coherencia, fluidez, relevancia, métricas, fundamentación).
dataset-openai-graders.json Ejemplo de calificadores basados en OpenAI (modelos de etiquetas, modelos de puntuación, similitud de texto, comprobaciones de cadenas).
dataset-custom-evaluators.json Ejemplo de evaluadores personalizados con parámetros del evaluador.
dataset-data-mapping.json Ejemplo de mapeo de datos que muestra cómo sobrescribir los mapeos automáticos de campos con nombres personalizados de columnas de datos.

Canalización de ejemplo

Para usar esta extensión de Azure DevOps, agregue la tarea a su canalización de Azure y configure la autenticación para acceder al proyecto de Microsoft Foundry.

steps:
  - task: AIAgentEvaluation@2
    displayName: "Evaluate AI Agents"
    inputs:
      azure-ai-project-endpoint: "$(AzureAIProjectEndpoint)"
      deployment-name: "$(DeploymentName)"
      data-path: "$(System.DefaultWorkingDirectory)/path/to/your/dataset.json"
      agent-ids: "$(AgentIds)"

Resultados y salidas de evaluación

Los resultados de la evaluación aparecen en el resumen del pipeline de Azure DevOps, con métricas detalladas y comparaciones entre agentes cuando se evalúan múltiples de ellos.

La salida de los resultados de la evaluación se genera en la sección de resumen para cada ejecución de la tarea de evaluación de IA en el pipeline de Azure DevOps.

La captura de pantalla siguiente es un informe de ejemplo para comparar dos agentes.

Captura de pantalla del resultado de la evaluación del agente.