Ejecución de una evaluación en Azure DevOps (versión preliminar)

Importante

Los elementos marcados (versión preliminar) en este artículo se encuentran actualmente en versión preliminar pública. Esta versión preliminar se ofrece sin acuerdo de nivel de servicio y no se recomienda para las cargas de trabajo de producción. Es posible que algunas características no sean compatibles o que tengan sus funcionalidades limitadas. Para obtener más información, vea Supplemental Terms of Use for Microsoft Azure Previews.

Esta extensión Azure DevOps habilita la evaluación sin conexión de Microsoft Foundry Agents dentro de las pipelines de CI/CD. Simplifica el proceso de evaluación sin conexión, por lo que puede identificar posibles problemas y realizar mejoras antes de publicar una actualización en producción.

Para usar esta extensión, proporcione un conjunto de datos con consultas de prueba y una lista de evaluadores. Esta tarea invoca a los agentes con las consultas, las evalúa y genera un informe resumido.

Características

Evaluación del agente: automatice la evaluación de preproducción de los agentes de Microsoft Foundry en el flujo de trabajo de CI/CD.
Evaluadores: Use cualquier evaluador del catálogo de evaluadores de Foundry.
Análisis estadístico: los resultados de la evaluación incluyen intervalos de confianza y pruebas de importancia estadística para determinar si los cambios son significativos y no debido a una variación aleatoria.

Categorías del evaluador

Evaluadores de agentes: evaluadores de procesos y de nivel de sistema para flujos de trabajo de agentes.
Evaluadores RAG: Evaluar los procesos de recuperación y de extremo a extremo en sistemas RAG.
Evaluadores de riesgos y seguridad: evalúe los riesgos y los problemas de seguridad en las respuestas.
Evaluadores de propósito general: Evaluación de la calidad, como la coherencia y la fluidez.
OpenAI-based graders: utilizar los calificadores de OpenAI, incluidos la comprobación de cadenas, la similitud de texto y el modelo de puntuación/etiquetado.
Evaluadores personalizados: defina sus propios evaluadores personalizados mediante código de Python o patrones LLM como juez.

Prerrequisitos

Un project. Para obtener más información, consulte Create a project.
Instale la extensión AI Agent AI evaluation.

Entradas

Parámetros

Nombre	¿Obligatorio?	Description
azure-ai-project-endpoint	Sí	Punto de conexión del proyecto Microsoft Foundry.
nombre de implementación	Sí	Nombre del despliegue del modelo de IA de Azure para su uso en la evaluación.
ruta de datos	Sí	Ruta de acceso al archivo de datos que contiene los evaluadores y las consultas de entrada para las evaluaciones.
identificadores de agente	Sí	Identificador de uno o varios agentes a evaluar en formato `agent-name:version` (por ejemplo, `my-agent:1` o `my-agent:1,my-agent:2`). Varios agentes están separados por comas y se comparan con los resultados estadísticos de las pruebas.
baseline-agent-id	No	Identificador del agente de referencia para comparar al evaluar múltiples agentes. Si no se facilita algún dato, se usa el primer agente.

Archivo de datos

El archivo de datos de entrada debe ser un archivo JSON con la siguiente estructura:

Campo	Tipo	¿Obligatorio?	Description
nombre	cuerda / cadena	Sí	Nombre del conjunto de datos de evaluación.
evaluadores	string[]	Sí	Lista de nombres de evaluadores que se van a usar. Consulte la lista de evaluadores disponibles en el catálogo de evaluadores del proyecto en el portal de Foundry: Evaluaciones de construcción > Catálogo de evaluadores >.
datos	objeto[]	Sí	Matriz de objetos de entrada con `query` campos de evaluador opcionales como `ground_truth`, `context`. Asignación automática a evaluadores; use `data_mapping` para invalidarlo.
openai_graders	objeto	No	Configuración de evaluadores basados en OpenAI (label_model, score_model, string_check, etc.).
parámetros_del_evaluador	objeto	No	Parámetros de inicialización específicos del evaluador (por ejemplo, umbrales, configuración personalizada).
data_mapping	objeto	No	Asignaciones de campos de datos personalizadas (generadas automáticamente a partir de datos si no se facilitan).

Archivo de datos de ejemplo básico


{
  "name": "test-data",
  "evaluators": [
    "builtin.fluency",
    "builtin.task_adherence",
    "builtin.violence",
  ],
  "data": [
    {
      "query": "Tell me about Tokyo disneyland"
    },
    {
      "query": "How do I install Python?"
    }
  ]
}

Archivos de datos de ejemplo adicionales

Filename	Description
dataset-tiny.json	Conjunto de datos con un número reducido de consultas y evaluadores de prueba.
dataset.json	Conjunto de datos con todos los tipos de evaluador admitidos y suficientes consultas para el cálculo del intervalo de confianza y la prueba estadística.
dataset-builtin-evaluators.json	Ejemplo de evaluadores integrados de fábrica (por ejemplo, coherencia, fluidez, relevancia, métricas, fundamentación).
dataset-openai-graders.json	Ejemplo de calificadores basados en OpenAI (modelos de etiquetas, modelos de puntuación, similitud de texto, comprobaciones de cadenas).
dataset-custom-evaluators.json	Ejemplo de evaluadores personalizados con parámetros del evaluador.
dataset-data-mapping.json	Ejemplo de mapeo de datos que muestra cómo sobrescribir los mapeos automáticos de campos con nombres personalizados de columnas de datos.

Canalización de ejemplo

Para usar esta extensión de Azure DevOps, agregue la tarea a su canalización de Azure y configure la autenticación para acceder al proyecto de Microsoft Foundry.

steps:
  - task: AIAgentEvaluation@2
    displayName: "Evaluate AI Agents"
    inputs:
      azure-ai-project-endpoint: "$(AzureAIProjectEndpoint)"
      deployment-name: "$(DeploymentName)"
      data-path: "$(System.DefaultWorkingDirectory)/path/to/your/dataset.json"
      agent-ids: "$(AgentIds)"

Resultados y salidas de evaluación

Los resultados de la evaluación aparecen en el resumen del pipeline de Azure DevOps, con métricas detalladas y comparaciones entre agentes cuando se evalúan múltiples de ellos.

La salida de los resultados de la evaluación se genera en la sección de resumen para cada ejecución de la tarea de evaluación de IA en el pipeline de Azure DevOps.

La captura de pantalla siguiente es un informe de ejemplo para comparar dos agentes.

Comentarios

¿Le resultó útil esta página?

Last updated on 2026-03-11