Automatizar las pruebas con evaluación de agentes

[Este artículo es documentación preliminar y está sujeto a modificaciones].

A medida que los agentes de IA asumen roles críticos en los procesos empresariales, la necesidad de pruebas fiables y repetibles se vuelve esencial. La evaluación de agentes te permite generar pruebas que simulan escenarios reales para tu agente. Estas pruebas cubren más preguntas más rápido que las pruebas manuales y caso por caso. Después, puedes medir la precisión, relevancia y calidad de las respuestas a las preguntas que se le hacen al agente, basándote en la información a la que accede. Utilizando los resultados del conjunto de pruebas, puedes optimizar el comportamiento de tu agente y validar que cumple con tus requisitos de negocio y calidad.

Importante

Este artículo contiene la documentación de la versión preliminar de Microsoft Copilot Studio y está sujeto a modificaciones.

Las características en versión preliminar no están pensadas para su uso en producción y pueden tener funcionalidad restringida. Estas características están disponibles antes del lanzamiento oficial para que pueda tener acceso anticipado y proporcionar comentarios.

Si está creando un agente listo para producción, consulte Información general sobre Microsoft Copilot Studio.

¿Por qué usar pruebas automatizadas?

La evaluación de agentes proporciona pruebas automatizadas y estructuradas. Ayuda a detectar problemas a tiempo, reduce el riesgo de malas respuestas y mantiene la calidad a medida que el agente evoluciona. Este proceso aporta una forma automatizada y repetible de aseguramiento de la calidad a las pruebas de agentes. Garantiza que el agente cumpla con los estándares de precisión y fiabilidad de tu empresa y ofrece transparencia sobre su rendimiento. Tiene ventajas diferentes a las pruebas usando el chat de prueba.

La evaluación del agente mide la corrección y el rendimiento, no la ética de la IA ni los problemas de seguridad. Un agente puede superar todas las pruebas de evaluación pero, por ejemplo, aun así producir una respuesta inapropiada a una pregunta. Los clientes deben seguir utilizando reseñas responsables de IA y filtros de seguridad de contenido; Las evaluaciones no sustituyen esas reseñas y filtros.

Cómo funciona la evaluación de agentes

Copilot Studio utiliza un caso de prueba para cada evaluación de agente. Un caso de prueba es un solo mensaje o pregunta que simula lo que un usuario le preguntaría a tu agente. Un caso de prueba también puede incluir la respuesta que esperas que tu agente dé. Por ejemplo:

La pregunta: ¿Cuáles son vuestros horarios de trabajo?
La respuesta esperada: Abrimos de 9 a.m. a 5 p.m. de lunes a viernes.

Utilizando la evaluación de agentes, puedes generar, importar o escribir manualmente un grupo de casos de prueba. Este grupo de casos de prueba se llama conjunto de pruebas. Un conjunto de pruebas te permite:

Ejecuta varios casos de prueba que cubran una amplia gama de capacidades a la vez, en lugar de preguntarle a tu agente una pregunta a la vez.
Analiza el rendimiento de tu agente con una puntuación agregada fácil de digerir y también amplía los casos de prueba individuales.
Prueba los cambios en tus agentes usando el mismo conjunto de pruebas, para tener un estándar objetivo para medir y comparar cambios en el rendimiento.
Crea rápidamente nuevos conjuntos de pruebas o modifica los existentes para cubrir las capacidades o requisitos cambiantes del agente.

El conjunto de pruebas también incluye los métodos de prueba que quieres usar. Puedes medir el rendimiento de tu agente basándote en:

Coincidencia exacta o coincidencia por palabras clave: Qué tan cerca es la respuesta de tu agente a una pregunta que esperas.
Similitud semántica: Qué tan cerca se asemeja la respuesta de tu agente a la idea o intención de la respuesta que esperas.
Calidad: En qué modo funcionan las respuestas de tu agente mediante una evaluación basada en LLM.

También puedes elegir un perfil de usuario para que actúe como el usuario que envía las preguntas. El agente puede configurarse para responder a diferentes usuarios de distintas maneras, o permitir el acceso a recursos de distintas formas.

Cuando seleccionas un conjunto de pruebas y realizas una evaluación del agente, Copilot Studio envía las preguntas en los casos de prueba, registra las respuestas del agente, compara esas respuestas con las esperadas o con un estándar de calidad, y asigna una puntuación a cada caso de prueba. También puedes ver los detalles, la transcripción y el mapa de actividad de cada caso de prueba y qué recursos utilizó tu agente para crear la respuesta.

Chat de prueba frente a evaluación de agentes

Cada método de prueba te ofrece diferentes perspectivas sobre las cualidades y el comportamiento de tu agente:

Chat de prueba:

Recibe y responde a una pregunta cada vez. Es difícil repetir las mismas pruebas varias veces.
Te permite probar una sesión completa que contiene varios mensajes.
Te permite interactuar con tu agente como usuario mediante una interfaz de chat.

Evaluación del agente:

Puede crear y ejecutar varios casos de prueba a la vez. Puedes repetir pruebas usando el mismo conjunto de pruebas.
Solo se puede probar una pregunta y una respuesta por caso de prueba. No pone a prueba una sesión conversacional completa.
Elige diferentes perfiles de usuario para simular a distintos usuarios sin necesidad de completar las interacciones tú mismo.

Cuando pruebes a un agente, utiliza tanto el chat de prueba como la evaluación del agente para tener una visión completa de tu agente.

Retroalimentació

Ha estat útil aquesta pàgina?

Last updated on 2026-01-15