Compartir a través de


Automatizar las pruebas con evaluación de agentes

[Este artículo es documentación preliminar y está sujeto a modificaciones].

A medida que los agentes de IA asumen roles críticos en los procesos empresariales, la necesidad de pruebas fiables y repetibles se vuelve esencial. La evaluación de agentes te permite generar pruebas que simulan escenarios reales para tu agente. Estas pruebas cubren más preguntas más rápido que las pruebas manuales y caso por caso. Después, puedes medir la precisión, relevancia y calidad de las respuestas a las preguntas que se le hacen al agente, basándote en la información a la que accede. Utilizando los resultados del conjunto de pruebas, puedes optimizar el comportamiento de tu agente y validar que cumple con tus requisitos de negocio y calidad.

Importante

Este artículo contiene la documentación de la versión preliminar de Microsoft Copilot Studio y está sujeto a modificaciones.

Las características en versión preliminar no están pensadas para su uso en producción y pueden tener funcionalidad restringida. Estas características están disponibles antes del lanzamiento oficial para que pueda tener acceso anticipado y proporcionar comentarios.

Si está creando un agente listo para producción, consulte Información general sobre Microsoft Copilot Studio.

¿Por qué usar pruebas automatizadas?

La evaluación de agentes proporciona pruebas automatizadas y estructuradas. Ayuda a detectar problemas a tiempo, reduce el riesgo de malas respuestas y mantiene la calidad a medida que el agente evoluciona. Este proceso aporta una forma automatizada y repetible de aseguramiento de la calidad a las pruebas de agentes. Garantiza que el agente cumpla con los estándares de precisión y fiabilidad de tu empresa y ofrece transparencia sobre su rendimiento. Tiene ventajas diferentes a las pruebas usando el chat de prueba.

La evaluación del agente mide la corrección y el rendimiento, no la ética de la IA ni los problemas de seguridad. Un agente puede superar todas las pruebas de evaluación pero, por ejemplo, aun así producir una respuesta inapropiada a una pregunta. Los clientes deben seguir utilizando reseñas responsables de IA y filtros de seguridad de contenido; Las evaluaciones no sustituyen esas reseñas y filtros.

Cómo funciona la evaluación de agentes

Copilot Studio utiliza un caso de prueba para cada evaluación de agente. Un caso de prueba es un solo mensaje o pregunta que simula lo que un usuario le preguntaría a tu agente. Un caso de prueba también puede incluir la respuesta que esperas que tu agente dé. Por ejemplo:

  • La pregunta: ¿Cuáles son vuestros horarios de trabajo?

  • La respuesta esperada: Abrimos de 9 a.m. a 5 p.m. de lunes a viernes.

Utilizando la evaluación de agentes, puedes generar, importar o escribir manualmente un grupo de casos de prueba. Este grupo de casos de prueba se llama conjunto de pruebas. Un conjunto de pruebas te permite:

  • Ejecuta varios casos de prueba que cubran una amplia gama de capacidades a la vez, en lugar de preguntarle a tu agente una pregunta a la vez.

  • Analiza el rendimiento de tu agente con una puntuación agregada fácil de digerir y también amplía los casos de prueba individuales.

  • Prueba los cambios en tus agentes usando el mismo conjunto de pruebas, para tener un estándar objetivo para medir y comparar cambios en el rendimiento.

  • Crea rápidamente nuevos conjuntos de pruebas o modifica los existentes para cubrir las capacidades o requisitos cambiantes del agente.

El conjunto de pruebas también incluye los métodos de prueba que quieres usar. Puedes medir el rendimiento de tu agente basándote en:

También puedes elegir un perfil de usuario para que actúe como el usuario que envía las preguntas. El agente puede configurarse para responder a diferentes usuarios de distintas maneras, o permitir el acceso a recursos de distintas formas.

Cuando seleccionas un conjunto de pruebas y realizas una evaluación del agente, Copilot Studio envía las preguntas en los casos de prueba, registra las respuestas del agente, compara esas respuestas con las esperadas o con un estándar de calidad, y asigna una puntuación a cada caso de prueba. También puedes ver los detalles, la transcripción y el mapa de actividad de cada caso de prueba y qué recursos utilizó tu agente para crear la respuesta.

Chat de prueba frente a evaluación de agentes

Cada método de prueba te ofrece diferentes perspectivas sobre las cualidades y el comportamiento de tu agente:

Chat de prueba:

  • Recibe y responde a una pregunta cada vez. Es difícil repetir las mismas pruebas varias veces.

  • Te permite probar una sesión completa que contiene varios mensajes.

  • Te permite interactuar con tu agente como usuario mediante una interfaz de chat.

Evaluación del agente:

  • Puede crear y ejecutar varios casos de prueba a la vez. Puedes repetir pruebas usando el mismo conjunto de pruebas.

  • Solo se puede probar una pregunta y una respuesta por caso de prueba. No pone a prueba una sesión conversacional completa.

  • Elige diferentes perfiles de usuario para simular a distintos usuarios sin necesidad de completar las interacciones tú mismo.

Cuando pruebes a un agente, utiliza tanto el chat de prueba como la evaluación del agente para tener una visión completa de tu agente.