Acerca de la evaluación del agente

A medida que los agentes de IA asumen roles críticos en los procesos empresariales, la necesidad de pruebas fiables y repetibles se vuelve esencial. La evaluación de agentes te permite generar pruebas que simulan escenarios reales para tu agente. Estas pruebas cubren más preguntas y conversaciones más rápido que las pruebas manuales, caso por caso. A continuación, puede medir la precisión, la relevancia y la calidad de las respuestas de las interacciones del agente, en función de la información a la que puede acceder el agente. Utilizando los resultados del conjunto de pruebas, puedes optimizar el comportamiento de tu agente y validar que cumple con tus requisitos de negocio y calidad.

¿Por qué usar pruebas automatizadas?

La evaluación de agentes proporciona pruebas automatizadas y estructuradas. Ayuda a detectar problemas a tiempo, reduce el riesgo de malas respuestas y mantiene la calidad a medida que el agente evoluciona. Este proceso aporta una forma automatizada y repetible de aseguramiento de la calidad a las pruebas de agentes. Se asegura de que el agente cumple los estándares de precisión y confiabilidad de su empresa y proporciona transparencia sobre cómo funciona. Tiene ventajas diferentes a las pruebas usando el chat de prueba.

Puede ejecutar evaluaciones y ver los resultados mediante la interfaz de Copilot Studio, a través de Power Platform REST APIs o mediante la adición de acciones en herramientas, flujos o Power Automate.

La evaluación del agente mide la corrección y el rendimiento, no la ética de la IA ni los problemas de seguridad. Un agente puede superar todas las pruebas de evaluación pero, por ejemplo, aun así producir una respuesta inapropiada a una pregunta. Los clientes deben seguir usando revisiones de inteligencia artificial responsables y filtros de seguridad de contenido; las evaluaciones no reemplazan esas revisiones y filtros.

Limitaciones de la Nube de la Comunidad Gubernamental

La evaluación de agentes en entornos de Government Community Cloud (GCC) presenta las siguientes limitaciones:

Los creadores no pueden añadir un perfil de usuario a sus conjuntos de prueba. Sin embargo, los fabricantes aún pueden realizar evaluaciones sin un perfil de usuario.
Los fabricantes no pueden usar el método de la prueba de similitud para evaluaciones. Todos los demás métodos de prueba están disponibles.

Cómo funciona la evaluación de agentes

Copilot Studio usa un caso de prueba para cada evaluación del agente. Un caso de prueba es una única interacción que simula cómo un usuario interactuaría con el agente. La interacción puede ser una sola pregunta o una conversación completa.

Un caso de prueba también puede incluir la respuesta que esperas que tu agente dé. Por ejemplo:

La pregunta: ¿Cuáles son vuestros horarios de trabajo?
La respuesta esperada: Abrimos de 9 a.m. a 5 p.m. de lunes a viernes.

Utilizando la evaluación de agentes, puedes generar, importar o escribir manualmente un grupo de casos de prueba. Este grupo de casos de prueba se llama conjunto de pruebas. Un conjunto de pruebas te permite:

Ejecuta varios casos de prueba que cubran una amplia gama de capacidades a la vez, en lugar de preguntarle a tu agente una pregunta a la vez.
Analiza el rendimiento de tu agente con una puntuación agregada fácil de interpretar y también examina detalladamente los casos de prueba individuales.
Prueba los cambios en tus agentes usando el mismo conjunto de pruebas, para tener un estándar objetivo para medir y comparar cambios en el rendimiento.
Crea rápidamente nuevos conjuntos de pruebas o modifica los existentes para cubrir las capacidades o requisitos cambiantes del agente.

Cada conjunto de pruebas puede evaluar a tu agente utilizando varios métodos de prueba a la vez.

También puede elegir un perfil de usuario para que actúe como usuario estimulado. El agente puede configurarse para responder a diferentes usuarios de distintas maneras, o permitir el acceso a recursos de distintas formas.

Al seleccionar un conjunto de pruebas y ejecutar una evaluación de agente, Copilot Studio envía las preguntas en los casos de prueba, registra las respuestas del agente, compara esas respuestas con las respuestas esperadas o un estándar de calidad y asigna una puntuación a cada caso de prueba. También puedes ver los detalles, la transcripción y el mapa de actividad de cada caso de prueba y qué recursos utilizó tu agente para crear la respuesta.

Creación de una estrategia de evaluación completa

Antes de ejecutar evaluaciones, defina qué significa el éxito para su agente y decida qué escenarios importan más para su negocio. Una estrategia clara le ayuda a elegir los métodos de prueba adecuados, priorizar los casos de prueba de alto impacto e interpretar los resultados con el contexto correcto.

Utiliza soluciones para la arquitectura de agentes: marcos de evaluación para asignar objetivos empresariales a dimensiones de evaluación medibles y enfoques de puntuación.
Use Diseñar y operacionalizar la evaluación de agentes para construir un proceso de evaluación repetible que apoye mejoras continuas de calidad.

Integración de evaluaciones en flujos automatizados

La evaluación del agente admite la automatización para que los creadores puedan ejecutar evaluaciones sin intervención manual. Mediante el uso de API REST o conectores de Power Platform, puede desencadenar ejecuciones de evaluación mediante programación e integrar pruebas en flujos de trabajo automatizados, como canalizaciones de integración continua e implementación continua (CI/CD). Este enfoque le permite ejecutar conjuntos de pruebas a escala y validar el comportamiento del agente a medida que se introducen los cambios, sin necesidad de ejecutar manualmente en Copilot Studio.

Chat de prueba frente a evaluación de agentes

Cada método de prueba te ofrece diferentes perspectivas sobre las cualidades y el comportamiento de tu agente:

Chat de prueba:

Recibe y responde a una pregunta a la vez. Es difícil repetir las mismas pruebas varias veces.
Te permite probar una sesión completa que contiene varios mensajes.
Te permite interactuar con tu agente como usuario mediante una interfaz de chat.

Evaluación del agente:

Puede crear y ejecutar varios casos de prueba a la vez mediante un conjunto de pruebas. Puede repetir las evaluaciones utilizando el mismo conjunto de pruebas.
Puede probar una pregunta y una respuesta por caso de prueba o una conversación por caso de prueba. Sin embargo, tiene menos control sobre las conversaciones que al usar el chat de prueba.
Elige diferentes perfiles de usuario para simular a distintos usuarios sin necesidad de completar las interacciones tú mismo.

Cuando pruebes a un agente, utiliza tanto el chat de prueba como la evaluación del agente para tener una visión completa de tu agente.

Comentarios

¿Le ha resultado útil esta página?

Last updated on 2026-04-14