Creación de un conjunto de pruebas conversacionales

La evaluación conversacional permite evaluar el comportamiento general del agente durante una interacción más larga. Refleja cómo interactúan los usuarios reales con los agentes, donde cada respuesta depende del contexto anterior dentro de una conversación en curso. Puede usar estas evaluaciones para determinar si un agente puede mantener el contexto, pedir aclaraciones y completar tareas de varios pasos.

También puede ejecutar evaluaciones de respuesta únicas, que son adecuadas para cuando desea probar al agente sobre cómo responde a preguntas específicas, qué capacidades utiliza y qué redacción exacta utiliza en sus respuestas.

Las evaluaciones usan conjuntos de pruebas. Un conjunto de pruebas para evaluaciones conversacionales consta de hasta 20 casos de prueba. Al ejecutar una evaluación de tu agente, seleccionas un conjunto de pruebas y Copilot Studio ejecuta cada caso de prueba en ese conjunto contra tu agente.

Para crear casos de prueba dentro de un conjunto de pruebas, puede importarlos mediante una hoja de cálculo o usar IA para generar mensajes basados en el diseño y los recursos del agente. Luego puedes elegir cómo quieres medir la calidad de las respuestas de tu agente para cada caso de prueba dentro de un conjunto de pruebas.

Para más información sobre cómo funciona la evaluación de agentes, consulte Acerca de la evaluación de agentes.

Para aprender a editar un conjunto de pruebas existente, consulte Cambiar los detalles de un conjunto de prueba.

Importante

Los resultados de las pruebas están disponibles en Copilot Studio durante 89 días. Para guardar los resultados de tus pruebas durante un periodo más largo, exporta los resultados a un archivo CSV.

Creación de un conjunto de pruebas de conversación

Ve a la página de Evaluación de tu agente.

Seleccione Nueva evaluación y luego Conversación.
Puede crear casos de prueba de varios turnos mediante cualquiera de los métodos siguientes:
- Conjunto de conversaciones rápido: genere automáticamente 10 conversaciones cortas en función de la descripción, las instrucciones y las funcionalidades del agente.
- Conjunto completo para conversaciones: genere conversaciones con el conocimiento del agente o con temas definidos. En esta opción, puede seleccionar la creación de conversaciones cortas o largas.
- Usar el chat de prueba: convierta el chat de prueba más reciente en un caso de prueba.

Note

Las pruebas de conversación admiten hasta 20 casos de prueba. Cada caso de prueba admite hasta 12 mensajes totales, que es 6 pares de preguntas y respuestas.

En Nombre, escriba un nombre para el conjunto de pruebas.

Cambie o agregue los métodos de prueba que desea usar. En el caso de los conjuntos de pruebas de conversación, puede agregar la calidad general, la coincidencia de palabras clave, la coincidencia de funcionalidades o los métodos de prueba personalizados de clasificación .

Añade un nuevo método:
1. Selecciona Añadir método de prueba.
2. Selecciona todos los métodos con los que quieres probar y luego selecciona OK. Puedes añadir varios métodos.
3. Para algunos métodos, establece una puntuación de aprobado y luego selecciona OK. La nota de aprobado determina la calificación que resulta en un aprobado o un suspenso.
4. Algunos métodos requieren añadir respuestas esperadas o palabras clave para cada uno de tus casos de prueba. Para más información, consulte Elegir métodos de evaluación.
Selecciona un método de prueba existente para editar o eliminar.

Método de prueba	Medidas	Tipo de conjunto de pruebas	Puntuaciones	Configuraciones
Calidad general	¿Qué tan buenas son las respuestas de un caso de prueba basadas en cualidades específicas?	Respuesta única o conversación	Puntuado sobre 100 %	Ninguno
Comparar significado	Qué tan bien el significado de la respuesta del caso de prueba coincide con la respuesta esperada	Respuesta única	Puntuado sobre 100 %	Puntuación de aprobado, respuesta esperada
Uso de capacidades	Si el caso de prueba usó todos o cualquiera de los recursos esperados	Respuesta única	Aprobado/suspendido	Capacidades esperadas
Coincidencia de palabras clave	Si el caso de prueba utilizó todas o alguna de las palabras clave o frases esperadas	Respuesta única o conversación	Aprobado/suspendido	Palabras clave o frases esperadas
Similitud de texto	Qué tan bien coincide el texto de la respuesta en el caso de prueba con la respuesta esperada	Respuesta única	Puntuado sobre 100 %	Puntuación de aprobado, respuesta esperada
Coincidencia exacta	Si la respuesta del caso de prueba coincide exactamente con la esperada	Respuesta única	Aprobado/suspendido	Respuesta esperada
Personalizado	Si la respuesta del caso de prueba cumple los criterios o expectativas definidos.	Respuesta única o conversación	Pass/fail (pasa los criterios de etiqueta definidos)	Nombre, instrucciones de evaluación, etiquetas

Edita los detalles de los casos de prueba. Todos los métodos de prueba, excepto la calidad general, requieren respuestas o palabras clave esperadas. Para obtener más información sobre cómo editar casos de prueba, consulte Modificación de un conjunto de pruebas.
Selecciona perfil de usuario, luego selecciona o añade la cuenta que quieras usar para este conjunto de pruebas, o continúa sin autenticación. La evaluación utiliza esta cuenta para conectarse con fuentes de conocimiento y herramientas durante las pruebas. Para información sobre cómo añadir y gestionar perfiles de usuario, consulte Gestionar perfiles y conexiones de usuario.

Nota:

Las pruebas automatizadas utilizan la autenticación de la cuenta de prueba seleccionada. Si tu agente tiene fuentes de conocimiento o conexiones que requieren autenticación específica, selecciona la cuenta adecuada para tus pruebas.

Edite o cree más casos de prueba. Obtenga más información en Editar casos de prueba dentro de un conjunto de pruebas.
Selecciona Guardar para actualizar el conjunto de pruebas sin ejecutar los casos de prueba o Evaluar para ejecutar el conjunto de pruebas inmediatamente.

Comentaris

Us ha resultat útil aquesta pàgina?

Last updated on 2026-03-28

Creación de un conjunto de pruebas conversacionales

Creación de un conjunto de pruebas de conversación

Comentaris

Recursos addicionals