Nota
L'accés a aquesta pàgina requereix autorització. Podeu provar d'iniciar la sessió o de canviar els directoris.
L'accés a aquesta pàgina requereix autorització. Podeu provar de canviar els directoris.
La evaluación conversacional permite evaluar el comportamiento general del agente durante una interacción más larga. Refleja cómo interactúan los usuarios reales con los agentes, donde cada respuesta depende del contexto anterior dentro de una conversación en curso. Puede usar estas evaluaciones para determinar si un agente puede mantener el contexto, pedir aclaraciones y completar tareas de varios pasos.
También puede ejecutar evaluaciones de respuesta únicas, que son adecuadas para cuando desea probar al agente sobre cómo responde a preguntas específicas, qué capacidades utiliza y qué redacción exacta utiliza en sus respuestas.
Las evaluaciones usan conjuntos de pruebas. Un conjunto de pruebas para evaluaciones conversacionales consta de hasta 20 casos de prueba. Al ejecutar una evaluación de tu agente, seleccionas un conjunto de pruebas y Copilot Studio ejecuta cada caso de prueba en ese conjunto contra tu agente.
Para crear casos de prueba dentro de un conjunto de pruebas, puede importarlos mediante una hoja de cálculo o usar IA para generar mensajes basados en el diseño y los recursos del agente. Luego puedes elegir cómo quieres medir la calidad de las respuestas de tu agente para cada caso de prueba dentro de un conjunto de pruebas.
Para más información sobre cómo funciona la evaluación de agentes, consulte Acerca de la evaluación de agentes.
Para aprender a editar un conjunto de pruebas existente, consulte Cambiar los detalles de un conjunto de prueba.
Importante
Los resultados de las pruebas están disponibles en Copilot Studio durante 89 días. Para guardar los resultados de tus pruebas durante un periodo más largo, exporta los resultados a un archivo CSV.
Creación de un conjunto de pruebas de conversación
- Ve a la página de Evaluación de tu agente.
Seleccione Nueva evaluación y luego Conversación.
Puede crear casos de prueba de varios turnos mediante cualquiera de los métodos siguientes:
Conjunto de conversaciones rápido: genere automáticamente 10 conversaciones cortas en función de la descripción, las instrucciones y las funcionalidades del agente.
Conjunto completo para conversaciones: genere conversaciones con el conocimiento del agente o con temas definidos. En esta opción, puede seleccionar la creación de conversaciones cortas o largas.
Use el chat de prueba: transforme el chat de prueba más reciente en un caso de prueba.
Nota:
Las pruebas de conversación admiten hasta 20 casos de prueba. Cada caso de prueba admite hasta 12 mensajes totales, que es 6 pares de preguntas y respuestas.
En Nombre, escriba un nombre para el conjunto de pruebas.
Cambie o agregue los métodos de prueba que desea usar. En el caso de los conjuntos de pruebas de conversación, puede agregar la calidad general, la coincidencia de palabras clave, la coincidencia de funcionalidades o los métodos de prueba personalizados de clasificación .
- Añade un nuevo método:
- Selecciona Añadir método de prueba.
- Selecciona todos los métodos con los que quieres probar y luego selecciona OK. Puedes añadir varios métodos.
- Para algunos métodos, establece una puntuación de aprobado y luego selecciona OK. La nota de aprobado determina la calificación que resulta en un aprobado o un suspenso.
- Algunos métodos requieren añadir respuestas esperadas o palabras clave para cada uno de tus casos de prueba. Para más información, consulte Elegir métodos de evaluación.
- Selecciona un método de prueba existente para editar o eliminar.
Método de prueba Medidas Tipo de conjunto de pruebas Puntuaciones Configurations Calidad general ¿Qué tan buenas son las respuestas de un caso de prueba basadas en cualidades específicas? Respuesta única o conversación Puntuado sobre un 100% Ninguno Comparar significado Qué tan bien el significado de la respuesta del caso de prueba coincide con la respuesta esperada Respuesta única Puntuado sobre un 100% Puntuación de aprobado, respuesta esperada Uso de capacidades Si el caso de prueba usó todos o cualquiera de los recursos esperados Respuesta única Aprobado/suspendido Capacidades esperadas Coincidencia de palabras clave Si el caso de prueba utilizó todas o alguna de las palabras clave o frases esperadas Respuesta única o conversación Aprobado/suspendido Palabras clave o frases esperadas Similitud de texto Qué tan bien coincide el texto de la respuesta en el caso de prueba con la respuesta esperada Respuesta única Puntuado sobre un 100% Puntuación de aprobado, respuesta esperada Coincidencia exacta Si la respuesta del caso de prueba coincide exactamente con la esperada Respuesta única Aprobado/suspendido Respuesta esperada - Añade un nuevo método:
Edita los detalles de los casos de prueba. Todos los métodos de prueba, excepto la calidad general, requieren respuestas o palabras clave esperadas. Para obtener más información sobre cómo editar casos de prueba, consulte Modificación de un conjunto de pruebas.
Selecciona perfil de usuario, luego selecciona o añade la cuenta que quieras usar para este conjunto de pruebas, o continúa sin autenticación. La evaluación utiliza esta cuenta para conectarse con fuentes de conocimiento y herramientas durante las pruebas. Para información sobre cómo añadir y gestionar perfiles de usuario, consulte Gestionar perfiles y conexiones de usuario.
Nota:
Las pruebas automatizadas utilizan la autenticación de la cuenta de prueba seleccionada. Si tu agente tiene fuentes de conocimiento o conexiones que requieren autenticación específica, selecciona la cuenta adecuada para tus pruebas.
Edite o cree más casos de prueba. Obtenga más información en Editar casos de prueba dentro de un conjunto de pruebas.
Selecciona Guardar para actualizar el conjunto de pruebas sin ejecutar los casos de prueba o Evaluar para ejecutar el conjunto de pruebas inmediatamente.