Comparteix via


Crea o modifica un conjunto de pruebas para evaluar a tu agente

[Este artículo es documentación preliminar y está sujeto a modificaciones].

Un conjunto de pruebas consiste en un grupo de hasta 100 casos de prueba. Cuando ejecutas una evaluación de agente, seleccionas un conjunto de pruebas y Copilot Studio ejecuta todos los casos de ese conjunto contra tu agente.

Puedes crear casos de prueba dentro de un conjunto de pruebas manualmente, importarlos usando una hoja de cálculo o usar IA para generar mensajes basados en el diseño y los recursos de tu agente. Luego puedes elegir cómo quieres medir la calidad de las respuestas de tu agente para cada caso de prueba dentro de un conjunto de pruebas.

Para más información sobre cómo funciona la evaluación de agentes, consulte Acerca de la evaluación de agentes.

Importante

Los resultados de las pruebas están disponibles en Copilot Studio durante 89 días. Para guardar los resultados de tus pruebas durante un periodo más largo, exporta los resultados a un archivo CSV.

Creación de un nuevo conjunto de pruebas

  1. Ve a la página de Evaluación de tu agente.

  2. Selecciona Nuevo conjunto de pruebas.

    Captura de pantalla que muestra el botón Crear nueva prueba en la página de Evaluación.

  3. En la página de Nuevo conjunto de pruebas , elige el método que quieres usar para crear tu conjunto de pruebas. Un conjunto de pruebas puede tener hasta 100 casos de prueba.

    • Pregunta rápida configurada para que Copilot Studio cree casos de prueba automáticamente basándose en la descripción, instrucciones y capacidades de tu agente. Esta opción genera 10 preguntas para realizar evaluaciones pequeñas y rápidas o para empezar a construir un conjunto de pruebas más grande.
    • Pregunta completa configurada para que Copilot Studio genere casos de prueba usando las fuentes de conocimiento o temas de tu agente.
    • Utiliza tu conversación de chat de prueba para rellenar automáticamente el conjunto de preguntas que has dado en tu chat. Este método utiliza preguntas del último chat de prueba. También puedes iniciar una evaluación desde el chat de prueba usando el botón de evaluar . Captura de pantalla que muestra el botón Crear nueva prueba en el chat de prueba.
    • Importa casos de prueba de un archivo arrastrando tu archivo al área designada, seleccionando Explorar para subir un archivo, o seleccionando alguna de las otras opciones de subida.
    • O escribe tú mismo algunas preguntas para crear manualmente un conjunto de pruebas. Sigue los pasos para editar un conjunto de pruebas y añadir y editar casos de prueba.
  4. Edita los detalles de los casos de prueba. Todos los casos de prueba que usan métodos, excepto la calidad general, requieren respuestas esperadas. Para más información sobre la edición, véase Modificar un conjunto de pruebas.

  5. En Nombre, escriba un nombre para el conjunto de pruebas.

  6. Selecciona perfil de usuario, luego selecciona o añade la cuenta que quieras usar para este conjunto de pruebas, o continúa sin autenticación. La evaluación utiliza esta cuenta para conectarse con fuentes de conocimiento y herramientas durante las pruebas. Para información sobre cómo añadir y gestionar perfiles de usuario, consulte Gestionar perfiles y conexiones de usuario.

Nota:

Las pruebas automatizadas utilizan la autenticación de la cuenta de prueba seleccionada. Si tu agente tiene fuentes de conocimiento o conexiones que requieren autenticación específica, selecciona la cuenta adecuada para tus pruebas.

  1. Selecciona Guardar para actualizar el conjunto de pruebas sin ejecutar los casos de prueba o Evaluar para ejecutar el conjunto de pruebas inmediatamente.

Limitación de generación de casos de prueba

La generación de casos de prueba puede fallar si una o más preguntas violan la configuración de moderación de contenido de tu agente. Entre los motivos se incluyen:

  • Las instrucciones o temas del agente llevan al modelo a generar contenido que es señalado.
  • La fuente de conocimiento conectada incluye contenido sensible o restringido.
  • La configuración de moderación de contenido del agente es excesivamente estricta.

Para resolver el problema, prueba diferentes acciones, como ajustar fuentes de conocimiento, actualizar instrucciones o modificar la configuración de moderación.

Un conjunto de pruebas puede contener hasta 100 casos de prueba.

Genera un conjunto de pruebas a partir de conocimientos o temas

Puedes evaluar a tu agente generando preguntas usando la información y las fuentes de conversación que ya posee. Este método de prueba es bueno para comprobar cómo tu agente utiliza el conocimiento y los temas que ya posee, pero no es bueno para detectar lagunas de información.

Puedes generar casos de prueba utilizando estas fuentes de conocimiento:

  • Mensaje de texto
  • Microsoft Word
  • Microsoft Excel

Puedes usar archivos de hasta 293 KB para generar preguntas de examen.

Para generar un conjunto de pruebas:

  1. En el nuevo conjunto de pruebas, selecciona Conjunto completo de preguntas.

  2. Selecciona Conocimientos o Temas.

    • El conocimiento funciona mejor para agentes que usan orquestación generativa. Este método genera preguntas utilizando una selección de fuentes de conocimiento de tu agente.
    • Topics funciona mejor para agentes que usan orquestación clásica. Este método genera preguntas utilizando los temas de tu agente.
  3. Para Conocimiento, selecciona las fuentes de conocimiento que quieres incluir en la generación de preguntas.

Captura de pantalla que muestra la selección de fuentes de conocimiento para incluir en la generación del caso de prueba.

  1. Para Conocimientos y Temas, selecciona y arrastra el control deslizante para elegir el número de preguntas a generar.

Captura de pantalla mostrando el deslizador para seleccionar cuántas preguntas generar.

  1. Selecciona Generar.

  2. Edita los detalles de los casos de prueba. Todos los casos de prueba que usan métodos, excepto la calidad general, requieren respuestas esperadas. Para más información sobre la edición, véase Modificar un conjunto de pruebas.

  3. Selecciona Gestionar perfil para seleccionar o conectar la cuenta que quieres usar en este conjunto de pruebas. También puedes continuar sin añadir una cuenta para autenticación.

Nota:

Las pruebas automatizadas utilizan la autenticación de la cuenta de prueba seleccionada. Si tu agente tiene fuentes de conocimiento o conexiones que requieren autenticación específica, selecciona la cuenta adecuada para tus pruebas.

Cuando Copilot Studio genera casos de prueba, utiliza las credenciales de autenticación de una cuenta conectada para acceder a las fuentes de conocimiento y herramientas de tu agente. Los casos de prueba o resultados generados pueden incluir información sensible a la que la cuenta conectada tiene acceso, y esta información es visible para todos los creadores que pueden acceder al conjunto de pruebas.

  1. Selecciona Guardar para actualizar el conjunto de pruebas sin ejecutar los casos de prueba o Evaluar para ejecutar el conjunto de pruebas inmediatamente.

Crear un archivo de conjunto de pruebas para importar

En lugar de compilar los casos de prueba directamente en Copilot Studio, puede crear un archivo de hoja de cálculo con todos los casos de prueba e importarlos para crear el conjunto de pruebas. Puede redactar cada pregunta de prueba, determinar el método de prueba que desea usar e indicar las respuestas esperadas para cada pregunta. Cuando termine de crear el archivo, guárdelo como un archivo .csv o .txt e impórtelo en Copilot Studio.

Importante

  • El archivo puede contener hasta 100 preguntas.
  • Cada pregunta puede tener hasta 1000 caracteres, incluidos los espacios.
  • El archivo debe estar en formato de texto o valores separados por comas (CSV).

Para crear el archivo de importación:

  1. Abra una aplicación de hoja de cálculo (por ejemplo, Microsoft Excel).

  2. Agregue los encabezados siguientes, en este orden, en la primera fila:

    • Pregunta
    • Respuesta esperada
    • Método de prueba
  3. Escriba las preguntas de prueba en la columna Pregunta . Cada pregunta puede tener 1000 caracteres o menos, incluidos los espacios.

  4. Introduce uno de los siguientes métodos de prueba para cada pregunta en la columna de Método de prueba :

    • Calidad general
    • Comparación de significado
    • Similitud
    • Coincidencia exacta
    • Coincidencia de palabras clave
  5. Escriba las respuestas esperadas para cada pregunta en la columna Respuesta esperada . Las respuestas esperadas son opcionales para importar un conjunto de pruebas. Sin embargo, necesita respuestas esperadas para ejecutar coincidencias, similitudes y comparar casos de prueba de significado.

  6. Guarde el archivo como .csv o .txt.

  7. Importa el archivo siguiendo los pasos de Crear un nuevo conjunto de pruebas.