Compartir a través de


Elige métodos de evaluación

[Este artículo es documentación preliminar y está sujeto a modificaciones].

En Copilot Studio puedes crear un conjunto de casos de prueba para evaluar el rendimiento de tus agentes. Los casos de prueba permiten simular escenarios reales para el agente, por lo que puede medir la precisión, la relevancia y la calidad de las respuestas a las preguntas a las que se hace el agente, en función de la información a la que puede acceder el agente. Utilizando los resultados del conjunto de pruebas, puedes optimizar el comportamiento de tu agente y validar que cumple con tus requisitos de negocio y calidad.

Importante

Este artículo contiene la documentación de la versión preliminar de Microsoft Copilot Studio y está sujeto a modificaciones.

Las características en versión preliminar no están pensadas para su uso en producción y pueden tener funcionalidad restringida. Estas características están disponibles antes del lanzamiento oficial para que pueda tener acceso anticipado y proporcionar comentarios.

Si está creando un agente listo para producción, consulte Información general sobre Microsoft Copilot Studio.

Métodos de prueba

Al crear conjuntos de prueba, puedes elegir entre diferentes métodos para evaluar las respuestas de tu agente: coincidencia de texto, similitud y calidad. Cada método de prueba tiene sus propias ventajas y es adecuado para diferentes tipos de evaluaciones.

Métodos de prueba de coincidencia de texto

Los métodos de prueba de coincidencia de texto comparan las respuestas del agente con las respuestas esperadas que defina en el conjunto de pruebas. Hay dos pruebas de coincidencia:

Coincidencia exacta comprueba si la respuesta del agente coincide exactamente con la respuesta esperada en la prueba: carácter para carácter, palabra para palabra. Si es lo mismo, pasa. Si algo difiere, se produce un error. La coincidencia exacta es útil para respuestas cortas y precisas, como números, códigos o frases fijas. No se adapta a las respuestas que las personas pueden expresar de varias maneras correctas.

La coincidencia parcial verifica si la respuesta del agente contiene algunas de las palabras o frases de la respuesta esperada que definiste. Si lo hace, pasa. Si no es así, se produce un error. La coincidencia parcial es útil cuando una respuesta se puede expresar de diferentes maneras correctas, pero los términos clave o las ideas deben incluirse en la respuesta.

Métodos de prueba de similitud

El método de prueba de similitud compara la similitud de las respuestas del agente con las respuestas esperadas definidas en el conjunto de pruebas. Es útil cuando una respuesta se puede expresar de diferentes maneras correctas, pero el significado general o la intención todavía deben pasar.

Usa una métrica de similitud de coseno para evaluar cuán similar es la respuesta del agente en cuanto a la formulación y el significado con la respuesta esperada, y determina una puntuación. La puntuación oscila entre 0 y 1, donde 1 indica que la respuesta coincide estrechamente y 0 indica que no lo hace. Puede establecer un umbral de puntuación de aprobación para determinar qué constituye una puntuación de aprobación para una respuesta.

Métodos de pruebas de calidad

Los métodos de pruebas de calidad le ayudan a decidir si las respuestas del agente cumplen sus estándares. Este enfoque garantiza que los resultados sean confiables y fáciles de explicar.

Estos métodos usan un modelo de lenguaje grande (LLM) para evaluar la eficacia en que un agente responde a las preguntas del usuario. Son especialmente útiles cuando no se espera ninguna respuesta exacta, ofreciendo una manera flexible y escalable de evaluar las respuestas en función de los documentos recuperados y el flujo de conversación.

Los métodos de prueba de calidad incluyen dos métodos de prueba:

La calidad general evalúa las respuestas del agente. Utiliza estos criterios clave y aplica una consigna consistente para guiar la puntuación:

  • Relevancia: en qué medida la respuesta del agente aborda la pregunta. Por ejemplo, ¿la respuesta del agente permanece en el asunto y responde directamente a la pregunta?

  • Base: en qué medida la respuesta del agente se basa en el contexto proporcionado. Por ejemplo, ¿la referencia de respuesta del agente o se basa en la información especificada en el contexto, en lugar de introducir información no relacionada o no admitida?

  • Integridad: en qué medida la respuesta del agente proporciona toda la información necesaria. Por ejemplo, ¿la respuesta del agente cubre todos los aspectos de la pregunta y proporciona detalles suficientes?

  • Abstención: indica si el agente intentó responder a la pregunta.

Para ser considerada de alta calidad, una respuesta debe cumplir todos estos criterios clave. Si no se cumple un criterio, se señala la respuesta para mejora. Este método de puntuación garantiza que solo las respuestas que sean completas y bien admitidas reciban las marcas principales. Por el contrario, las respuestas que están incompletas o que carecen de pruebas complementarias reciben puntuaciones más bajas.

Comparar significado evalúa la manera en que la respuesta del agente refleja el significado previsto de la respuesta esperada. En lugar de centrarse en la redacción exacta, utiliza la similitud de intención, es decir, compara las ideas y el significado detrás de las palabras para juzgar cuán alineada es la respuesta con lo esperado.

Puede establecer un umbral de puntuación de aprobación para determinar qué constituye una puntuación de aprobación para una respuesta. La nota por defecto es 50. El método de prueba de comparación de significado es útil cuando una respuesta se puede expresar de diferentes maneras correctas, pero el significado general o la intención todavía deben pasar.

Umbrales y tasas de aprobación

El éxito de un caso de prueba depende del método de prueba que seleccione y del umbral establecido para pasar las puntuaciones.

Cada método de prueba, excepto la coincidencia exacta, genera una puntuación numérica basada en un conjunto de criterios de evaluación que refleja la manera en que la respuesta del agente cumple esos criterios. El umbral es la puntuación de corte que separa el paso del error. Puede establecer las puntuaciones de aprobación para la similitud y comparar los casos de prueba de significado.

La coincidencia exacta es un método de prueba estricto que no genera una puntuación numérica; la respuesta debe coincidir exactamente para aprobarse. Al elegir el umbral de un caso de prueba, decide lo estricto o indulgente que es la evaluación. Cada método de prueba evalúa la respuesta del agente de manera diferente, por lo que es importante elegir la que mejor se adapte a los criterios de evaluación.