Comparteix via


Elige métodos de evaluación

[Este artículo es documentación preliminar y está sujeto a modificaciones].

Al crear conjuntos de prueba, puedes elegir entre diferentes métodos para evaluar las respuestas de tu agente: coincidencia de texto, similitud y calidad. Cada método de prueba tiene sus propias ventajas y es adecuado para diferentes tipos de evaluaciones.

Métodos de prueba de coincidencia de texto

Los métodos de prueba de coincidencia de texto comparan las respuestas del agente con las respuestas esperadas que defina en el conjunto de pruebas. Hay dos pruebas de coincidencia:

Coincidencia exacta comprueba si la respuesta del agente coincide exactamente con la respuesta esperada en la prueba: carácter para carácter, palabra para palabra. Si es lo mismo, pasa. Si algo difiere, se produce un error. La coincidencia exacta es útil para respuestas cortas y precisas, como números, códigos o frases fijas. No se adapta a las respuestas que las personas pueden expresar de varias maneras correctas.

La coincidencia de palabras clave comprueba si la respuesta del agente contiene algunas de las palabras o frases de la respuesta esperada que defines tú mismo. Si lo hace, pasa. Si no es así, se produce un error. La coincidencia de palabras clave es útil cuando una respuesta puede formularse correctamente de diferentes maneras, pero los términos clave o ideas aún deben incluirse en la respuesta.

Métodos de prueba de similitud

El método de la prueba de similitud compara la similitud de las respuestas del agente con las respuestas esperadas que defines en tu conjunto de pruebas. Es útil cuando una respuesta se puede expresar de diferentes maneras correctas, pero el significado general o la intención todavía deben pasar.

Usa una métrica de similitud de coseno para evaluar cuán similar es la respuesta del agente en cuanto a la formulación y el significado con la respuesta esperada, y determina una puntuación. La puntuación oscila entre 0 y 1, donde 1 indica que la respuesta coincide estrechamente y 0 indica que no lo hace. Puede establecer un umbral de puntuación de aprobación para determinar qué constituye una puntuación de aprobación para una respuesta.

Métodos de pruebas de calidad

Los métodos de pruebas de calidad le ayudan a decidir si las respuestas del agente cumplen sus estándares. Este enfoque garantiza que los resultados sean confiables y fáciles de explicar.

Estos métodos usan un modelo de lenguaje grande (LLM) para evaluar la eficacia en que un agente responde a las preguntas del usuario. Son especialmente útiles cuando no se espera ninguna respuesta exacta, ofreciendo una manera flexible y escalable de evaluar las respuestas en función de los documentos recuperados y el flujo de conversación.

Los métodos de prueba de calidad incluyen dos métodos de prueba:

La calidad general evalúa las respuestas del agente. Utiliza estos criterios clave y aplica una consigna consistente para guiar la puntuación:

  • Relevancia: en qué medida la respuesta del agente aborda la pregunta. Por ejemplo, ¿la respuesta del agente permanece en el asunto y responde directamente a la pregunta?

  • Base: en qué medida la respuesta del agente se basa en el contexto proporcionado. Por ejemplo, ¿la referencia de respuesta del agente o se basa en la información especificada en el contexto, en lugar de introducir información no relacionada o no admitida?

  • Integridad: en qué medida la respuesta del agente proporciona toda la información necesaria. Por ejemplo, ¿la respuesta del agente cubre todos los aspectos de la pregunta y proporciona detalles suficientes?

  • Abstención: indica si el agente intentó responder a la pregunta.

Para ser considerada de alta calidad, una respuesta debe cumplir todos estos criterios clave. Si no se cumple un criterio, se señala la respuesta para mejora. Este método de puntuación garantiza que solo las respuestas que sean completas y bien admitidas reciban las marcas principales. Por el contrario, las respuestas que están incompletas o que carecen de pruebas complementarias reciben puntuaciones más bajas.

Comparar significado evalúa la manera en que la respuesta del agente refleja el significado previsto de la respuesta esperada. En lugar de centrarse en la redacción exacta, utiliza la similitud de intención, es decir, compara las ideas y el significado detrás de las palabras para juzgar cuán alineada es la respuesta con lo esperado.

Puede establecer un umbral de puntuación de aprobación para determinar qué constituye una puntuación de aprobación para una respuesta. La nota por defecto es 50. El método de prueba de comparación de significado es útil cuando una respuesta se puede expresar de diferentes maneras correctas, pero el significado general o la intención todavía deben pasar.

Umbrales y tasas de aprobación

El éxito de un caso de prueba depende del método de prueba que seleccione y del umbral establecido para pasar las puntuaciones.

Cada método de prueba, excepto el coincidencia exacta, produce una puntuación numérica basada en un conjunto de criterios de evaluación. Esta puntuación refleja lo bien que la respuesta del agente cumple esos criterios. El umbral es la puntuación de corte que separa el paso del error. Puede establecer las puntuaciones de aprobación para la similitud y comparar los casos de prueba de significado.

La coincidencia exacta es un método de prueba estricto que no produce una puntuación numérica. La respuesta debe coincidir exactamente para aprobar. Al elegir el umbral de un caso de prueba, decide lo estricto o indulgente que es la evaluación. Cada método de prueba evalúa la respuesta del agente de manera diferente, por lo que es importante elegir la que mejor se adapte a los criterios de evaluación.