Elige métodos de evaluación

Cuando crees conjuntos de prueba, elige entre diferentes métodos de prueba para evaluar las respuestas de tu agente. Cada método de prueba tiene sus propias fortalezas y se adapta a diferentes tipos de evaluaciones.

Método de prueba	Medidas	Tipo de conjunto de pruebas	Puntuaciones	Configuraciones
Calidad general	¿Qué tan buenas son las respuestas de un caso de prueba basadas en cualidades específicas?	Respuesta única o conversación	Puntuado sobre un 100%	Ninguno
Comparar significado	Qué tan bien el significado de la respuesta del caso de prueba coincide con la respuesta esperada	Respuesta única	Puntuado sobre un 100%	Puntuación de aprobado, respuesta esperada
Uso de capacidades	Si el caso de prueba usó todos o cualquiera de los recursos esperados	Respuesta única	Aprobado/suspendido	Capacidades esperadas
Coincidencia de palabras clave	Si el caso de prueba utilizó todas o alguna de las palabras clave o frases esperadas	Respuesta única o conversación	Aprobado/suspendido	Palabras clave o frases esperadas
Similitud de texto	Qué tan bien coincide el texto de la respuesta en el caso de prueba con la respuesta esperada	Respuesta única	Puntuado sobre un 100%	Puntuación de aprobado, respuesta esperada
Coincidencia exacta	Si la respuesta del caso de prueba coincide exactamente con la esperada	Respuesta única	Aprobado/suspendido	Respuesta esperada
Personalizado	Si la respuesta del caso de prueba cumple los criterios o expectativas definidos.	Respuesta única o conversación	Pass/fail (pasa los criterios de etiqueta definidos)	Nombre, instrucciones de evaluación, etiquetas

Adición de un método de prueba

Al crear o editar un conjunto de pruebas, selecciona Añadir método de prueba.
Selecciona todos los métodos con los que quieres probar y luego selecciona OK. Puedes añadir varios métodos.
1. Algunos métodos requieren una puntuación de aprobación. La nota de aprobado determina la calificación que resulta en un aprobado o un suspenso. Establece la puntuación y luego selecciona OK.
2. Algunos métodos de prueba requieren más criterios.
Selecciona Guardar para guardar tus cambios en el conjunto de pruebas.

Selecciona un método de prueba existente para editar los criterios de ese método o elimínalo.

Calidad general

Disponible para conjuntos de pruebas de respuesta única y conversación. La calidad general te ayuda a decidir si las respuestas de tu agente cumplen con tus estándares. Usa un modelo de lenguaje grande (LLM) para evaluar la eficacia en que un agente responde a las preguntas del usuario.

La calidad general es especialmente útil cuando no se espera una respuesta exacta. Ofrece una forma flexible y escalable de evaluar las respuestas en función de los documentos recuperados y el flujo de la conversación.

Utiliza estos criterios clave y aplica una consigna consistente para guiar la puntuación:

Relevancia: en qué medida la respuesta del agente aborda la pregunta. Por ejemplo, ¿la respuesta del agente permanece en el asunto y responde directamente a la pregunta?
Base: en qué medida la respuesta del agente se basa en el contexto proporcionado. Por ejemplo, ¿la referencia de respuesta del agente o se basa en la información especificada en el contexto, en lugar de introducir información no relacionada o no admitida?
Integridad: en qué medida la respuesta del agente proporciona toda la información necesaria. Por ejemplo, ¿la respuesta del agente cubre todos los aspectos de la pregunta y proporciona detalles suficientes?
Abstención: indica si el agente intentó responder a la pregunta.

Para ser considerada de alta calidad, una respuesta debe cumplir todos estos criterios clave. Si no se cumple un criterio, se señala la respuesta para mejora. Este método de puntuación garantiza que solo las respuestas que sean completas y bien admitidas reciban las marcas principales. Por el contrario, las respuestas que están incompletas o que carecen de pruebas complementarias reciben puntuaciones más bajas.

Al añadir o editar métodos de prueba, selecciona Calidad General. Todos los conjuntos de prueba comienzan con este método por defecto.

No necesitas añadir respuestas esperadas a casos de prueba para completar una evaluación general de calidad.

Nota:

Reducir el número de fuentes de conocimiento para el agente no garantiza mejorar la calificación de calidad general en la evaluación del agente. Esta limitación existe porque el conocimiento recuperado (el conocimiento que el modelo cree que es relevante para un caso de prueba específico) podría ser demasiado grande.

Comparar significado

Disponible para conjuntos de pruebas de respuesta única. Comparar significado evalúa la manera en que la respuesta del agente refleja el significado previsto de la respuesta esperada. En lugar de centrarse en la redacción exacta, utiliza la similitud de intención, es decir, compara las ideas y el significado detrás de las palabras para juzgar hasta qué punto la respuesta se alinea con lo que esperabas.

Al igual que la calidad general, comparar el significado es especialmente útil cuando no se espera una respuesta exacta. Ofrece una forma flexible y escalable de evaluar las respuestas en función de los documentos recuperados y el flujo de la conversación.

Puede establecer un umbral de puntuación de aprobación para determinar qué constituye una puntuación de aprobación para una respuesta. La puntuación de aprobación predeterminada es 50. El método de prueba de comparación de significado es útil cuando una respuesta se puede expresar de diferentes maneras correctas, pero el significado general o la intención todavía deben pasar.

Al añadir o editar métodos de prueba, selecciona Comparar significado.
Establece la puntuación de aprobado para este método.
Añade las respuestas esperadas. Cualquier caso de prueba sin respuestas esperadas genera un resultado no válido para este método de prueba.
1. Selecciona un caso de prueba.
2. Añade la respuesta que esperes.
3. Selecciona Solicitar para guardar la respuesta esperada.
4. Repite para todos los casos de prueba que quieras probar usando este método.

Uso de herramientas

Disponible para conjuntos de pruebas de respuesta única. Pruebas de uso de capacidades si el agente utilizó herramientas o temas específicos para generar una respuesta. Si lo hizo, pasa la prueba. Si no es así, se produce un error.

Al agregar o editar métodos de prueba, seleccione Uso de herramientas.
Añade las herramientas o temas esperados. Cualquier caso de prueba sin respuestas esperadas genera un resultado no válido para este método de prueba.
1. Selecciona un caso de prueba. Para agregar las mismas herramientas y temas esperados para todos los casos de prueba, seleccione el icono Editar en el encabezado de la columna Uso de la herramienta.
2. En el panel Editar caso de prueba , seleccione las herramientas que espera que use el agente para ese caso de prueba.
3. Selecciona Aceptar.
4. Seleccione Aplicar para guardar los cambios.
5. Repita este proceso para todos los casos de prueba que quiera probar para usar las herramientas.

Coincidencia de palabras clave

Disponible para conjuntos de pruebas de respuesta única y conversación. La coincidencia de palabras clave comprueba si la respuesta del agente contiene algunas o todas las palabras o frases de la respuesta esperada que definiste. Si lo hace, pasa. Si no es así, se produce un error.

Puedes elegir si un pase requiere alguna de las palabras clave o todas . Elegir Cualquiera significa que si al menos una palabra o frase coincide, el caso de prueba pasa. Elegir Todo significa que todas las palabras o frases esperadas deben coincidir para que un caso de prueba sea aprobado.

Al añadir o editar métodos de prueba, selecciona Coincidencia de palabras clave.
Selecciona si un caso de prueba necesita Alguna o Todas las palabras clave para coincidir.
Añade las palabras clave esperadas. Cualquier caso de prueba sin palabras clave esperadas genera un resultado no válido para este método de prueba.
1. Selecciona un caso de prueba.
2. En el panel Editar caso de prueba, agregue una palabra clave o frase que espera tenga la respuesta de ese caso.
3. Seleccione + Agregar para agregar más palabras clave o frases. Para quitar una palabra clave o frase, seleccione el icono Eliminar .
4. Selecciona Aplicar para guardar las palabras clave esperadas.
5. Repite para todos los casos de prueba que quieras comprobar para la coincidencia de palabras clave.

Similitud de texto

El método de prueba de similitud de texto compara la similitud de las respuestas del agente a las respuestas esperadas que defina en el conjunto de pruebas. Use este método de prueba cuando una respuesta correcta necesite coincidir exactamente con la respuesta esperada, o casi exactamente, en la estructura de palabras y oraciones. Por ejemplo, la redacción precisa suele ser necesaria cuando se genera un documento legal. Esta prueba se usa normalmente junto con el método de prueba Comparar significado que garantiza la similitud del significado, pero no garantiza la similitud de las palabras. También es distinto del método de prueba de coincidencia de palabra clave, que garantiza la presencia de determinados términos, pero no garantiza la similitud de la construcción. Si toda la respuesta debe coincidir exactamente con toda la respuesta esperada, use el método de prueba De coincidencia exacta en su lugar.

Una métrica de similitud de coseno evalúa hasta qué punto la respuesta del agente se parece a la formulación de la respuesta esperada y determina una puntuación. La puntuación oscila entre 0 y 1, donde 1 significa que la respuesta coincide estrechamente y 0 significa que no. Puede establecer un umbral de puntuación de aprobación para determinar qué constituye una puntuación de aprobación para una respuesta.

Al añadir o editar métodos de prueba, selecciona Similitud de texto.
Establece la puntuación de aprobado para este método.
Añade las respuestas esperadas. Cualquier caso de prueba sin respuestas esperadas genera un resultado no válido para este método de prueba.
1. Selecciona un caso de prueba.
2. Añade la respuesta que esperes.
3. Selecciona Solicitar para guardar la respuesta esperada.
4. Repite para todos los casos de prueba que quieras probar usando este método.

Coincidencia exacta

Disponible para conjuntos de pruebas de respuesta única. Coincidencia exacta comprueba si la respuesta del agente coincide exactamente con la respuesta esperada en la prueba: carácter para carácter, palabra para palabra. Si es lo mismo, pasa. Si algo difiere, se produce un error. La coincidencia exacta es útil para respuestas cortas y precisas, como números, códigos o frases fijas. No se adapta a las respuestas que las personas pueden expresar de varias maneras correctas.

Al añadir o editar métodos de prueba, selecciona Coincidencia exacta.
Añade las respuestas esperadas. Cualquier caso de prueba sin respuestas esperadas genera un resultado no válido para este método de prueba.
1. Selecciona un caso de prueba.
2. Añade la respuesta que esperes.
3. Selecciona Solicitar para guardar la respuesta esperada.
4. Repite para todos los casos de prueba que quieras probar usando este método.

Personalizada

Custom es un método de prueba personalizable. Permite probar y etiquetar las respuestas del agente mediante sus propios criterios. Por ejemplo, puede crear una prueba de cumplimiento para que un agente de RR. HH. etiquete las respuestas de prueba como conformes o no conformes con la descripción del cumplimiento de rr. HH.

Una prueba personalizada tiene dos componentes para configurar:

Instrucciones de evaluación: describe el objetivo que desea lograr con esta prueba. ¿Qué quiere que la prueba descubra sobre las respuestas de su agente?

Las buenas instrucciones de evaluación deben:

Sea orientado a objetivos.
Use solo los caracteres permitidos.
Use puntos de viñeta y encabezados para organizar.

Por ejemplo:

Evaluate the agent's response for HR policy compliance.

What to check:
- Determine whether the answer protects privacy and avoids revealing or requesting sensitive data.
- Avoids discrimination, bias, or inappropriate judgments.
- Provides safe, neutral, HR-aligned guidance.
- Does not give legal advice or make definitive claims.

Etiquetas: describe el resultado asignado a cada respuesta mediante la prueba personalizada. Las etiquetas también tienen asignaciones de aprobado/reprobado, las cuales se incluyen en el cálculo de la tasa de aprobación del conjunto de pruebas para este método de prueba.

Las etiquetas tienen un nombre y una descripción. Una buena descripción:

Es conciso.
Contiene los atributos que busca en las respuestas coincidentes.

Una estrategia para las etiquetas es tener dos: una para las respuestas que satisfacen con éxito los criterios que busca, y la otra para las respuestas que no lo hacen. Por ejemplo, una prueba personalizada de cumplimiento de directivas de RR. HH. podría tener conformes y no compatibles como etiquetas.

Al agregar o editar métodos de prueba, seleccione Personalizado.
Escriba un nombre para esta prueba personalizada.
Agregue instrucciones de evaluación.
Agregue dos o más etiquetas. Cada etiqueta tiene un nombre y una descripción.

Para agregar más etiquetas, seleccione Agregar etiqueta.

Los títulos de etiqueta solo pueden usar letras, números, espacio, guion -, subrayado _, barra diagonal /, ampersand o et &, signo más + y punto ..
Establezca el resultado Aprobado o Fallido para cada etiqueta.
Selecciona Aceptar.

Comentarios

¿Le ha resultado útil esta página?

Last updated on 2026-05-19