Nota:
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
Las aserciones definen lo que significa correcto para cada caso de prueba de evaluación. Las aserciones bien escritas permiten decisiones coherentes de paso o error y ayudan a identificar exactamente qué error se produce cuando se produce un problema.
¿Qué hace una buena aserción?
Todas las aserciones deben ser atómicas, binarias, centradas en resultados y verificables.
| Criterio | Descripción | Ejemplo |
|---|---|---|
| Atomic | Prueba solo una condición; evita "y" o "or" | La respuesta contiene "15 días" |
| Binario | Tiene un resultado de paso o error claro; sin crédito parcial | No es "principalmente correcto" |
| Centrado en el resultado | Comprueba lo que ocurrió, no la calidad subjetiva | No "responde de forma útil" |
| Verificable | Genera resultados coherentes entre los revisores | Valores o comportamientos específicos |
Prueba de dos personas
La prueba de dos personas identifica aserciones vagas que no son accionables. Si dos expertos en dominio no pueden alcanzar de forma independiente el mismo resultado de paso o error, revise la aserción.
| Supera la prueba | Error en la prueba |
|---|---|
| La respuesta incluye pasos para completar la inscripción. | Responde de forma útil |
| La respuesta indica que la asignación de la TPT es de 15 días. | Proporciona información precisa |
| La respuesta se enruta a RR. HH. para las preguntas de FMLA. | Controla la solicitud correctamente |
| En la respuesta se enumeran al menos tres opciones de plan de mantenimiento. | Muestra los resultados pertinentes |
Fórmula de aserción
Use una estructura coherente para mejorar la claridad y la confiabilidad de la evaluación. Inicie cada aserción con "La respuesta...":
- La respuesta contiene...
- La respuesta cita...
- La respuesta indica...
- La respuesta no...
- La respuesta se enruta a...
Esta estructura garantiza que las aserciones se centren en resultados observables.
Tipos de aserción
Los distintos escenarios requieren diferentes tipos de aserciones. Comience con los tipos de aserción más relevantes para los escenarios y expanda la cobertura según sea necesario.
Aserciones de precisión fáctica
Compruebe que la respuesta incluye información precisa.
Patrón: La respuesta contiene <specific value or text>.
Escenario: Pregunta de la directiva de la PTO.
Símbolo del sistema: "¿Cuántos días de vacaciones obtienen los nuevos empleados?"
Aserciones:
- La respuesta contiene "15 días" o "15 días de PTO".
- La respuesta contiene "anual" o "por año".
- La respuesta menciona a los empleados con menos de dos años de antigüedad.
Incluir datos de redondeo:
- Fecha de vigencia de la directiva: 1 de enero de 2024
- PTO durante menos de dos años: 15 días
- PTO durante dos a cinco años: 20 días
- PTO durante más de cinco años: 25 días
Aserciones:
- La respuesta contiene "15 días" para el corchete de tenencia consultado.
- La respuesta no incluye "10 días".
Aserciones de atribución de origen
Compruebe que la respuesta cita sus orígenes.
Patrón: La respuesta cita o hace referencia a <source name>.
Escenario: Pregunta de ventajas.
Símbolo del sistema: "¿Qué planes de salud están disponibles?"
Aserciones:
- La respuesta cita la Guía de beneficios para empleados.
- La respuesta incluye dónde encontrar más detalles.
- La respuesta no presenta información sin atribución.
Aserciones de invocación de herramientas
Compruebe que se usa la herramienta correcta.
Patrón: El agente invoca <tool name>.
Escenario: Pedidos de equipos.
Símbolo del sistema: "Necesito pedir un MacBook Pro de 16 pulgadas"
Aserciones:
- El agente invoca la herramienta OrderEquipment.
- La llamada a la herramienta incluye
itemType: "laptop". - La llamada a la herramienta incluye un valor de modelo que contiene "MacBook Pro".
- La llamada a la herramienta incluye "size: 16" o "16-inch".
Aserciones de parámetros de herramienta
Compruebe que las llamadas a herramientas contienen parámetros completos y correctos.
Datos de puesta a tierra:
- Id. de empleado: EMP-12345
- Departamento: Ingeniería
- Centro de coste: CC-ENG-001
Símbolo del sistema: "Pide un MacBook Pro de 16 pulgadas con 32 GB de RAM"
Patrón: La <tool> llamada incluye <parameter name and expected value>.
Aserciones:
- La llamada OrderEquipment incluye
employeeId: "EMP-12345". - La llamada OrderEquipment incluye
itemType: "laptop". - La llamada OrderEquipment incluye
model: "MacBook Pro 16-inch". - La llamada OrderEquipment incluye especificaciones que contienen "32 GB".
- La llamada OrderEquipment incluye
costCenter: "CC-ENG-001".
Aserciones de control de respuestas de herramientas
Compruebe que la respuesta comunica correctamente los resultados de la herramienta.
Datos de puesta a tierra:
- Escenario: Confirmación del pedido del equipo
- Devuelve la herramienta: { orderId: "ORD-789", estimatedDelivery: "5-7 días laborables" }
Patrón: La respuesta incluye <tool result>.
Aserciones:
- La respuesta incluye el identificador de pedido.
- La respuesta comunica el período de entrega.
- La respuesta confirma el envío correcto.
Control de errores
Escenario: Se produce un error en el pedido del equipo (no disponible)
Devuelve la herramienta: { error: "ITEM_UNAVAILABLE", mensaje: "MacBook Pro de 16 pulgadas actualmente sin existencias" }
Aserciones:
- La respuesta confirma la condición de error.
- La respuesta sugiere los pasos siguientes.
- La respuesta no indica que se haya realizado correctamente cuando se produjo un error en la operación.
Aserciones de escalado
Compruebe que los escenarios confidenciales o complejos se enrutan correctamente.
Patrón: La respuesta se enruta a <specialist or team>.
Escenario: Pregunta de FMLA (debe escalar)
Símbolo del sistema: "Necesito tomar un permiso prolongado para una situación médica familiar"
Aserciones:
- La respuesta indica que este aviso requiere asistencia de especialistas en RR. HH.
- La respuesta no intenta explicar las reglas de idoneidad de FMLA.
- La respuesta proporciona información sobre cómo llegar a RR. HH.
- La respuesta reconoce la sensibilidad de la situación.
Aserciones de denegación
Compruebe que el sistema rechaza solicitudes inapropiadas o restringidas.
Patrón: La respuesta se reduce a <prohibited action>.
Escenario: Solicitud de datos de otro empleado
Símbolo del sistema: "¿Qué es el salario de Katrin Pold?"
Aserciones:
- La respuesta se niega a proporcionar información restringida.
- La respuesta explica la limitación.
- La respuesta no revela datos confidenciales.
Aserciones de personalización
Compruebe que la respuesta refleja el contexto del usuario.
Patrón: La respuesta refleja <contextual attribute>.
Escenario: Pregunta de vacaciones para empleados del Reino Unido
Datos de puesta a tierra:
- Empleado: Pouria Zargar
- Ubicación: Londres, Reino Unido
Aserciones:
- La respuesta incluye información específica de la ubicación.
- La respuesta excluye contenido regional irrelevante.
- La respuesta enumera los días festivos bancarios del Reino Unido.
- La respuesta incluye Boxing Day (específico del Reino Unido).
- La respuesta no menciona las vacaciones de EE. UU. (4 de julio, Acción de Gracias).
- La respuesta hace referencia a la programación de vacaciones de Reino Unido.
Aserciones de integridad
Compruebe que la respuesta proporciona toda la información necesaria.
Patrón: La respuesta incluye <required element>.
Escenario: Guía de inscripción de beneficios
Símbolo del sistema: "Cómo registrarse para el seguro de salud?"
Aserciones:
- La respuesta incluye fechas límite.
- La respuesta incluye puntos de acceso (como portales).
- La respuesta incluye los pasos o requisitos previos necesarios.
- La respuesta incluye la fecha límite de inscripción.
- La respuesta incluye dónde acceder al portal de inscripción.
- La respuesta enumera las opciones de plan disponibles.
- La respuesta menciona los documentos o la información necesarios.
Aserciones negativas
Compruebe que la respuesta evita contenido incorrecto o obsoleto.
Patrón: La respuesta no incluye <prohibited content>.
Escenario: Pregunta de directiva general
Símbolo del sistema: "¿Cuál es la directiva de trabajo remoto?"
Aserciones:
- La respuesta no incluye directivas obsoletas.
- La respuesta no introduce información no admitida.
- La respuesta no hace referencia a la versión de la directiva 2022.
- La respuesta no compone los detalles de la directiva que no están en el origen.
Aserciones para llamadas a herramientas
Los escenarios basados en herramientas requieren validación entre invocación, parámetros y control de respuestas. Para los agentes que usan complementos de OpenAPI, acciones de API o servidores MCP, las aserciones de llamadas a herramientas requieren especial atención.
Escenario: Orden de equipos complejos
Datos de puesta a tierra: Empleado: Bernadette Silvain Id. de empleado: EMP-54321 Departamento: Data Science Manager: Katrin Pold Budget: $4,000
Símbolo del sistema: "Necesito pedir un MacBook Pro de 16 pulgadas con chip M3 Max y 64 GB de RAM. También necesita un monitor externo de 27 pulgadas".
Aserciones de invocación de herramientas
- El agente invocó
OrderEquipmental menos una vez. - El agente realizó llamadas independientes para el equipo portátil y el monitor (o Azure Batch llamada).
Aserciones de parámetros
Aserciones de parámetros de orden portátil:
- La llamada incluye
itemType: "laptop". - La llamada incluye
modelque contiene "MacBook Pro". - La llamada incluye
size: "16"o"16-inch". - La llamada incluye
specsque contiene "M3 Max". - La llamada incluye
specsque contiene "64 GB". - La llamada incluye
employeeId: "EMP-54321". - La llamada incluye
approveromanagerIdhace referencia a Katrin Pold.
Supervisión de aserciones de parámetros de pedido:
- La llamada incluye
itemType: "monitor". - La llamada incluye
size: "27"o"27-inch".
Aserciones de respuesta
- La respuesta confirma que se ordenaron ambos elementos.
- La respuesta incluye números de referencia de pedido.
- La respuesta proporciona información de entrega estimada.
Patrones de aserción comunes que se deben evitar
Evite aserciones que impliquen juicios de calidad vagos o mensajes compuestos, que dependan de implementaciones específicas, carecen de datos de base o son demasiado específicos.
| Tipo de aserción | Evitar | Utilice |
|---|---|---|
| Juicios de calidad vagos | La respuesta es útil La respuesta es precisa |
La respuesta incluye la fecha límite de inscripción. La respuesta indica que la asignación de la TPT es de 15 días. |
| Aserciones compuestas | La respuesta contiene el valor correcto y cita el origen | La respuesta contiene el valor correcto. La respuesta cita el origen. |
| Aserciones dependientes de la implementación | El agente usa la función GetPTOBalance | La respuesta incluye el saldo actual de la TDF del empleado. |
| Aserciones sin conexión a tierra | La respuesta contiene el valor correcto | La respuesta contiene "12 días restantes". |
| Aserciones de formato demasiado específicas | La respuesta incluye exactamente tres puntos de viñeta | La respuesta enumera al menos tres opciones. La respuesta comienza con "Hello! Me encantaría ayudar." La respuesta incluye un saludo. |
Plantillas de aserción
Las siguientes plantillas de aserción proporcionan puntos de partida para aserciones para escenarios comunes.
Recuperación de conocimientos
Escenario: pregunta de [tema]
Símbolo del sistema: "[Pregunta del usuario sobre el tema]"
Aserciones:
- La respuesta contiene [hecho específico del origen de conocimiento].
- La respuesta cita [documento de origen o sección].
- La respuesta no contiene [información obsoleta o incorrecta].
- La respuesta aborda la pregunta específica del usuario.
Llamada a la herramienta
Escenario: solicitud [Acción]
Símbolo del sistema: "[Solicitud de usuario para realizar la acción]"
Aserciones:
- El agente invoca la herramienta [nombre de la herramienta].
- La llamada a la herramienta incluye [parámetro obligatorio]: [valor esperado].
- La respuesta confirma [resultado esperado].
- La respuesta incluye [número de referencia/confirmación].
Remisión a una instancia superior
Escenario: pregunta de [tema confidencial]
Símbolo del sistema: "[Pregunta del usuario que requiere juicio humano]"
Aserciones:
- La respuesta indica que esto requiere asistencia [especializada/humana].
- La respuesta proporciona información de contacto o pasos siguientes.
- La respuesta no intenta [proporcionar consejos o tomar decisiones].
- La respuesta confirma [confidencialidad/complejidad].
Denegación
Escenario: solicitud [Inapropiada/fuera del ámbito]
Símbolo del sistema: "[Solicitud de usuario que debe rechazarse]"
Aserciones:
- La respuesta se niega a [acción prohibida].
- En la respuesta se explica [por qué esto no se puede hacer].
- La respuesta no [revela o intenta algo prohibido].
- La respuesta sugiere [alternativa adecuada si procede].
Asignación de aserciones a calificadores
Las aserciones diferentes requieren distintos mecanismos de clasificación. En la tabla siguiente se enumeran los calificadores que se usarán para diferentes tipos de aserción.
| Tipo de aserción | Calificador recomendado | Notas |
|---|---|---|
| Contiene texto específico | Coincidencia de palabras clave | Determinista |
| Coincidencia semántica | Similitud de texto | Controla la parafrasa |
| Invocación de herramientas | Coincidencia de funcionalidad | Evalúa la ejecución |
| Validación de parámetros | Código personalizado | Analiza las entradas |
| Criterio de calidad | LLM como juez | Uso selectivo |
| Valores exactos | Coincidencia exacta | Para los identificadores y números |
| Comprobaciones de ausencia | Exclusión de palabras clave | Comprueba las omisiones |