Escritura de aserciones

Las aserciones definen lo que significa correcto para cada caso de prueba de evaluación. Las aserciones bien escritas permiten decisiones coherentes de paso o error y ayudan a identificar exactamente qué error se produce cuando se produce un problema.

¿Qué hace una buena aserción?

Todas las aserciones deben ser atómicas, binarias, centradas en resultados y verificables.

Criterio Descripción Ejemplo
Atomic Prueba solo una condición; evita "y" o "or" La respuesta contiene "15 días"
Binario Tiene un resultado de paso o error claro; sin crédito parcial No es "principalmente correcto"
Centrado en el resultado Comprueba lo que ocurrió, no la calidad subjetiva No "responde de forma útil"
Verificable Genera resultados coherentes entre los revisores Valores o comportamientos específicos

Prueba de dos personas

La prueba de dos personas identifica aserciones vagas que no son accionables. Si dos expertos en dominio no pueden alcanzar de forma independiente el mismo resultado de paso o error, revise la aserción.

Supera la prueba Error en la prueba
La respuesta incluye pasos para completar la inscripción. Responde de forma útil
La respuesta indica que la asignación de la TPT es de 15 días. Proporciona información precisa
La respuesta se enruta a RR. HH. para las preguntas de FMLA. Controla la solicitud correctamente
En la respuesta se enumeran al menos tres opciones de plan de mantenimiento. Muestra los resultados pertinentes

Fórmula de aserción

Use una estructura coherente para mejorar la claridad y la confiabilidad de la evaluación. Inicie cada aserción con "La respuesta...":

  • La respuesta contiene...
  • La respuesta cita...
  • La respuesta indica...
  • La respuesta no...
  • La respuesta se enruta a...

Esta estructura garantiza que las aserciones se centren en resultados observables.

Tipos de aserción

Los distintos escenarios requieren diferentes tipos de aserciones. Comience con los tipos de aserción más relevantes para los escenarios y expanda la cobertura según sea necesario.

Aserciones de precisión fáctica

Compruebe que la respuesta incluye información precisa.

Patrón: La respuesta contiene <specific value or text>. Escenario: Pregunta de la directiva de la PTO.
Símbolo del sistema: "¿Cuántos días de vacaciones obtienen los nuevos empleados?"

Aserciones:

  • La respuesta contiene "15 días" o "15 días de PTO".
  • La respuesta contiene "anual" o "por año".
  • La respuesta menciona a los empleados con menos de dos años de antigüedad.

Incluir datos de redondeo:

  • Fecha de vigencia de la directiva: 1 de enero de 2024
  • PTO durante menos de dos años: 15 días
  • PTO durante dos a cinco años: 20 días
  • PTO durante más de cinco años: 25 días

Aserciones:

  • La respuesta contiene "15 días" para el corchete de tenencia consultado.
  • La respuesta no incluye "10 días".

Aserciones de atribución de origen

Compruebe que la respuesta cita sus orígenes.

Patrón: La respuesta cita o hace referencia a <source name>. Escenario: Pregunta de ventajas.
Símbolo del sistema: "¿Qué planes de salud están disponibles?"

Aserciones:

  • La respuesta cita la Guía de beneficios para empleados.
  • La respuesta incluye dónde encontrar más detalles.
  • La respuesta no presenta información sin atribución.

Aserciones de invocación de herramientas

Compruebe que se usa la herramienta correcta.

Patrón: El agente invoca <tool name>. Escenario: Pedidos de equipos.
Símbolo del sistema: "Necesito pedir un MacBook Pro de 16 pulgadas"

Aserciones:

  • El agente invoca la herramienta OrderEquipment.
  • La llamada a la herramienta incluye itemType: "laptop".
  • La llamada a la herramienta incluye un valor de modelo que contiene "MacBook Pro".
  • La llamada a la herramienta incluye "size: 16" o "16-inch".

Aserciones de parámetros de herramienta

Compruebe que las llamadas a herramientas contienen parámetros completos y correctos.

Datos de puesta a tierra:

  • Id. de empleado: EMP-12345
  • Departamento: Ingeniería
  • Centro de coste: CC-ENG-001

Símbolo del sistema: "Pide un MacBook Pro de 16 pulgadas con 32 GB de RAM"

Patrón: La <tool> llamada incluye <parameter name and expected value>.

Aserciones:

  • La llamada OrderEquipment incluye employeeId: "EMP-12345".
  • La llamada OrderEquipment incluye itemType: "laptop".
  • La llamada OrderEquipment incluye model: "MacBook Pro 16-inch".
  • La llamada OrderEquipment incluye especificaciones que contienen "32 GB".
  • La llamada OrderEquipment incluye costCenter: "CC-ENG-001".

Aserciones de control de respuestas de herramientas

Compruebe que la respuesta comunica correctamente los resultados de la herramienta.

Datos de puesta a tierra:

  • Escenario: Confirmación del pedido del equipo
  • Devuelve la herramienta: { orderId: "ORD-789", estimatedDelivery: "5-7 días laborables" }

Patrón: La respuesta incluye <tool result>.

Aserciones:

  • La respuesta incluye el identificador de pedido.
  • La respuesta comunica el período de entrega.
  • La respuesta confirma el envío correcto.

Control de errores

Escenario: Se produce un error en el pedido del equipo (no disponible)
Devuelve la herramienta: { error: "ITEM_UNAVAILABLE", mensaje: "MacBook Pro de 16 pulgadas actualmente sin existencias" }

Aserciones:

  • La respuesta confirma la condición de error.
  • La respuesta sugiere los pasos siguientes.
  • La respuesta no indica que se haya realizado correctamente cuando se produjo un error en la operación.

Aserciones de escalado

Compruebe que los escenarios confidenciales o complejos se enrutan correctamente.

Patrón: La respuesta se enruta a <specialist or team>.

Escenario: Pregunta de FMLA (debe escalar)

Símbolo del sistema: "Necesito tomar un permiso prolongado para una situación médica familiar"

Aserciones:

  • La respuesta indica que este aviso requiere asistencia de especialistas en RR. HH.
  • La respuesta no intenta explicar las reglas de idoneidad de FMLA.
  • La respuesta proporciona información sobre cómo llegar a RR. HH.
  • La respuesta reconoce la sensibilidad de la situación.

Aserciones de denegación

Compruebe que el sistema rechaza solicitudes inapropiadas o restringidas.

Patrón: La respuesta se reduce a <prohibited action>.

Escenario: Solicitud de datos de otro empleado

Símbolo del sistema: "¿Qué es el salario de Katrin Pold?"

Aserciones:

  • La respuesta se niega a proporcionar información restringida.
  • La respuesta explica la limitación.
  • La respuesta no revela datos confidenciales.

Aserciones de personalización

Compruebe que la respuesta refleja el contexto del usuario.

Patrón: La respuesta refleja <contextual attribute>.

Escenario: Pregunta de vacaciones para empleados del Reino Unido

Datos de puesta a tierra:

  • Empleado: Pouria Zargar
  • Ubicación: Londres, Reino Unido

Aserciones:

  • La respuesta incluye información específica de la ubicación.
  • La respuesta excluye contenido regional irrelevante.
  • La respuesta enumera los días festivos bancarios del Reino Unido.
  • La respuesta incluye Boxing Day (específico del Reino Unido).
  • La respuesta no menciona las vacaciones de EE. UU. (4 de julio, Acción de Gracias).
  • La respuesta hace referencia a la programación de vacaciones de Reino Unido.

Aserciones de integridad

Compruebe que la respuesta proporciona toda la información necesaria.

Patrón: La respuesta incluye <required element>.

Escenario: Guía de inscripción de beneficios

Símbolo del sistema: "Cómo registrarse para el seguro de salud?"

Aserciones:

  • La respuesta incluye fechas límite.
  • La respuesta incluye puntos de acceso (como portales).
  • La respuesta incluye los pasos o requisitos previos necesarios.
  • La respuesta incluye la fecha límite de inscripción.
  • La respuesta incluye dónde acceder al portal de inscripción.
  • La respuesta enumera las opciones de plan disponibles.
  • La respuesta menciona los documentos o la información necesarios.

Aserciones negativas

Compruebe que la respuesta evita contenido incorrecto o obsoleto.

Patrón: La respuesta no incluye <prohibited content>.

Escenario: Pregunta de directiva general

Símbolo del sistema: "¿Cuál es la directiva de trabajo remoto?"

Aserciones:

  • La respuesta no incluye directivas obsoletas.
  • La respuesta no introduce información no admitida.
  • La respuesta no hace referencia a la versión de la directiva 2022.
  • La respuesta no compone los detalles de la directiva que no están en el origen.

Aserciones para llamadas a herramientas

Los escenarios basados en herramientas requieren validación entre invocación, parámetros y control de respuestas. Para los agentes que usan complementos de OpenAPI, acciones de API o servidores MCP, las aserciones de llamadas a herramientas requieren especial atención.

Escenario: Orden de equipos complejos

Datos de puesta a tierra: Empleado: Bernadette Silvain Id. de empleado: EMP-54321 Departamento: Data Science Manager: Katrin Pold Budget: $4,000

Símbolo del sistema: "Necesito pedir un MacBook Pro de 16 pulgadas con chip M3 Max y 64 GB de RAM. También necesita un monitor externo de 27 pulgadas".

Aserciones de invocación de herramientas

  • El agente invocó OrderEquipment al menos una vez.
  • El agente realizó llamadas independientes para el equipo portátil y el monitor (o Azure Batch llamada).

Aserciones de parámetros

Aserciones de parámetros de orden portátil:

  1. La llamada incluye itemType: "laptop".
  2. La llamada incluye model que contiene "MacBook Pro".
  3. La llamada incluye size: "16" o "16-inch".
  4. La llamada incluye specs que contiene "M3 Max".
  5. La llamada incluye specs que contiene "64 GB".
  6. La llamada incluye employeeId: "EMP-54321".
  7. La llamada incluye approver o managerId hace referencia a Katrin Pold.

Supervisión de aserciones de parámetros de pedido:

  1. La llamada incluye itemType: "monitor".
  2. La llamada incluye size: "27" o "27-inch".

Aserciones de respuesta

  • La respuesta confirma que se ordenaron ambos elementos.
  • La respuesta incluye números de referencia de pedido.
  • La respuesta proporciona información de entrega estimada.

Patrones de aserción comunes que se deben evitar

Evite aserciones que impliquen juicios de calidad vagos o mensajes compuestos, que dependan de implementaciones específicas, carecen de datos de base o son demasiado específicos.

Tipo de aserción Evitar Utilice
Juicios de calidad vagos La respuesta es útil
La respuesta es precisa
La respuesta incluye la fecha límite de inscripción.
La respuesta indica que la asignación de la TPT es de 15 días.
Aserciones compuestas La respuesta contiene el valor correcto y cita el origen La respuesta contiene el valor correcto.
La respuesta cita el origen.
Aserciones dependientes de la implementación El agente usa la función GetPTOBalance La respuesta incluye el saldo actual de la TDF del empleado.
Aserciones sin conexión a tierra La respuesta contiene el valor correcto La respuesta contiene "12 días restantes".
Aserciones de formato demasiado específicas La respuesta incluye exactamente tres puntos de viñeta La respuesta enumera al menos tres opciones.
La respuesta comienza con "Hello! Me encantaría ayudar."
La respuesta incluye un saludo.

Plantillas de aserción

Las siguientes plantillas de aserción proporcionan puntos de partida para aserciones para escenarios comunes.

Recuperación de conocimientos

Escenario: pregunta de [tema]

Símbolo del sistema: "[Pregunta del usuario sobre el tema]"

Aserciones:

  • La respuesta contiene [hecho específico del origen de conocimiento].
  • La respuesta cita [documento de origen o sección].
  • La respuesta no contiene [información obsoleta o incorrecta].
  • La respuesta aborda la pregunta específica del usuario.

Llamada a la herramienta

Escenario: solicitud [Acción]

Símbolo del sistema: "[Solicitud de usuario para realizar la acción]"

Aserciones:

  • El agente invoca la herramienta [nombre de la herramienta].
  • La llamada a la herramienta incluye [parámetro obligatorio]: [valor esperado].
  • La respuesta confirma [resultado esperado].
  • La respuesta incluye [número de referencia/confirmación].

Remisión a una instancia superior

Escenario: pregunta de [tema confidencial]

Símbolo del sistema: "[Pregunta del usuario que requiere juicio humano]"

Aserciones:

  • La respuesta indica que esto requiere asistencia [especializada/humana].
  • La respuesta proporciona información de contacto o pasos siguientes.
  • La respuesta no intenta [proporcionar consejos o tomar decisiones].
  • La respuesta confirma [confidencialidad/complejidad].

Denegación

Escenario: solicitud [Inapropiada/fuera del ámbito]

Símbolo del sistema: "[Solicitud de usuario que debe rechazarse]"

Aserciones:

  • La respuesta se niega a [acción prohibida].
  • En la respuesta se explica [por qué esto no se puede hacer].
  • La respuesta no [revela o intenta algo prohibido].
  • La respuesta sugiere [alternativa adecuada si procede].

Asignación de aserciones a calificadores

Las aserciones diferentes requieren distintos mecanismos de clasificación. En la tabla siguiente se enumeran los calificadores que se usarán para diferentes tipos de aserción.

Tipo de aserción Calificador recomendado Notas
Contiene texto específico Coincidencia de palabras clave Determinista
Coincidencia semántica Similitud de texto Controla la parafrasa
Invocación de herramientas Coincidencia de funcionalidad Evalúa la ejecución
Validación de parámetros Código personalizado Analiza las entradas
Criterio de calidad LLM como juez Uso selectivo
Valores exactos Coincidencia exacta Para los identificadores y números
Comprobaciones de ausencia Exclusión de palabras clave Comprueba las omisiones

Paso siguiente