Aplicar el marco de evaluación a través de escenarios prácticos

Estos recorridos de extremo a extremo ilustran cómo operan en conjunto las capas del marco de evaluación de triaje en la práctica. Cada recorrido comienza desde un escenario de evaluación diferente y sigue una ruta de diagnóstico distinta.

Los tutoriales muestran cómo aplicar el marco paso a paso. Use estos ejemplos para comprender cómo pasar de los resultados de la evaluación al diagnóstico, la corrección y la comprobación en escenarios de evaluación de agentes reales.

Sugerencia

Antes de trabajar con estos ejemplos, revise los objetivos del marco, incluidos los conceptos básicos y los principios.

Viaje	Situación inicial	Lo que muestra
Recorrido 1	Primera ejecución de la evaluación	Flujo de un extremo a otro: Interpretar → Priorizar → Evaluación de prioridades → corregir → Comprobar
Recorrido 2	Las puntuaciones se estancan después de múltiples iteraciones.	Análisis de patrones, reclasificación y soluciones alternativas de limitación de plataforma
Recorrido 3	Las puntuaciones regresan después de un cambio	Detección de regresión, diagnóstico de conflictos de instrucciones y resolución de inconvenientes

Nota:

Estos ejemplos son ilustrativos y basados en patrones comunes observados en varias ejecuciones de evaluación de clientes. Los casos de prueba, las puntuaciones y los detalles del agente son composiciones representativas en vez de registros de una sola interacción. Los enfoques de diagnóstico y las estrategias de corrección que se muestran reflejan las prácticas usadas en implementaciones reales.

Recorrido 1: Primera ejecución de prueba

Ejecutas su conjunto de evaluación por primera vez en un agente de soporte al cliente. He aquí los resultados:

Conjunto de evaluación	Tasa de pases
Datos personales y de seguridad	100 %
Preguntas y respuestas empresariales principales	87 %
Fundamentación del conocimiento	71%
Invocación de herramientas	92%
Enrutamiento de desencadenadores	88%
Tono y calidad	83%
Escalación	90%
General	85%

Paso 1: Interpretar puntuaciones (capa 1)

Use la tabla de interpretación de puntuación para calibrar los umbrales e identificar qué conjuntos de evaluación están por debajo de los umbrales de bloqueo.

Conjunto de evaluación	Puntuación	Umbral	Situación
Datos personales y de seguridad	100 %	95% de bloqueo	Aprobado
Preguntas y respuestas empresariales principales	87 %	Bloqueo al 80%	Aprobado
Fundamentación del conocimiento	71%	Bloqueo de 80%	Bloqueo inferior
Invocación de herramientas	92%	85% de bloqueo	Aprobado
Enrutamiento de desencadenadores	88%	Bloqueo de 80%	Aprobado
Tono y calidad	83%	75% de bloqueo	Aprobado
Escalación	90%	85% de bloqueo	Aprobado

Evaluación de preparación: iteración. La base de conocimiento está por debajo de su umbral de bloqueo. Dirige la remediación allí.

Paso 2: Priorizar los errores (nivel 2, paso 0)

Situación: La base del conocimiento tiene siete casos de prueba. Dos casos de prueba fallan: KG-003 y KG-005. Ambos casos de prueba están en un conjunto de evaluación empresarial básico, por lo que son prioridad 2. Puesto que solo hay dos, priorizar ambos.

Referencia: Priorizar errores (nivel 2, paso 0)

Paso 3: Evaluación de prioridades KG-003 (capa 2, pasos 1-2)

Caso de prueba KG-003:

Entrada de ejemplo: "¿Cuál es la política de devoluciones?"
Respuesta esperada: "Ofrecemos una ventana de devolución de 30 días para todas las compras".
Respuesta del agente: "Nuestra política de devolución permite devoluciones en un plazo de 15 días laborables de la compra".
Método de evaluación: Coincidencia de palabra clave
Resultado: Error (se esperaba "30 días", el agente dijo "15 días laborables")

Compruebe la configuración de evaluación (paso 1 de la capa 2):

Pregunta	Respuesta	Resultado
¿Es aceptable la respuesta del agente?	Debe comprobar el documento de origen.	Compruebe primero el origen.
¿La respuesta esperada sigue siendo actual?	El documento de origen indica "15 días laborables". Se actualizó la directiva.	N.º La respuesta esperada está obsoleta.

Clasificación: problema de configuración de evaluación. Respuesta esperada obsoleta. El agente tiene razón. La evaluación es incorrecta.

Paso 4: Triage KG-005 (Capa 2, Pasos 1-2)

Caso de prueba KG-005:

Entrada de ejemplo: "¿Incluye el plan Premium una garantía extendida?"
Respuesta esperada: "El plan Premium incluye una garantía estándar de dos años. Las opciones de garantía extendida están disponibles para su compra por separado".
Respuesta del agente: "Sí, el plan Premium incluye una garantía extendida de tres años que cubre todas las piezas y mano de obra".
Método de evaluación: Comparación de significado
Resultado: Error (detalles de garantía fabricados por agente)

Compruebe la configuración de evaluación (paso 1 de la capa 2):

Pregunta	Respuesta	Resultado
¿Es aceptable la respuesta del agente?	N.º "La 'garantía extendida de tres años' es inventada."	Continuar
¿Es la respuesta esperada actual?	Sí. Source confirma la garantía estándar de dos años.	Continuar
¿Es realista el caso de prueba?	Sí. Pregunta común del cliente.	Continuar
¿Podría ser correcta una respuesta alternativa?	N.º Los detalles de la garantía son fácticos.	Continuar
¿Es adecuado el método de evaluación?	Sí.Comparar el significado es adecuado para garantizar la precisión semántica.	La evaluación es válida.

Diagnóstico del agente (paso 2 de la capa 2):

Pregunta	Respuesta
¿El contenido de origen es incorrecto?	N.º Fuente dice "garantía estándar de dos años".
¿El agente contradijo información en el origen?	Sí. Fuente dice "garantía estándar de dos años", pero el agente dijo "garantía extendida de tres años".
¿Respondió el agente sin usar ningún origen?	Probablemente sí. La "garantía extendida de tres años que cubre todas las piezas y mano de obra" no existe en ninguna fuente.

Clasificación: problema de configuración del agente. Brecha en la base del conocimiento. El agente produjo detalles de garantía que no están presentes en los orígenes de conocimiento configurados.

Paso 5: Corrección (capa 3)

KG-003 (Remediación de configuración de evaluación):

Cambio: Actualice el valor esperado de "ventana de devolución de 30 días" a "15 días laborables".
Volver a ejecutar: KG-003 solo
Resultado: Aprobado

KG-005 (corrección de configuración del agente):

Cambio: Agregue instrucciones de conexión a tierra a la solicitud del sistema: "Responda solo basado en la información encontrada en sus fuentes de conocimiento. Si la información no está disponible, dígalo.
Volver a ejecutar: Conjunto de evaluación basado en el conocimiento completo (el cambio de configuración del agente puede tener efectos más amplios)
Espere: KG-005 pasa. Otros casos de prueba no deben retroceder.

Paso 6: Comprobar

Después de realizar ambos cambios, ejecute nuevamente el conjunto de evaluación de la base de conocimiento.

antes de	después de
71% (5/7 aprobados)	86% (6/7 aprobados)

Evaluación: La base de conocimiento está ahora por encima del umbral de bloqueo de 80%. Un error (KG-007) permanece y no bloquea la preparación. Revíselo en la siguiente iteración.

Paso 7: Documento (capa 4)

Registro en el registro de errores:

Caso de prueba	Tipo de causa principal	Problema observado	Cambio aplicado	Resuelto
KG-003	Configuración de evaluación	Respuesta esperada obsoleta (la directiva ha cambiado de 30 días a 15 días laborables).	Valor esperado actualizado	Sí
KG-005	Configuración del agente	Detalles de garantía incorrectos que no están en ningún origen.	Se ha agregado una instrucción de puesta a tierra al indicador del sistema.	Sí

Nota de patrón: Compruebe los valores esperados en los documentos de origen antes de cada ejecución de evaluación. Agregue este paso a la lista de comprobación de evaluación previa.

Volver a comprobar la preparación: Todos los conjuntos de evaluación ahora están por encima de los umbrales de bloqueo.

Evaluación de la preparación: Desplegar el agente con brechas conocidas (documentado KG-007, plan de supervisión en marcha).

Referencia: Nivel 4: Analizar patrones y mejorar continuamente el agente

Viaje 2: Meseta de puntuación

Situación: Ejecute cuatro iteraciones en un agente de soporte técnico de productos. La exactitud factual permanece en el 78% durante las cuatro ejecuciones. Haces cambios rápidos después de cada ejecución, pero no ves ninguna mejora.

Paso 1: Comprobar patrones (capa 4)

Revise el registro de errores en las cuatro iteraciones:

Iteración	Puntuación	Cambio aplicado	Resultado
1	78 %	(línea base)	—
2	79 %	Se ha agregado "Ser preciso acerca de las especificaciones del producto"	Ningún cambio significativo
3	77%	Instrucción reorganizada para colocar primero las instrucciones de precisión.	Ningún cambio significativo
4	78 %	Se han agregado ejemplos prácticos de respuestas de producto correctas.	Ningún cambio significativo

Tendencia: Plana. La corrección no aborda la causa raíz real.

Referencia: Nivel 4: Analizar patrones y mejorar continuamente el agente

Paso 2: Análisis de casos de prueba con errores

Revise los seis errores persistentes en todas las iteraciones.

Caso de prueba	Error desde	Problema observado
FA-002	Iteración 1	El agente cita la página de preguntas frecuentes en lugar del manual del producto
FA-005	Iteración 1	Página de preguntas frecuentes citada por el agente en lugar del manual del producto
FA-008	Iteración 1	El agente cita la página de preguntas frecuentes en lugar del manual del producto
FA-011	Iteración 1	El agente cita la página de preguntas frecuentes en lugar del manual del producto
FA-014	Iteración 1	El agente cita la página de preguntas frecuentes en lugar del manual del producto
FA-019	Iteración 2	El agente proporciona una respuesta parcial de las preguntas más frecuentes, se pierden detalles del manual.

Análisis de concentración: Cinco de seis errores (83%) implican la misma causa principal: el agente recupera información de la página de preguntas más frecuentes en lugar del manual del producto.

Paso 3: Reclasificación (Capa 2)

Inicialmente, clasifique los errores como problema de configuración del agente: origen incorrecto recuperado.

Aplique varios cambios de configuración del agente, incluida la nueva redacción de mensajes, el reordenamiento y la adición de ejemplos. Estos cambios no dan lugar a una mejora medible. En este momento, valide el error con los indicadores de limitación de plataforma.

Indicator	Check
El error persiste en varias variaciones de solicitud o configuración	Sí. Cuatro iteraciones sin cambios.
La recuperación devuelve de forma coherente documentos incorrectos a pesar de la configuración de origen correcta	Sí. Las preguntas más frecuentes se recuperan de forma coherente en lugar del manual del producto.

Reclasificación: Este problema es una limitación de plataforma relacionada con la clasificación de recuperación. La plataforma da prioridad de forma coherente a las preguntas más frecuentes sobre el manual del producto para estas consultas y los cambios de solicitud o instrucciones adicionales no afectan al comportamiento de recuperación.

Referencia: Nivel 2: Errores del agente de evaluación de prioridades

Paso 4: Corrección (limitación de la plataforma de nivel 3)

Al clasificar un error como limitación de la plataforma, centre la corrección en soluciones alternativas y documentación en lugar de realizar cambios en la configuración del agente.

Referencia: Respuesta de limitación de plataforma

Estrategia alternativa: aplique uno o varios de los siguientes enfoques de mitigación para reducir el impacto:

Reestructurar el manual del producto con encabezados de sección más claros que se alinean con el vocabulario usado en las consultas de usuario.
Duplica las especificaciones críticas del producto del manual en las preguntas más frecuentes para crear rutas de recuperación redundantes.
Refactorice el contenido manual para que cada sección aborde una única pregunta bien definida para mejorar la coincidencia de fragmentos de recuperación.

Estos enfoques tienen como objetivo influir en el comportamiento de recuperación sin depender de cambios de instrucciones o avisos.

Escalación y seguimiento: si la limitación persiste, documente y escale el problema al equipo de la plataforma.

Documente la limitación de la siguiente manera: "Las consultas para <especificaciones> de producto recuperan de forma coherente la página de preguntas más frecuentes (última actualización: <fecha>, <n> páginas) en lugar del manual del producto (última actualización: <fecha>, <N> páginas), a pesar del manual que contiene la información autoritativa".
Proporcionar evidencia complementaria: incluya varios casos de prueba que muestren la consulta, el origen esperado y el origen real recuperados.
Enviar para investigación.
Comparta la limitación documentada y la evidencia con el equipo de la plataforma para su seguimiento y control.

Paso 5: Comprobar

Después de reestructurar el manual del producto y agregar entradas de preguntas más frecuentes redundantes, vuelva a ejecutar el conjunto de evaluación pertinente para comprobar el impacto.

antes de	después de
78% (sin cambios en cuatro iteraciones)	89%

Evaluación: La solución alternativa mejora el rendimiento general. Una falla permanece (FA-019). La consulta es demasiado ambigua para recuperar de forma confiable el origen correcto, incluso con contenido reestructurado. Este error se registra como una limitación conocida.

Paso 6: Documento

Actualice el registro de errores para reflejar la clasificación final y los resultados.

Caso de prueba	Tipo de causa principal	Problema observado	Cambio aplicado	Resuelto
FA-002, 005, 008, 011, 014	Limitación de la plataforma	La clasificación de recuperación da prioridad a las preguntas más frecuentes sobre el manual del producto	Títulos manuales reestructurados; Especificaciones críticas duplicadas en las preguntas más frecuentes	Sí
FA-019	Limitación de la plataforma	La consulta ambigua no puede recuperar de forma confiable el origen correcto	Documentado como una limitación conocida	No

Conclusiones clave: Si las puntuaciones de evaluación se mantienen constantes entre varios cambios de indicaciones o instrucciones, es poco probable que la causa principal sea la indicación. Valide el comportamiento de la infraestructura y la plataforma antes de invertir más en la ingeniería rápida.

Recorrido 3: Regresión posterior a la actualización

Situación: Ha actualizado el mensaje del sistema para mejorar el tono y la empatía. Las puntuaciones de tono aumentaron, pero la precisión fáctica cayó por debajo de su umbral de bloqueo, introduciendo una regresión.

Antes del cambio:

Conjunto de evaluación	Puntuación
Precisión fáctica	91%
Tono y calidad	83%
Todos los demás	Por encima del umbral

Agregó la siguiente instrucción al mensaje del sistema: "Reconozca siempre la preocupación del cliente y muestre empatía antes de proporcionar su respuesta. Comience cada respuesta validando la experiencia del cliente".

Después del cambio:

Conjunto de evaluación	antes de	después de	Delta
Precisión fáctica	91%	76%	-15%
Tono y calidad	83%	91%	+8%

Paso 1: Interpretación (capa 1)

La precisión fáctica está ahora por debajo del umbral de bloqueo de 80%. Este cambio presenta una regresión y bloquea la preparación.

Referencia: Nivel 1: Interpretación de puntuaciones e identificación de errores

Paso 2: Comprobar patrones (capa 4)

Coincidencia de patrones de señal cruzada: el tono mejora mientras la precisión se degrada.

Causa principal indicada: conflicto de instrucciones.

La guía de tono recién agregada compite con indicaciones de precisión para captar la atención del modelo.

Referencia: Nivel 4: Analizar patrones y mejorar continuamente el agente

Paso 3: Priorizar los nuevos errores (Nivel 2)

Revise los casos de prueba de precisión fáctica que aprobaron antes del cambio y ahora fallan.

Caso de prueba FA-007:

Entrada: "¿Cuál es el tamaño máximo de carga de archivos?"
Esperado: "El tamaño máximo de carga de archivos es de 25 MB para cuentas estándar y 100 MB para cuentas empresariales".
Agente antes de: "El tamaño máximo de carga de archivos es de 25 MB para cuentas estándar y 100 MB para cuentas empresariales".
Agente dijo después: "Entiendo completamente su preocupación por los tamaños de subida de archivos. Puede ser frustrante cuando intenta cargar documentos importantes! Quiero asegurarte de que tienes toda la información que necesitas. El tamaño máximo de carga es de 25 MB para los planes estándar".

Paso 1. Compruebe la evaluación: La respuesta esperada es correcta y la evaluación es válida. La respuesta posterior a la actualización omite los detalles de la cuenta de empresa.

Paso 2. Diagnóstico: La nueva instrucción de tono requiere un preámbulo de empatía en cada respuesta. Este requisito consume el presupuesto de respuesta y la atención del modelo, y conduce a respuestas fácticas incompletas.

Clasificación: problema de configuración del agente. Conflicto en las instrucciones entre el tono y la precisión de la guía.

Referencia: Nivel 2: Errores del agente de evaluación de prioridades

Paso 4: Corrección (capa 3)

El problema no es la orientación del tono en sí, sino las prioridades en conflicto dentro del sistema. La corrección se centra en separar y priorizar instrucciones.

Instrucción antigua (única, compitiendo): "Siempre reconozca la preocupación del cliente y muestre empatía antes de proporcionar su respuesta. Comience cada respuesta validando la experiencia del cliente".

Nueva instrucción (separada, prioritaria): "Incluya siempre la respuesta fáctica completa a la pregunta del cliente. No omita los detalles en aras de la brevedad. Además, cuando el cliente expresa frustración o preocupación, lo reconoce brevemente".

Cambios clave:

La precisión se prioriza explícitamente.
La integridad de las respuestas fácticas se indica directamente.
La empatía es condicional en lugar de universal.
"Brevemente" restringe la empatía para evitar el truncamiento de contenido.

Referencia: Capa 3: Asignar patrones de error a estrategias de remediación

Paso 5: Comprobar

Vuelva a ejecutar el conjunto de evaluación completo, ya que los cambios en las solicitudes del sistema pueden tener un gran impacto.

Conjunto de evaluación	Antes del cambio	Después de la regresión	Después del cambio
Precisión fáctica	91%	76%	90%
Tono y calidad	83%	91%	89%
Todos los demás	Por encima del umbral	Por encima del umbral	Por encima del umbral

Evaluación: Ambas señales ahora cumplen sus umbrales de bloqueo. El tono no recupera completamente su pico, pero se mantiene muy por encima del umbral de bloqueo del 75% y mejora respecto a la línea de base original.

Paso 6: Documento

Caso de prueba	Tipo de causa principal	Problema observado	Cambio aplicado	Resuelto
FA-007, FA-012, FA-018 (y otros)	Configuración del agente	La orientación del tono sustituyó la integridad fáctica	Mensaje reestructurado para priorizar la precisión y aplicar empatía condicional.	Sí

Conclusiones clave: Valide siempre los cambios en las indicaciones del sistema en el conjunto de evaluación completo, no sólo la señal de destino. Las instrucciones compiten por la atención del modelo y las mejoras en un área pueden introducir regresiones en otras.

Patrón que se va a observar: Este escenario es una instancia del problema del presupuesto de instrucciones. A medida que aumentan las indicaciones, es más probable que se produzcan conflictos de instrucciones. La consolidación y simplificación periódicas ayudan a mantener la estabilidad.

Patrones comunes entre recorridos

Cada recorrido comienza desde un escenario diferente para ilustrar una ruta de diagnóstico distinta. Para ver cómo avanza un solo agente a través del ciclo de vida de evaluación completa (interpretación de puntuación, evaluación de errores, corrección y comprobación), revise journey 1, que proporciona el tutorial de un extremo a otro más completo.

En esta tabla se resaltan los patrones periódicos observados en los recorridos y las lecciones prácticas que refuerzan.

Modelo	Donde aparece	Conclusión principal
Validar la evaluación antes del agente	Recorrido 1	Un origen común del esfuerzo de desperdiciado es solucionar problemas del comportamiento del agente cuando la propia evaluación es incorrecta.
Las puntuaciones planas indican una causa raíz mal clasificada	Recorrido 2	Si la repetida corrección no mejora los resultados, reclasifique el problema. Es posible que esté abordando la causa principal incorrecta.
Vuelva a ejecutar el conjunto de evaluación completo después de los cambios en las indicaciones.	Recorrido 3	Los cambios rápidos pueden afectar a varias señales de calidad. Compruebe siempre si hay regresiones fuera del área de destino.
Documentar los resultados y las decisiones	Todos los recorridos	El mantenimiento de un registro de errores impide volver a detectar las mismas causas principales en iteraciones posteriores.
Las brechas conocidas pueden ser aceptables	Viaje 1 (KG-007), Viaje 2 (FA-019)	No todos los errores deben resolverse antes del envío. Documente brechas conocidas y superviselas con el tiempo.

Pasos siguientes

Después de revisar estos ejemplos, elija la siguiente acción que mejor coincida con la situación actual:

Comience con la interpretación de la puntuación si tiene resultados de evaluación listos para evaluar.
Comience la evaluación de errores si necesita diagnosticar errores de casos de prueba específicos.
Aplique el análisis de patrones si está trabajando con varios errores y desea identificar problemas sistémicos.
Configure el registro de errores para realizar un seguimiento de las decisiones, los resultados y los problemas periódicos.
Vuelva a los objetivos del marco para revisar el enfoque completo de triaje de evaluación.

Comentarios

¿Le ha resultado útil esta página?

Last updated on 2026-03-31

Compartir a través de

Aplicar el marco de evaluación a través de escenarios prácticos

Recorrido 1: Primera ejecución de prueba

Paso 1: Interpretar puntuaciones (capa 1)

Paso 2: Priorizar los errores (nivel 2, paso 0)

Paso 3: Evaluación de prioridades KG-003 (capa 2, pasos 1-2)

Paso 4: Triage KG-005 (Capa 2, Pasos 1-2)

Paso 5: Corrección (capa 3)

Paso 6: Comprobar

Paso 7: Documento (capa 4)

Viaje 2: Meseta de puntuación

Paso 1: Comprobar patrones (capa 4)

Paso 2: Análisis de casos de prueba con errores

Paso 3: Reclasificación (Capa 2)

Paso 4: Corrección (limitación de la plataforma de nivel 3)

Paso 5: Comprobar

Paso 6: Documento

Recorrido 3: Regresión posterior a la actualización

Paso 1: Interpretación (capa 1)

Paso 2: Comprobar patrones (capa 4)

Paso 3: Priorizar los nuevos errores (Nivel 2)

Paso 4: Corrección (capa 3)

Paso 5: Comprobar

Paso 6: Documento

Patrones comunes entre recorridos

Pasos siguientes

Comentarios

Recursos adicionales