Nota:
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
Estos recorridos de extremo a extremo ilustran cómo operan en conjunto las capas del marco de evaluación de triaje en la práctica. Cada recorrido comienza desde un escenario de evaluación diferente y sigue una ruta de diagnóstico distinta.
Los tutoriales muestran cómo aplicar el marco paso a paso. Use estos ejemplos para comprender cómo pasar de los resultados de la evaluación al diagnóstico, la corrección y la comprobación en escenarios de evaluación de agentes reales.
Sugerencia
Antes de trabajar con estos ejemplos, revise los objetivos del marco, incluidos los conceptos básicos y los principios.
| Viaje | Situación inicial | Lo que muestra |
|---|---|---|
| Recorrido 1 | Primera ejecución de la evaluación | Flujo de un extremo a otro: Interpretar → Priorizar → Evaluación de prioridades → corregir → Comprobar |
| Recorrido 2 | Las puntuaciones se estancan después de múltiples iteraciones. | Análisis de patrones, reclasificación y soluciones alternativas de limitación de plataforma |
| Recorrido 3 | Las puntuaciones regresan después de un cambio | Detección de regresión, diagnóstico de conflictos de instrucciones y resolución de inconvenientes |
Nota:
Estos ejemplos son ilustrativos y basados en patrones comunes observados en varias ejecuciones de evaluación de clientes. Los casos de prueba, las puntuaciones y los detalles del agente son composiciones representativas en vez de registros de una sola interacción. Los enfoques de diagnóstico y las estrategias de corrección que se muestran reflejan las prácticas usadas en implementaciones reales.
Recorrido 1: Primera ejecución de prueba
Ejecutas su conjunto de evaluación por primera vez en un agente de soporte al cliente. He aquí los resultados:
| Conjunto de evaluación | Tasa de pases |
|---|---|
| Datos personales y de seguridad | 100 % |
| Preguntas y respuestas empresariales principales | 87 % |
| Fundamentación del conocimiento | 71% |
| Invocación de herramientas | 92% |
| Enrutamiento de desencadenadores | 88% |
| Tono y calidad | 83% |
| Escalación | 90% |
| General | 85% |
Paso 1: Interpretar puntuaciones (capa 1)
Use la tabla de interpretación de puntuación para calibrar los umbrales e identificar qué conjuntos de evaluación están por debajo de los umbrales de bloqueo.
| Conjunto de evaluación | Puntuación | Umbral | Situación |
|---|---|---|---|
| Datos personales y de seguridad | 100 % | 95% de bloqueo | Aprobado |
| Preguntas y respuestas empresariales principales | 87 % | Bloqueo al 80% | Aprobado |
| Fundamentación del conocimiento | 71% | Bloqueo de 80% | Bloqueo inferior |
| Invocación de herramientas | 92% | 85% de bloqueo | Aprobado |
| Enrutamiento de desencadenadores | 88% | Bloqueo de 80% | Aprobado |
| Tono y calidad | 83% | 75% de bloqueo | Aprobado |
| Escalación | 90% | 85% de bloqueo | Aprobado |
Evaluación de preparación: iteración. La base de conocimiento está por debajo de su umbral de bloqueo. Dirige la remediación allí.
Paso 2: Priorizar los errores (nivel 2, paso 0)
Situación: La base del conocimiento tiene siete casos de prueba. Dos casos de prueba fallan: KG-003 y KG-005. Ambos casos de prueba están en un conjunto de evaluación empresarial básico, por lo que son prioridad 2. Puesto que solo hay dos, priorizar ambos.
Referencia: Priorizar errores (nivel 2, paso 0)
Paso 3: Evaluación de prioridades KG-003 (capa 2, pasos 1-2)
Caso de prueba KG-003:
- Entrada de ejemplo: "¿Cuál es la política de devoluciones?"
- Respuesta esperada: "Ofrecemos una ventana de devolución de 30 días para todas las compras".
- Respuesta del agente: "Nuestra política de devolución permite devoluciones en un plazo de 15 días laborables de la compra".
- Método de evaluación: Coincidencia de palabra clave
- Resultado: Error (se esperaba "30 días", el agente dijo "15 días laborables")
Compruebe la configuración de evaluación (paso 1 de la capa 2):
| Pregunta | Respuesta | Resultado |
|---|---|---|
| ¿Es aceptable la respuesta del agente? | Debe comprobar el documento de origen. | Compruebe primero el origen. |
| ¿La respuesta esperada sigue siendo actual? | El documento de origen indica "15 días laborables". Se actualizó la directiva. | N.º La respuesta esperada está obsoleta. |
Clasificación: problema de configuración de evaluación. Respuesta esperada obsoleta. El agente tiene razón. La evaluación es incorrecta.
Paso 4: Triage KG-005 (Capa 2, Pasos 1-2)
Caso de prueba KG-005:
- Entrada de ejemplo: "¿Incluye el plan Premium una garantía extendida?"
- Respuesta esperada: "El plan Premium incluye una garantía estándar de dos años. Las opciones de garantía extendida están disponibles para su compra por separado".
- Respuesta del agente: "Sí, el plan Premium incluye una garantía extendida de tres años que cubre todas las piezas y mano de obra".
- Método de evaluación: Comparación de significado
- Resultado: Error (detalles de garantía fabricados por agente)
Compruebe la configuración de evaluación (paso 1 de la capa 2):
| Pregunta | Respuesta | Resultado |
|---|---|---|
| ¿Es aceptable la respuesta del agente? | N.º "La 'garantía extendida de tres años' es inventada." | Continuar |
| ¿Es la respuesta esperada actual? | Sí. Source confirma la garantía estándar de dos años. | Continuar |
| ¿Es realista el caso de prueba? | Sí. Pregunta común del cliente. | Continuar |
| ¿Podría ser correcta una respuesta alternativa? | N.º Los detalles de la garantía son fácticos. | Continuar |
| ¿Es adecuado el método de evaluación? | Sí.Comparar el significado es adecuado para garantizar la precisión semántica. | La evaluación es válida. |
Diagnóstico del agente (paso 2 de la capa 2):
| Pregunta | Respuesta |
|---|---|
| ¿El contenido de origen es incorrecto? | N.º Fuente dice "garantía estándar de dos años". |
| ¿El agente contradijo información en el origen? | Sí. Fuente dice "garantía estándar de dos años", pero el agente dijo "garantía extendida de tres años". |
| ¿Respondió el agente sin usar ningún origen? | Probablemente sí. La "garantía extendida de tres años que cubre todas las piezas y mano de obra" no existe en ninguna fuente. |
Clasificación: problema de configuración del agente. Brecha en la base del conocimiento. El agente produjo detalles de garantía que no están presentes en los orígenes de conocimiento configurados.
Paso 5: Corrección (capa 3)
KG-003 (Remediación de configuración de evaluación):
- Cambio: Actualice el valor esperado de "ventana de devolución de 30 días" a "15 días laborables".
- Volver a ejecutar: KG-003 solo
- Resultado: Aprobado
KG-005 (corrección de configuración del agente):
- Cambio: Agregue instrucciones de conexión a tierra a la solicitud del sistema: "Responda solo basado en la información encontrada en sus fuentes de conocimiento. Si la información no está disponible, dígalo.
- Volver a ejecutar: Conjunto de evaluación basado en el conocimiento completo (el cambio de configuración del agente puede tener efectos más amplios)
- Espere: KG-005 pasa. Otros casos de prueba no deben retroceder.
Paso 6: Comprobar
Después de realizar ambos cambios, ejecute nuevamente el conjunto de evaluación de la base de conocimiento.
| antes de | después de |
|---|---|
| 71% (5/7 aprobados) | 86% (6/7 aprobados) |
Evaluación: La base de conocimiento está ahora por encima del umbral de bloqueo de 80%. Un error (KG-007) permanece y no bloquea la preparación. Revíselo en la siguiente iteración.
Paso 7: Documento (capa 4)
Registro en el registro de errores:
| Caso de prueba | Tipo de causa principal | Problema observado | Cambio aplicado | Resuelto |
|---|---|---|---|---|
| KG-003 | Configuración de evaluación | Respuesta esperada obsoleta (la directiva ha cambiado de 30 días a 15 días laborables). | Valor esperado actualizado | Sí |
| KG-005 | Configuración del agente | Detalles de garantía incorrectos que no están en ningún origen. | Se ha agregado una instrucción de puesta a tierra al indicador del sistema. | Sí |
Nota de patrón: Compruebe los valores esperados en los documentos de origen antes de cada ejecución de evaluación. Agregue este paso a la lista de comprobación de evaluación previa.
Volver a comprobar la preparación: Todos los conjuntos de evaluación ahora están por encima de los umbrales de bloqueo.
Evaluación de la preparación: Desplegar el agente con brechas conocidas (documentado KG-007, plan de supervisión en marcha).
Referencia: Nivel 4: Analizar patrones y mejorar continuamente el agente
Viaje 2: Meseta de puntuación
Situación: Ejecute cuatro iteraciones en un agente de soporte técnico de productos. La exactitud factual permanece en el 78% durante las cuatro ejecuciones. Haces cambios rápidos después de cada ejecución, pero no ves ninguna mejora.
Paso 1: Comprobar patrones (capa 4)
Revise el registro de errores en las cuatro iteraciones:
| Iteración | Puntuación | Cambio aplicado | Resultado |
|---|---|---|---|
| 1 | 78 % | (línea base) | — |
| 2 | 79 % | Se ha agregado "Ser preciso acerca de las especificaciones del producto" | Ningún cambio significativo |
| 3 | 77% | Instrucción reorganizada para colocar primero las instrucciones de precisión. | Ningún cambio significativo |
| 4 | 78 % | Se han agregado ejemplos prácticos de respuestas de producto correctas. | Ningún cambio significativo |
Tendencia: Plana. La corrección no aborda la causa raíz real.
Referencia: Nivel 4: Analizar patrones y mejorar continuamente el agente
Paso 2: Análisis de casos de prueba con errores
Revise los seis errores persistentes en todas las iteraciones.
| Caso de prueba | Error desde | Problema observado |
|---|---|---|
| FA-002 | Iteración 1 | El agente cita la página de preguntas frecuentes en lugar del manual del producto |
| FA-005 | Iteración 1 | Página de preguntas frecuentes citada por el agente en lugar del manual del producto |
| FA-008 | Iteración 1 | El agente cita la página de preguntas frecuentes en lugar del manual del producto |
| FA-011 | Iteración 1 | El agente cita la página de preguntas frecuentes en lugar del manual del producto |
| FA-014 | Iteración 1 | El agente cita la página de preguntas frecuentes en lugar del manual del producto |
| FA-019 | Iteración 2 | El agente proporciona una respuesta parcial de las preguntas más frecuentes, se pierden detalles del manual. |
Análisis de concentración: Cinco de seis errores (83%) implican la misma causa principal: el agente recupera información de la página de preguntas más frecuentes en lugar del manual del producto.
Paso 3: Reclasificación (Capa 2)
Inicialmente, clasifique los errores como problema de configuración del agente: origen incorrecto recuperado.
Aplique varios cambios de configuración del agente, incluida la nueva redacción de mensajes, el reordenamiento y la adición de ejemplos. Estos cambios no dan lugar a una mejora medible. En este momento, valide el error con los indicadores de limitación de plataforma.
| Indicator | Check |
|---|---|
| El error persiste en varias variaciones de solicitud o configuración | Sí. Cuatro iteraciones sin cambios. |
| La recuperación devuelve de forma coherente documentos incorrectos a pesar de la configuración de origen correcta | Sí. Las preguntas más frecuentes se recuperan de forma coherente en lugar del manual del producto. |
Reclasificación: Este problema es una limitación de plataforma relacionada con la clasificación de recuperación. La plataforma da prioridad de forma coherente a las preguntas más frecuentes sobre el manual del producto para estas consultas y los cambios de solicitud o instrucciones adicionales no afectan al comportamiento de recuperación.
Referencia: Nivel 2: Errores del agente de evaluación de prioridades
Paso 4: Corrección (limitación de la plataforma de nivel 3)
Al clasificar un error como limitación de la plataforma, centre la corrección en soluciones alternativas y documentación en lugar de realizar cambios en la configuración del agente.
Referencia: Respuesta de limitación de plataforma
Estrategia alternativa: aplique uno o varios de los siguientes enfoques de mitigación para reducir el impacto:
- Reestructurar el manual del producto con encabezados de sección más claros que se alinean con el vocabulario usado en las consultas de usuario.
- Duplica las especificaciones críticas del producto del manual en las preguntas más frecuentes para crear rutas de recuperación redundantes.
- Refactorice el contenido manual para que cada sección aborde una única pregunta bien definida para mejorar la coincidencia de fragmentos de recuperación.
Estos enfoques tienen como objetivo influir en el comportamiento de recuperación sin depender de cambios de instrucciones o avisos.
Escalación y seguimiento: si la limitación persiste, documente y escale el problema al equipo de la plataforma.
- Documente la limitación de la siguiente manera: "Las consultas para <especificaciones> de producto recuperan de forma coherente la página de preguntas más frecuentes (última actualización: <fecha>, <n> páginas) en lugar del manual del producto (última actualización: <fecha>, <N> páginas), a pesar del manual que contiene la información autoritativa".
- Proporcionar evidencia complementaria: incluya varios casos de prueba que muestren la consulta, el origen esperado y el origen real recuperados.
- Enviar para investigación.
- Comparta la limitación documentada y la evidencia con el equipo de la plataforma para su seguimiento y control.
Paso 5: Comprobar
Después de reestructurar el manual del producto y agregar entradas de preguntas más frecuentes redundantes, vuelva a ejecutar el conjunto de evaluación pertinente para comprobar el impacto.
| antes de | después de |
|---|---|
| 78% (sin cambios en cuatro iteraciones) | 89% |
Evaluación: La solución alternativa mejora el rendimiento general. Una falla permanece (FA-019). La consulta es demasiado ambigua para recuperar de forma confiable el origen correcto, incluso con contenido reestructurado. Este error se registra como una limitación conocida.
Paso 6: Documento
Actualice el registro de errores para reflejar la clasificación final y los resultados.
| Caso de prueba | Tipo de causa principal | Problema observado | Cambio aplicado | Resuelto |
|---|---|---|---|---|
| FA-002, 005, 008, 011, 014 | Limitación de la plataforma | La clasificación de recuperación da prioridad a las preguntas más frecuentes sobre el manual del producto | Títulos manuales reestructurados; Especificaciones críticas duplicadas en las preguntas más frecuentes | Sí |
| FA-019 | Limitación de la plataforma | La consulta ambigua no puede recuperar de forma confiable el origen correcto | Documentado como una limitación conocida | No |
Conclusiones clave: Si las puntuaciones de evaluación se mantienen constantes entre varios cambios de indicaciones o instrucciones, es poco probable que la causa principal sea la indicación. Valide el comportamiento de la infraestructura y la plataforma antes de invertir más en la ingeniería rápida.
Recorrido 3: Regresión posterior a la actualización
Situación: Ha actualizado el mensaje del sistema para mejorar el tono y la empatía. Las puntuaciones de tono aumentaron, pero la precisión fáctica cayó por debajo de su umbral de bloqueo, introduciendo una regresión.
Antes del cambio:
| Conjunto de evaluación | Puntuación |
|---|---|
| Precisión fáctica | 91% |
| Tono y calidad | 83% |
| Todos los demás | Por encima del umbral |
Agregó la siguiente instrucción al mensaje del sistema: "Reconozca siempre la preocupación del cliente y muestre empatía antes de proporcionar su respuesta. Comience cada respuesta validando la experiencia del cliente".
Después del cambio:
| Conjunto de evaluación | antes de | después de | Delta |
|---|---|---|---|
| Precisión fáctica | 91% | 76% | -15% |
| Tono y calidad | 83% | 91% | +8% |
Paso 1: Interpretación (capa 1)
La precisión fáctica está ahora por debajo del umbral de bloqueo de 80%. Este cambio presenta una regresión y bloquea la preparación.
Referencia: Nivel 1: Interpretación de puntuaciones e identificación de errores
Paso 2: Comprobar patrones (capa 4)
Coincidencia de patrones de señal cruzada: el tono mejora mientras la precisión se degrada.
Causa principal indicada: conflicto de instrucciones.
La guía de tono recién agregada compite con indicaciones de precisión para captar la atención del modelo.
Referencia: Nivel 4: Analizar patrones y mejorar continuamente el agente
Paso 3: Priorizar los nuevos errores (Nivel 2)
Revise los casos de prueba de precisión fáctica que aprobaron antes del cambio y ahora fallan.
Caso de prueba FA-007:
- Entrada: "¿Cuál es el tamaño máximo de carga de archivos?"
- Esperado: "El tamaño máximo de carga de archivos es de 25 MB para cuentas estándar y 100 MB para cuentas empresariales".
- Agente antes de: "El tamaño máximo de carga de archivos es de 25 MB para cuentas estándar y 100 MB para cuentas empresariales".
- Agente dijo después: "Entiendo completamente su preocupación por los tamaños de subida de archivos. Puede ser frustrante cuando intenta cargar documentos importantes! Quiero asegurarte de que tienes toda la información que necesitas. El tamaño máximo de carga es de 25 MB para los planes estándar".
Paso 1. Compruebe la evaluación: La respuesta esperada es correcta y la evaluación es válida. La respuesta posterior a la actualización omite los detalles de la cuenta de empresa.
Paso 2. Diagnóstico: La nueva instrucción de tono requiere un preámbulo de empatía en cada respuesta. Este requisito consume el presupuesto de respuesta y la atención del modelo, y conduce a respuestas fácticas incompletas.
Clasificación: problema de configuración del agente. Conflicto en las instrucciones entre el tono y la precisión de la guía.
Referencia: Nivel 2: Errores del agente de evaluación de prioridades
Paso 4: Corrección (capa 3)
El problema no es la orientación del tono en sí, sino las prioridades en conflicto dentro del sistema. La corrección se centra en separar y priorizar instrucciones.
Instrucción antigua (única, compitiendo): "Siempre reconozca la preocupación del cliente y muestre empatía antes de proporcionar su respuesta. Comience cada respuesta validando la experiencia del cliente".
Nueva instrucción (separada, prioritaria): "Incluya siempre la respuesta fáctica completa a la pregunta del cliente. No omita los detalles en aras de la brevedad. Además, cuando el cliente expresa frustración o preocupación, lo reconoce brevemente".
Cambios clave:
- La precisión se prioriza explícitamente.
- La integridad de las respuestas fácticas se indica directamente.
- La empatía es condicional en lugar de universal.
- "Brevemente" restringe la empatía para evitar el truncamiento de contenido.
Referencia: Capa 3: Asignar patrones de error a estrategias de remediación
Paso 5: Comprobar
Vuelva a ejecutar el conjunto de evaluación completo, ya que los cambios en las solicitudes del sistema pueden tener un gran impacto.
| Conjunto de evaluación | Antes del cambio | Después de la regresión | Después del cambio |
|---|---|---|---|
| Precisión fáctica | 91% | 76% | 90% |
| Tono y calidad | 83% | 91% | 89% |
| Todos los demás | Por encima del umbral | Por encima del umbral | Por encima del umbral |
Evaluación: Ambas señales ahora cumplen sus umbrales de bloqueo. El tono no recupera completamente su pico, pero se mantiene muy por encima del umbral de bloqueo del 75% y mejora respecto a la línea de base original.
Paso 6: Documento
| Caso de prueba | Tipo de causa principal | Problema observado | Cambio aplicado | Resuelto |
|---|---|---|---|---|
| FA-007, FA-012, FA-018 (y otros) | Configuración del agente | La orientación del tono sustituyó la integridad fáctica | Mensaje reestructurado para priorizar la precisión y aplicar empatía condicional. | Sí |
Conclusiones clave: Valide siempre los cambios en las indicaciones del sistema en el conjunto de evaluación completo, no sólo la señal de destino. Las instrucciones compiten por la atención del modelo y las mejoras en un área pueden introducir regresiones en otras.
Patrón que se va a observar: Este escenario es una instancia del problema del presupuesto de instrucciones. A medida que aumentan las indicaciones, es más probable que se produzcan conflictos de instrucciones. La consolidación y simplificación periódicas ayudan a mantener la estabilidad.
Patrones comunes entre recorridos
Cada recorrido comienza desde un escenario diferente para ilustrar una ruta de diagnóstico distinta. Para ver cómo avanza un solo agente a través del ciclo de vida de evaluación completa (interpretación de puntuación, evaluación de errores, corrección y comprobación), revise journey 1, que proporciona el tutorial de un extremo a otro más completo.
En esta tabla se resaltan los patrones periódicos observados en los recorridos y las lecciones prácticas que refuerzan.
| Modelo | Donde aparece | Conclusión principal |
|---|---|---|
| Validar la evaluación antes del agente | Recorrido 1 | Un origen común del esfuerzo de desperdiciado es solucionar problemas del comportamiento del agente cuando la propia evaluación es incorrecta. |
| Las puntuaciones planas indican una causa raíz mal clasificada | Recorrido 2 | Si la repetida corrección no mejora los resultados, reclasifique el problema. Es posible que esté abordando la causa principal incorrecta. |
| Vuelva a ejecutar el conjunto de evaluación completo después de los cambios en las indicaciones. | Recorrido 3 | Los cambios rápidos pueden afectar a varias señales de calidad. Compruebe siempre si hay regresiones fuera del área de destino. |
| Documentar los resultados y las decisiones | Todos los recorridos | El mantenimiento de un registro de errores impide volver a detectar las mismas causas principales en iteraciones posteriores. |
| Las brechas conocidas pueden ser aceptables | Viaje 1 (KG-007), Viaje 2 (FA-019) | No todos los errores deben resolverse antes del envío. Documente brechas conocidas y superviselas con el tiempo. |
Pasos siguientes
Después de revisar estos ejemplos, elija la siguiente acción que mejor coincida con la situación actual:
- Comience con la interpretación de la puntuación si tiene resultados de evaluación listos para evaluar.
- Comience la evaluación de errores si necesita diagnosticar errores de casos de prueba específicos.
- Aplique el análisis de patrones si está trabajando con varios errores y desea identificar problemas sistémicos.
- Configure el registro de errores para realizar un seguimiento de las decisiones, los resultados y los problemas periódicos.
- Vuelva a los objetivos del marco para revisar el enfoque completo de triaje de evaluación.