Visualización de los resultados de la evaluación en el portal de Microsoft Foundry

En este artículo aprenderá a:

  • Localice y abra las ejecuciones de evaluación.
  • Vea las métricas agregadas y a nivel de muestra.
  • Comparar los resultados de diferentes ejecuciones.
  • Interpretar categorías y cálculos de métricas.
  • Solución de problemas de métricas que faltan o parciales.

Prerrequisitos

  • Rol de usuario de Foundry en el proyecto Foundry. Para obtener más información, consulte Control de acceso basado en rol para Microsoft Foundry.

    Importante

    Recientemente se cambió el nombre de los roles RBAC de Foundry. Foundry User, Foundry Owner, Foundry Account Owner y Foundry Project Manager se llamaban anteriormente Usuario de Azure AI, Propietario de Azure AI, Propietario de la cuenta de Azure AI y Administrador de proyectos de Azure AI. Es posible que siga viendo los nombres anteriores en algunos lugares mientras se implementa el cambio de nombre. El cambio de nombre no modifica los identificadores de rol y los permisos principales.

  • Una evaluación completada.

Ver los resultados de la evaluación

  1. En el portal de Foundry, vaya al proyecto y seleccione Evaluación en el panel izquierdo.

  2. Seleccione una ejecución de evaluación de la lista para abrir su página de detalles. Si la ejecución sigue en curso, el estado muestra En ejecución y se actualiza automáticamente cuando se completa.

    En la página de detalles se muestra lo siguiente:

    Campo Descripción
    Nombre Nombre de la ejecución de evaluación.
    Objetivo Modelo o agente que se evaluó.
    Dataset Conjunto de datos de prueba usado. Seleccione el icono de descarga para exportarlo como un archivo CSV.
    Situación Estado actual de la ejecución (En ejecución, Completado o Error).
    Tokens de evaluación Tokens consumidos por los evaluadores durante la ejecución.
    Tokens de destino Tokens consumidos por el modelo o agente que se está evaluando.
    Puntuaciones Puntuación de agregado para cada evaluador utilizado.

    Captura de pantalla de la página de Evaluación que muestra una lista de ejecuciones con las columnas Nombre, Estado, Objetivo, Fichas de evaluación, Fichas de destino y Puntuaciones.

  3. Mantenga el puntero sobre una celda de puntuación para ver los detalles de uso de tokens y el contexto adicional.

    Captura de pantalla de la página de Evaluación con una celda de puntuación al pasar el ratón, mostrando un globo informativo con el desglose del uso de tokens.

  4. Seleccione Más información sobre las métricas para ver las definiciones de métricas y las fórmulas de puntuación.

Detalles de la ejecución de la evaluación

Seleccione el nombre de la ejecución para ver los resultados a nivel de fila de cada consulta individual. Para cada fila, puede ver la consulta, la respuesta, la verdad fundamental, la puntuación del evaluador y la explicación de la puntuación.

Comparar los resultados de la evaluación

Para comparar dos o más ejecuciones, seleccione las ejecuciones que desea comparar e iniciar el proceso.

  1. Seleccione dos o más ejecuciones en la página de detalles de evaluación.
  2. Seleccione Compare (Comparar).

Verá una vista de comparación lado a lado para todas las ejecuciones seleccionadas.

La comparación usa pruebas t estadísticas, lo que proporciona resultados más confidenciales y confiables para ayudarle a tomar decisiones. Puede usar diferentes funcionalidades de esta característica:

  • Comparación de línea base: al establecer una ejecución de línea base, puede identificar un punto de referencia con el que comparar las demás ejecuciones. Puede ver cómo cada ejecución se desvía del estándar elegido.
  • Evaluación estadística de pruebas t: cada celda proporciona los resultados de stat-sig con códigos de color diferentes. También puede mantener el puntero sobre la celda para obtener el tamaño de la muestra y el valor p.
Leyenda Definición
ImprovedStrong Altamente estadísticamente significativa (p<=0.001) y se movió en la dirección deseada
ImprovedWeak Stat-sig (0.001<p<=0.05) y se mueve en la dirección deseada
DegradedStrong Altamente estadísticamente significativo (p<=0.001) y se mueve en dirección incorrecta
DegradadoDébil Stat-sig (0.001<p<=0.05) y se movió en la dirección incorrecta
ChangedStrong Muy significativa estadísticamente (p<=0.001) y la dirección deseada es neutral
ChangedWeak Stat-sig (0.001<p<=0.05) y la dirección deseada es neutral
No concluyente Demasiados pocos ejemplos, o p>=0,05

Nota:

La vista de comparación no se guarda. Si deja la página, puede volver a seleccionar los procesos y seleccionar Comparar para volver a generar la vista.

Descripción de las métricas de evaluación integradas

Comprender las métricas integradas es esencial para evaluar el rendimiento y la eficacia de la aplicación de inteligencia artificial. Al aprender sobre estas herramientas de medición clave, puede interpretar los resultados, tomar decisiones informadas y ajustar la aplicación para lograr resultados óptimos.

Para más información, consulte Evaluadores integrados.

Solución de problemas

Síntoma Causa posible Acción
La ejecución permanece pendiente Carga de servicio alta o trabajos en cola Actualizar, comprobar la cuota y volver a enviar si se prolonga
Faltan métricas No se ha seleccionado en la creación Vuelva a ejecutar y seleccione las métricas necesarias.
Todas las métricas de seguridad están en cero. Categoría deshabilitada o modelo no admitido Confirmar el soporte para el modelo y el evaluador en evaluadores de riesgos y seguridad
Nivel de fundamentación inesperadamente bajo Recuperación o contexto incompleto Verificación de la latencia de construcción y recuperación del contexto