Nota:
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
En este artículo aprenderá a:
- Localice y abra las ejecuciones de evaluación.
- Vea las métricas agregadas y a nivel de muestra.
- Comparar los resultados de diferentes ejecuciones.
- Interpretar categorías y cálculos de métricas.
- Solución de problemas de métricas que faltan o parciales.
Prerrequisitos
Rol de usuario de Foundry en el proyecto Foundry. Para obtener más información, consulte Control de acceso basado en rol para Microsoft Foundry.
Importante
Recientemente se cambió el nombre de los roles RBAC de Foundry. Foundry User, Foundry Owner, Foundry Account Owner y Foundry Project Manager se llamaban anteriormente Usuario de Azure AI, Propietario de Azure AI, Propietario de la cuenta de Azure AI y Administrador de proyectos de Azure AI. Es posible que siga viendo los nombres anteriores en algunos lugares mientras se implementa el cambio de nombre. El cambio de nombre no modifica los identificadores de rol y los permisos principales.
Una evaluación completada.
- Para ejecutar evaluaciones en el portal, consulte Evaluación de aplicaciones y modelos de IA generativos.
- Para ejecutar evaluaciones desde el SDK, consulte Ejecución de evaluaciones desde el SDK o Evaluación de los agentes de IA.
Ver los resultados de la evaluación
En el portal de Foundry, vaya al proyecto y seleccione Evaluación en el panel izquierdo.
Seleccione una ejecución de evaluación de la lista para abrir su página de detalles. Si la ejecución sigue en curso, el estado muestra En ejecución y se actualiza automáticamente cuando se completa.
En la página de detalles se muestra lo siguiente:
Campo Descripción Nombre Nombre de la ejecución de evaluación. Objetivo Modelo o agente que se evaluó. Dataset Conjunto de datos de prueba usado. Seleccione el icono de descarga para exportarlo como un archivo CSV. Situación Estado actual de la ejecución (En ejecución, Completado o Error). Tokens de evaluación Tokens consumidos por los evaluadores durante la ejecución. Tokens de destino Tokens consumidos por el modelo o agente que se está evaluando. Puntuaciones Puntuación de agregado para cada evaluador utilizado. Mantenga el puntero sobre una celda de puntuación para ver los detalles de uso de tokens y el contexto adicional.
Seleccione Más información sobre las métricas para ver las definiciones de métricas y las fórmulas de puntuación.
Detalles de la ejecución de la evaluación
Seleccione el nombre de la ejecución para ver los resultados a nivel de fila de cada consulta individual. Para cada fila, puede ver la consulta, la respuesta, la verdad fundamental, la puntuación del evaluador y la explicación de la puntuación.
Comparar los resultados de la evaluación
Para comparar dos o más ejecuciones, seleccione las ejecuciones que desea comparar e iniciar el proceso.
- Seleccione dos o más ejecuciones en la página de detalles de evaluación.
- Seleccione Compare (Comparar).
Verá una vista de comparación lado a lado para todas las ejecuciones seleccionadas.
La comparación usa pruebas t estadísticas, lo que proporciona resultados más confidenciales y confiables para ayudarle a tomar decisiones. Puede usar diferentes funcionalidades de esta característica:
- Comparación de línea base: al establecer una ejecución de línea base, puede identificar un punto de referencia con el que comparar las demás ejecuciones. Puede ver cómo cada ejecución se desvía del estándar elegido.
- Evaluación estadística de pruebas t: cada celda proporciona los resultados de stat-sig con códigos de color diferentes. También puede mantener el puntero sobre la celda para obtener el tamaño de la muestra y el valor p.
| Leyenda | Definición |
|---|---|
| ImprovedStrong | Altamente estadísticamente significativa (p<=0.001) y se movió en la dirección deseada |
| ImprovedWeak | Stat-sig (0.001<p<=0.05) y se mueve en la dirección deseada |
| DegradedStrong | Altamente estadísticamente significativo (p<=0.001) y se mueve en dirección incorrecta |
| DegradadoDébil | Stat-sig (0.001<p<=0.05) y se movió en la dirección incorrecta |
| ChangedStrong | Muy significativa estadísticamente (p<=0.001) y la dirección deseada es neutral |
| ChangedWeak | Stat-sig (0.001<p<=0.05) y la dirección deseada es neutral |
| No concluyente | Demasiados pocos ejemplos, o p>=0,05 |
Nota:
La vista de comparación no se guarda. Si deja la página, puede volver a seleccionar los procesos y seleccionar Comparar para volver a generar la vista.
Descripción de las métricas de evaluación integradas
Comprender las métricas integradas es esencial para evaluar el rendimiento y la eficacia de la aplicación de inteligencia artificial. Al aprender sobre estas herramientas de medición clave, puede interpretar los resultados, tomar decisiones informadas y ajustar la aplicación para lograr resultados óptimos.
Para más información, consulte Evaluadores integrados.
Solución de problemas
| Síntoma | Causa posible | Acción |
|---|---|---|
| La ejecución permanece pendiente | Carga de servicio alta o trabajos en cola | Actualizar, comprobar la cuota y volver a enviar si se prolonga |
| Faltan métricas | No se ha seleccionado en la creación | Vuelva a ejecutar y seleccione las métricas necesarias. |
| Todas las métricas de seguridad están en cero. | Categoría deshabilitada o modelo no admitido | Confirmar el soporte para el modelo y el evaluador en evaluadores de riesgos y seguridad |
| Nivel de fundamentación inesperadamente bajo | Recuperación o contexto incompleto | Verificación de la latencia de construcción y recuperación del contexto |