Nota
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
Importante
Los elementos marcados (versión preliminar) en este artículo se encuentran actualmente en versión preliminar pública. Esta versión preliminar se ofrece sin acuerdo de nivel de servicio y no se recomienda para las cargas de trabajo de producción. Es posible que algunas características no sean compatibles o que tengan sus funcionalidades limitadas. Para más información, consulte Términos de uso complementarios de las Versiones Preliminares de Microsoft Azure.
Los marcadores de modelos (versión preliminar) en el portal de Azure AI Foundry le permiten simplificar el proceso de selección de modelos en el catálogo de modelos de Azure AI Foundry. Las tablas de clasificación del modelo, respaldadas por pruebas comparativas estándar del sector, pueden ayudarle a encontrar el mejor modelo para su solución de inteligencia artificial personalizada. En la sección tablas de clasificación del modelo del catálogo de modelos, puede examinar tablas de clasificación para comparar los modelos disponibles de la siguiente manera:
- Tablas de clasificación de calidad, seguridad, costo y rendimiento para identificar rápidamente a los líderes del modelo a lo largo de una sola métrica (calidad, seguridad, costo o rendimiento);
- Gráficos de compensación para ver cómo funcionan los modelos en una métrica frente a otra, como la calidad frente al costo;
- Tablas de clasificación por escenario para encontrar las mejores tablas de clasificación que se ajusten a su escenario.
Siempre que encuentre un modelo a su gusto, puede seleccionarlo y acercar los resultados de pruebas comparativas detalladas del modelo dentro del catálogo de modelos. Si le convence el modelo, puede implementarlo, probarlo en el área de juegos o evaluarlo en los datos. Las tablas de clasificación admiten pruebas comparativas entre modelos de lenguaje de texto (modelos de lenguaje grande (LLM) y modelos de lenguaje pequeño (SLAM) e incrustación de modelos.
Las pruebas comparativas de modelos evalúan los MLG y los MLS en las siguientes categorías: calidad, seguridad, costo y rendimiento. Además, se evalúa la calidad de los modelos de inserción mediante pruebas comparativas estándar. Las tablas de clasificación se actualizan periódicamente, ya que se incorporan más pruebas comparativas insinsaturadas y, a medida que se agregan nuevos modelos al catálogo de modelos.
Pruebas comparativas de calidad de los modelos de lenguaje
Azure AI evalúa la calidad de los LLM y SLM mediante puntuaciones de precisión de conjuntos de datos de pruebas comparativas estándar que miden capacidades del modelo, como el razonamiento, el conocimiento, la respuesta a preguntas, las matemáticas y la codificación.
Índice | Descripción |
---|---|
Índice de calidad | El índice de calidad se calcula mediante el promedio de puntuaciones de precisión aplicables (exact_match, pass@1, arena_hard) en conjuntos de datos de pruebas comparativas estándar completos. |
El índice de calidad se proporciona en una escala de cero a uno. Los valores más altos del índice de calidad son mejores. Los conjuntos de datos incluidos en el índice de calidad son:
Nombre del conjunto de datos | Escenario de tabla de clasificación |
---|---|
arena_hard | Aseguramiento de Calidad |
bigbench_hard | Razonamiento |
gpqa | Aseguramiento de Calidad |
humanevalplus | Codificar |
ifeval | Razonamiento |
matemáticas | Matemáticas |
mbppplus | Codificar |
mmlu_pro | Conocimiento general |
Consulte más detalles en las puntuaciones de precisión:
Métrica | Descripción |
---|---|
Precisión | Las puntuaciones de precisión están disponibles a nivel de conjunto de datos y modelo. A nivel de conjunto de datos, la puntuación es el valor medio de una métrica de precisión calculada sobre todos los ejemplos del conjunto de datos. La métrica de precisión utilizada es exact-match en todos los casos, excepto los conjuntos de datos HumanEval y MBPP que usan una pass@1 métrica. La coincidencia exacta compara el texto generado por el modelo con la respuesta correcta según el conjunto de datos, notificando 1 si el texto generado coincide exactamente con la respuesta y 0 en caso contrario. La métrica pass@1 mide la proporción de soluciones de modelo que pasan un conjunto de pruebas unitarias en una tarea de generación de código. A nivel de modelo, la puntuación de precisión es la media de las precisiones de nivel de conjunto de datos para cada modelo. |
Las puntuaciones de precisión se proporcionan en una escala de cero a una. Los valores más altos son mejores.
Pruebas comparativas de seguridad de modelos de lenguaje
Para guiar la selección de pruebas comparativas de seguridad para la evaluación, aplicamos un proceso estructurado de filtrado y validación diseñado para garantizar la relevancia y el rigor. Un estándar de referencia puede ser elegible para la implementación si aborda los riesgos de alta prioridad. Para las tablas de clasificación de seguridad, observamos diferentes puntos de referencia que se pueden considerar lo suficientemente confiables como para proporcionar algunas señales en determinados temas de interés a medida que se relacionan con la seguridad. Seleccionamos HarmBench para la seguridad del modelo de proxy y organizamos las tablas de clasificación del escenario de la siguiente manera:
Nombre del conjunto de datos | Escenario de tabla de clasificación | Métrica | Interpretación |
---|---|---|---|
HarmBench (estándar) | Comportamientos dañinos estándar | Tasa de éxito de ataques | Los valores inferiores significan una mejor solidez frente a ataques diseñados para contenido perjudicial estándar ilícito |
HarmBench (contextual) | Comportamientos contextualmente dañinos | Tasa de éxito de ataques | Los valores inferiores significan una mejor solidez frente a ataques diseñados para contenido ilícito perjudicial contextualmente |
HarmBench (infracciones de derechos de autor) | Infracciones de derechos de autor | Tasa de éxito de ataques | Los valores inferiores significan una mejor solidez frente a ataques diseñados para infracciones ilícitas de derechos de autor |
WMDP | Conocimientos sobre dominios confidenciales | Precisión | Valores más altos denotan más conocimientos en dominios confidenciales (ciberseguridad, bioseguridad y seguridad química) |
Toxigen | Capacidad de detectar contenido tóxico | Puntuación F1 | Los valores más altos significan una mejor capacidad de detectar contenido tóxico |
Modelar comportamientos perjudiciales
El banco de pruebas HarmBench mide los comportamientos dañinos del modelo e incluye indicaciones para el comportamiento perjudicial ilícito del modelo. Como se relaciona con la seguridad, el banco de pruebas cubre 7 categorías semánticas de comportamiento:
- Ciberdelincuencia y intrusiones no autorizadas
- Armas químicas y biológicas/drogas
- Infracciones de derechos de autor
- Información errónea y desinformación
- Acoso y bullying
- Actividades ilegales
- Daño general
Estas 7 categorías se pueden resumir en 3 categorías funcionales
- comportamientos perjudiciales estándar
- comportamientos contextualmente dañinos
- infracciones de derechos de autor
Cada categoría funcional se incluye en una tabla de clasificación de escenarios independiente. Usamos avisos directos de HarmBench (sin ataques) y evaluadores de HarmBench para calcular la tasa de éxito de ataques (ASR). Los valores de ASR inferiores significan modelos más seguros. No exploramos ninguna estrategia de ataque para la evaluación y la prueba comparativa de modelos se realiza con el filtro de seguridad de contenido de Azure AI desactivado.
Capacidad del modelo para detectar contenido tóxico
Toxigen es un conjunto de datos generado por máquinas a gran escala para la detección de discurso de odio adversario e implícito. Contiene oraciones implícitamente tóxicos e benignas que mencionan 13 grupos minoritarios. Usamos las muestras anotadas de Toxigen para la evaluación y calculamos las puntuaciones F1 para medir el rendimiento de la clasificación. La puntuación más alta en este conjunto de datos significa que un modelo es mejor para detectar contenido tóxico. La prueba comparativa de modelos se realiza con el filtro de seguridad de contenido de Azure AI desactivado.
Conocimientos del modelo en dominios confidenciales
El Proxy de Armas de Destrucción Masiva (WMDP) mide el conocimiento del modelo en dominios confidenciales, incluida la bioseguridad, la ciberseguridad y la seguridad química. La tabla de clasificación usa puntuaciones medias de precisión en la ciberseguridad, la bioseguridad y la seguridad química. Una puntuación de precisión de WMDP más alta denota más conocimiento de las capacidades peligrosas (comportamiento peor desde el punto de vista de la seguridad). La prueba comparativa de modelos se realiza con los filtros predeterminados de seguridad de contenido de Azure AI. Estos filtros de seguridad detectan y bloquean los daños en el contenido en violencia, autolesión, sexual, odio e injusticia, pero no se dirigen a categorías de ciberseguridad, bioseguridad y seguridad química.
Limitaciones de las pruebas comparativas de seguridad
Entendemos y reconocemos que la seguridad es un tema complejo y tiene varias dimensiones. Ningún banco de pruebas de código abierto único puede probar o representar la seguridad completa de un sistema en diferentes escenarios. Además, la mayoría de estas pruebas comparativas sufren de saturación o desalineación entre el diseño de pruebas comparativas y la definición de riesgo, pueden carecer de documentación clara sobre cómo se conceptualizan y operacionalizan los riesgos de destino, lo que dificulta la evaluación de si la prueba comparativa captura con precisión los matices de los riesgos. Esta limitación puede provocar sobrestimar o infraestimar el rendimiento del modelo en escenarios de seguridad reales.
Pruebas comparativas de rendimiento de modelos de lenguaje
Las métricas de rendimiento se calculan como un agregado durante 14 días, en función de 24 rutas (dos solicitudes por pista) enviadas diariamente con un intervalo de una hora entre cada pista. Los parámetros predeterminados siguientes se usan para cada solicitud al punto de conexión del modelo:
Parámetro | Valor | Aplicable para |
---|---|---|
Región | Este de EE. UU./ Este de EE. UU. 2 | Implementaciones estándar y Azure OpenAI |
Límite de velocidad de tokens por minuto (TPM) | 30 000 RPM para modelos sin razonamiento (basados en 180 RPM en Azure OpenAI) y 100 000 para modelos de razonamiento N/A (implementaciones estándar) |
Para los modelos de Azure OpenAI, los usuarios pueden seleccionar intervalos de límite de tasa según el tipo de implementación (como estándar, global, estándar global, etc.) En el caso de las implementaciones estándar, esta configuración se abstrae. |
Número de solicitudes | Dos solicitudes en una pista por cada hora (24 pistas al día) | Implementaciones estándar, Azure OpenAI |
Número de pistas o ejecuciones | 14 días con 24 pistas al día para 336 ejecuciones | Implementaciones estándar, Azure OpenAI |
Longitud del mensaje o contexto | Longitud moderada | Implementaciones estándar, Azure OpenAI |
Número de tokens procesados (moderado) | Proporción de 80:20 para los tokens de entrada y salida, es decir, 800 tokens de entrada a 200 tokens de salida. | Implementaciones estándar, Azure OpenAI |
Número de solicitudes simultáneas | Una (las solicitudes se envían secuencialmente una después de otra) | Implementaciones estándar, Azure OpenAI |
Datos | Sintético (mensajes de entrada preparados a partir de texto estático) | Implementaciones estándar, Azure OpenAI |
Región | Este de EE. UU./ Este de EE. UU. 2 | Implementaciones estándar y Azure OpenAI |
Tipo de implementación | Estándar | Solo se aplica a Azure OpenAI |
Transmisión en línea | Cierto | Se aplica a las implementaciones estándar y Azure OpenAI. En el caso de los modelos implementados a través de un proceso administrado o para los puntos de conexión cuando no se admite el streaming, TTFT se representa como P50 de métrica de latencia. |
Código de referencia | Standard_NC24ads_A100_v4 (24 núcleos, 220 GB de RAM, almacenamiento de 64 GB) | Solo se aplica a Proceso administrado (para calcular el costo y las métricas de rendimiento) |
El rendimiento de los LLM y SLM se evalúa en las métricas siguientes:
Métrica | Descripción |
---|---|
Media de latencia | Promedio de tiempo en segundos que se tarda en procesar una solicitud, calculada en varias solicitudes. Para calcular esta métrica, se envía una solicitud al punto de conexión cada hora, durante dos semanas y se calcula el promedio. |
Latencia P50 | Valor de percentil 50 (mediana) de latencia (el tiempo necesario entre la solicitud y cuando recibimos toda la respuesta con un código correcto). Por ejemplo, cuando se envía una solicitud al punto de conexión, el 50 % de las solicitudes se completan en segundos "x", con "x" siendo la medición de latencia. |
Latencia P90 | Valor de percentil 90 de latencia (el tiempo necesario entre la solicitud y cuando se recibe toda la respuesta con un código correcto). Por ejemplo, cuando se envía una solicitud al punto de conexión, el 90 % de las solicitudes se completan en segundos "x", con "x" siendo la medición de latencia. |
Latencia P95 | Valor del percentil 95 de latencia (el tiempo transcurrido desde la solicitud hasta que recibimos toda la respuesta con un código exitoso). Por ejemplo, cuando se envía una solicitud al punto de conexión, el 95 % de las solicitudes se completan en segundos "x", con "x" siendo la medición de latencia. |
Latencia P99 | Valor de percentil 99 de latencia (el tiempo necesario entre la solicitud y cuando se recibe toda la respuesta con un código correcto). Por ejemplo, cuando se envía una solicitud al punto de conexión, el 99 % de las solicitudes se completan en segundos "x", con "x" siendo la medición de latencia. |
Rendimiento de GTPS | Los tokens generados por segundo (GTPS) son el número de tokens de salida que se generan por segundo desde el momento en que la solicitud se envía al punto de conexión. |
Rendimiento de TTPS | El número total de tokens por segundo (TTPS) es el número de tokens totales procesados por segundo, incluidos los tokens de entrada y los tokens de salida generados. Para los modelos que no admiten streaming, el tiempo para el primer token (ttft) representa el valor P50 de latencia (tiempo necesario para recibir la respuesta). |
Latencia de TTFT | El tiempo total del primer token (TTFT) es el tiempo necesario para que el primer token de la respuesta se devuelva desde el punto de conexión cuando el streaming esté habilitado. |
Tiempo entre tokens | Esta métrica es el tiempo entre los tokens recibidos. |
Azure AI también muestra índices de rendimiento para la latencia y el rendimiento de la siguiente manera:
Índice | Descripción |
---|---|
Índice de latencia | Tiempo promedio hasta el primer token. Los valores bajos son mejores. |
Índice de rendimiento | Promedio de tokens generados por segundo. Los valores más altos son mejores. |
En el caso de las métricas de rendimiento, como la latencia o el rendimiento, el tiempo para el primer token y los tokens generados por segundo proporcionan un mejor sentido general del rendimiento y el comportamiento típicos del modelo. Actualizamos nuestros números de rendimiento en cadencia regular.
Pruebas comparativas de costos de modelos de lenguaje
Los cálculos de costos son estimaciones para usar un punto de conexión del modelo LLM o SLM alojado en la plataforma de Azure AI. Azure AI admite la visualización del costo de las implementaciones estándar y los modelos de Azure OpenAI. Dado que estos costos están sujetos a cambios, actualizamos nuestros cálculos de costos con una cadencia regular.
El costo de los LLM y SLM se evalúa en las métricas siguientes:
Métrica | Descripción |
---|---|
Costo por tokens de entrada | Costo de la implementación estándar para 1 millón de tokens de entrada |
Costo por tokens de salida | Costo de la implementación estándar para 1 millón de tokens de salida |
Costo estimado | Costo de la suma del costo por tokens de entrada y costo por tokens de salida, con una relación de 3:1. |
Azure AI también muestra el índice de costos de la siguiente manera:
Índice | Descripción |
---|---|
Índice de costos | Costo estimado. Los valores bajos son mejores. |
Pruebas comparativas de calidad de los modelos de inserción
El índice de calidad de los modelos de inserción se define como las puntuaciones de precisión promedio de un conjunto completo de conjuntos de datos de pruebas comparativas estándar destinados a tareas de recuperación de información, agrupación en clústeres de documentos y resumen.
Consulte más detalles sobre las definiciones de puntuación de precisión específicas de cada conjunto de datos:
Métrica | Descripción |
---|---|
Precisión | La precisión es la proporción de predicciones correctas entre el número total de predicciones procesadas. |
Puntuación F1 | La puntuación F1 es la media ponderada de la precisión y la recuperación, donde el mejor valor es uno (precisión y recuperación perfectas) y el peor es cero. |
Precisión media (MAP) | MAP evalúa la calidad de la clasificación y los sistemas de recomendación. Mide tanto la relevancia de los elementos sugeridos como la buena forma en que el sistema coloca elementos más relevantes en la parte superior. Los valores pueden oscilar entre cero y uno, y cuanto más alto sea MAP, mejor puede el sistema colocar los elementos pertinentes en alto en la lista. |
Ganancia acumulativa con descuento normalizado (NDCG) | NDCG evalúa la capacidad de un algoritmo de aprendizaje automático para ordenar los elementos en función de la relevancia. Compara las clasificaciones con un orden ideal en el que todos los elementos relevantes están en la parte superior de la lista, donde k es la longitud de la lista al evaluar la calidad de la clasificación. En nuestras pruebas comparativas, k=10, indicada por una métrica de ndcg_at_10 , lo que significa que observamos los 10 elementos principales. |
Precisión | La precisión mide la capacidad del modelo para identificar las instancias de una clase determinada correctamente. La precisión muestra la frecuencia con la que un modelo de Machine Learning es correcto al predecir la clase de destino. |
Correlación de Spearman | La correlación de Spearman basada en la similitud de coseno se calcula determinando primero la similitud de coseno entre variables y, después, clasificando estas puntuaciones y usando las clasificaciones para calcular la correlación de Spearman. |
Medida V | La medida V es una métrica que se usa para evaluar la calidad de la agrupación en clústeres. La medida V se calcula como una media armónica de homogeneidad e integridad, lo que garantiza un equilibrio entre los dos para una puntuación significativa. Las puntuaciones posibles se encuentran entre cero y uno, siendo uno un etiquetado perfectamente completo. |
Cálculo de puntuaciones
Puntuaciones individuales
Los resultados de las pruebas comparativas se originan en conjuntos de datos públicos que se usan habitualmente para la evaluación del modelos de lenguaje. En la mayoría de los casos, los datos se hospedan en repositorios de GitHub mantenidos por los creadores o conservadores de los datos. Las canalizaciones de evaluación de Azure AI descargan datos de sus orígenes originales, extraen solicitudes de cada fila de ejemplo, generan respuestas de modelo y, a continuación, calculan las métricas de precisión pertinentes.
La construcción del mensaje sigue el procedimiento recomendado para cada conjunto de datos, definido por el documento que presenta el conjunto de datos y el estándar del sector. En la mayoría de los casos, cada mensaje contiene varias capturas, es decir, varios ejemplos de preguntas completas y respuestas para dar el modelo a la tarea. Las canalizaciones de evaluación crean capturas mediante el muestreo de preguntas y respuestas de una parte de los datos que se mantienen a partir de la evaluación.