Tablas de clasificación de modelos en el portal de Azure AI Foundry (versión preliminar)

2025-06-21

Importante

Los elementos marcados (versión preliminar) en este artículo se encuentran actualmente en versión preliminar pública. Esta versión preliminar se ofrece sin acuerdo de nivel de servicio y no se recomienda para las cargas de trabajo de producción. Es posible que algunas características no sean compatibles o que tengan sus funcionalidades limitadas. Para más información, consulte Términos de uso complementarios de las Versiones Preliminares de Microsoft Azure.

Los marcadores de modelos (versión preliminar) en el portal de Azure AI Foundry le permiten simplificar el proceso de selección de modelos en el catálogo de modelos de Azure AI Foundry. Las tablas de clasificación del modelo, respaldadas por pruebas comparativas estándar del sector, pueden ayudarle a encontrar el mejor modelo para su solución de inteligencia artificial personalizada. En la sección tablas de clasificación del modelo del catálogo de modelos, puede examinar tablas de clasificación para comparar los modelos disponibles de la siguiente manera:

Tablas de clasificación de calidad, seguridad, costo y rendimiento para identificar rápidamente a los líderes del modelo a lo largo de una sola métrica (calidad, seguridad, costo o rendimiento);
Gráficos de compensación para ver cómo funcionan los modelos en una métrica frente a otra, como la calidad frente al costo;
Tablas de clasificación por escenario para encontrar las mejores tablas de clasificación que se ajusten a su escenario.

Siempre que encuentre un modelo a su gusto, puede seleccionarlo y acercar los resultados de pruebas comparativas detalladas del modelo dentro del catálogo de modelos. Si le convence el modelo, puede implementarlo, probarlo en el área de juegos o evaluarlo en los datos. Las tablas de clasificación admiten pruebas comparativas entre modelos de lenguaje de texto (modelos de lenguaje grande (LLM) y modelos de lenguaje pequeño (SLAM) e incrustación de modelos.

Las pruebas comparativas de modelos evalúan los MLG y los MLS en las siguientes categorías: calidad, seguridad, costo y rendimiento. Además, se evalúa la calidad de los modelos de inserción mediante pruebas comparativas estándar. Las tablas de clasificación se actualizan periódicamente, ya que se incorporan más pruebas comparativas insinsaturadas y, a medida que se agregan nuevos modelos al catálogo de modelos.

Pruebas comparativas de calidad de los modelos de lenguaje

Azure AI evalúa la calidad de los LLM y SLM mediante puntuaciones de precisión de conjuntos de datos de pruebas comparativas estándar que miden capacidades del modelo, como el razonamiento, el conocimiento, la respuesta a preguntas, las matemáticas y la codificación.

Índice	Descripción
Índice de calidad	El índice de calidad se calcula mediante el promedio de puntuaciones de precisión aplicables (exact_match, pass@1, arena_hard) en conjuntos de datos de pruebas comparativas estándar completos.

El índice de calidad se proporciona en una escala de cero a uno. Los valores más altos del índice de calidad son mejores. Los conjuntos de datos incluidos en el índice de calidad son:

Nombre del conjunto de datos	Escenario de tabla de clasificación
arena_hard	Aseguramiento de Calidad
bigbench_hard	Razonamiento
gpqa	Aseguramiento de Calidad
humanevalplus	Codificar
ifeval	Razonamiento
matemáticas	Matemáticas
mbppplus	Codificar
mmlu_pro	Conocimiento general

Consulte más detalles en las puntuaciones de precisión:

Métrica Descripción

Precisión Las puntuaciones de precisión están disponibles a nivel de conjunto de datos y modelo. A nivel de conjunto de datos, la puntuación es el valor medio de una métrica de precisión calculada sobre todos los ejemplos del conjunto de datos. La métrica de precisión utilizada es exact-match en todos los casos, excepto los conjuntos de datos HumanEval y MBPP que usan una pass@1 métrica. La coincidencia exacta compara el texto generado por el modelo con la respuesta correcta según el conjunto de datos, notificando 1 si el texto generado coincide exactamente con la respuesta y 0 en caso contrario. La métrica pass@1 mide la proporción de soluciones de modelo que pasan un conjunto de pruebas unitarias en una tarea de generación de código. A nivel de modelo, la puntuación de precisión es la media de las precisiones de nivel de conjunto de datos para cada modelo.

Métrica	Descripción
Precisión	Las puntuaciones de precisión están disponibles a nivel de conjunto de datos y modelo. A nivel de conjunto de datos, la puntuación es el valor medio de una métrica de precisión calculada sobre todos los ejemplos del conjunto de datos. La métrica de precisión utilizada es `exact-match` en todos los casos, excepto los conjuntos de datos HumanEval y MBPP que usan una `pass@1` métrica. La coincidencia exacta compara el texto generado por el modelo con la respuesta correcta según el conjunto de datos, notificando 1 si el texto generado coincide exactamente con la respuesta y 0 en caso contrario. La métrica `pass@1` mide la proporción de soluciones de modelo que pasan un conjunto de pruebas unitarias en una tarea de generación de código. A nivel de modelo, la puntuación de precisión es la media de las precisiones de nivel de conjunto de datos para cada modelo.

Las puntuaciones de precisión se proporcionan en una escala de cero a una. Los valores más altos son mejores.

Pruebas comparativas de seguridad de modelos de lenguaje

Para guiar la selección de pruebas comparativas de seguridad para la evaluación, aplicamos un proceso estructurado de filtrado y validación diseñado para garantizar la relevancia y el rigor. Un estándar de referencia puede ser elegible para la implementación si aborda los riesgos de alta prioridad. Para las tablas de clasificación de seguridad, observamos diferentes puntos de referencia que se pueden considerar lo suficientemente confiables como para proporcionar algunas señales en determinados temas de interés a medida que se relacionan con la seguridad. Seleccionamos HarmBench para la seguridad del modelo de proxy y organizamos las tablas de clasificación del escenario de la siguiente manera:

Nombre del conjunto de datos	Escenario de tabla de clasificación	Métrica	Interpretación
HarmBench (estándar)	Comportamientos dañinos estándar	Tasa de éxito de ataques	Los valores inferiores significan una mejor solidez frente a ataques diseñados para contenido perjudicial estándar ilícito
HarmBench (contextual)	Comportamientos contextualmente dañinos	Tasa de éxito de ataques	Los valores inferiores significan una mejor solidez frente a ataques diseñados para contenido ilícito perjudicial contextualmente
HarmBench (infracciones de derechos de autor)	Infracciones de derechos de autor	Tasa de éxito de ataques	Los valores inferiores significan una mejor solidez frente a ataques diseñados para infracciones ilícitas de derechos de autor
WMDP	Conocimientos sobre dominios confidenciales	Precisión	Valores más altos denotan más conocimientos en dominios confidenciales (ciberseguridad, bioseguridad y seguridad química)
Toxigen	Capacidad de detectar contenido tóxico	Puntuación F1	Los valores más altos significan una mejor capacidad de detectar contenido tóxico

Modelar comportamientos perjudiciales

El banco de pruebas HarmBench mide los comportamientos dañinos del modelo e incluye indicaciones para el comportamiento perjudicial ilícito del modelo. Como se relaciona con la seguridad, el banco de pruebas cubre 7 categorías semánticas de comportamiento:

Ciberdelincuencia y intrusiones no autorizadas
Armas químicas y biológicas/drogas
Infracciones de derechos de autor
Información errónea y desinformación
Acoso y bullying
Actividades ilegales
Daño general

Estas 7 categorías se pueden resumir en 3 categorías funcionales

comportamientos perjudiciales estándar
comportamientos contextualmente dañinos
infracciones de derechos de autor

Cada categoría funcional se incluye en una tabla de clasificación de escenarios independiente. Usamos avisos directos de HarmBench (sin ataques) y evaluadores de HarmBench para calcular la tasa de éxito de ataques (ASR). Los valores de ASR inferiores significan modelos más seguros. No exploramos ninguna estrategia de ataque para la evaluación y la prueba comparativa de modelos se realiza con el filtro de seguridad de contenido de Azure AI desactivado.

Capacidad del modelo para detectar contenido tóxico

Toxigen es un conjunto de datos generado por máquinas a gran escala para la detección de discurso de odio adversario e implícito. Contiene oraciones implícitamente tóxicos e benignas que mencionan 13 grupos minoritarios. Usamos las muestras anotadas de Toxigen para la evaluación y calculamos las puntuaciones F1 para medir el rendimiento de la clasificación. La puntuación más alta en este conjunto de datos significa que un modelo es mejor para detectar contenido tóxico. La prueba comparativa de modelos se realiza con el filtro de seguridad de contenido de Azure AI desactivado.

Conocimientos del modelo en dominios confidenciales

El Proxy de Armas de Destrucción Masiva (WMDP) mide el conocimiento del modelo en dominios confidenciales, incluida la bioseguridad, la ciberseguridad y la seguridad química. La tabla de clasificación usa puntuaciones medias de precisión en la ciberseguridad, la bioseguridad y la seguridad química. Una puntuación de precisión de WMDP más alta denota más conocimiento de las capacidades peligrosas (comportamiento peor desde el punto de vista de la seguridad). La prueba comparativa de modelos se realiza con los filtros predeterminados de seguridad de contenido de Azure AI. Estos filtros de seguridad detectan y bloquean los daños en el contenido en violencia, autolesión, sexual, odio e injusticia, pero no se dirigen a categorías de ciberseguridad, bioseguridad y seguridad química.

Limitaciones de las pruebas comparativas de seguridad

Entendemos y reconocemos que la seguridad es un tema complejo y tiene varias dimensiones. Ningún banco de pruebas de código abierto único puede probar o representar la seguridad completa de un sistema en diferentes escenarios. Además, la mayoría de estas pruebas comparativas sufren de saturación o desalineación entre el diseño de pruebas comparativas y la definición de riesgo, pueden carecer de documentación clara sobre cómo se conceptualizan y operacionalizan los riesgos de destino, lo que dificulta la evaluación de si la prueba comparativa captura con precisión los matices de los riesgos. Esta limitación puede provocar sobrestimar o infraestimar el rendimiento del modelo en escenarios de seguridad reales.

Pruebas comparativas de rendimiento de modelos de lenguaje

Las métricas de rendimiento se calculan como un agregado durante 14 días, en función de 24 rutas (dos solicitudes por pista) enviadas diariamente con un intervalo de una hora entre cada pista. Los parámetros predeterminados siguientes se usan para cada solicitud al punto de conexión del modelo:

Parámetro	Valor	Aplicable para
Región	Este de EE. UU./ Este de EE. UU. 2	Implementaciones estándar y Azure OpenAI
Límite de velocidad de tokens por minuto (TPM)	30 000 RPM para modelos sin razonamiento (basados en 180 RPM en Azure OpenAI) y 100 000 para modelos de razonamiento N/A (implementaciones estándar)	Para los modelos de Azure OpenAI, los usuarios pueden seleccionar intervalos de límite de tasa según el tipo de implementación (como estándar, global, estándar global, etc.) En el caso de las implementaciones estándar, esta configuración se abstrae.
Número de solicitudes	Dos solicitudes en una pista por cada hora (24 pistas al día)	Implementaciones estándar, Azure OpenAI
Número de pistas o ejecuciones	14 días con 24 pistas al día para 336 ejecuciones	Implementaciones estándar, Azure OpenAI
Longitud del mensaje o contexto	Longitud moderada	Implementaciones estándar, Azure OpenAI
Número de tokens procesados (moderado)	Proporción de 80:20 para los tokens de entrada y salida, es decir, 800 tokens de entrada a 200 tokens de salida.	Implementaciones estándar, Azure OpenAI
Número de solicitudes simultáneas	Una (las solicitudes se envían secuencialmente una después de otra)	Implementaciones estándar, Azure OpenAI
Datos	Sintético (mensajes de entrada preparados a partir de texto estático)	Implementaciones estándar, Azure OpenAI
Región	Este de EE. UU./ Este de EE. UU. 2	Implementaciones estándar y Azure OpenAI
Tipo de implementación	Estándar	Solo se aplica a Azure OpenAI
Transmisión en línea	Cierto	Se aplica a las implementaciones estándar y Azure OpenAI. En el caso de los modelos implementados a través de un proceso administrado o para los puntos de conexión cuando no se admite el streaming, TTFT se representa como P50 de métrica de latencia.
Código de referencia	Standard_NC24ads_A100_v4 (24 núcleos, 220 GB de RAM, almacenamiento de 64 GB)	Solo se aplica a Proceso administrado (para calcular el costo y las métricas de rendimiento)

El rendimiento de los LLM y SLM se evalúa en las métricas siguientes:

Métrica	Descripción
Media de latencia	Promedio de tiempo en segundos que se tarda en procesar una solicitud, calculada en varias solicitudes. Para calcular esta métrica, se envía una solicitud al punto de conexión cada hora, durante dos semanas y se calcula el promedio.
Latencia P50	Valor de percentil 50 (mediana) de latencia (el tiempo necesario entre la solicitud y cuando recibimos toda la respuesta con un código correcto). Por ejemplo, cuando se envía una solicitud al punto de conexión, el 50 % de las solicitudes se completan en segundos "x", con "x" siendo la medición de latencia.
Latencia P90	Valor de percentil 90 de latencia (el tiempo necesario entre la solicitud y cuando se recibe toda la respuesta con un código correcto). Por ejemplo, cuando se envía una solicitud al punto de conexión, el 90 % de las solicitudes se completan en segundos "x", con "x" siendo la medición de latencia.
Latencia P95	Valor del percentil 95 de latencia (el tiempo transcurrido desde la solicitud hasta que recibimos toda la respuesta con un código exitoso). Por ejemplo, cuando se envía una solicitud al punto de conexión, el 95 % de las solicitudes se completan en segundos "x", con "x" siendo la medición de latencia.
Latencia P99	Valor de percentil 99 de latencia (el tiempo necesario entre la solicitud y cuando se recibe toda la respuesta con un código correcto). Por ejemplo, cuando se envía una solicitud al punto de conexión, el 99 % de las solicitudes se completan en segundos "x", con "x" siendo la medición de latencia.
Rendimiento de GTPS	Los tokens generados por segundo (GTPS) son el número de tokens de salida que se generan por segundo desde el momento en que la solicitud se envía al punto de conexión.
Rendimiento de TTPS	El número total de tokens por segundo (TTPS) es el número de tokens totales procesados por segundo, incluidos los tokens de entrada y los tokens de salida generados. Para los modelos que no admiten streaming, el tiempo para el primer token (ttft) representa el valor P50 de latencia (tiempo necesario para recibir la respuesta).
Latencia de TTFT	El tiempo total del primer token (TTFT) es el tiempo necesario para que el primer token de la respuesta se devuelva desde el punto de conexión cuando el streaming esté habilitado.
Tiempo entre tokens	Esta métrica es el tiempo entre los tokens recibidos.

Azure AI también muestra índices de rendimiento para la latencia y el rendimiento de la siguiente manera:

Índice	Descripción
Índice de latencia	Tiempo promedio hasta el primer token. Los valores bajos son mejores.
Índice de rendimiento	Promedio de tokens generados por segundo. Los valores más altos son mejores.

En el caso de las métricas de rendimiento, como la latencia o el rendimiento, el tiempo para el primer token y los tokens generados por segundo proporcionan un mejor sentido general del rendimiento y el comportamiento típicos del modelo. Actualizamos nuestros números de rendimiento en cadencia regular.

Pruebas comparativas de costos de modelos de lenguaje

Los cálculos de costos son estimaciones para usar un punto de conexión del modelo LLM o SLM alojado en la plataforma de Azure AI. Azure AI admite la visualización del costo de las implementaciones estándar y los modelos de Azure OpenAI. Dado que estos costos están sujetos a cambios, actualizamos nuestros cálculos de costos con una cadencia regular.

El costo de los LLM y SLM se evalúa en las métricas siguientes:

Métrica	Descripción
Costo por tokens de entrada	Costo de la implementación estándar para 1 millón de tokens de entrada
Costo por tokens de salida	Costo de la implementación estándar para 1 millón de tokens de salida
Costo estimado	Costo de la suma del costo por tokens de entrada y costo por tokens de salida, con una relación de 3:1.

Azure AI también muestra el índice de costos de la siguiente manera:

Índice	Descripción
Índice de costos	Costo estimado. Los valores bajos son mejores.

Pruebas comparativas de calidad de los modelos de inserción

El índice de calidad de los modelos de inserción se define como las puntuaciones de precisión promedio de un conjunto completo de conjuntos de datos de pruebas comparativas estándar destinados a tareas de recuperación de información, agrupación en clústeres de documentos y resumen.

Consulte más detalles sobre las definiciones de puntuación de precisión específicas de cada conjunto de datos:

Métrica	Descripción
Precisión	La precisión es la proporción de predicciones correctas entre el número total de predicciones procesadas.
Puntuación F1	La puntuación F1 es la media ponderada de la precisión y la recuperación, donde el mejor valor es uno (precisión y recuperación perfectas) y el peor es cero.
Precisión media (MAP)	MAP evalúa la calidad de la clasificación y los sistemas de recomendación. Mide tanto la relevancia de los elementos sugeridos como la buena forma en que el sistema coloca elementos más relevantes en la parte superior. Los valores pueden oscilar entre cero y uno, y cuanto más alto sea MAP, mejor puede el sistema colocar los elementos pertinentes en alto en la lista.
Ganancia acumulativa con descuento normalizado (NDCG)	NDCG evalúa la capacidad de un algoritmo de aprendizaje automático para ordenar los elementos en función de la relevancia. Compara las clasificaciones con un orden ideal en el que todos los elementos relevantes están en la parte superior de la lista, donde k es la longitud de la lista al evaluar la calidad de la clasificación. En nuestras pruebas comparativas, k=10, indicada por una métrica de `ndcg_at_10`, lo que significa que observamos los 10 elementos principales.
Precisión	La precisión mide la capacidad del modelo para identificar las instancias de una clase determinada correctamente. La precisión muestra la frecuencia con la que un modelo de Machine Learning es correcto al predecir la clase de destino.
Correlación de Spearman	La correlación de Spearman basada en la similitud de coseno se calcula determinando primero la similitud de coseno entre variables y, después, clasificando estas puntuaciones y usando las clasificaciones para calcular la correlación de Spearman.
Medida V	La medida V es una métrica que se usa para evaluar la calidad de la agrupación en clústeres. La medida V se calcula como una media armónica de homogeneidad e integridad, lo que garantiza un equilibrio entre los dos para una puntuación significativa. Las puntuaciones posibles se encuentran entre cero y uno, siendo uno un etiquetado perfectamente completo.

Cálculo de puntuaciones

Puntuaciones individuales

Los resultados de las pruebas comparativas se originan en conjuntos de datos públicos que se usan habitualmente para la evaluación del modelos de lenguaje. En la mayoría de los casos, los datos se hospedan en repositorios de GitHub mantenidos por los creadores o conservadores de los datos. Las canalizaciones de evaluación de Azure AI descargan datos de sus orígenes originales, extraen solicitudes de cada fila de ejemplo, generan respuestas de modelo y, a continuación, calculan las métricas de precisión pertinentes.

La construcción del mensaje sigue el procedimiento recomendado para cada conjunto de datos, definido por el documento que presenta el conjunto de datos y el estándar del sector. En la mayoría de los casos, cada mensaje contiene varias capturas, es decir, varios ejemplos de preguntas completas y respuestas para dar el modelo a la tarea. Las canalizaciones de evaluación crean capturas mediante el muestreo de preguntas y respuestas de una parte de los datos que se mantienen a partir de la evaluación.