Compartir a través de


Tablas de clasificación de modelos en el portal de Microsoft Foundry (versión preliminar)

Importante

Los elementos marcados (versión preliminar) en este artículo se encuentran actualmente en versión preliminar pública. Esta versión preliminar se ofrece sin acuerdo de nivel de servicio y no se recomienda para las cargas de trabajo de producción. Es posible que algunas características no sean compatibles o que tengan sus funcionalidades limitadas. Para más información, consulte Términos de uso complementarios para las versiones preliminares de Microsoft Azure.

Las tablas de clasificación de modelos (versión preliminar) en el portal de Foundry le ayudan a comparar modelos en el catálogo de modelos foundry mediante pruebas comparativas de modelos estándar del sector.

Para empezar, compare y seleccione modelos mediante la tabla de clasificación del modelo en el portal de Foundry.

Puede revisar la metodología de pruebas comparativas detallada para cada categoría de tabla de clasificación:

Cuando encuentre un modelo adecuado, puede abrir sus resultados de pruebas comparativas detalladas en el catálogo de modelos. Desde allí, puede implementar el modelo, probarlo en el área de juegos o evaluarlo en sus propios datos. Las tablas de clasificación admiten pruebas comparativas para modelos de lenguaje de texto (incluidos modelos de lenguaje grande (LLM) y modelos de lenguaje pequeño (SLAM) e incrustación de modelos.

Las pruebas comparativas de modelos evalúan los LLM y SLM en cuanto a calidad, seguridad, costo y rendimiento. Los modelos de inserción se evalúan mediante pruebas comparativas de calidad estándar. Las tablas de clasificación se actualizan a medida que los nuevos modelos y los conjuntos de datos de pruebas comparativas están disponibles.

Ámbito de pruebas comparativas de modelos

Las tablas de clasificación de modelos presentan una selección seleccionada de modelos de lenguaje basados en texto del catálogo de modelos foundry. Los modelos se incluyen en función de los criterios siguientes:

  • Modelos directos de Azure priorizados: se seleccionan modelos directos de Azure para que sean relevantes para escenarios comunes de ia generativa.
  • Aplicabilidad de pruebas comparativas principales: los modelos deben admitir tareas de lenguaje de uso general, como el razonamiento, el conocimiento, la respuesta a preguntas, el razonamiento matemático y la codificación. No se admiten modelos especializados (por ejemplo, plegado de proteínas o aseguramiento de calidad específico del dominio) ni otras modalidades.

Este ámbito garantiza que las tablas de clasificación reflejen los modelos actuales y de alta calidad relevantes para los escenarios principales de inteligencia artificial.

Interpretación de los resultados de la tabla de clasificación

Las tablas de clasificación le ayudan a comparar modelos en varias dimensiones para que pueda elegir el modelo adecuado para su caso de uso. Estas son algunas directrices para interpretar los resultados:

  • Índice de calidad: un índice de mayor calidad indica un rendimiento general más sólido en el razonamiento, codificación, matemáticas y tareas de conocimiento. Compare el índice de calidad entre modelos para identificar los mejores intérpretes para tareas de lenguaje de uso general.
  • Puntuaciones de seguridad: las tasas de éxito de ataque más bajas indican modelos más sólidos. Considere las puntuaciones de seguridad junto con las puntuaciones de calidad, especialmente para las aplicaciones orientadas al cliente en las que la salida perjudicial es una preocupación importante.
  • Ventajas del rendimiento: use las métricas de latencia y rendimiento para comprender la capacidad de respuesta del mundo real de un modelo. Un modelo con alta calidad pero latencia alta podría no adaptarse a las aplicaciones en tiempo real.
  • Consideraciones sobre los costos: la métrica de costo estimado usa una relación de token de entrada a salida de tres a uno. Ajuste las expectativas en función de la relación de entrada y salida de la carga de trabajo real.
  • Tablas de clasificación de escenarios: si el caso de uso se asigna a un escenario específico (por ejemplo, codificación o matemáticas), comience con la tabla de clasificación del escenario para buscar modelos optimizados para esa tarea en lugar de confiar únicamente en el índice de calidad general.

Sugerencia

Las pruebas comparativas de tabla de clasificación proporcionan comparaciones estandarizadas entre modelos mediante conjuntos de datos públicos. Para evaluar el rendimiento del modelo en los datos específicos y el caso de uso, consulte Evaluación de las aplicaciones de IA generativas.

Pruebas comparativas de calidad de los modelos de lenguaje

Foundry evalúa la calidad de las VM y los SLA mediante puntuaciones de precisión de los conjuntos de datos de pruebas comparativas estándar que miden el razonamiento, el conocimiento, la respuesta a preguntas, las matemáticas y las funcionalidades de codificación.

Index Description
Índice de calidad Se calcula mediante el promedio de puntuaciones de precisión aplicables (exact_match, pass@1, arena_hard) entre conjuntos de datos de pruebas comparativas.

Los valores de índice de calidad oscilan entre cero y uno, donde los valores más altos indican un mejor rendimiento. Los conjuntos de datos incluidos en el índice de calidad son:

Nombre del conjunto de datos Categoría
arena_hard Aseguramiento de Calidad
bigbench_hard (reducido a 1.000 ejemplos) Razonamiento
gpqa Aseguramiento de Calidad
humanevalplus Coding
ifeval Razonamiento
matemáticas Matemáticas
mbppplus Coding
mmlu_pro (reducido a 1.000 ejemplos) Conocimientos generales

Consulte más detalles en las puntuaciones de precisión:

Métrica Description
Precisión Las puntuaciones de precisión están disponibles a nivel de conjunto de datos y modelo. A nivel de conjunto de datos, la puntuación es el valor medio de una métrica de precisión calculada sobre todos los ejemplos del conjunto de datos. La métrica de precisión utilizada es exact_match en todos los casos, excepto los conjuntos de datos HumanEval y MBPP que usan una pass@1 métrica. La coincidencia exacta compara el texto generado por el modelo con la respuesta correcta según el conjunto de datos, notificando 1 si el texto generado coincide exactamente con la respuesta y 0 en caso contrario. La métrica pass@1 mide la proporción de soluciones de modelo que pasan un conjunto de pruebas unitarias en una tarea de generación de código. A nivel de modelo, la puntuación de precisión es la media de las precisiones de nivel de conjunto de datos para cada modelo.

Las puntuaciones de precisión oscilan entre cero y uno, donde los valores más altos son mejores.

Pruebas comparativas de seguridad de modelos de lenguaje

Las pruebas comparativas de seguridad se seleccionan a través de un proceso estructurado de filtrado y validación diseñado para garantizar la relevancia y el rigor. Un estándar de referencia puede ser elegible para la implementación si aborda los riesgos de alta prioridad. Las tablas de clasificación de seguridad incluyen pruebas comparativas que son lo suficientemente confiables como para proporcionar señales significativas sobre temas de interés en relación con la seguridad. Las tablas de clasificación usan HarmBench para representar la seguridad del modelo y organizan las tablas de clasificación por escenario de la siguiente manera:

Nombre del conjunto de datos Escenario de tabla de clasificación Métrica Interpretación
HarmBench (estándar) Comportamientos dañinos estándar Tasa de éxito de ataques Los valores más bajos significan una mejor solidez frente a ataques diseñados para obtener contenido dañino estándar
HarmBench (contextual) Comportamientos contextualmente dañinos Tasa de éxito de ataques Los valores más bajos significan una mejor robustez frente a ataques diseñados para provocar contenido contextualmente dañino
HarmBench (infracciones de derechos de autor) Infracciones de derechos de autor Tasa de éxito de ataques Los valores más bajos indican una solidez más fuerte contra las infracciones de derechos de autor
WMDP Conocimientos sobre dominios confidenciales Precisión Los valores más altos indican un mayor conocimiento en dominios confidenciales
Toxigen Detección de contenido tóxico Puntuación F1 Los valores más altos indican un mejor rendimiento de detección

Detección de comportamientos dañinos

El banco de pruebas HarmBench mide comportamientos perjudiciales mediante avisos diseñados para obtener respuestas no seguras. Abarca siete categorías semánticas:

  • Ciberdelincuencia y intrusiones no autorizadas
  • Armas químicas y biológicas o drogas
  • Infracciones de derechos de autor
  • Información incorrecta y desinformación
  • Acoso
  • Actividades ilegales
  • Daño general

Estas categorías se agrupan en tres áreas funcionales:

  • Comportamientos dañinos estándar
  • Comportamientos contextualmente dañinos
  • Infracciones de derechos de autor

Cada categoría funcional se incluye en una tabla de clasificación de escenarios independiente. La evaluación usa indicaciones directas de HarmBench (sin ataques) y evaluadores de HarmBench para calcular la tasa de éxito de ataques (ASR). Los valores de ASR inferiores significan modelos más seguros. No se usan estrategias de ataque para la evaluación y la prueba comparativa de modelos se realiza con Foundry Guardrails (filtros de contenido previamente) desactivados.

Detección de contenido tóxico

Toxigen es un conjunto de datos a gran escala para detectar discurso de odio adversarial e implícito. Incluye frases implícitamente tóxicos e benignas que hacen referencia a 13 grupos minoritarios. Foundry usa muestras anotadas de Toxigen y calcula puntuaciones F1 para medir el rendimiento de la clasificación. Las puntuaciones más altas indican una mejor detección de contenido tóxico. La prueba comparativa se realiza con los Foundry Guardrails, anteriormente denominados filtros de contenido, desactivados.

Conocimientos confidenciales de un área especializada

El Weapons of Mass Destruction Proxy (WMDP) mide el conocimiento del modelo en dominios confidenciales, incluyendo la bioseguridad, la ciberseguridad y la seguridad química. La tabla de clasificación usa puntuaciones medias de precisión en la ciberseguridad, la bioseguridad y la seguridad química. Una puntuación de precisión de WMDP más alta denota más conocimiento de las capacidades peligrosas (comportamiento peor desde el punto de vista de la seguridad). La evaluación comparativa de modelos se realiza con las directrices predeterminadas de Foundry Guardrails (anteriormente filtros de contenido) activadas. Estos límites de protección detectan y bloquean los daños en el contenido en la violencia, las autolesiones, lo sexual, el odio y la injusticia, pero no se dirigen a categorías de ciberseguridad, bioseguridad y seguridad química.

Limitaciones de las pruebas comparativas de seguridad

La seguridad es un tema complejo con varias dimensiones. Ningún banco de pruebas de código abierto único puede probar o representar la seguridad completa de un sistema en todos los escenarios. Además, muchas pruebas comparativas sufren de saturación o desalineación entre el diseño de pruebas comparativas y la definición de riesgo. Algunos puntos de referencia también carecen de documentación clara sobre cómo se conceptualizan y operacionalizan los objetivos, lo que dificulta la evaluación de si los resultados capturan con precisión los matices de los riesgos reales. Estas limitaciones pueden dar lugar a sobrestimar o infravalorar el rendimiento del modelo en escenarios de seguridad reales.

Pruebas comparativas de rendimiento de modelos de lenguaje

Las métricas de rendimiento se agregan durante 14 días con 24 pruebas al día, con dos solicitudes por prueba enviadas a intervalos de una hora. A menos que se indique lo contrario, los siguientes parámetros predeterminados se aplican tanto a las implementaciones de API sin servidor como a Azure OpenAI:

Parámetro Importancia Aplicable a
Región Este de EE. UU./ Este de EE. UU. 2 implementaciones de API sin servidor y Azure OpenAI
Límite de velocidad de tokens por minuto (TPM) 30 000 RPM para modelos sin razonamiento (basados en 180 RPM en Azure OpenAI) y 100 000 para modelos de razonamiento
N/A (implementaciones de API sin servidor)
En el caso de los modelos de Azure OpenAI, la selección está disponible para los usuarios con intervalos de límite de velocidad en función del tipo de implementación (API sin servidor, global, estándar global, etc.).
En el caso de las implementaciones de API sin servidor, esta configuración se abstrae.
Número de solicitudes Dos solicitudes en una prueba por cada hora (24 pruebas al día) implementaciones de API sin servidor, Azure OpenAI
Número de ensayos/ejecuciones 14 días con 24 pruebas al día para 336 ejecuciones implementaciones de API sin servidor, Azure OpenAI
Longitud del mensaje o contexto Longitud moderada implementaciones de API sin servidor, Azure OpenAI
Número de tokens procesados (moderado) Proporción de 80:20 para los tokens de entrada y salida, es decir, 800 tokens de entrada a 200 tokens de salida. implementaciones de API sin servidor, Azure OpenAI
Número de solicitudes simultáneas Una (las solicitudes se envían secuencialmente una después de otra) implementaciones de API sin servidor, Azure OpenAI
Data Sintético (mensajes de entrada preparados a partir de texto estático) implementaciones de API sin servidor, Azure OpenAI
Tipo de implementación API sin servidor Solo se aplica a Azure OpenAI
Transmisión en línea Cierto Se aplica a las implementaciones de API sin servidor y Azure OpenAI. En el caso de los modelos implementados a través de un proceso administrado o para los puntos de conexión cuando no se admite el streaming, TTFT se representa como P50 de métrica de latencia.
SKU Standard_NC24ads_A100_v4 (24 núcleos, 220 GB de RAM, almacenamiento de 64 GB) Solo se aplica a Proceso administrado (para calcular los costos y las métricas de rendimiento)

El rendimiento de los LLM y SLM se evalúa en las métricas siguientes:

Métrica Description
Media de latencia Promedio de tiempo en segundos para procesar una solicitud, calculada en varias solicitudes. Se envía una solicitud al punto de conexión cada hora durante dos semanas y se calcula el promedio.
Latencia P50 Latencia mediana (percentil 50). 50% de solicitudes completadas en este momento.
Latencia P90 Latencia del percentil 90. 90% de solicitudes completadas en este momento.
Latencia P95 Latencia del percentil 95. 95% de solicitudes completadas en este momento.
Latencia P99 Latencia del percentil 99. 99% de solicitudes completadas en este momento.
Rendimiento de GTPS Los tokens generados por segundo (GTPS) son el número de tokens de salida que se generan por segundo desde el momento en que la solicitud se envía al punto de conexión.
Rendimiento de TTPS El número total de tokens por segundo (TTPS) es el número de tokens totales procesados por segundo, incluidos los tokens de entrada y los tokens de salida generados. Para los modelos que no admiten streaming, el tiempo para el primer token (ttft) representa el valor P50 de latencia (tiempo necesario para recibir la respuesta).
Latencia de TTFT El tiempo total del primer token (TTFT) es el tiempo necesario para que el primer token de la respuesta se devuelva desde el punto de conexión cuando el streaming esté habilitado.
Tiempo entre tokens Esta métrica es el tiempo entre los tokens recibidos.

Foundry resume el rendimiento mediante:

Métrica Description
Latencia Tiempo promedio hasta el primer token. Un valor bajo es mejor.
Capacidad de procesamiento Promedio de tokens generados por segundo. Más alto es mejor.

En el caso de las métricas de rendimiento, como la latencia o el rendimiento, el tiempo para el primer token y los tokens generados por segundo proporcionan un mejor sentido general del rendimiento y el comportamiento típicos del modelo. Los números de rendimiento se actualizan periódicamente para reflejar las configuraciones de implementación más recientes.

Pruebas comparativas de costos de modelos de lenguaje

Los cálculos de costos son estimaciones para usar un punto de conexión de modelo LLM o SLM hospedado en la plataforma Foundry. Foundry admite la visualización del costo de las implementaciones de API sin servidor y los modelos de Azure OpenAI. Dado que estos costos están sujetos a cambios, los cálculos de costos se actualizan periódicamente para reflejar los precios más recientes.

El costo de los LLM y SLM se evalúa en las métricas siguientes:

Métrica Description
Costo por tokens de entrada Costo de la implementación de API sin servidor para 1 millón de tokens de entrada
Costo por tokens de salida Costo de la implementación de API sin servidor para 1 millón de tokens de salida
Costo estimado Costo de la suma del costo por tokens de entrada y costo por tokens de salida, con una relación de 3:1.

Foundry también muestra el costo de la siguiente manera:

Métrica Description
Cost Costo estimado de dólar estadounidense por 1 millón de tokens. La carga de trabajo estimada usa la relación de tres a uno entre los tokens de entrada y salida. Los valores bajos son mejores.

Pruebas comparativas de tablas de clasificación de escenarios

Las tablas de clasificación de escenarios agrupan los conjuntos de datos de referencia por objetivos comunes de evaluación del mundo real, para que pueda identificar rápidamente los puntos fuertes y las debilidades de un modelo según el caso de uso. Cada escenario agrega uno o varios conjuntos de datos de pruebas comparativas públicas.

Use la tabla siguiente para buscar el caso de uso en la columna Escenario y, a continuación, revise los conjuntos de datos de pruebas comparativas asociados y lo que indican los resultados. En la tabla siguiente se resumen las tablas de clasificación del escenario disponibles y sus conjuntos de datos y descripciones asociados:

Escenario Datasets Description
Comportamiento perjudicial estándar HarmBench (estándar) Tasa de éxito de ataques en indicaciones dañinas estándar. Un valor bajo es mejor. Consulte Detección de comportamientos dañinos.
Comportamiento contextualmente dañino HarmBench (contextual) Tasa de éxito de ataques en indicaciones perjudiciales contextuales. Un valor bajo es mejor. Consulte Detección de comportamientos dañinos.
Infracciones de derechos de autor HarmBench (copyright) Tasa de éxito de ataque para incitaciones de violación de derechos de autor. Un valor bajo es mejor. Consulte Detección de comportamientos dañinos.
Conocimientos sobre dominios confidenciales WMDP (bioseguridad, seguridad química, ciberseguridad) Precisión en tres subconjuntos de dominio confidenciales. Una mayor precisión indica más conocimiento de las funcionalidades confidenciales. Consulte Información confidencial del dominio.
Detección de toxicidad ToxiGen (anotado) Puntuación F1 para la capacidad de detección de contenido tóxico. Más alto es mejor. Consulte Detección de contenido tóxico.
Razonamiento BIG-Bench Hard (1000 submuestras) Evaluación de capacidades de razonamiento. Los valores más altos son mejores.
Coding BigCodeBench (instrucción), HumanEvalPlus, LiveBench (codificación), MBPPPlus Mide la precisión en las tareas relacionadas con el código. Los valores más altos son mejores.
Conocimientos generales MMLU-Pro (subsample inglés 1K) Submuestra de 1,000 ejemplos solo en inglés de MMLU-Pro.
Preguntas y respuestas Arena-Hard, GPQA (diamante) QA de preferencia humana adversarial (Arena-Hard) y QA multidisciplinario a nivel de posgrado (diamante GPQA). Los valores más altos son mejores.
Matemáticas MATEMÁTICAS (500 submuestra) Mide las capacidades de razonamiento matemático de los modelos de lenguaje. Los valores más altos son mejores.
Estabilidad TruthfulQA (MC1) Evaluación de la fundamentación y veracidad de modelos de lenguaje mediante elección múltiple. Los valores más altos son mejores.

Pruebas comparativas de calidad de los modelos de inserción

El índice de calidad de los modelos de inserción se define como las puntuaciones de precisión promedio de un conjunto completo de conjuntos de datos de pruebas comparativas de API sin servidor destinados a tareas de recuperación de información, agrupación en clústeres de documentos y resumen.

Métrica Description
Precisión La precisión es la proporción de predicciones correctas entre el número total de predicciones procesadas.
Puntuación F1 La puntuación F1 es la media ponderada de la precisión y la recuperación, donde el mejor valor es uno (precisión y recuperación perfectas) y el peor es cero.
Precisión media (MAP) MAP evalúa la calidad de la clasificación y los sistemas de recomendación. Mide tanto la relevancia de los elementos sugeridos como la buena forma en que el sistema coloca elementos más relevantes en la parte superior. Los valores pueden oscilar entre cero y uno, y cuanto más alto sea MAP, mejor puede el sistema colocar los elementos pertinentes en alto en la lista.
Ganancia acumulativa con descuento normalizado (NDCG) NDCG evalúa la capacidad de un algoritmo de aprendizaje automático para ordenar los elementos en función de la relevancia. Compara las clasificaciones con un orden ideal en el que todos los elementos relevantes están en la parte superior de la lista, donde k es la longitud de la lista al evaluar la calidad de la clasificación. En estos puntos de referencia, k=10, indicado por una métrica de ndcg_at_10, lo que significa que se evalúan los 10 primeros elementos.
Precisión La precisión mide la capacidad del modelo para identificar las instancias de una clase determinada correctamente. La precisión muestra la frecuencia con la que un modelo de Machine Learning es correcto al predecir la clase de destino.
Correlación de Spearman La correlación de Spearman basada en la similitud de coseno se calcula determinando primero la similitud de coseno entre variables y, después, clasificando estas puntuaciones y usando las clasificaciones para calcular la correlación de Spearman.
Medida V La medida V es una métrica que se usa para evaluar la calidad de la agrupación en clústeres. La medida V se calcula como una media armónica de homogeneidad e integridad, lo que garantiza un equilibrio entre los dos para una puntuación significativa. Las puntuaciones posibles se encuentran entre cero y uno, siendo uno un etiquetado perfectamente completo.

Cálculo de puntuaciones

Puntuaciones individuales

Los resultados de las pruebas comparativas se originan en conjuntos de datos públicos que se usan habitualmente para la evaluación del modelos de lenguaje. En la mayoría de los casos, los datos se hospedan en repositorios de GitHub mantenidos por los creadores o conservadores de los datos. Las pipelines de evaluación de Foundry descargan datos de sus fuentes originales, extraen indicaciones de cada fila de ejemplo, generan respuestas del modelo y, a continuación, calculan las métricas de precisión pertinentes.

La construcción del mensaje sigue el procedimiento recomendado para cada conjunto de datos, definido por el documento que presenta el conjunto de datos y el estándar del sector. En la mayoría de los casos, cada mensaje contiene varias capturas, es decir, varios ejemplos de preguntas completas y respuestas para dar el modelo a la tarea. El número de capturas varía según el conjunto de datos y sigue la metodología especificada en la publicación original de cada conjunto de datos. Las canalizaciones de evaluación crean capturas mediante el muestreo de preguntas y respuestas de una parte de los datos que se mantienen a partir de la evaluación.

Limitaciones de pruebas comparativas

Todas las pruebas comparativas tienen limitaciones inherentes que debe tener en cuenta al interpretar los resultados:

  • Pruebas comparativas de calidad: los conjuntos de datos de pruebas comparativas se pueden saturar a lo largo del tiempo a medida que los modelos se entrenan o se ajustan en datos similares. Los resultados de la evaluación también pueden variar en función de la construcción rápida y del número de ejemplos de pocas capturas usados.
  • Pruebas comparativas de rendimiento: las métricas se recopilan mediante cargas de trabajo sintéticas con una relación fija de token de entrada a salida y implementaciones de una sola región. El rendimiento real puede diferir en función de los patrones de carga de trabajo, la simultaneidad, la región y la configuración de implementación.
  • Pruebas comparativas de costos: las estimaciones de costos se basan en una relación de tokens de entrada a salida de tres a uno y los precios actuales en el momento de la medición. Los costos reales dependen de la carga de trabajo y están sujetos a cambios de precios.