Modèles de classements dans le portail Azure AI Foundry (préversion)

2025-06-20

Important

Les éléments marqués (aperçu) dans cet article sont actuellement en aperçu public. Cette version préliminaire est fournie sans contrat de niveau de service, et nous la déconseillons pour les charges de travail en production. Certaines fonctionnalités peuvent être limitées ou non prises en charge. Pour plus d’informations, consultez Conditions d’Utilisation Supplémentaires relatives aux Évaluations Microsoft Azure.

Les classements de modèles (préversion) dans le portail Azure AI Foundry vous permettent de simplifier le processus de sélection de modèle dans le catalogue de modèles Azure AI Foundry. Les classements de modèles, soutenus par des benchmarks standard du secteur, peuvent vous aider à trouver le meilleur modèle pour votre solution IA personnalisée. Dans la section classements des modèles du catalogue de modèles, vous pouvez parcourir les classements pour comparer les modèles disponibles comme suit :

Les classements de qualité, de sécurité, de coût et de performances pour identifier rapidement les leaders de modèles le long d’une seule métrique (qualité, sécurité, coût ou débit) ;
Graphiques des compromis pour voir comment les modèles performent sur une métrique par rapport à une autre, comme la qualité par rapport au coût ;
Classements par scénario pour trouver les meilleurs classements qui suite à votre scénario.

Chaque fois que vous trouvez un modèle à votre goût, vous pouvez le sélectionner et effectuer un zoom avant dans les résultats d’évaluation détaillés du modèle dans le catalogue de modèles. Si vous êtes satisfait du modèle, vous pouvez le déployer, l’essayer dans le terrain de jeu ou l’évaluer sur vos données. Les classements prennent en charge l’évaluation des modèles de langage de texte (modèles LLM) et de petits modèles de langage (SLA) et des modèles incorporés.

Les benchmarks de modèles évaluent les LLMs et les SLMs à travers les catégories suivantes : qualité, sécurité, coût et débit. En outre, nous évaluons la qualité des modèles incorporés à l’aide de benchmarks standard. Les classements sont régulièrement mis à jour à mesure que de meilleurs et plus variés benchmarks sont intégrés, et que de nouveaux modèles sont ajoutés au catalogue de modèles.

Benchmarks de qualité des modèles de langage

Azure AI évalue la qualité des modèles de langage de grande taille (LLMs) et des modèles de langage spécialisés (SLMs) à l'aide de scores de précision provenant de jeux de données de référence standard et complets mesurant les capacités du modèle telles que le raisonnement, les connaissances, questions et réponses, les mathématiques et le codage.

Index	Descriptif
Index de qualité	L’index de qualité est calculé en moyenne des scores de précision applicables (exact_match, pass@1, arena_hard) sur des jeux de données d’évaluation complets et standard.

L’indice de qualité est fourni sur une échelle de zéro à une. Des valeurs plus élevées de l’indice de qualité sont préférables. Les jeux de données inclus dans l’index de qualité sont les suivants :

Nom du jeu de données	Scénario de classement
arena_hard	Assurance qualité
bigbench_hard	Raisonnement
gpqa	Assurance qualité
humanevalplus	Codage
ifeval	Raisonnement
mathématiques	Mathématiques
mbppplus	Codage
mmlu_pro	Connaissances générales

Pour plus d’informations, consultez les scores d’exactitude :

Mesure Descriptif

Précision Les scores de précision sont disponibles au niveau du jeu de données et du modèle. Au niveau du jeu de données, le score est la valeur moyenne d’une métrique de précision calculée sur tous les exemples du jeu de données. La métrique de précision utilisée est exact-match dans tous les cas, à l’exception des jeux de données HumanEval et MBPP qui utilisent une pass@1 métrique. La correspondance exacte compare le texte généré par le modèle avec la réponse correcte en fonction du jeu de données, indiquant « un » si le texte généré correspond exactement à la réponse et « zéro » dans le cas contraire. La métrique pass@1 mesure la proportion de solutions de modèle qui réussissent un ensemble de tests unitaires dans une tâche de génération de code. Au niveau du modèle, le score de précision est la moyenne des précisions au niveau du jeu de données pour chaque modèle.

Mesure	Descriptif
Précision	Les scores de précision sont disponibles au niveau du jeu de données et du modèle. Au niveau du jeu de données, le score est la valeur moyenne d’une métrique de précision calculée sur tous les exemples du jeu de données. La métrique de précision utilisée est `exact-match` dans tous les cas, à l’exception des jeux de données HumanEval et MBPP qui utilisent une `pass@1` métrique. La correspondance exacte compare le texte généré par le modèle avec la réponse correcte en fonction du jeu de données, indiquant « un » si le texte généré correspond exactement à la réponse et « zéro » dans le cas contraire. La métrique `pass@1` mesure la proportion de solutions de modèle qui réussissent un ensemble de tests unitaires dans une tâche de génération de code. Au niveau du modèle, le score de précision est la moyenne des précisions au niveau du jeu de données pour chaque modèle.

Les scores de précision sont fournis sur une échelle de zéro à une. Des valeurs plus élevées sont préférables.

Benchmarks de sécurité des modèles de langage

Pour guider la sélection des benchmarks de sécurité pour l’évaluation, nous appliquons un processus structuré de filtrage et de validation conçu pour garantir la pertinence et la rigueur. Un benchmark se qualifie pour l’intégration s’il répond aux risques à priorité élevée. Pour les classements de sécurité, nous examinons différents benchmarks qui peuvent être considérés comme suffisamment fiables pour fournir des signaux sur certains sujets d’intérêt en ce qui concerne la sécurité. Nous sélectionnons HarmBench pour la sécurité du modèle proxy et organisons les classements de scénario comme suit :

Nom du jeu de données	Scénario de tableau de classement	Mesure	Interprétation
HarmBench (standard)	Comportements dangereux standard	Taux de réussite de l’attaque	Les valeurs inférieures signifient une meilleure robustesse contre les attaques visant à produire un contenu nuisible typique.
HarmBench (contextuel)	Comportements nocifs contextuels	Taux de réussite de l’attaque	Les valeurs inférieures signifient une meilleure robustesse contre les attaques conçues pour produire un contenu nuisible de manière contextuelle.
HarmBench (violations de droits d’auteur)	Violations de droits d’auteur	Taux de réussite de l’attaque	Les valeurs inférieures signifient une meilleure robustesse contre les attaques conçues pour les violations illicites des droits d’auteur
WMDP	Connaissances dans les domaines sensibles	Précision	Les valeurs plus élevées indiquent plus de connaissances dans les domaines sensibles (cybersécurité, biosecurity et sécurité chimique)
Toxigène	Capacité à détecter le contenu toxique	Score F1	Des valeurs plus élevées signifient une meilleure capacité à détecter le contenu toxique

Modéliser des comportements nuisibles

Le benchmark HarmBench mesure les comportements nuisibles du modèle et inclut des invites à un comportement nuisible illicite du modèle. En ce qui concerne la sécurité, le benchmark couvre 7 catégories sémantiques de comportement :

Cybercriminalité et intrusion non autorisée
Armes chimiques et biologiques/drogues
Violations de droits d’auteur
Informations erronées et informations de désinformation
Harcèlement et intimidation
Activités illégales
Mal général

Ces 7 catégories peuvent être résumées en 3 catégories fonctionnelles

comportements dangereux standard
Comportements contextuels dangereux
violations de droits d’auteur

Chaque catégorie fonctionnelle est proposée dans un classement de scénario distinct. Nous utilisons des invites directes de HarmBench (aucune attaque) et des évaluateurs HarmBench pour calculer le taux de réussite des attaques (ASR). Les valeurs ASR inférieures signifient des modèles plus sûrs. Nous n’explorons aucune stratégie d’attaque pour l’évaluation, et l’évaluation du modèle est effectuée avec le filtre de sécurité du contenu Azure AI désactivé.

Capacité de modèle à détecter le contenu toxique

Toxigen est un jeu de données généré par machine à grande échelle pour la détection de discours haineux adversaire et implicite. Il contient des phrases implicitement toxiques et bénignes mentionnant 13 groupes minoritaires. Nous utilisons les exemples annotés de Toxigen pour l’évaluation et calculons les scores F1 pour mesurer les performances de classification. Le scoring plus élevé sur ce jeu de données signifie qu’un modèle est préférable à la détection du contenu toxique. L’évaluation des modèles est effectuée avec le filtre Azure AI Content Safety désactivé.

Connaître les modèles dans des domaines sensibles

Le point de référence Weapons of Mass Destruction Proxy (WMDP) mesure les connaissances du modèle dans des domaines sensibles, notamment la biosécurité, la cybersécurité et la sécurité chimique. Le classement utilise des scores de précision moyens pour la cybersécurité, la biosecurity et la sécurité chimique. Un score de précision WMDP plus élevé indique plus de connaissances sur les capacités dangereuses (comportement pire du point de vue de la sécurité). L’évaluation des modèles est effectuée avec les filtres Azure AI Content Safety par défaut activés. Ces filtres de sécurité détectent et bloquent les atteintes au contenu dans la violence, l’auto-préjudice, la haine et l’injustice sexuelle, mais ne ciblent pas les catégories de cybersécurité, de biosecurity et de sécurité chimique.

Limitations des benchmarks de sécurité

Nous comprenons et reconnaissons que la sécurité est un sujet complexe et a plusieurs dimensions. Aucun benchmark open source actuel ne peut tester ou représenter la sécurité totale d’un système dans différents scénarios. De plus, la plupart de ces benchmarks souffrent d’une saturation ou d’un mauvais alignement entre la conception de référence et la définition des risques, peuvent manquer de documentation claire sur la façon dont les risques cibles sont conceptualisés et opérationnels, ce qui rend difficile l’évaluation de la précision des nuances des risques. Cette limitation peut entraîner une surestimation ou une sous-estimation des performances du modèle dans des scénarios de sécurité réels.

Benchmarks de performances des modèles de langage

Les métriques de performances sont calculées en tant qu’agrégat sur 14 jours, en fonction de 24 pistes (deux requêtes par piste) envoyées quotidiennement avec un intervalle d’une heure entre chaque piste. Les paramètres par défaut suivants sont utilisés pour chaque requête au point de terminaison du modèle :

Paramètre	Valeur	Applicable pour
Région	USA Est/USA Est 2	Déploiements standard et Azure OpenAI
Limite de débit des jetons par minute (TPM)	30k (180 RPM basé sur Azure OpenAI) pour le non-raisonnement et 100k pour les modèles de raisonnement N/A (déploiements standard)	Pour les modèles Azure OpenAI, la sélection est disponible pour les utilisateurs avec des plages de limites de débit en fonction du type de déploiement (standard, global, standard global, et ainsi de suite.) Pour les déploiements standard, ce paramètre est abstrait.
Nombre de demandes	Deux requêtes dans une piste par heure (24 pistes par jour)	Déploiements standard, Azure OpenAI
Nombre de pistes/exécutions	14 jours avec 24 pistes par jour pour 336 exécutions	Déploiements standard, Azure OpenAI
Longueur du prompt/contexte	Longueur modérée	Déploiements standard, Azure OpenAI
Nombre de jetons traités (modérés)	Ratio 80:20 pour les jetons d’entrée et de sortie, c’est-à-dire 800 jetons d’entrée pour 200 jetons de sortie.	Déploiements standard, Azure OpenAI
Nombre de demandes simultanées	Un (les demandes sont envoyées séquentiellement l’une après l’autre)	Déploiements standard, Azure OpenAI
Données	Synthétique (invites d’entrée préparées à partir du texte statique)	Déploiements standard, Azure OpenAI
Région	USA Est/USA Est 2	Déploiements standard et Azure OpenAI
Type de déploiement	Norme	Applicable uniquement pour Azure OpenAI
Diffusion en continu	Vrai	S’applique aux déploiements standard et à Azure OpenAI. Pour les modèles déployés via un calcul managé ou pour les points de terminaison lorsque la diffusion en continu n’est pas prise en charge, le TTFT est représenté en tant que métrique de latence P50.
Référence (SKU)	Standard_NC24ads_A100_v4 (24 cœurs, 220 Go de RAM, stockage 64 Go)	Applicable uniquement pour le calcul managé (pour estimer les métriques de coût et de perf)

Les performances des grands et petits modèles de langage sont évaluées dans les mesures suivantes :

Mesure	Descriptif
Moyenne de latence	Temps moyen en secondes nécessaire pour le traitement d’une requête, calculé sur plusieurs requêtes. Pour calculer cette métrique, nous envoyons une requête au point de terminaison toutes les heures pendant deux semaines et calculons la moyenne.
Latence P50	Valeur du 50e centile (médiane) de latence (le temps écoulé entre la requête et le moment où nous recevons la réponse complète avec un code de réussite). Par exemple, lorsque nous envoyons une requête au point de terminaison, 50 % des requêtes sont effectuées en « x » secondes, « x » étant la mesure du temps de latence.
Latence P90	Valeur du 90e centile de latence (le temps écoulé entre la requête et le moment où nous recevons la réponse complète avec un code de réussite). Par exemple, lorsque nous envoyons une requête au point de terminaison, 90 % des requêtes sont effectuées en « x » secondes, « x » étant la mesure du temps de latence.
Latence P95	Valeur du 95e centile de latence (le temps écoulé entre la requête et le moment où nous recevons la réponse complète avec un code de réussite). Par exemple, lorsque nous envoyons une requête au point de terminaison, 95 % des requêtes sont terminées en « x » secondes, « x » étant la mesure du temps de latence.
Latence P99	Valeur du 99e centile de latence (le temps écoulé entre la requête et le moment où nous recevons la réponse complète avec un code de réussite). Par exemple, lorsque nous envoyons une requête au point de terminaison, 99 % des requêtes sont terminées en « x » secondes, « x » étant la mesure du temps de latence.
GTPS de débit	Les jetons générés par seconde (GTPS) correspondent au nombre de jetons de sortie qui sont générés par seconde à partir du moment où la requête est envoyée au point de terminaison.
TTPS de débit	Le total de jetons par seconde (TTPS) est le nombre total de jetons traités par seconde, y compris à partir de l’invite d’entrée et des jetons de sortie générés. Pour les modèles qui ne prennent pas en charge la diffusion en continu, la durée du premier jeton (ttft) représente la valeur P50 de la latence (temps nécessaire pour recevoir la réponse)
TTFT de latence	Le délai total du premier jeton (TTFT) est le temps nécessaire pour que le premier jeton de la réponse soit renvoyé depuis le point de terminaison lorsque la diffusion en continu est activée.
Durée entre les jetons	Cette métrique correspond au temps écoulé entre la réception des jetons.

Azure AI affiche également des index de performances pour la latence et le débit comme suit :

Index	Descriptif
Index de latence	Temps moyen jusqu'au premier jeton. Les valeurs basses sont préférables.
Index de débit	Nombre moyen de jetons générés par seconde. Des valeurs plus élevées sont préférables.

Pour les métriques de performances telles que la latence ou le débit, le délai du premier jeton et les jetons générés par seconde donnent une meilleure idée globale des performances et du comportement typiques du modèle. Nous actualisons nos chiffres de performance à intervalles réguliers.

Référentiels de coûts des modèles de langage

Les calculs de coût sont des estimations pour l’utilisation d’un point de terminaison d'un modèle LLM ou SLM hébergé sur la plateforme Azure AI. Azure AI prend en charge l’affichage du coût des déploiements standard et des modèles Azure OpenAI. Étant donné que ces coûts sont susceptibles de changer, nous actualisons nos calculs de coûts à une cadence régulière.

Le coût des LLMs et des SLMs est évalué selon les métriques suivantes :

Mesure	Descriptif
Coût par jetons d’entrée	Coût du déploiement standard pour 1 million de jetons d’entrée
Coût par jetons de sortie	Coût du déploiement standard pour 1 million de jetons de sortie
Coût estimé	Coût de la somme du coût par jetons d’entrée et du coût par jetons de sortie, avec un ratio de 3:1.

Azure AI affiche également l’index de coût comme suit :

Index	Descriptif
Index des coûts	Coût estimé. Les valeurs basses sont préférables.

Benchmarks de qualité des modèles incorporés

L’index de qualité des modèles d’incorporation est défini comme les scores de précision moyen d’un ensemble complet de jeux de données de référence standard ciblant la récupération des informations, le clustering de documents et les tâches de synthèse.

Pour plus d’informations, consultez les définitions de score de précision spécifiques à chaque jeu de données :

Mesure	Descriptif
Précision	L’exactitude est la proportion de prédictions correctes par rapport au nombre total de prédictions traitées.
Score F1	Le score F1 est la moyenne pondérée de la précision et du rappel, où la meilleure valeur est « un » (précision et rappel parfaits) et la pire est « zéro ».
Moyenne de la précision moyenne (MAP, Mean Average Precision)	La MAP évalue la qualité des systèmes de classement et de recommandation. Elle mesure à la fois la pertinence des éléments suggérés et la capacité du système à placer les éléments plus pertinents en haut. Les valeurs peuvent aller de zéro à un, et plus la MAP est élevée, plus le système peut placer les éléments pertinents en haut de la liste.
Gain cumulatif actualisé normalisé (NDCG, Normalized Discounted Cumulative Gain)	Le NDCG évalue la capacité d’un algorithme d’apprentissage automatique à trier les éléments en fonction de leur pertinence. Il compare les classements à un ordre idéal où tous les éléments pertinents sont en haut de la liste et où k est la longueur de la liste, tout en évaluant la qualité des classements. Dans nos benchmarks, k=10, indiqué par une métrique `ndcg_at_10`, signifie que nous examinons les 10 premiers éléments.
Précision	La précision mesure la capacité du modèle à identifier correctement les instances d’une classe en particulier. La précision indique la fréquence à laquelle un modèle Machine Learning est correct lors de la prédiction de la classe cible.
Corrélation de Spearman	La corrélation de Spearman basée sur la similarité cosinus est mesurée en calculant d’abord la similarité cosinus entre les variables, puis en classant ces scores et en utilisant les classements pour calculer la corrélation de Spearman.
Mesure V	La mesure V est une métrique utilisée pour évaluer la qualité du clustering. La mesure V est calculée en tant que moyenne harmonieuse de l’homogénéité et de l’exhaustivité, garantissant un équilibre entre les deux pour un score significatif. Les notes possibles se situent entre zéro et un, la note 1 correspondant à un étiquetage parfaitement complet.

Calcul des scores

Scores individuels

Les résultats du benchmark proviennent de jeux de données publics couramment utilisés pour l’évaluation des modèles de langage. Dans la plupart des cas, les données sont hébergées dans des référentiels GitHub gérés par les créateurs ou les curateurs des données. Les pipelines d’évaluation Azure AI téléchargent des données depuis leurs sources d’origine, extraient des questions de chaque ligne d’exemple, génèrent des réponses par le modèle, puis calculent les métriques de précision pertinentes.

La construction de prompts suit les bonnes pratiques pour chaque jeu de données, comme spécifié par le document présentant le jeu de données et les normes du secteur d’activité. Dans la plupart des cas, chaque prompt contient plusieurs coups, c’est-à-dire des exemples de questions et réponses complètes pour préparer le modèle à la tâche. Les pipelines d’évaluation créent des captures par des questions d’échantillonnage et des réponses provenant d’une partie des données conservées à partir de l’évaluation.