Notes
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de modifier des répertoires.
Important
Les éléments marqués (aperçu) dans cet article sont actuellement en aperçu public. Cette version préliminaire est fournie sans contrat de niveau de service, et nous la déconseillons pour les charges de travail en production. Certaines fonctionnalités peuvent être limitées ou non prises en charge. Pour plus d’informations, consultez Conditions d’Utilisation Supplémentaires relatives aux Évaluations Microsoft Azure.
Les classements de modèles (préversion) dans le portail Azure AI Foundry vous permettent de simplifier le processus de sélection de modèle dans le catalogue de modèles Azure AI Foundry. Les classements de modèles, soutenus par des benchmarks standard du secteur, peuvent vous aider à trouver le meilleur modèle pour votre solution IA personnalisée. Dans la section classements des modèles du catalogue de modèles, vous pouvez parcourir les classements pour comparer les modèles disponibles comme suit :
- Les classements de qualité, de sécurité, de coût et de performances pour identifier rapidement les leaders de modèles le long d’une seule métrique (qualité, sécurité, coût ou débit) ;
- Graphiques des compromis pour voir comment les modèles performent sur une métrique par rapport à une autre, comme la qualité par rapport au coût ;
- Classements par scénario pour trouver les meilleurs classements qui suite à votre scénario.
Chaque fois que vous trouvez un modèle à votre goût, vous pouvez le sélectionner et effectuer un zoom avant dans les résultats d’évaluation détaillés du modèle dans le catalogue de modèles. Si vous êtes satisfait du modèle, vous pouvez le déployer, l’essayer dans le terrain de jeu ou l’évaluer sur vos données. Les classements prennent en charge l’évaluation des modèles de langage de texte (modèles LLM) et de petits modèles de langage (SLA) et des modèles incorporés.
Les benchmarks de modèles évaluent les LLMs et les SLMs à travers les catégories suivantes : qualité, sécurité, coût et débit. En outre, nous évaluons la qualité des modèles incorporés à l’aide de benchmarks standard. Les classements sont régulièrement mis à jour à mesure que de meilleurs et plus variés benchmarks sont intégrés, et que de nouveaux modèles sont ajoutés au catalogue de modèles.
Benchmarks de qualité des modèles de langage
Azure AI évalue la qualité des modèles de langage de grande taille (LLMs) et des modèles de langage spécialisés (SLMs) à l'aide de scores de précision provenant de jeux de données de référence standard et complets mesurant les capacités du modèle telles que le raisonnement, les connaissances, questions et réponses, les mathématiques et le codage.
Index | Descriptif |
---|---|
Index de qualité | L’index de qualité est calculé en moyenne des scores de précision applicables (exact_match, pass@1, arena_hard) sur des jeux de données d’évaluation complets et standard. |
L’indice de qualité est fourni sur une échelle de zéro à une. Des valeurs plus élevées de l’indice de qualité sont préférables. Les jeux de données inclus dans l’index de qualité sont les suivants :
Nom du jeu de données | Scénario de classement |
---|---|
arena_hard | Assurance qualité |
bigbench_hard | Raisonnement |
gpqa | Assurance qualité |
humanevalplus | Codage |
ifeval | Raisonnement |
mathématiques | Mathématiques |
mbppplus | Codage |
mmlu_pro | Connaissances générales |
Pour plus d’informations, consultez les scores d’exactitude :
Mesure | Descriptif |
---|---|
Précision | Les scores de précision sont disponibles au niveau du jeu de données et du modèle. Au niveau du jeu de données, le score est la valeur moyenne d’une métrique de précision calculée sur tous les exemples du jeu de données. La métrique de précision utilisée est exact-match dans tous les cas, à l’exception des jeux de données HumanEval et MBPP qui utilisent une pass@1 métrique. La correspondance exacte compare le texte généré par le modèle avec la réponse correcte en fonction du jeu de données, indiquant « un » si le texte généré correspond exactement à la réponse et « zéro » dans le cas contraire. La métrique pass@1 mesure la proportion de solutions de modèle qui réussissent un ensemble de tests unitaires dans une tâche de génération de code. Au niveau du modèle, le score de précision est la moyenne des précisions au niveau du jeu de données pour chaque modèle. |
Les scores de précision sont fournis sur une échelle de zéro à une. Des valeurs plus élevées sont préférables.
Benchmarks de sécurité des modèles de langage
Pour guider la sélection des benchmarks de sécurité pour l’évaluation, nous appliquons un processus structuré de filtrage et de validation conçu pour garantir la pertinence et la rigueur. Un benchmark se qualifie pour l’intégration s’il répond aux risques à priorité élevée. Pour les classements de sécurité, nous examinons différents benchmarks qui peuvent être considérés comme suffisamment fiables pour fournir des signaux sur certains sujets d’intérêt en ce qui concerne la sécurité. Nous sélectionnons HarmBench pour la sécurité du modèle proxy et organisons les classements de scénario comme suit :
Nom du jeu de données | Scénario de tableau de classement | Mesure | Interprétation |
---|---|---|---|
HarmBench (standard) | Comportements dangereux standard | Taux de réussite de l’attaque | Les valeurs inférieures signifient une meilleure robustesse contre les attaques visant à produire un contenu nuisible typique. |
HarmBench (contextuel) | Comportements nocifs contextuels | Taux de réussite de l’attaque | Les valeurs inférieures signifient une meilleure robustesse contre les attaques conçues pour produire un contenu nuisible de manière contextuelle. |
HarmBench (violations de droits d’auteur) | Violations de droits d’auteur | Taux de réussite de l’attaque | Les valeurs inférieures signifient une meilleure robustesse contre les attaques conçues pour les violations illicites des droits d’auteur |
WMDP | Connaissances dans les domaines sensibles | Précision | Les valeurs plus élevées indiquent plus de connaissances dans les domaines sensibles (cybersécurité, biosecurity et sécurité chimique) |
Toxigène | Capacité à détecter le contenu toxique | Score F1 | Des valeurs plus élevées signifient une meilleure capacité à détecter le contenu toxique |
Modéliser des comportements nuisibles
Le benchmark HarmBench mesure les comportements nuisibles du modèle et inclut des invites à un comportement nuisible illicite du modèle. En ce qui concerne la sécurité, le benchmark couvre 7 catégories sémantiques de comportement :
- Cybercriminalité et intrusion non autorisée
- Armes chimiques et biologiques/drogues
- Violations de droits d’auteur
- Informations erronées et informations de désinformation
- Harcèlement et intimidation
- Activités illégales
- Mal général
Ces 7 catégories peuvent être résumées en 3 catégories fonctionnelles
- comportements dangereux standard
- Comportements contextuels dangereux
- violations de droits d’auteur
Chaque catégorie fonctionnelle est proposée dans un classement de scénario distinct. Nous utilisons des invites directes de HarmBench (aucune attaque) et des évaluateurs HarmBench pour calculer le taux de réussite des attaques (ASR). Les valeurs ASR inférieures signifient des modèles plus sûrs. Nous n’explorons aucune stratégie d’attaque pour l’évaluation, et l’évaluation du modèle est effectuée avec le filtre de sécurité du contenu Azure AI désactivé.
Capacité de modèle à détecter le contenu toxique
Toxigen est un jeu de données généré par machine à grande échelle pour la détection de discours haineux adversaire et implicite. Il contient des phrases implicitement toxiques et bénignes mentionnant 13 groupes minoritaires. Nous utilisons les exemples annotés de Toxigen pour l’évaluation et calculons les scores F1 pour mesurer les performances de classification. Le scoring plus élevé sur ce jeu de données signifie qu’un modèle est préférable à la détection du contenu toxique. L’évaluation des modèles est effectuée avec le filtre Azure AI Content Safety désactivé.
Connaître les modèles dans des domaines sensibles
Le point de référence Weapons of Mass Destruction Proxy (WMDP) mesure les connaissances du modèle dans des domaines sensibles, notamment la biosécurité, la cybersécurité et la sécurité chimique. Le classement utilise des scores de précision moyens pour la cybersécurité, la biosecurity et la sécurité chimique. Un score de précision WMDP plus élevé indique plus de connaissances sur les capacités dangereuses (comportement pire du point de vue de la sécurité). L’évaluation des modèles est effectuée avec les filtres Azure AI Content Safety par défaut activés. Ces filtres de sécurité détectent et bloquent les atteintes au contenu dans la violence, l’auto-préjudice, la haine et l’injustice sexuelle, mais ne ciblent pas les catégories de cybersécurité, de biosecurity et de sécurité chimique.
Limitations des benchmarks de sécurité
Nous comprenons et reconnaissons que la sécurité est un sujet complexe et a plusieurs dimensions. Aucun benchmark open source actuel ne peut tester ou représenter la sécurité totale d’un système dans différents scénarios. De plus, la plupart de ces benchmarks souffrent d’une saturation ou d’un mauvais alignement entre la conception de référence et la définition des risques, peuvent manquer de documentation claire sur la façon dont les risques cibles sont conceptualisés et opérationnels, ce qui rend difficile l’évaluation de la précision des nuances des risques. Cette limitation peut entraîner une surestimation ou une sous-estimation des performances du modèle dans des scénarios de sécurité réels.
Benchmarks de performances des modèles de langage
Les métriques de performances sont calculées en tant qu’agrégat sur 14 jours, en fonction de 24 pistes (deux requêtes par piste) envoyées quotidiennement avec un intervalle d’une heure entre chaque piste. Les paramètres par défaut suivants sont utilisés pour chaque requête au point de terminaison du modèle :
Paramètre | Valeur | Applicable pour |
---|---|---|
Région | USA Est/USA Est 2 | Déploiements standard et Azure OpenAI |
Limite de débit des jetons par minute (TPM) | 30k (180 RPM basé sur Azure OpenAI) pour le non-raisonnement et 100k pour les modèles de raisonnement N/A (déploiements standard) |
Pour les modèles Azure OpenAI, la sélection est disponible pour les utilisateurs avec des plages de limites de débit en fonction du type de déploiement (standard, global, standard global, et ainsi de suite.) Pour les déploiements standard, ce paramètre est abstrait. |
Nombre de demandes | Deux requêtes dans une piste par heure (24 pistes par jour) | Déploiements standard, Azure OpenAI |
Nombre de pistes/exécutions | 14 jours avec 24 pistes par jour pour 336 exécutions | Déploiements standard, Azure OpenAI |
Longueur du prompt/contexte | Longueur modérée | Déploiements standard, Azure OpenAI |
Nombre de jetons traités (modérés) | Ratio 80:20 pour les jetons d’entrée et de sortie, c’est-à-dire 800 jetons d’entrée pour 200 jetons de sortie. | Déploiements standard, Azure OpenAI |
Nombre de demandes simultanées | Un (les demandes sont envoyées séquentiellement l’une après l’autre) | Déploiements standard, Azure OpenAI |
Données | Synthétique (invites d’entrée préparées à partir du texte statique) | Déploiements standard, Azure OpenAI |
Région | USA Est/USA Est 2 | Déploiements standard et Azure OpenAI |
Type de déploiement | Norme | Applicable uniquement pour Azure OpenAI |
Diffusion en continu | Vrai | S’applique aux déploiements standard et à Azure OpenAI. Pour les modèles déployés via un calcul managé ou pour les points de terminaison lorsque la diffusion en continu n’est pas prise en charge, le TTFT est représenté en tant que métrique de latence P50. |
Référence (SKU) | Standard_NC24ads_A100_v4 (24 cœurs, 220 Go de RAM, stockage 64 Go) | Applicable uniquement pour le calcul managé (pour estimer les métriques de coût et de perf) |
Les performances des grands et petits modèles de langage sont évaluées dans les mesures suivantes :
Mesure | Descriptif |
---|---|
Moyenne de latence | Temps moyen en secondes nécessaire pour le traitement d’une requête, calculé sur plusieurs requêtes. Pour calculer cette métrique, nous envoyons une requête au point de terminaison toutes les heures pendant deux semaines et calculons la moyenne. |
Latence P50 | Valeur du 50e centile (médiane) de latence (le temps écoulé entre la requête et le moment où nous recevons la réponse complète avec un code de réussite). Par exemple, lorsque nous envoyons une requête au point de terminaison, 50 % des requêtes sont effectuées en « x » secondes, « x » étant la mesure du temps de latence. |
Latence P90 | Valeur du 90e centile de latence (le temps écoulé entre la requête et le moment où nous recevons la réponse complète avec un code de réussite). Par exemple, lorsque nous envoyons une requête au point de terminaison, 90 % des requêtes sont effectuées en « x » secondes, « x » étant la mesure du temps de latence. |
Latence P95 | Valeur du 95e centile de latence (le temps écoulé entre la requête et le moment où nous recevons la réponse complète avec un code de réussite). Par exemple, lorsque nous envoyons une requête au point de terminaison, 95 % des requêtes sont terminées en « x » secondes, « x » étant la mesure du temps de latence. |
Latence P99 | Valeur du 99e centile de latence (le temps écoulé entre la requête et le moment où nous recevons la réponse complète avec un code de réussite). Par exemple, lorsque nous envoyons une requête au point de terminaison, 99 % des requêtes sont terminées en « x » secondes, « x » étant la mesure du temps de latence. |
GTPS de débit | Les jetons générés par seconde (GTPS) correspondent au nombre de jetons de sortie qui sont générés par seconde à partir du moment où la requête est envoyée au point de terminaison. |
TTPS de débit | Le total de jetons par seconde (TTPS) est le nombre total de jetons traités par seconde, y compris à partir de l’invite d’entrée et des jetons de sortie générés. Pour les modèles qui ne prennent pas en charge la diffusion en continu, la durée du premier jeton (ttft) représente la valeur P50 de la latence (temps nécessaire pour recevoir la réponse) |
TTFT de latence | Le délai total du premier jeton (TTFT) est le temps nécessaire pour que le premier jeton de la réponse soit renvoyé depuis le point de terminaison lorsque la diffusion en continu est activée. |
Durée entre les jetons | Cette métrique correspond au temps écoulé entre la réception des jetons. |
Azure AI affiche également des index de performances pour la latence et le débit comme suit :
Index | Descriptif |
---|---|
Index de latence | Temps moyen jusqu'au premier jeton. Les valeurs basses sont préférables. |
Index de débit | Nombre moyen de jetons générés par seconde. Des valeurs plus élevées sont préférables. |
Pour les métriques de performances telles que la latence ou le débit, le délai du premier jeton et les jetons générés par seconde donnent une meilleure idée globale des performances et du comportement typiques du modèle. Nous actualisons nos chiffres de performance à intervalles réguliers.
Référentiels de coûts des modèles de langage
Les calculs de coût sont des estimations pour l’utilisation d’un point de terminaison d'un modèle LLM ou SLM hébergé sur la plateforme Azure AI. Azure AI prend en charge l’affichage du coût des déploiements standard et des modèles Azure OpenAI. Étant donné que ces coûts sont susceptibles de changer, nous actualisons nos calculs de coûts à une cadence régulière.
Le coût des LLMs et des SLMs est évalué selon les métriques suivantes :
Mesure | Descriptif |
---|---|
Coût par jetons d’entrée | Coût du déploiement standard pour 1 million de jetons d’entrée |
Coût par jetons de sortie | Coût du déploiement standard pour 1 million de jetons de sortie |
Coût estimé | Coût de la somme du coût par jetons d’entrée et du coût par jetons de sortie, avec un ratio de 3:1. |
Azure AI affiche également l’index de coût comme suit :
Index | Descriptif |
---|---|
Index des coûts | Coût estimé. Les valeurs basses sont préférables. |
Benchmarks de qualité des modèles incorporés
L’index de qualité des modèles d’incorporation est défini comme les scores de précision moyen d’un ensemble complet de jeux de données de référence standard ciblant la récupération des informations, le clustering de documents et les tâches de synthèse.
Pour plus d’informations, consultez les définitions de score de précision spécifiques à chaque jeu de données :
Mesure | Descriptif |
---|---|
Précision | L’exactitude est la proportion de prédictions correctes par rapport au nombre total de prédictions traitées. |
Score F1 | Le score F1 est la moyenne pondérée de la précision et du rappel, où la meilleure valeur est « un » (précision et rappel parfaits) et la pire est « zéro ». |
Moyenne de la précision moyenne (MAP, Mean Average Precision) | La MAP évalue la qualité des systèmes de classement et de recommandation. Elle mesure à la fois la pertinence des éléments suggérés et la capacité du système à placer les éléments plus pertinents en haut. Les valeurs peuvent aller de zéro à un, et plus la MAP est élevée, plus le système peut placer les éléments pertinents en haut de la liste. |
Gain cumulatif actualisé normalisé (NDCG, Normalized Discounted Cumulative Gain) | Le NDCG évalue la capacité d’un algorithme d’apprentissage automatique à trier les éléments en fonction de leur pertinence. Il compare les classements à un ordre idéal où tous les éléments pertinents sont en haut de la liste et où k est la longueur de la liste, tout en évaluant la qualité des classements. Dans nos benchmarks, k=10, indiqué par une métrique ndcg_at_10 , signifie que nous examinons les 10 premiers éléments. |
Précision | La précision mesure la capacité du modèle à identifier correctement les instances d’une classe en particulier. La précision indique la fréquence à laquelle un modèle Machine Learning est correct lors de la prédiction de la classe cible. |
Corrélation de Spearman | La corrélation de Spearman basée sur la similarité cosinus est mesurée en calculant d’abord la similarité cosinus entre les variables, puis en classant ces scores et en utilisant les classements pour calculer la corrélation de Spearman. |
Mesure V | La mesure V est une métrique utilisée pour évaluer la qualité du clustering. La mesure V est calculée en tant que moyenne harmonieuse de l’homogénéité et de l’exhaustivité, garantissant un équilibre entre les deux pour un score significatif. Les notes possibles se situent entre zéro et un, la note 1 correspondant à un étiquetage parfaitement complet. |
Calcul des scores
Scores individuels
Les résultats du benchmark proviennent de jeux de données publics couramment utilisés pour l’évaluation des modèles de langage. Dans la plupart des cas, les données sont hébergées dans des référentiels GitHub gérés par les créateurs ou les curateurs des données. Les pipelines d’évaluation Azure AI téléchargent des données depuis leurs sources d’origine, extraient des questions de chaque ligne d’exemple, génèrent des réponses par le modèle, puis calculent les métriques de précision pertinentes.
La construction de prompts suit les bonnes pratiques pour chaque jeu de données, comme spécifié par le document présentant le jeu de données et les normes du secteur d’activité. Dans la plupart des cas, chaque prompt contient plusieurs coups, c’est-à-dire des exemples de questions et réponses complètes pour préparer le modèle à la tâche. Les pipelines d’évaluation créent des captures par des questions d’échantillonnage et des réponses provenant d’une partie des données conservées à partir de l’évaluation.