Notes
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de modifier des répertoires.
Important
Les éléments marqués (aperçu) dans cet article sont actuellement en aperçu public. Cette version préliminaire est fournie sans contrat de niveau de service, et nous la déconseillons pour les charges de travail en production. Certaines fonctionnalités peuvent être limitées ou non prises en charge. Pour plus d’informations, consultez Conditions d’Utilisation Supplémentaires relatives aux Évaluations Microsoft Azure.
Les classements de modèles (préversion) dans le portail Azure AI Foundry vous permettent de simplifier le processus de sélection de modèle dans le catalogue de modèles Azure AI Foundry. Les classements de modèles, soutenus par des benchmarks standard du secteur, peuvent vous aider à trouver le meilleur modèle pour votre solution IA personnalisée. Dans la section classements des modèles du catalogue de modèles, vous pouvez parcourir les classements pour comparer les modèles disponibles comme suit :
- Les classements de qualité, de coût et de performances pour identifier rapidement les leaders de modèles le long d’une seule métrique (qualité, coût ou débit) ;
- Graphiques des compromis pour voir comment les modèles performent sur une métrique par rapport à une autre, comme la qualité par rapport au coût ;
- Classements par scénario pour trouver les meilleurs classements qui suite à votre scénario.
Chaque fois que vous trouvez un modèle à votre goût, vous pouvez le sélectionner et effectuer un zoom avant dans les résultats d’évaluation détaillés du modèle dans le catalogue de modèles. Si vous êtes satisfait du modèle, vous pouvez le déployer, l’essayer dans le terrain de jeu ou l’évaluer sur vos données. Les classements prennent en charge l’évaluation des modèles de langage de texte (modèles LLM) et de petits modèles de langage (SLA) et des modèles incorporés.
Les benchmarks de modèles évaluent les LLM et les SLM dans les catégories suivantes : qualité, performance et coût. En outre, nous évaluons la qualité des modèles incorporés à l’aide de benchmarks standard. Les classements sont régulièrement mis à jour à mesure que de meilleurs et plus variés benchmarks sont intégrés, et que de nouveaux modèles sont ajoutés au catalogue de modèles.
Benchmarks de qualité des modèles de langage
Azure AI évalue la qualité des modèles de langage de grande taille (LLMs) et des modèles de langage spécialisés (SLMs) à l'aide de scores de précision provenant de jeux de données de référence standard et complets mesurant les capacités du modèle telles que le raisonnement, les connaissances, questions et réponses, les mathématiques et le codage.
Index | Descriptif |
---|---|
Index de qualité | L’index de qualité est calculé en moyenne des scores de précision applicables (exact_match, pass@1, arena_hard) sur des jeux de données d’évaluation complets et standard. |
L’indice de qualité est fourni sur une échelle de zéro à une. Des valeurs plus élevées de l’indice de qualité sont préférables. Les jeux de données inclus dans l’index de qualité sont les suivants :
Nom du jeu de données | Catégorie de classement |
---|---|
arena_hard | Assurance qualité |
bigbench_hard | Raisonnement |
gpqa | Assurance qualité |
humanevalplus | Codage |
ifeval | Raisonnement |
mathématiques | Mathématiques |
mbppplus | Codage |
mmlu_pro | Connaissances générales |
Pour plus d’informations, consultez les scores d’exactitude :
Mesure | Descriptif |
---|---|
Précision | Les scores de précision sont disponibles au niveau du jeu de données et du modèle. Au niveau du jeu de données, le score est la valeur moyenne d’une métrique de précision calculée sur tous les exemples du jeu de données. La métrique de précision utilisée est exact-match dans tous les cas, à l’exception des jeux de données HumanEval et MBPP qui utilisent une pass@1 métrique. La correspondance exacte compare le texte généré par le modèle avec la réponse correcte en fonction du jeu de données, indiquant « un » si le texte généré correspond exactement à la réponse et « zéro » dans le cas contraire. La métrique pass@1 mesure la proportion de solutions de modèle qui réussissent un ensemble de tests unitaires dans une tâche de génération de code. Au niveau du modèle, le score de précision est la moyenne des précisions au niveau du jeu de données pour chaque modèle. |
Les scores de précision sont fournis sur une échelle de zéro à une. Des valeurs plus élevées sont préférables.
Benchmarks de performances des modèles de langage
Les métriques de performances sont calculées en tant qu’agrégat sur 14 jours, en fonction de 24 pistes (deux requêtes par piste) envoyées quotidiennement avec un intervalle d’une heure entre chaque piste. Les paramètres par défaut suivants sont utilisés pour chaque requête au point de terminaison du modèle :
Paramètre | Valeur | Applicable pour |
---|---|---|
Région | USA Est/USA Est 2 | Déploiements standard et Azure OpenAI |
Limite de débit des jetons par minute (TPM) | 30k (180 RPM basé sur Azure OpenAI) pour le non-raisonnement et 100k pour les modèles de raisonnement N/A (déploiements standard) |
Pour les modèles Azure OpenAI, la sélection est disponible pour les utilisateurs avec des plages de limites de débit en fonction du type de déploiement (standard, global, standard global, et ainsi de suite.) Pour les déploiements standard, ce paramètre est abstrait. |
Nombre de demandes | Deux requêtes dans une piste par heure (24 pistes par jour) | Déploiements standard, Azure OpenAI |
Nombre de pistes/exécutions | 14 jours avec 24 pistes par jour pour 336 exécutions | Déploiements standard, Azure OpenAI |
Longueur du prompt/contexte | Longueur modérée | Déploiements standard, Azure OpenAI |
Nombre de jetons traités (modérés) | Ratio 80:20 pour les jetons d’entrée et de sortie, c’est-à-dire 800 jetons d’entrée pour 200 jetons de sortie. | Déploiements standard, Azure OpenAI |
Nombre de demandes simultanées | Un (les demandes sont envoyées séquentiellement l’une après l’autre) | Déploiements standard, Azure OpenAI |
Données | Synthétique (invites d’entrée préparées à partir du texte statique) | Déploiements standard, Azure OpenAI |
Région | USA Est/USA Est 2 | Déploiements standard et Azure OpenAI |
Type de déploiement | Norme | Applicable uniquement pour Azure OpenAI |
Diffusion en continu | Vrai | S’applique aux déploiements standard et à Azure OpenAI. Pour les modèles déployés via un calcul managé ou pour les points de terminaison lorsque la diffusion en continu n’est pas prise en charge, le TTFT est représenté en tant que métrique de latence P50. |
Référence (SKU) | Standard_NC24ads_A100_v4 (24 cœurs, 220 Go de RAM, stockage 64 Go) | Applicable uniquement pour le calcul managé (pour estimer les métriques de coût et de perf) |
Les performances des grands et petits modèles de langage sont évaluées dans les mesures suivantes :
Mesure | Descriptif |
---|---|
Moyenne de latence | Temps moyen en secondes nécessaire pour le traitement d’une requête, calculé sur plusieurs requêtes. Pour calculer cette métrique, nous envoyons une requête au point de terminaison toutes les heures pendant deux semaines et calculons la moyenne. |
Latence P50 | Valeur du 50e centile (médiane) de latence (le temps écoulé entre la requête et le moment où nous recevons la réponse complète avec un code de réussite). Par exemple, lorsque nous envoyons une requête au point de terminaison, 50 % des requêtes sont effectuées en « x » secondes, « x » étant la mesure du temps de latence. |
Latence P90 | Valeur du 90e centile de latence (le temps écoulé entre la requête et le moment où nous recevons la réponse complète avec un code de réussite). Par exemple, lorsque nous envoyons une requête au point de terminaison, 90 % des requêtes sont effectuées en « x » secondes, « x » étant la mesure du temps de latence. |
Latence P95 | Valeur du 95e centile de latence (le temps écoulé entre la requête et le moment où nous recevons la réponse complète avec un code de réussite). Par exemple, lorsque nous envoyons une requête au point de terminaison, 95 % des requêtes sont terminées en « x » secondes, « x » étant la mesure du temps de latence. |
Latence P99 | Valeur du 99e centile de latence (le temps écoulé entre la requête et le moment où nous recevons la réponse complète avec un code de réussite). Par exemple, lorsque nous envoyons une requête au point de terminaison, 99 % des requêtes sont terminées en « x » secondes, « x » étant la mesure du temps de latence. |
GTPS de débit | Les jetons générés par seconde (GTPS) correspondent au nombre de jetons de sortie qui sont générés par seconde à partir du moment où la requête est envoyée au point de terminaison. |
TTPS de débit | Le total de jetons par seconde (TTPS) est le nombre total de jetons traités par seconde, y compris à partir de l’invite d’entrée et des jetons de sortie générés. Pour les modèles qui ne prennent pas en charge la diffusion en continu, la durée du premier jeton (ttft) représente la valeur P50 de la latence (temps nécessaire pour recevoir la réponse) |
TTFT de latence | Le délai total du premier jeton (TTFT) est le temps nécessaire pour que le premier jeton de la réponse soit renvoyé depuis le point de terminaison lorsque la diffusion en continu est activée. |
Durée entre les jetons | Cette métrique correspond au temps écoulé entre la réception des jetons. |
Azure AI affiche également des index de performances pour la latence et le débit comme suit :
Index | Descriptif |
---|---|
Index de latence | Temps moyen jusqu'au premier jeton. Les valeurs basses sont préférables. |
Index de débit | Nombre moyen de jetons générés par seconde. Des valeurs plus élevées sont préférables. |
Pour les métriques de performances telles que la latence ou le débit, le délai du premier jeton et les jetons générés par seconde donnent une meilleure idée globale des performances et du comportement typiques du modèle. Nous actualisons nos chiffres de performance à intervalles réguliers.
Référentiels de coûts des modèles de langage
Les calculs de coût sont des estimations pour l’utilisation d’un point de terminaison d'un modèle LLM ou SLM hébergé sur la plateforme Azure AI. Azure AI prend en charge l’affichage du coût des déploiements standard et des modèles Azure OpenAI. Étant donné que ces coûts sont susceptibles de changer, nous actualisons nos calculs de coûts à une cadence régulière.
Le coût des LLMs et des SLMs est évalué selon les métriques suivantes :
Mesure | Descriptif |
---|---|
Coût par jetons d’entrée | Coût du déploiement standard pour 1 million de jetons d’entrée |
Coût par jetons de sortie | Coût du déploiement standard pour 1 million de jetons de sortie |
Coût estimé | Coût de la somme du coût par jetons d’entrée et du coût par jetons de sortie, avec un ratio de 3:1. |
Azure AI affiche également l’index de coût comme suit :
Index | Descriptif |
---|---|
Index des coûts | Coût estimé. Les valeurs basses sont préférables. |
Benchmarks de qualité des modèles incorporés
L’index de qualité des modèles d’incorporation est défini comme les scores de précision moyen d’un ensemble complet de jeux de données de référence standard ciblant la récupération des informations, le clustering de documents et les tâches de synthèse.
Pour plus d’informations, consultez les définitions de score de précision spécifiques à chaque jeu de données :
Mesure | Descriptif |
---|---|
Précision | L’exactitude est la proportion de prédictions correctes par rapport au nombre total de prédictions traitées. |
Score F1 | Le score F1 est la moyenne pondérée de la précision et du rappel, où la meilleure valeur est « un » (précision et rappel parfaits) et la pire est « zéro ». |
Moyenne de la précision moyenne (MAP, Mean Average Precision) | La MAP évalue la qualité des systèmes de classement et de recommandation. Elle mesure à la fois la pertinence des éléments suggérés et la capacité du système à placer les éléments plus pertinents en haut. Les valeurs peuvent aller de zéro à un, et plus la MAP est élevée, plus le système peut placer les éléments pertinents en haut de la liste. |
Gain cumulatif actualisé normalisé (NDCG, Normalized Discounted Cumulative Gain) | Le NDCG évalue la capacité d’un algorithme d’apprentissage automatique à trier les éléments en fonction de leur pertinence. Il compare les classements à un ordre idéal où tous les éléments pertinents sont en haut de la liste et où k est la longueur de la liste, tout en évaluant la qualité des classements. Dans nos benchmarks, k=10, indiqué par une métrique ndcg_at_10 , signifie que nous examinons les 10 premiers éléments. |
Précision | La précision mesure la capacité du modèle à identifier correctement les instances d’une classe en particulier. La précision indique la fréquence à laquelle un modèle Machine Learning est correct lors de la prédiction de la classe cible. |
Corrélation de Spearman | La corrélation de Spearman basée sur la similarité cosinus est mesurée en calculant d’abord la similarité cosinus entre les variables, puis en classant ces scores et en utilisant les classements pour calculer la corrélation de Spearman. |
Mesure V | La mesure V est une métrique utilisée pour évaluer la qualité du clustering. La mesure V est calculée en tant que moyenne harmonieuse de l’homogénéité et de l’exhaustivité, garantissant un équilibre entre les deux pour un score significatif. Les notes possibles se situent entre zéro et un, la note 1 correspondant à un étiquetage parfaitement complet. |
Calcul des scores
Scores individuels
Les résultats du benchmark proviennent de jeux de données publics couramment utilisés pour l’évaluation des modèles de langage. Dans la plupart des cas, les données sont hébergées dans des référentiels GitHub gérés par les créateurs ou les curateurs des données. Les pipelines d’évaluation Azure AI téléchargent des données depuis leurs sources d’origine, extraient des questions de chaque ligne d’exemple, génèrent des réponses par le modèle, puis calculent les métriques de précision pertinentes.
La construction de prompts suit les bonnes pratiques pour chaque jeu de données, comme spécifié par le document présentant le jeu de données et les normes du secteur d’activité. Dans la plupart des cas, chaque prompt contient plusieurs coups, c’est-à-dire des exemples de questions et réponses complètes pour préparer le modèle à la tâche. Les pipelines d’évaluation créent des captures par des questions d’échantillonnage et des réponses provenant d’une partie des données conservées à partir de l’évaluation.