Partager via


Modèles de classements dans le portail Azure AI Foundry (préversion)

Important

Les éléments marqués (aperçu) dans cet article sont actuellement en aperçu public. Cette version préliminaire est fournie sans contrat de niveau de service, et nous la déconseillons pour les charges de travail en production. Certaines fonctionnalités peuvent être limitées ou non prises en charge. Pour plus d’informations, consultez Conditions d’Utilisation Supplémentaires relatives aux Évaluations Microsoft Azure.

Les classements de modèles (préversion) dans le portail Azure AI Foundry vous permettent de simplifier le processus de sélection de modèle dans le catalogue de modèles Azure AI Foundry. Les classements de modèles, soutenus par des benchmarks standard du secteur, peuvent vous aider à trouver le meilleur modèle pour votre solution IA personnalisée. Dans la section classements des modèles du catalogue de modèles, vous pouvez parcourir les classements pour comparer les modèles disponibles comme suit :

Chaque fois que vous trouvez un modèle à votre goût, vous pouvez le sélectionner et effectuer un zoom avant dans les résultats d’évaluation détaillés du modèle dans le catalogue de modèles. Si vous êtes satisfait du modèle, vous pouvez le déployer, l’essayer dans le terrain de jeu ou l’évaluer sur vos données. Les classements prennent en charge l’évaluation des modèles de langage de texte (modèles LLM) et de petits modèles de langage (SLA) et des modèles incorporés.

Les benchmarks de modèles évaluent les LLM et les SLM dans les catégories suivantes : qualité, performance et coût. En outre, nous évaluons la qualité des modèles incorporés à l’aide de benchmarks standard. Les classements sont régulièrement mis à jour à mesure que de meilleurs et plus variés benchmarks sont intégrés, et que de nouveaux modèles sont ajoutés au catalogue de modèles.

Benchmarks de qualité des modèles de langage

Azure AI évalue la qualité des modèles de langage de grande taille (LLMs) et des modèles de langage spécialisés (SLMs) à l'aide de scores de précision provenant de jeux de données de référence standard et complets mesurant les capacités du modèle telles que le raisonnement, les connaissances, questions et réponses, les mathématiques et le codage.

Index Descriptif
Index de qualité L’index de qualité est calculé en moyenne des scores de précision applicables (exact_match, pass@1, arena_hard) sur des jeux de données d’évaluation complets et standard.

L’indice de qualité est fourni sur une échelle de zéro à une. Des valeurs plus élevées de l’indice de qualité sont préférables. Les jeux de données inclus dans l’index de qualité sont les suivants :

Nom du jeu de données Catégorie de classement
arena_hard Assurance qualité
bigbench_hard Raisonnement
gpqa Assurance qualité
humanevalplus Codage
ifeval Raisonnement
mathématiques Mathématiques
mbppplus Codage
mmlu_pro Connaissances générales

Pour plus d’informations, consultez les scores d’exactitude :

Mesure Descriptif
Précision Les scores de précision sont disponibles au niveau du jeu de données et du modèle. Au niveau du jeu de données, le score est la valeur moyenne d’une métrique de précision calculée sur tous les exemples du jeu de données. La métrique de précision utilisée est exact-match dans tous les cas, à l’exception des jeux de données HumanEval et MBPP qui utilisent une pass@1 métrique. La correspondance exacte compare le texte généré par le modèle avec la réponse correcte en fonction du jeu de données, indiquant « un » si le texte généré correspond exactement à la réponse et « zéro » dans le cas contraire. La métrique pass@1 mesure la proportion de solutions de modèle qui réussissent un ensemble de tests unitaires dans une tâche de génération de code. Au niveau du modèle, le score de précision est la moyenne des précisions au niveau du jeu de données pour chaque modèle.

Les scores de précision sont fournis sur une échelle de zéro à une. Des valeurs plus élevées sont préférables.

Benchmarks de performances des modèles de langage

Les métriques de performances sont calculées en tant qu’agrégat sur 14 jours, en fonction de 24 pistes (deux requêtes par piste) envoyées quotidiennement avec un intervalle d’une heure entre chaque piste. Les paramètres par défaut suivants sont utilisés pour chaque requête au point de terminaison du modèle :

Paramètre Valeur Applicable pour
Région USA Est/USA Est 2 Déploiements standard et Azure OpenAI
Limite de débit des jetons par minute (TPM) 30k (180 RPM basé sur Azure OpenAI) pour le non-raisonnement et 100k pour les modèles de raisonnement
N/A (déploiements standard)
Pour les modèles Azure OpenAI, la sélection est disponible pour les utilisateurs avec des plages de limites de débit en fonction du type de déploiement (standard, global, standard global, et ainsi de suite.)
Pour les déploiements standard, ce paramètre est abstrait.
Nombre de demandes Deux requêtes dans une piste par heure (24 pistes par jour) Déploiements standard, Azure OpenAI
Nombre de pistes/exécutions 14 jours avec 24 pistes par jour pour 336 exécutions Déploiements standard, Azure OpenAI
Longueur du prompt/contexte Longueur modérée Déploiements standard, Azure OpenAI
Nombre de jetons traités (modérés) Ratio 80:20 pour les jetons d’entrée et de sortie, c’est-à-dire 800 jetons d’entrée pour 200 jetons de sortie. Déploiements standard, Azure OpenAI
Nombre de demandes simultanées Un (les demandes sont envoyées séquentiellement l’une après l’autre) Déploiements standard, Azure OpenAI
Données Synthétique (invites d’entrée préparées à partir du texte statique) Déploiements standard, Azure OpenAI
Région USA Est/USA Est 2 Déploiements standard et Azure OpenAI
Type de déploiement Norme Applicable uniquement pour Azure OpenAI
Diffusion en continu Vrai S’applique aux déploiements standard et à Azure OpenAI. Pour les modèles déployés via un calcul managé ou pour les points de terminaison lorsque la diffusion en continu n’est pas prise en charge, le TTFT est représenté en tant que métrique de latence P50.
Référence (SKU) Standard_NC24ads_A100_v4 (24 cœurs, 220 Go de RAM, stockage 64 Go) Applicable uniquement pour le calcul managé (pour estimer les métriques de coût et de perf)

Les performances des grands et petits modèles de langage sont évaluées dans les mesures suivantes :

Mesure Descriptif
Moyenne de latence Temps moyen en secondes nécessaire pour le traitement d’une requête, calculé sur plusieurs requêtes. Pour calculer cette métrique, nous envoyons une requête au point de terminaison toutes les heures pendant deux semaines et calculons la moyenne.
Latence P50 Valeur du 50e centile (médiane) de latence (le temps écoulé entre la requête et le moment où nous recevons la réponse complète avec un code de réussite). Par exemple, lorsque nous envoyons une requête au point de terminaison, 50 % des requêtes sont effectuées en « x » secondes, « x » étant la mesure du temps de latence.
Latence P90 Valeur du 90e centile de latence (le temps écoulé entre la requête et le moment où nous recevons la réponse complète avec un code de réussite). Par exemple, lorsque nous envoyons une requête au point de terminaison, 90 % des requêtes sont effectuées en « x » secondes, « x » étant la mesure du temps de latence.
Latence P95 Valeur du 95e centile de latence (le temps écoulé entre la requête et le moment où nous recevons la réponse complète avec un code de réussite). Par exemple, lorsque nous envoyons une requête au point de terminaison, 95 % des requêtes sont terminées en « x » secondes, « x » étant la mesure du temps de latence.
Latence P99 Valeur du 99e centile de latence (le temps écoulé entre la requête et le moment où nous recevons la réponse complète avec un code de réussite). Par exemple, lorsque nous envoyons une requête au point de terminaison, 99 % des requêtes sont terminées en « x » secondes, « x » étant la mesure du temps de latence.
GTPS de débit Les jetons générés par seconde (GTPS) correspondent au nombre de jetons de sortie qui sont générés par seconde à partir du moment où la requête est envoyée au point de terminaison.
TTPS de débit Le total de jetons par seconde (TTPS) est le nombre total de jetons traités par seconde, y compris à partir de l’invite d’entrée et des jetons de sortie générés. Pour les modèles qui ne prennent pas en charge la diffusion en continu, la durée du premier jeton (ttft) représente la valeur P50 de la latence (temps nécessaire pour recevoir la réponse)
TTFT de latence Le délai total du premier jeton (TTFT) est le temps nécessaire pour que le premier jeton de la réponse soit renvoyé depuis le point de terminaison lorsque la diffusion en continu est activée.
Durée entre les jetons Cette métrique correspond au temps écoulé entre la réception des jetons.

Azure AI affiche également des index de performances pour la latence et le débit comme suit :

Index Descriptif
Index de latence Temps moyen jusqu'au premier jeton. Les valeurs basses sont préférables.
Index de débit Nombre moyen de jetons générés par seconde. Des valeurs plus élevées sont préférables.

Pour les métriques de performances telles que la latence ou le débit, le délai du premier jeton et les jetons générés par seconde donnent une meilleure idée globale des performances et du comportement typiques du modèle. Nous actualisons nos chiffres de performance à intervalles réguliers.

Référentiels de coûts des modèles de langage

Les calculs de coût sont des estimations pour l’utilisation d’un point de terminaison d'un modèle LLM ou SLM hébergé sur la plateforme Azure AI. Azure AI prend en charge l’affichage du coût des déploiements standard et des modèles Azure OpenAI. Étant donné que ces coûts sont susceptibles de changer, nous actualisons nos calculs de coûts à une cadence régulière.

Le coût des LLMs et des SLMs est évalué selon les métriques suivantes :

Mesure Descriptif
Coût par jetons d’entrée Coût du déploiement standard pour 1 million de jetons d’entrée
Coût par jetons de sortie Coût du déploiement standard pour 1 million de jetons de sortie
Coût estimé Coût de la somme du coût par jetons d’entrée et du coût par jetons de sortie, avec un ratio de 3:1.

Azure AI affiche également l’index de coût comme suit :

Index Descriptif
Index des coûts Coût estimé. Les valeurs basses sont préférables.

Benchmarks de qualité des modèles incorporés

L’index de qualité des modèles d’incorporation est défini comme les scores de précision moyen d’un ensemble complet de jeux de données de référence standard ciblant la récupération des informations, le clustering de documents et les tâches de synthèse.

Pour plus d’informations, consultez les définitions de score de précision spécifiques à chaque jeu de données :

Mesure Descriptif
Précision L’exactitude est la proportion de prédictions correctes par rapport au nombre total de prédictions traitées.
Score F1 Le score F1 est la moyenne pondérée de la précision et du rappel, où la meilleure valeur est « un » (précision et rappel parfaits) et la pire est « zéro ».
Moyenne de la précision moyenne (MAP, Mean Average Precision) La MAP évalue la qualité des systèmes de classement et de recommandation. Elle mesure à la fois la pertinence des éléments suggérés et la capacité du système à placer les éléments plus pertinents en haut. Les valeurs peuvent aller de zéro à un, et plus la MAP est élevée, plus le système peut placer les éléments pertinents en haut de la liste.
Gain cumulatif actualisé normalisé (NDCG, Normalized Discounted Cumulative Gain) Le NDCG évalue la capacité d’un algorithme d’apprentissage automatique à trier les éléments en fonction de leur pertinence. Il compare les classements à un ordre idéal où tous les éléments pertinents sont en haut de la liste et où k est la longueur de la liste, tout en évaluant la qualité des classements. Dans nos benchmarks, k=10, indiqué par une métrique ndcg_at_10, signifie que nous examinons les 10 premiers éléments.
Précision La précision mesure la capacité du modèle à identifier correctement les instances d’une classe en particulier. La précision indique la fréquence à laquelle un modèle Machine Learning est correct lors de la prédiction de la classe cible.
Corrélation de Spearman La corrélation de Spearman basée sur la similarité cosinus est mesurée en calculant d’abord la similarité cosinus entre les variables, puis en classant ces scores et en utilisant les classements pour calculer la corrélation de Spearman.
Mesure V La mesure V est une métrique utilisée pour évaluer la qualité du clustering. La mesure V est calculée en tant que moyenne harmonieuse de l’homogénéité et de l’exhaustivité, garantissant un équilibre entre les deux pour un score significatif. Les notes possibles se situent entre zéro et un, la note 1 correspondant à un étiquetage parfaitement complet.

Calcul des scores

Scores individuels

Les résultats du benchmark proviennent de jeux de données publics couramment utilisés pour l’évaluation des modèles de langage. Dans la plupart des cas, les données sont hébergées dans des référentiels GitHub gérés par les créateurs ou les curateurs des données. Les pipelines d’évaluation Azure AI téléchargent des données depuis leurs sources d’origine, extraient des questions de chaque ligne d’exemple, génèrent des réponses par le modèle, puis calculent les métriques de précision pertinentes.

La construction de prompts suit les bonnes pratiques pour chaque jeu de données, comme spécifié par le document présentant le jeu de données et les normes du secteur d’activité. Dans la plupart des cas, chaque prompt contient plusieurs coups, c’est-à-dire des exemples de questions et réponses complètes pour préparer le modèle à la tâche. Les pipelines d’évaluation créent des captures par des questions d’échantillonnage et des réponses provenant d’une partie des données conservées à partir de l’évaluation.