Partager via


Routeur modèle pour Microsoft Foundry

Le routeur de modèles est un modèle de langage entraîné qui achemine intelligemment vos invites en temps réel vers le grande modèle de langage le plus approprié (LLM). Vous déployez un routeur de modèle comme n’importe quel autre modèle Foundry. Ainsi, il offre des performances élevées tout en économisant les coûts, en réduisant les latences et en augmentant la réactivité, tout en conservant une qualité comparable, tous empaquetés en tant que déploiement de modèle unique.

Note

Vous n’avez pas besoin de déployer séparément les LLM pris en charge pour les utiliser avec le routeur de modèles, à l’exception des modèles Claude. Pour utiliser le routeur de modèles avec vos modèles Claude, déployez-les d’abord à partir du catalogue de modèles. Les déploiements sont appelés par le routeur de modèle s’ils sont sélectionnés pour le routage.

Pour essayer rapidement le routeur de modèle, suivez comment utiliser le routeur de modèle. Après avoir déployé votre routeur de modèle, envoyez une requête au déploiement. Le routeur de modèle sélectionne un modèle sous-jacent pour chaque requête en fonction de vos paramètres de routage.

Fonctionnement d'un modèle de routeur

En tant que modèle de langage entraîné, le routeur de modèle analyse vos invites en temps réel en fonction de la complexité, du raisonnement, du type de tâche et d’autres attributs. Il ne stocke pas vos instructions. Il route uniquement vers des modèles éligibles en fonction de vos types d'accès et de déploiement, respectant les limites des zones de données.

Important

La fenêtre de contexte effective est limitée par le plus petit modèle sous-jacent. Pour les contextes plus volumineux, utilisez le sous-ensemble de modèles pour sélectionner des modèles qui prennent en charge vos besoins.

  • En mode équilibré (par défaut), il considère tous les modèles sous-jacents dans une petite plage de qualité (par exemple, 1% à 2% par rapport au modèle de qualité la plus élevée pour cette invite) et choisit le modèle le plus économique.
  • En mode Coût, il considère une bande de qualité plus large (par exemple, 5% à 6% par rapport au modèle de qualité la plus élevée pour cette proposition) et choisit le modèle le plus rentable.
  • En mode Qualité, il sélectionne le modèle de la plus haute qualité pour la requête, en ignorant le coût.

Pourquoi utiliser un routeur modèle ?

Le routeur de modèle optimise les coûts et les latences tout en conservant une qualité comparable. Les modèles plus petits et moins chers sont utilisés lorsqu’ils sont suffisants pour la tâche, mais des modèles plus volumineux et plus coûteux sont disponibles pour des tâches plus complexes. En outre, les modèles de raisonnement sont disponibles pour les tâches qui nécessitent un raisonnement complexe et des modèles non-raisonnement sont utilisés dans le cas contraire. Le routeur de modèles offre une expérience de déploiement et de conversation unique qui combine les meilleures fonctionnalités de tous les modèles de conversation sous-jacents.

La dernière version 2025-11-18 inclut plusieurs fonctionnalités :

  1. Prendre en charge les déploiements Global Standard et Data Zone Standard.
  2. Ajoute la prise en charge des nouveaux modèles : grok-4, grok-4-fast-reasoning, DeepSeek-V3.1, DeepSeek-V3.2, gpt-oss-120b, Llama-4-Maverick-17B-128E-Instruct-FP8, gpt-4o, gpt-4o-mini, gpt-5.2, gpt-5.2-chat, claude-haiku-4-5, claude-sonnet-4-5, claude-opus-4-1, et claude-opus-4-6.
  3. Déploiement rapide ou déploiement personnalisé avec le mode de routage et les options de sous-ensemble de modèles .
  4. Mode de routage : optimisez la logique de routage pour vos besoins. Options prises en charge : Quality, Cost, Balanced (par défaut).
  5. Sous-ensemble de modèles : sélectionnez vos modèles préférés pour créer votre sous-ensemble de modèles pour le routage.
  6. Prise en charge des scénarios agentiques, y compris des outils, afin de pouvoir l’utiliser dans le Service de l’agent Foundry.

Gestion des versions

Chaque version du routeur de modèle est associée à un ensemble spécifique de modèles sous-jacents et à leurs versions. Cet ensemble est fixé : seules les versions plus récentes du routeur modèle peuvent révéler de nouveaux modèles sous-jacents.

Si vous sélectionnez Mise à jour automatique à l’étape de déploiement (voir Mises à jour du modèle), votre modèle de routeur de modèle est automatiquement mis à jour lorsque de nouvelles versions sont disponibles. Dans ce cas, l’ensemble de modèles sous-jacents change également, ce qui peut affecter les performances globales du modèle et des coûts.

Modèles sous-jacents pris en charge

Avec la version 2025-11-18, le routeur de modèle ajoute neuf nouveaux modèles, notamment les modèles Claude d’Anthropic, DeepSeek, Llama, Grok pour prendre en charge un total de 18 modèles disponibles pour le routage de vos prompts.

Note

Vous n’avez pas besoin de déployer séparément les LLM pris en charge pour les utiliser avec le routeur de modèles, à l’exception des modèles Claude. Pour utiliser le routeur de modèles avec vos modèles Claude, déployez-les d’abord à partir du catalogue de modèles. Les déploiements seront appelés par le routeur de modèles s’ils sont sélectionnés pour le routage.

Version de modèle de routeur Modèles sous-jacents Version du modèle sous-jacente
2025-11-18 gpt-4.1
gpt-4.1-mini
gpt-4.1-nano
o4-mini
gpt-5-nano
gpt-5-mini
gpt-5
gpt-5-chat
gpt-5.2
gpt-5.2-chat
Deepseek-v3.1 2
Deepseek-v3.2 2
gpt-oss-120b 2
llama4-maverick-instruct 2
grok-4 2
grok-4-fast 2
claude-haiku-4-5 3
claude-sonnet-4-5 3
claude-opus-4-1 3
claude-opus-4-6 3
2025-04-14
2025-04-14
2025-04-14
2025-04-16
2025-08-07
2025-08-07
2025-08-07
2025-08-07
2025-12-11
2025-12-11
N/A
N/A
N/A
N/A
N/A
N/A
N/A
2025-09-29
2025-08-05
2025-09-29
2025-08-05
2025-08-07 gpt-4.1
gpt-4.1-mini
gpt-4.1-nano
o4-mini
gpt-5 1
gpt-5-mini
gpt-5-nano
gpt-5-chat
2025-04-14
2025-04-14
2025-04-14
2025-04-16
2025-08-07
2025-08-07
2025-08-07
2025-08-07
2025-05-19 gpt-4.1
gpt-4.1-mini
gpt-4.1-nano
o4-mini
2025-04-14
2025-04-14
2025-04-14
2025-04-16
  • 1Nécessite l’inscription.
  • 2La prise en charge du routeur de modèles est en version préliminaire.
  • 3La prise en charge du routeur de modèles est en version préliminaire. Nécessite le déploiement du modèle pour une utilisation avec le routeur de modèles.

Mode de routage

Avec la dernière version, si vous choisissez un déploiement personnalisé, vous pouvez sélectionner le mode de routage pour optimiser la qualité ou le coût tout en conservant un niveau de référence de performances. La définition d’un mode de routage est facultative et, si vous n’en définissez pas, votre déploiement est défini par défaut sur le mode équilibré.

Modes de routage disponibles :

Mode Descriptif
Équilibré (par défaut) Prend en compte les coûts et la qualité dynamiquement. Parfait pour les scénarios à usage général
Qualité Priorise l'exactitude maximale. Idéal pour le raisonnement complexe ou les sorties critiques
Coûts Privilégie les mesures pour accroître les économies. Idéal pour les charges de travail à volume élevé et sensibles au budget

Sous-ensemble de modèles

La dernière version du routeur de modèles prend en charge les sous-ensembles de modèles : vous pouvez spécifier les modèles sous-jacents à inclure dans les décisions de routage. Cela vous donne plus de contrôle sur les caractéristiques de coût, de conformité et de performances.

Lorsque de nouveaux modèles de base deviennent disponibles, ils ne sont pas inclus dans votre sélection, sauf si vous les ajoutez explicitement à la liste d’inclusion de votre déploiement.

Basculement automatique

Le routeur de modèles intègre désormais un mécanisme de basculement automatique. Lorsque vous utilisez le déploiement par défaut pour acheminer vers tous les modèles pris en charge, le routeur de modèle redirige de manière transparente la requête vers le modèle le plus approprié suivant, de sorte que les problèmes temporaires liés à un seul modèle ne perturbent pas votre application. Le basculement est activé par défaut : aucune configuration supplémentaire n’est requise.

Pour les configurations de déploiement personnalisées :

  • Votre mode de routage sélectionné (équilibré, coût ou qualité) continue de s’appliquer pendant le basculement.
  • Votre sous-ensemble de modèles configuré fonctionne également en tant que jeu de secours pour empêcher que vos invites soient traitées par des modèles non approuvés. Par conséquent, veillez à sélectionner des sous-ensembles de modèles avec au moins deux modèles pour bénéficier de la fonctionnalité de secours.

Mise en cache des invites

Le routeur de modèle prend en charge la mise en cache immédiate, car les requêtes sont traitées par les modèles sous-jacents qui la supportent. Lorsque le routeur de modèles transmet une requête à un modèle compatible avec la mise en cache des invites, les jetons en cache sont exploités automatiquement, sans configuration additionnelle.

Le comportement du cache dépend du modèle sous-jacent sélectionné par le routeur pour une demande donnée. Étant donné que les décisions de routage peuvent varier, les avantages de la mise en cache s’appliquent uniquement lorsque le même modèle gère les requêtes consécutives avec des préfixes d’invite qui se chevauchent.

Pour plus d’informations sur le fonctionnement de la mise en cache des instructions et sur les modèles qui la prennent en charge, consultez Mise en cache des instructions.

Limites

Limitations des ressources

Région Types de déploiement pris en charge
Est des États-Unis 2 Norme mondiale, Norme de zone de données
Suède Centre Norme mondiale, Norme de zone de données

Consultez également Azure OpenAI dans les modèles Foundry de Microsoft pour la disponibilité actuelle dans votre région.

Limites de débit

Modèle Type de déploiement RPM par défaut TPM par défaut Enterprise et MCA-E RPM TPM MCA-E et Entreprise
model-router
(2025-11-18)
DataZoneStandard 150 150 000 300 300,000
model-router
(2025-11-18)
GlobalStandard 250 250 000 400 400 000

Consultez également quotas et limites pour les informations sur la limite de débit.

Pour surmonter les limites de la fenêtre de contexte et des paramètres, utilisez la fonctionnalité de sous-ensemble de modèles pour sélectionner vos modèles pour le routage qui prennent en charge vos propriétés souhaitées.

Note

La limite de fenêtre de contexte spécifiée pour le modèle routeur est celle du plus petit modèle sous-jacent. D’autres modèles sous-jacents sont compatibles avec des fenêtres de contexte plus volumineuses, ce qui signifie qu’un appel d’API avec un contexte plus large réussit uniquement si l’invite est acheminée vers le modèle approprié. Pour examiner les fenêtres contextuelles des modèles sous-jacents, consultez Azure OpenAI dans Microsoft modèles Foundry.

Pour raccourcir la fenêtre de contexte, vous pouvez effectuer l’une des opérations suivantes :

  • Résumer l’invite avant de la transmettre au modèle
  • Tronquer l’invite en parties plus pertinentes
  • Utilisez des incorporations de documents et faites en sorte que le modèle de conversation récupère les sections pertinentes. Pour plus d’informations, consultez Qu’est-ce que Recherche Azure AI ?

Le routeur de modèles accepte les entrées d’image pour les conversations vision activées (tous les modèles sous-jacents peuvent accepter l’entrée d’image), mais la décision de routage est basée uniquement sur l’entrée de texte.

Le routeur Model ne traite pas l’entrée audio.

Résolution des problèmes

Problème Résolution
Échec du déploiement Vérifiez que votre ressource Foundry se trouve dans Est des États-Unis 2 ou Centre de la Suède.
Échec du routage des modèles Claude Vérifiez que les modèles Claude sont déployés séparément avant de les activer dans le routeur de modèles.
Erreur de dépassement de contexte Réduisez la taille du prompt ou utilisez un sous-ensemble de modèles pour sélectionner des modèles avec des fenêtres contextuelles de plus grande taille.
Sélection inattendue du modèle Passez en revue votre paramètre de mode de routage (équilibré, coût, qualité) et la configuration du sous-ensemble de modèles.

Pour obtenir une résolution détaillée des problèmes de déploiement, consultez Comment utiliser le routeur de modèle.

Informations de facturation

L’utilisation du routeur de modèles est facturée sur les requêtes d’entrée, selon les tarifs indiqués sur la page dédiée.

Vous pouvez surveiller les coûts du déploiement de votre routeur de modèle dans le portail Azure.

Étape suivante