Routeur modèle pour Microsoft Foundry

Le Model Router est un modèle de langage entraîné qui achemine intelligemment vos requêtes en temps réel vers le modèle de langage le plus approprié (LLM). Vous déployez un routeur de modèle comme n’importe quel autre modèle Foundry. Ainsi, il offre des performances élevées tout en économisant les coûts, en réduisant les latences et en augmentant la réactivité, tout en conservant une qualité comparable, tous empaquetés en tant que déploiement de modèle unique.

Note

Vous n’avez pas besoin de déployer séparément les machines virtuelles LLM prises en charge pour une utilisation avec le routeur de modèle, à l’exception des modèles Claude. Pour utiliser le routeur de modèles avec vos modèles Claude, déployez-les d’abord à partir du catalogue de modèles. Les déploiements sont déclenchés par le routeur de modèle s'ils ont été sélectionnés pour le routage.

Pour essayer rapidement le routeur de modèle, suivez comment utiliser le routeur de modèle. Après avoir déployé le routeur de modèle, envoyez une requête au système déployé. Le routeur de modèle sélectionne un modèle sous-jacent pour chaque requête en fonction de vos paramètres de routage. Pour une présentation approfondie du pipeline de routage, de l’entraînement et de la logique de décision, consultez le fonctionnement du routeur de modèle.

Comment fonctionne le modèle de routeur

En tant que modèle de langage entraîné, le module de routage analyse vos instructions en temps réel selon la complexité, le raisonnement, le type de tâche et d'autres attributs. Il ne stocke pas vos commandes. Il route uniquement vers des modèles éligibles en fonction de vos types d’accès et de déploiement, respectant les limites de zone de données.

Important

La fenêtre de contexte effective est limitée par le plus petit modèle sous-jacent. Pour les contextes plus volumineux, utilisez le sous-ensemble de modèles pour sélectionner des modèles qui prennent en charge vos besoins.

En mode équilibré (par défaut), il considère tous les modèles sous-jacents dans une petite plage de qualité (par exemple, 1% à 2% par rapport au modèle de qualité la plus élevée pour cette invite) et choisit le modèle le plus économique.
En mode Coût, il considère une bande de qualité plus large (par exemple, de 5% à 6% par rapport au modèle de la plus haute qualité pour cette invite) et choisit le modèle le plus économique.
En mode Qualité, il choisit le modèle de qualité le plus élevé pour la demande, ignorant le coût.

Pourquoi utiliser un routeur modèle ?

Le modèle de routeur optimise les coûts et les latences tout en conservant une qualité comparable. Les modèles plus petits et moins chers sont utilisés lorsqu’ils sont suffisants pour la tâche, mais des modèles plus volumineux et plus coûteux sont disponibles pour des tâches plus complexes. En outre, les modèles de raisonnement sont disponibles pour les tâches qui nécessitent un raisonnement complexe et des modèles non-raisonnement sont utilisés dans le cas contraire. Le routeur de modèles offre une expérience de déploiement et de conversation unique qui combine les meilleures fonctionnalités de tous les modèles de conversation sous-jacents.

La dernière version 2025-11-18 inclut plusieurs fonctionnalités :

Prendre en charge les déploiements Standards Globaux et Standards de Zone de Données.
Ajoute la prise en charge des nouveaux modèles : grok-4, grok-4-fast-reasoning, DeepSeek-V3.1, DeepSeek-V3.2, gpt-oss-120b, Llama-4-Maverick-17B-128E-Instruct-FP8, gpt-4o, gpt-4o-mini, gpt-5.2, gpt-5.2-chat, claude-haiku-4-5, claude-sonnet-4-5, claude-opus-4-1 et claude-opus-4-6.
Déploiement rapide ou déploiement personnalisé avec le mode de routage et les options de sous-ensemble de modèles .
Mode de routage : optimisez la logique de routage pour vos besoins. Options prises en charge : Quality, Cost, Balanced (par défaut).
Sous-ensemble de modèles : sélectionnez vos modèles préférés pour créer votre sous-ensemble de modèles pour le routage.
Prise en charge des scénarios agentiques, avec des outils, afin de pouvoir désormais l’utiliser dans le service d'agent Foundry.

Gestion des versions

Chaque version du routeur de modèle est associée à un ensemble spécifique de modèles sous-jacents et à leurs versions. Cet ensemble est fixé : seules les versions plus récentes du modèle de routeur peuvent exposer de nouveaux modèles sous-jacents.

Si vous sélectionnez Mise à jour automatique à l’étape de déploiement (voir Mises à jour du modèle), votre modèle de routeur de modèle est automatiquement mis à jour lorsque de nouvelles versions sont disponibles. Dans ce cas, l’ensemble de modèles sous-jacents change également, ce qui peut affecter les performances globales du modèle et des coûts.

Modèles pris en charge

Avec la version 2025-11-18, Model Router ajoute neuf nouveaux modèles, y compris Claude d'Anthropic, DeepSeek, Llama, et les modèles Grok, pour prendre en charge un total de 18 modèles disponibles pour le routage de vos invites.

Note

Vous n’avez pas besoin de déployer séparément les machines virtuelles LLM prises en charge pour une utilisation avec le routeur de modèle, à l’exception des modèles Claude. Pour utiliser le routeur de modèles avec vos modèles Claude, déployez-les d’abord à partir du catalogue de modèles. Les déploiements seront appelés par le routeur de modèle s'ils sont sélectionnés pour le routage.

Version du modèle de routeur	Format	Modèle	Version
`2025-11-18`	OpenAI OpenAI OpenAI OpenAI OpenAI OpenAI OpenAI OpenAI OpenAI OpenAI OpenAI OpenAI DeepSeek DeepSeek OpenAI Meta Xai Xai Anthropic Anthropic Anthropic Anthropic	`gpt-4.0` `gpt-4.0-mini` `gpt-4.1` `gpt-4.1-mini` `gpt-4.1-nano` `o4-mini` `gpt-5-nano` `gpt-5-mini` `gpt-5` `gpt-5-chat` `gpt-5.2` `gpt-5.2-chat` `Deepseek-V3.1` ² `Deepseek-V3.2` ² `gpt-oss-120b` ² `Llama-4-Maverick-17B-128E-Instruct-FP8` ² `grok-4` ² `grok-4-fast-reasoning` ² `claude-haiku-4-5` ³ `claude-sonnet-4-5` ³ `claude-opus-4-1` ³ `claude-opus-4-6` ³	`2024-11-20` `2024-07-18` `2025-04-14` `2025-04-14` `2025-04-14` `2025-04-16` `2025-08-07` `2025-08-07` `2025-08-07` `2025-08-07` `2025-12-11` `2025-12-11` `1` `1` `1` `1` `1` `1` `20251001` `20250929` `20250805` `1`
`2025-08-07`	OpenAI OpenAI OpenAI OpenAI OpenAI OpenAI OpenAI OpenAI	`gpt-4.1` `gpt-4.1-mini` `gpt-4.1-nano` `o4-mini` `gpt-5` ¹ `gpt-5-mini` `gpt-5-nano` `gpt-5-chat`	`2025-04-14` `2025-04-14` `2025-04-14` `2025-04-16` `2025-08-07` `2025-08-07` `2025-08-07` `2025-08-07`
`2025-05-19`	OpenAI OpenAI OpenAI OpenAI	`gpt-4.1` `gpt-4.1-mini` `gpt-4.1-nano` `o4-mini`	`2025-04-14` `2025-04-14` `2025-04-14` `2025-04-16`

¹Nécessite l’inscription.
²Le support du routeur de modèle est en version préliminaire.
³La prise en charge du routeur de modèle est en préversion. Nécessite le déploiement du modèle à utiliser avec le routeur de modèle.

Mode de routage

Avec la dernière version, si vous choisissez un déploiement personnalisé, vous pouvez sélectionner le mode de routage pour optimiser la qualité ou le coût tout en conservant un niveau de référence de performances. La définition d’un mode de routage est facultative et, si vous n’en définissez pas, votre déploiement est défini par défaut sur le mode équilibré.

Modes de routage disponibles :

Mode	Description
Équilibré (par défaut)	Prend en compte les coûts et la qualité dynamiquement. Parfait pour les scénarios à usage général
Qualité	Priorise pour une précision maximale. Idéal pour le raisonnement complexe ou les sorties critiques
Coût	Optimise pour réaliser davantage d'économies de coûts. Idéal pour les charges de travail à volume élevé et sensibles au budget

Sous-ensemble de modèles

La dernière version du routeur de modèles prend en charge les sous-ensembles de modèles : vous pouvez spécifier les modèles sous-jacents à inclure dans les décisions de routage. Cela vous donne plus de contrôle sur les caractéristiques de coût, de conformité et de performances.

Lorsque de nouveaux modèles de base deviennent disponibles, ils ne sont pas inclus dans votre sélection, sauf si vous les ajoutez explicitement à la liste d’inclusion de votre déploiement.

Basculement automatique

Le modèle de routeur inclut désormais un basculement automatique inclus. Lorsque vous utilisez le déploiement par défaut pour acheminer vers tous les modèles pris en charge, le routeur de modèle redirige de manière transparente la requête vers le modèle le plus approprié suivant, de sorte que les problèmes temporaires liés à un seul modèle ne perturbent pas votre application. Le basculement est activé par défaut. Aucune configuration supplémentaire n’est requise.

Pour les configurations de déploiement personnalisées :

Votre mode de routage sélectionné (équilibré, coût ou qualité) continue de s’appliquer pendant le basculement.
Votre sous-ensemble de modèles configuré fonctionne également en tant que jeu de secours pour empêcher que vos invites soient traitées par des modèles non approuvés. Par conséquent, veillez à sélectionner des sous-ensembles de modèles avec au moins deux modèles pour bénéficier de la fonctionnalité de secours.

Mise en cache d’invite

Le routeur de modèle prend en charge la mise en cache des prompts, car les requêtes sont traitées par les modèles sous-jacents qui la prennent en charge. Lorsque le routeur de modèle délègue une requête à un modèle qui prend en charge le cache d'invite, les jetons en cache sont automatiquement utilisés. Aucune configuration supplémentaire n’est nécessaire.

Le comportement du cache dépend du modèle sous-jacent sélectionné par le routeur pour une demande donnée. Étant donné que les décisions de routage peuvent varier, les avantages de la mise en cache s’appliquent uniquement lorsque le même modèle gère les requêtes consécutives avec des préfixes d’invite qui se chevauchent.

Pour obtenir plus d’informations sur le fonctionnement de la mise en cache des invites et sur les modèles qui la prennent en charge, consultez Mise en cache des invites.

Limitations

Limitations des ressources

Région	Types de déploiement pris en charge
Est des États-Unis 2	Standard Mondial, Standard de Zone de Données
Suède Centre	Standard Mondial, Standard de Zone de Données

Consultez également Azure OpenAI dans les modèles Foundry de Microsoft pour la disponibilité actuelle dans la région.

Limites de débit

Modèle	Type de déploiement	RPM par défaut	TPM par défaut	Entreprise et MCA-E RPM	Module TPM d’entreprise et de MCA-E
`model-router` `(2025-11-18)`	DataZoneStandard	150	150,000	300	300,000
`model-router` `(2025-11-18)`	GlobalStandard	250	250,000	400	400,000

Consultez également quotas et limites pour les informations sur la limite de débit.

Pour surmonter les limites de la fenêtre de contexte et des paramètres, utilisez la fonctionnalité de sous-ensemble de modèles pour sélectionner vos modèles pour le routage qui prennent en charge vos propriétés souhaitées.

Note

La limite de la fenêtre de contexte indiquée pour le modèle de routeur correspond à la limite du plus petit modèle sous-jacent. D’autres modèles sous-jacents sont compatibles avec des fenêtres de contexte plus volumineuses, ce qui signifie qu’un appel d’API avec un contexte plus large réussit uniquement si l’invite est acheminée vers le modèle approprié. Pour examiner les fenêtres contextuelles des modèles sous-jacents, consultez Azure OpenAI dans Microsoft modèles Foundry.

Pour raccourcir la fenêtre de contexte, vous pouvez effectuer l’une des opérations suivantes :

Résumer l’invite avant de la transmettre au modèle
Tronquer la demande en des parties plus pertinentes
Utilisez des vecteurs d'incorporation de documents et assurez-vous que le modèle de conversation récupère les sections pertinentes. Pour plus d’informations, consultez Qu’est-ce que Recherche Azure AI ?

Le routeur de modèles accepte les entrées d’image pour les conversations vision activées (tous les modèles sous-jacents peuvent accepter l’entrée d’image), mais la décision de routage est basée uniquement sur l’entrée de texte.

Le modèle de routeur ne traite pas l’entrée audio.

Dépannage

Problème	Résolution
Échec du déploiement	Vérifiez que votre ressource Foundry se trouve dans Est des États-Unis 2 ou Suède Centrale.
Les modèles Claude ne font pas de routage.	Assurez-vous que les modèles Claude sont déployés séparément avant de les activer dans le routeur de modèle.
Erreur dépassée par le contexte	Réduisez la taille de l'invite ou utilisez un sous-ensemble pour sélectionner des modèles avec de plus grandes fenêtres contextuelles.
Sélection inattendue du modèle	Passez en revue votre paramètre de mode de routage (équilibré, coût, qualité) et la configuration du sous-ensemble de modèles.

Pour obtenir une résolution détaillée des problèmes de déploiement, consultez Comment utiliser le routeur de modèle.

Informations de facturation

L'utilisation du routeur est facturée au tarif pour les requêtes d'entrée indiqué sur la page des tarifs.

Vous pouvez surveiller les coûts du déploiement de votre routeur de modèle dans le portail Azure.

Étape suivante

Comment utiliser le routeur modèle

Commentaires

Cette page a-t-elle été utile ?

Last updated on 2026-04-30

Routeur modèle pour Microsoft Foundry

Comment fonctionne le modèle de routeur

Pourquoi utiliser un routeur modèle ?

Gestion des versions

Modèles pris en charge

Mode de routage

Sous-ensemble de modèles

Basculement automatique

Mise en cache d’invite

Limitations

Limitations des ressources

Limites de débit

Dépannage

Informations de facturation

Étape suivante

Commentaires

Ressources supplémentaires