Remarque
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de modifier des répertoires.
Remarque
Ce document fait référence au portail Microsoft Foundry (classique).
🔄 Accédez à la documentation Microsoft Foundry (nouveau) si vous utilisez le nouveau portail.
Remarque
Ce document fait référence au portail Microsoft Foundry (nouveau).
Le routeur de modèle pour Microsoft Foundry est un modèle de conversation IA déployable qui sélectionne le meilleur grand modèle de langage (LLM) pour répondre à une requête en temps réel. Il utilise différents modèles préexistants pour offrir des performances élevées et économiser sur les coûts de calcul, dans un seul déploiement de modèle. Pour en savoir plus sur le fonctionnement du routeur de modèle, ses avantages et ses limitations, consultez le guide des concepts du routeur de modèle.
L’utilisation d’un routeur de modèle via l’API de complétions de conversation s’apparente à celle d’un modèle de base unique comme GPT-4. Suivez les mêmes étapes que dans le guide de saisie semi-automatique de conversation.
Conseil / Astuce
Le portail Microsoft Foundry (nouveau) offre des options de configuration améliorées pour le routeur de modèle. Passez à la documentation Microsoft Foundry (nouveau) pour afficher les dernières fonctionnalités.
Modèles sous-jacents pris en charge
Avec la version 2025-11-18, le routeur de modèle ajoute neuf nouveaux modèles, notamment les modèles Claude d’Anthropic, DeepSeek, Llama, Grok pour prendre en charge un total de 18 modèles disponibles pour le routage de vos prompts.
Remarque
Vous n’avez pas besoin de déployer séparément les LLM pris en charge pour les utiliser avec le routeur de modèles, à l’exception des modèles Claude. Pour utiliser le routeur de modèles avec vos modèles Claude, déployez-les d’abord à partir du catalogue de modèles. Les déploiements seront appelés par le routeur de modèles s’ils sont sélectionnés pour le routage.
| Version de modèle de routeur | Modèles sous-jacents | Version du modèle sous-jacente |
|---|---|---|
2025-11-18 |
gpt-4.1
gpt-4.1-mini
gpt-4.1-nano
o4-mini
gpt-5-nano gpt-5-mini gpt-5
1 gpt-5-chat Deepseek-v3.1
2 gpt-oss-120b
2 llama4-maverick-instruct
2 grok-4
2 grok-4-fast
2 claude-haiku-4-5
3 claude-opus-4-1
3 claude-sonnet-4-5
3 |
2025-04-14 2025-04-14 2025-04-14 2025-04-16 2025-08-07 2025-08-07 2025-08-07 2025-08-07 N/A N/A N/A N/A N/A 2024-11-20 2024-07-18 2025-10-01 2025-08-05 2025-09-29 |
2025-08-07 |
gpt-4.1
gpt-4.1-mini
gpt-4.1-nano
o4-mini
gpt-5
1 gpt-5-mini gpt-5-nano gpt-5-chat |
2025-04-14 2025-04-14 2025-04-14 2025-04-16 2025-08-07 2025-08-07 2025-08-07 2025-08-07 |
2025-05-19 |
gpt-4.1
gpt-4.1-mini
gpt-4.1-nano
o4-mini
|
2025-04-14 2025-04-14 2025-04-14 2025-04-16 |
- 1Nécessite l’inscription.
- 2La prise en charge du routeur de modèles est en préversion.
- 3La prise en charge du routeur de modèles est en préversion. Nécessite le déploiement du modèle pour une utilisation avec le routeur de modèles.
Déployer un modèle de routeur de modèle
Le routeur de modèle est conditionné sous la forme d’un modèle Foundry unique que vous déployez. Commencez par suivre les étapes décrites dans le guide de déploiement des ressources.
Dans la liste Créer un déploiement, recherchez-le model-router dans la liste Modèles et sélectionnez-le.
Dans le catalogue de modèles, recherchez-le model-router dans la liste Modèles et sélectionnez-le. Choisissez les paramètres par défaut pour le mode de routage équilibré et l’itinéraire entre tous les modèles pris en charge. Pour activer d’autres options de configuration, choisissez Paramètres personnalisés.
Remarque
Vos paramètres de déploiement s’appliquent à tous les modèles de conversation sous-jacents que le routeur de modèle utilise.
- Ne déployez pas les modèles de conversation sous-jacents séparément. Le routeur de modèle fonctionne indépendamment de vos autres modèles déployés.
- Sélectionnez un filtre de contenu lorsque vous déployez le modèle de routeur de modèle ou appliquez un filtre ultérieurement. Le filtre de contenu s’applique à tout le contenu passé vers et depuis le routeur de modèle ; ne définissez pas de filtres de contenu pour chaque modèle de conversation sous-jacent.
- Le paramètre de limite de débit des jetons par minute s’applique à toutes les activités à et depuis le routeur de modèle ; ne définissez pas de limites de débit pour chaque modèle de conversation sous-jacent.
Sélectionner un mode de routage
Remarque
Les modifications apportées au mode de routage peuvent prendre jusqu’à cinq minutes.
Utilisez la liste déroulante mode de routage pour sélectionner un profil de routage. Cela définit la logique de routage de votre déploiement.
Quand utiliser chaque mode :
- Équilibré (par défaut) : la plupart des charges de travail. Optimise le coût tout en conservant la qualité.
- Qualité : tâches critiques telles que l’examen juridique, les résumés médicaux ou le raisonnement complexe.
- Coût : charges de travail à volume élevé, sensibles au budget, telles que la classification de contenu ou les Q&A simples.
Sélectionner votre sous-ensemble de modèles
Remarque
Les modifications apportées au sous-ensemble de modèles peuvent prendre jusqu’à cinq minutes.
La dernière version du routeur de modèles prend en charge les sous-ensembles personnalisés : vous pouvez spécifier les modèles sous-jacents à inclure dans les décisions de routage. Cela vous donne plus de contrôle sur les caractéristiques de coût, de conformité et de performances.
Dans le volet de déploiement du routeur de modèle, sélectionnez Route vers un sous-ensemble de modèles. Sélectionnez ensuite les modèles sous-jacents que vous souhaitez activer.
Important
Pour inclure des modèles d’Anthropic (Claude) dans votre déploiement de routeur de modèles, vous devez les déployer vous-même sur votre ressource Foundry. Consultez Déployer et utiliser des modèles Claude.
Remarque
Vous devez sélectionner au moins un modèle pour le routage. Si aucun modèle n’est sélectionné, le déploiement utilise le modèle par défaut défini pour votre mode de routage.
Les nouveaux modèles introduits ultérieurement sont exclus par défaut jusqu’à ce qu’ils soient ajoutés explicitement.
Tester le routeur de modèle avec l’API Complétions
Vous pouvez utiliser le routeur de modèle via l'API de complétions de chat de la même manière que vous utiliseriez d'autres modèles de chat OpenAI. Définissez le model paramètre sur le nom de notre déploiement de modèle de routage et définissez le messages paramètre sur les messages que vous souhaitez envoyer au modèle.
Tester le routeur de modèle dans le terrain de jeu
Dans le portail Foundry, accédez à votre déploiement de routeur de modèle sur la page Modèles + points de terminaison, puis sélectionnez-le pour ouvrir le terrain de jeu de modèles. Dans le terrain de jeu, entrez des messages et voyez les réponses du modèle. Chaque réponse indique le modèle sous-jacent sélectionné par le routeur.
Important
Vous pouvez définir les paramètres Temperature et Top_P sur les valeurs que vous préférez (consultez le guide des concepts), mais notez que les modèles de raisonnement de la série o ne prennent pas en charge ces paramètres. Si le routeur de modèle sélectionne un modèle de raisonnement pour votre invite, il ignore les paramètres d’entrée Temperature et Top_P.
Les paramètres stop, presence_penalty, frequency_penalty, logit_bias, et logprobs sont supprimés de la même façon pour les modèles de la série o, mais autrement utilisés.
Important
À compter de la version 2025-11-18, le paramètre reasoning_effort (voir le Guide des modèles de raisonnement) est désormais pris en charge dans le routeur de modèle. Si le routeur de modèle sélectionne un modèle de raisonnement pour votre prompt, il utilisera votre valeur d'entrée reasoning_effort avec le modèle sous-jacent.
Connecter le routeur modèle à un agent Foundry
Si vous avez créé un agent IA dans Foundry, vous pouvez connecter votre déploiement de routeur de modèle pour l’utiliser comme modèle de base de l’agent. Sélectionnez-le dans le menu déroulant modèle du terrain de jeu de l’agent. Votre agent disposera de tous les outils et instructions que vous avez configurés pour celui-ci, mais le modèle sous-jacent qui traite ses réponses sera sélectionné par le routeur de modèle.
Important
Si vous utilisez des outils de service Agent dans vos flux, seuls les modèles OpenAI seront utilisés pour le routage.
Format de sortie
La réponse JSON que vous recevez d'un modèle de routeur de modèle est identique à la réponse de l'API de complétion de chat standard. Notez que le "model" champ indique quel modèle sous-jacent a été sélectionné pour répondre à l’invite.
L’exemple de réponse suivant a été généré à l’aide de la version 2025-11-18de l’API :
{
"choices": [
{
"content_filter_results": {
"hate": {
"filtered": "False",
"severity": "safe"
},
"protected_material_code": {
"detected": "False",
"filtered": "False"
},
"protected_material_text": {
"detected": "False",
"filtered": "False"
},
"self_harm": {
"filtered": "False",
"severity": "safe"
},
"sexual": {
"filtered": "False",
"severity": "safe"
},
"violence": {
"filtered": "False",
"severity": "safe"
}
},
"finish_reason": "stop",
"index": 0,
"logprobs": "None",
"message": {
"content": "I'm doing well, thank you! How can I assist you today?",
"refusal": "None",
"role": "assistant"
}
}
],
"created": 1745308617,
"id": "xxxx-yyyy-zzzz",
"model": "gpt-4.1-nano-2025-04-14",
"object": "chat.completion",
"prompt_filter_results": [
{
"content_filter_results": {
"hate": {
"filtered": "False",
"severity": "safe"
},
"jailbreak": {
"detected": "False",
"filtered": "False"
},
"self_harm": {
"filtered": "False",
"severity": "safe"
},
"sexual": {
"filtered": "False",
"severity": "safe"
},
"violence": {
"filtered": "False",
"severity": "safe"
}
},
"prompt_index": 0
}
],
"system_fingerprint": "xxxx",
"usage": {
"completion_tokens": 15,
"completion_tokens_details": {
"accepted_prediction_tokens": 0,
"audio_tokens": 0,
"reasoning_tokens": 0,
"rejected_prediction_tokens": 0
},
"prompt_tokens": 21,
"prompt_tokens_details": {
"audio_tokens": 0,
"cached_tokens": 0
},
"total_tokens": 36
}
}
Surveiller les métriques du modèle de routeur
Superviser les performances
Surveillez les performances du déploiement de votre routeur de modèle dans Azure Monitor (AzMon) dans le portail Microsoft Azure.
- Accédez à la page Surveillance>Mesures de votre ressource Azure OpenAI dans le portail Microsoft Azure.
- Filtrez par le nom de déploiement de votre modèle de routeur.
- Fractionnez les métriques par modèles sous-jacents si nécessaire.
Superviser les coûts
Vous pouvez surveiller les coûts du routeur de modèle, qui correspond à la somme des coûts engagés par les modèles sous-jacents.
- Visitez la page Gestion des ressources ->Analyse des coûts dans le portail Azure.
- Si nécessaire, filtrez par ressource Azure.
- Ensuite, filtrez par nom de déploiement : Filtrez par « Balise », sélectionnez Déploiement comme type de balise, puis sélectionnez le nom de déploiement de votre routeur de modèle comme valeur.
Résoudre les problèmes du routeur modèle
Problèmes courants
| Problème | La cause | Résolution |
|---|---|---|
| Limite de débit dépassée. | Trop de demandes pour le déploiement du modèle de routeur | Augmenter le quota de jetons par minute ou implémenter une nouvelle tentative avec un retrait exponentiel |
| Sélection inattendue du modèle | La logique de routage a sélectionné un modèle différent de celui attendu | Passez en revue les paramètres du mode de routage ; envisagez d’utiliser un sous-ensemble de modèles pour limiter les options |
| Latence élevée | Charge de traitement du routeur et traitement du modèle sous-jacent | Utilisez le mode Coût pour les charges de travail sensibles à la latence ; les modèles plus petits répondent plus rapidement |
| Modèle Claude ne routant pas | Les modèles Claude nécessitent un déploiement distinct | Déployez les modèles Claude à partir du catalogue de modèles avant de les activer dans le sous-ensemble. |
Codes d’erreur
Pour connaître les codes d’erreur d’API et la résolution des problèmes, consultez la référence de l’API REST Azure OpenAI.
Étapes suivantes
- Concepts de modèles de routeur - Découvrez comment fonctionnent les modes de routage
- Quotas et limites - Limites de débit pour le routeur de modèle
- Créer un agent - Utiliser un router de modèle avec des agents Foundry