注
このドキュメントでは、 Microsoft Foundry (クラシック) ポータルを参照します。
🔄新しいポータルを使用している場合は、Microsoft Foundry (新しい) ドキュメントに切り替えます。
注
このドキュメントでは、 Microsoft Foundry (新しい) ポータルを参照します。
モデル ルーターは、プロンプトをリアルタイムで最も適切な大規模言語モデル (LLM) にインテリジェントにルーティングするトレーニング済みの言語モデルです。 他の Foundry モデルと同様に、モデル ルーターをデプロイします。 したがって、コストの削減、待機時間の短縮、応答性の向上を実現しながら、同等の品質を維持しながら、すべて単一のモデルデプロイとしてパッケージ化することで、高いパフォーマンスを実現します。
注
Claude モデルを除き、モデル ルーターで使用するために、サポートされている LLM を個別にデプロイする必要はありません。 Claude モデルでモデル ルーターを使用するには、まずモデル カタログからモデル ルーターをデプロイします。 ルーティング用に選択されている場合、デプロイはモデル ルーターによって呼び出されます。
ヒント
Microsoft Foundry (新しい) ポータルには、モデル ルーターの拡張構成オプションが用意されています。 Microsoft Foundry (新しい) ドキュメントに切り替えて 、最新の機能を確認します。
モデル ルーターのしくみ
トレーニング済みの言語モデルとして、モデル ルーターはインテリジェンスを適用し、プロンプトの複雑さ、推論、タスクの種類、およびその他の属性に基づいて、プロンプトをリアルタイムで分析します。 プロンプトは保存されません。 さらに、データ ゾーンの境界を優先して、アクセスとデプロイの種類に基づいて対象となるモデルにのみルーティングされます。
- 既定の
Balancedモードでは、基になるすべてのモデルが小さな品質範囲内 (たとえば、1 から 2%、そのプロンプトの最高品質のモデルと比較) と見なされ、最もコスト効率の高いモデルが選択されます。 -
Costルーティング モードを選択すると、そのプロンプトの最高品質のモデルと比較して 5 ~ 6% 範囲など、より大きな品質帯が考慮され、最もコスト効率の高いモデルが選択されます。 -
Qualityルーティング モードを選択すると、コストを無視して、プロンプトに対して最高品質の評価モデルが選択されます。
モデル ルーターを使用する理由
モデルルーターは、同等の品質を維持しながら、コストと待機時間を最適化します。 小さいモデルと安価なモデルは、タスクに十分な場合に使用されますが、より大規模でコストの高いモデルは、より複雑なタスクに使用できます。 また、複雑な推論を必要とするタスクでは推論モデルを使用でき、それ以外の場合は非推論モデルが使用されます。 モデル ルーターは、基になるすべてのチャット モデルの最適な機能を組み合わせた単一のデプロイとチャット エクスペリエンスを提供します。
最新バージョン 2025-11-18 では、いくつかの機能が追加されています。
- グローバル標準およびデータ ゾーン標準のデプロイをサポートします。
- 新しいモデル (
grok-4、grok-4-fast-reasoning、DeepSeek-V3.1、gpt-oss-120b、Llama-4-Maverick-17B-128E-Instruct-FP8、gpt-4o、gpt-4o-mini、claude-haiku-4-5、claude-opus-4-1、claude-sonnet-4-5) のサポートを追加します。 - ルーティング モードとモデル サブセット オプションを使用したクイック デプロイまたはカスタム デプロイ。
-
ルーティング モード: ニーズに合わせてルーティング ロジックを最適化します。 サポートされているオプション:
Quality、Cost、Balanced(既定)。 - モデル サブセット: ルーティング用のモデル サブセットを作成する推奨モデルを選択します。
- ツールを含むエージェントのシナリオがサポートされており、Foundry Agent Service で使用できるようになりました。
バージョン管理
モデル ルーターの各バージョンは、基になるモデルとそのバージョンの特定のセットに関連付けられています。 このセットは修正済みであり、新しいバージョンのモデル ルーターのみが新しい基になるモデルを公開できます。
デプロイ手順で [自動更新] を選択した場合 (モデル の管理を参照)、新しいバージョンが利用可能になると、モデル ルーター モデルが自動的に更新されます。 その場合、基になるモデルのセットも変更され、モデルとコストの全体的なパフォーマンスに影響する可能性があります。
基になるモデル
2025-11-18バージョンでは、モデルルーターは、Anthropicのクロード、DeepSeek、ラマ、Grokモデルを含む9つの新しいモデルを追加し、プロンプトをルーティングするために利用可能な合計18モデルをサポートします。
| モデル ルーターのバージョン | 基になるモデル | 基になるモデルのバージョン |
|---|---|---|
2025-11-18 |
gpt-4.1
gpt-4.1-mini
gpt-4.1-nano
o4-mini
gpt-5-nano gpt-5-mini gpt-5 gpt-5-chat Deepseek-v3.1 gpt-oss-120b llama4-maverick-instruct grok-4 grok-4-fast gpt-4o gpt-4o-mini claude-haiku-4-5 claude-opus-4-1 claude-sonnet-4-5 |
2025-04-14 2025-04-14 2025-04-14 2025-04-16 2025-08-07 2025-08-07 2025-08-07 2025-08-07 該当なし 該当なし 該当なし 該当なし 該当なし 2024-11-20 2024-07-18 2025-10-01 2025-08-05 2025-09-29 |
2025-08-07 |
gpt-4.1
gpt-4.1-mini
gpt-4.1-nano
o4-mini
gpt-5
gpt-5-mini gpt-5-nano gpt-5-chat |
2025-04-14 2025-04-14 2025-04-14 2025-04-16 2025-08-07 2025-08-07 2025-08-07 2025-08-07 |
2025-05-19 |
gpt-4.1
gpt-4.1-mini
gpt-4.1-nano
o4-mini
|
2025-04-14 2025-04-14 2025-04-14 2025-04-16 |
ルーティング モード
最新バージョンでは、カスタム デプロイを選択した場合は、ベースライン レベルのパフォーマンスを維持しながら、品質またはコストを最適化する ルーティング モード を選択できます。 ルーティング モードの設定は省略可能であり、設定しない場合、デプロイは既定で balanced モードになります。
使用可能なルーティング モード:
| Mode | Description |
|---|---|
| バランス (既定値) | コストと品質の両方を動的に考慮します。 汎用シナリオに最適 |
| 品質 | 精度を最大限に高める優先順位を付けます。 複雑な推論や重要な出力に最適 |
| 費用 | コスト削減に優先順位を付けます。 大量の予算に依存するワークロードに最適 |
モデルのサブセット
モデル ルーターの最新バージョンでは、モデル のサブセットがサポートされています。カスタム デプロイでは、ルーティングの決定に含める基になるモデルを指定できます。 これにより、コスト、コンプライアンス、パフォーマンスの特性をより詳細に制御できます。
新しい基本モデルが使用可能になると、デプロイの包含リストに明示的に追加しない限り、選択に含まれません。
制限事項
リソースの制限事項
| リージョン | サポートされている展開の種類 |
|---|---|
| 米国東部 2 | グローバル標準、データ ゾーン標準 |
| スウェーデン中部 | グローバル標準、データ ゾーン標準 |
モデル ルーターのリージョン の可用性とデプロイの種類については、「モデル」ページも参照してください。
レート制限
| モデル | 展開の種類 | 既定の RPM | 既定の TPM | エンタープライズ RPM と MCA-E RPM | エンタープライズ TPM と MCA-E TPM |
|---|---|---|---|---|---|
model-router (2025-11-18) |
データゾーン標準 | 150 | 150,000 | 300 | 300,000 |
model-router (2025-11-18) |
GlobalStandard | 250 | 250,000 | 400 | 400,000 |
レート制限については、クォータと制限に関するページも参照してください。
コンテキスト ウィンドウとパラメーターの制限を克服するには、モデル サブセット機能を使用して、目的のプロパティをサポートするルーティング用のモデルを選択します。
注
[ モデル ] ページに表示されるコンテキスト ウィンドウの制限は、基になるモデルの最小の制限です。 他の基になるモデルは、より大きなコンテキスト ウィンドウと互換性があります。つまり、より大きなコンテキストを持つ API 呼び出しは、プロンプトが適切なモデルにルーティングされた場合にのみ成功し、それ以外の場合は呼び出しは失敗します。 コンテキスト ウィンドウを短くするには、次のいずれかの操作を行います。
- プロンプトをモデルに渡す前に要約する
- プロンプトをより関連性の高い部分に切り捨てる
- ドキュメント埋め込みを使用し、チャット モデルで関連するセクションを取得する: Azure AI Search を参照
モデル ルーターは 、Vision 対応チャット の画像入力を受け入れます (基になるモデルはすべて画像入力を受け入れます)、ルーティングの決定はテキスト入力のみに基づきます。
モデル ルーターはオーディオ入力を処理しません。
課金情報
2025 年 11 月以降、モデル ルーターの使用量は、価格ページに記載されているレートで入力プロンプトに対して課金されます。
Azure portal でモデル ルーターのデプロイのコストを監視できます。