次の方法で共有


Microsoft Foundry (クラシック) 用モデル ルーター

現在表示中:Foundry (クラシック) ポータルのバージョン - 新しい Foundry ポータルのバージョンに切り替える

モデル ルーターは、プロンプトをリアルタイムで最も適切な大規模言語モデル (LLM) にインテリジェントにルーティングするトレーニング済みの言語モデルです。 他の Foundry モデルと同様に、モデル ルーターをデプロイします。 したがって、コストの削減、待機時間の短縮、応答性の向上を実現しながら、同等の品質を維持しながら、すべて単一のモデルデプロイとしてパッケージ化することで、高いパフォーマンスを実現します。

Claude モデルを除き、モデル ルーターで使用するために、サポートされている LLM を個別にデプロイする必要はありません。 Claude モデルでモデル ルーターを使用するには、まずモデル カタログからモデル ルーターをデプロイします。 デプロイは、ルーティング用に選択されている場合、モデル ルーターによって呼び出されます。

モデル ルーターをすばやく試すには、 モデル ルーターの使用方法に従ってください。 モデルルーターを展開した後、展開先にリクエストを送信します。 モデル ルーターは、ルーティング設定に基づいて、要求ごとに基になるモデルを選択します。

ヒント

Microsoft Foundry (new) ポータルには、モデル ルーターの拡張構成オプションが用意されています。 Microsoft Foundry (新しい) ドキュメントに切り替えて、最新の機能を確認します。

モデル ルーターのしくみ

トレーニング済みの言語モデルとして、モデル ルーターは複雑さ、推論、タスクの種類、およびその他の属性に基づいて、プロンプトをリアルタイムで分析します。 プロンプトは保存されません。 accessとデプロイの種類に基づいて適格なモデルにのみルーティングが行われ、データゾーンの境界が尊重されます。

Important

有効なコンテキスト ウィンドウは、基になる最小のモデルによって制限されます。 より大きなコンテキストでは、 モデル のサブセット を使用して、要件をサポートするモデルを選択します。

  • バランス モード (既定) では、基になるすべてのモデルが小さい品質範囲内 (たとえば、そのプロンプトの最高品質のモデルと比較して 1% ~ 2%) と見なされ、最もコスト効率の高いモデルが選択されます。
  • コスト モードでは、より大きな品質帯 (たとえば、そのプロンプトの最高品質のモデルと比較して 5% から 6%) を考慮し、最もコスト効率の高いモデルを選択します。
  • 品質モードでは、コストを無視して、プロンプトの最高品質の評価モデルを選択します。

モデル ルーターを使用する理由

モデルルーターは、同等の品質を維持しながら、コストと待機時間を最適化します。 小さいモデルと安価なモデルは、タスクに十分な場合に使用されますが、より大規模でコストの高いモデルは、より複雑なタスクに使用できます。 また、複雑な推論を必要とするタスクでは推論モデルを使用でき、それ以外の場合は非推論モデルが使用されます。 モデル ルーターは、基になるすべてのチャット モデルの最適な機能を組み合わせた単一のデプロイとチャット エクスペリエンスを提供します。

最新バージョンの 2025-11-18 には、いくつかの機能が含まれています。

  1. グローバル標準およびデータ ゾーン標準のデプロイをサポートします。
  2. 新しいモデル ( grok-4grok-4-fast-reasoningDeepSeek-V3.1DeepSeek-V3.2gpt-oss-120bLlama-4-Maverick-17B-128E-Instruct-FP8gpt-4ogpt-4o-minigpt-5.2gpt-5.2-chatclaude-haiku-4-5claude-sonnet-4-5claude-opus-4-1claude-opus-4-6) のサポートが追加されました。
  3. ルーティング モードモデル サブセット オプションを使用したクイック デプロイまたはカスタム デプロイ。
  4. ルーティング モード: ニーズに合わせてルーティング ロジックを最適化します。 サポートされているオプション: QualityCostBalanced (既定)。
  5. モデル サブセット: ルーティング用のモデル サブセットを作成する推奨モデルを選択します。
  6. エージェント シナリオでのツールを含むサポートが追加され、現在では Foundry Agent Service で使用できるようになりました。

バージョン管理

モデル ルーターの各バージョンは、基になるモデルとそのバージョンの特定のセットに関連付けられています。 このセットは修正済みであり、新しいバージョンのモデル ルーターのみが新しい基になるモデルを公開できます。

デプロイ手順で [自動更新] を選択した場合 ( モデルの更新を参照)、新しいバージョンが利用可能になると、モデル ルーター モデルが自動的に更新されます。 その場合、基になるモデルのセットも変更され、モデルとコストの全体的なパフォーマンスに影響する可能性があります。

サポートされている基になるモデル

2025-11-18バージョンでは、モデルルーターは、Anthropicのクロード、DeepSeek、ラマ、Grokモデルを含む9つの新しいモデルを追加し、プロンプトをルーティングするために利用可能な合計18モデルをサポートします。

Claude モデルを除き、モデル ルーターで使用するために、サポートされている LLM を個別にデプロイする必要はありません。 Claude モデルでモデル ルーターを使用するには、まずモデル カタログからモデル ルーターをデプロイします。 ルーティング用に選択されている場合、デプロイはモデル ルーターによって呼び出されます。

モデル ルーターのバージョン 基になるモデル 基になるモデルのバージョン
2025-11-18 gpt-4.1
gpt-4.1-mini
gpt-4.1-nano
o4-mini
gpt-5-nano
gpt-5-mini
gpt-5
gpt-5-chat
gpt-5.2
gpt-5.2-chat
Deepseek-v3.1 2
Deepseek-v3.2 2
gpt-oss-120b 2
llama4-maverick-instruct 2
grok-4 2
grok-4-fast 2
claude-haiku-4-5 3
claude-sonnet-4-5 3
claude-opus-4-1 3
claude-opus-4-6 3
2025-04-14
2025-04-14
2025-04-14
2025-04-16
2025-08-07
2025-08-07
2025-08-07
2025-08-07
2025-12-11
2025-12-11
N/A
N/A
N/A
N/A
N/A
N/A
N/A
2025-09-29
2025-08-05
2025-09-29
2025-08-05
2025-08-07 gpt-4.1
gpt-4.1-mini
gpt-4.1-nano
o4-mini
gpt-5 1
gpt-5-mini
gpt-5-nano
gpt-5-chat
2025-04-14
2025-04-14
2025-04-14
2025-04-16
2025-08-07
2025-08-07
2025-08-07
2025-08-07
2025-05-19 gpt-4.1
gpt-4.1-mini
gpt-4.1-nano
o4-mini
2025-04-14
2025-04-14
2025-04-14
2025-04-16
  • 1登録が必要です。
  • 2モデル ルーターのサポートはプレビュー段階です。
  • 3モデル ルーターのサポートはプレビュー段階です。 モデル ルーターで使用するモデルのデプロイが必要です。

ルーティング モード

最新バージョンでは、カスタム デプロイを選択した場合は、ベースライン レベルのパフォーマンスを維持しながら、品質またはコストを最適化する ルーティング モード を選択できます。 ルーティング モードの設定は省略可能であり、設定しない場合、デプロイの既定値は分散モードになります。

使用可能なルーティング モード:

モード 説明
バランス (既定値) コストと品質の両方を動的に考慮します。 汎用シナリオに最適
品質 精度を最大限に高める優先順位を付けます。 複雑な推論や重要な出力に最適
Cost コスト削減に優先順位を付けます。 大量の予算に依存するワークロードに最適

モデルのサブセット

モデル ルーターの最新バージョンでは、モデルのサブセットがサポートされています。ルーティングの決定に含める基になるモデルを指定できます。 これにより、コスト、コンプライアンス、パフォーマンスの特性をより詳細に制御できます。

新しい基本モデルが使用可能になると、デプロイの包含リストに明示的に追加しない限り、選択に含まれません。

自動フェールオーバー

モデル ルーターに組み込みの自動フェールオーバーが含まれるようになりました。 既定のデプロイを使用してサポートされているすべてのモデルにルーティングする場合、モデル ルーターは要求を次の最も適切なモデルに透過的にリダイレクトするため、単一モデルの一時的な問題によってアプリケーションが中断されることはありません。 フェールオーバーは既定で有効になっています。追加の構成は必要ありません。

カスタムデプロイ構成の場合:

  • 選択したルーティング モード (バランス、コスト、または品質) は、フェールオーバー中も引き続き適用されます。
  • 構成済みのモデル サブセットもフォールバック セットとして機能し、未承認のモデルによってプロンプトが処理されないようにします。 そのため、フォールバック機能の恩恵を受けるために、少なくとも 2 つのモデルを含むモデル のサブセットを選択してください。

プロンプト キャッシュ

モデル ルーターではプロンプト キャッシュがサポートされています。要求は、それをサポートする基になるモデルによって処理されるためです。 モデル ルーターがプロンプト キャッシュをサポートするモデルに要求を委任すると、キャッシュされたトークンが自動的に使用されます。追加の構成は必要ありません。

キャッシュの動作は、ルーターが特定の要求に対して選択する基になるモデルによって異なります。 ルーティングの決定は異なる可能性があるため、キャッシュの利点は、同じモデルが重複するプロンプト プレフィックスを持つ連続する要求を処理する場合にのみ適用されます。

プロンプト キャッシュのしくみと、それをサポートするモデルの詳細については、「 プロンプト キャッシュ」を参照してください。

制限事項

リソースの制限事項

リージョン サポートされている展開の種類
米国東部 2 グローバル標準、データ ゾーン標準
スウェーデン中部 グローバル標準、データ ゾーン標準

現在のリージョンの可用性については、Microsoft Foundry モデルの Azure OpenAI も参照してください。

レート制限

モデル 展開の種類 既定の RPM 既定の TPM エンタープライズ RPM と MCA-E RPM エンタープライズ TPM と MCA-E TPM
model-router
(2025-11-18)
データゾーン標準 150 150,000 300 300,000
model-router
(2025-11-18)
GlobalStandard 250 250,000 400 400,000

レート制限については、クォータと制限に関するページも参照してください。

コンテキスト ウィンドウとパラメーターの制限を克服するには、モデル サブセット機能を使用して、目的のプロパティをサポートするルーティング用のモデルを選択します。

モデル ルーターのコンテキスト ウィンドウの制限は、基になる最小モデルの制限です。 他の基になるモデルは、より大きなコンテキスト ウィンドウと互換性があります。つまり、より大きなコンテキストを持つ API 呼び出しは、プロンプトが正しいモデルにルーティングされた場合にのみ成功します。 基になるモデルのコンテキスト ウィンドウを確認するには、Microsoft Foundry モデルのAzure OpenAIを参照してください。

コンテキスト ウィンドウを短くするには、次のいずれかの操作を行います。

  • プロンプトをモデルに渡す前に要約する
  • プロンプトをより関連性の高い部分に切り捨てる
  • ドキュメント埋め込みを使用し、チャット モデルで関連するセクションを取得します。 詳細については、「Azure AI 検索とは」を参照してください>

モデル ルーターは 、Vision 対応チャット の画像入力を受け入れます (基になるモデルはすべて画像入力を受け入れます)、ルーティングの決定はテキスト入力のみに基づきます。

モデル ルーターはオーディオ入力を処理しません。

トラブルシューティング

問題点 解決策
デプロイが失敗する Foundry リソースが米国東部 2 またはスウェーデン中部であることを確認します。
クロードモデルがルーティングしない モデル ルーターで有効にする前に、Claude モデルが個別にデプロイされていることを確認します。
コンテキスト超過エラー プロンプトサイズを小さくするか、モデルサブセットを使用して、より大きなコンテキストウィンドウを持つモデルを選択します。
予期しないモデルの選択 ルーティング モードの設定 (バランス、コスト、品質) とモデル のサブセットの構成を確認します。

デプロイのトラブルシューティングの詳細については、 モデル ルーターの使用方法に関する記事を参照してください。

課金情報

モデル ルーターの使用量は、価格ページに記載されているレートで入力プロンプトに対して課金されます。

Azure ポータルで、モデル ルーターのデプロイのコストを監視できます。

次のステップ