次の方法で共有


Microsoft Foundry のモデル ルーター

このドキュメントでは、 Microsoft Foundry (クラシック) ポータルを参照します。

🔄新しいポータルを使用している場合は、Microsoft Foundry (新しい) ドキュメントに切り替えます

このドキュメントでは、 Microsoft Foundry (新しい) ポータルを参照します。

モデル ルーターは、プロンプトをリアルタイムで最も適切な大規模言語モデル (LLM) にインテリジェントにルーティングするトレーニング済みの言語モデルです。 他の Foundry モデルと同様に、モデル ルーターをデプロイします。 したがって、コストの削減、待機時間の短縮、応答性の向上を実現しながら、同等の品質を維持しながら、すべて単一のモデルデプロイとしてパッケージ化することで、高いパフォーマンスを実現します。

Claude モデルを除き、モデル ルーターで使用するために、サポートされている LLM を個別にデプロイする必要はありません。 Claude モデルでモデル ルーターを使用するには、まずモデル カタログからモデル ルーターをデプロイします。 ルーティング用に選択されている場合、デプロイはモデル ルーターによって呼び出されます。

ヒント

Microsoft Foundry (新しい) ポータルには、モデル ルーターの拡張構成オプションが用意されています。 Microsoft Foundry (新しい) ドキュメントに切り替えて 、最新の機能を確認します。

モデル ルーターのしくみ

トレーニング済みの言語モデルとして、モデル ルーターはインテリジェンスを適用し、プロンプトの複雑さ、推論、タスクの種類、およびその他の属性に基づいて、プロンプトをリアルタイムで分析します。 プロンプトは保存されません。 さらに、データ ゾーンの境界を優先して、アクセスとデプロイの種類に基づいて対象となるモデルにのみルーティングされます。

  • 既定の Balanced モードでは、基になるすべてのモデルが小さな品質範囲内 (たとえば、1 から 2%、そのプロンプトの最高品質のモデルと比較) と見なされ、最もコスト効率の高いモデルが選択されます。
  • Costルーティング モードを選択すると、そのプロンプトの最高品質のモデルと比較して 5 ~ 6% 範囲など、より大きな品質帯が考慮され、最もコスト効率の高いモデルが選択されます。
  • Qualityルーティング モードを選択すると、コストを無視して、プロンプトに対して最高品質の評価モデルが選択されます。

モデル ルーターを使用する理由

モデルルーターは、同等の品質を維持しながら、コストと待機時間を最適化します。 小さいモデルと安価なモデルは、タスクに十分な場合に使用されますが、より大規模でコストの高いモデルは、より複雑なタスクに使用できます。 また、複雑な推論を必要とするタスクでは推論モデルを使用でき、それ以外の場合は非推論モデルが使用されます。 モデル ルーターは、基になるすべてのチャット モデルの最適な機能を組み合わせた単一のデプロイとチャット エクスペリエンスを提供します。

最新バージョン 2025-11-18 では、いくつかの機能が追加されています。

  1. グローバル標準およびデータ ゾーン標準のデプロイをサポートします。
  2. 新しいモデル ( grok-4grok-4-fast-reasoningDeepSeek-V3.1gpt-oss-120bLlama-4-Maverick-17B-128E-Instruct-FP8gpt-4ogpt-4o-miniclaude-haiku-4-5claude-opus-4-1claude-sonnet-4-5) のサポートを追加します。
  3. ルーティング モードモデル サブセット オプションを使用したクイック デプロイまたはカスタム デプロイ。
  4. ルーティング モード: ニーズに合わせてルーティング ロジックを最適化します。 サポートされているオプション: QualityCostBalanced (既定)。
  5. モデル サブセット: ルーティング用のモデル サブセットを作成する推奨モデルを選択します。
  6. ツールを含むエージェントのシナリオがサポートされており、Foundry Agent Service で使用できるようになりました。

バージョン管理

モデル ルーターの各バージョンは、基になるモデルとそのバージョンの特定のセットに関連付けられています。 このセットは修正済みであり、新しいバージョンのモデル ルーターのみが新しい基になるモデルを公開できます。

デプロイ手順で [自動更新] を選択した場合 (モデル の管理を参照)、新しいバージョンが利用可能になると、モデル ルーター モデルが自動的に更新されます。 その場合、基になるモデルのセットも変更され、モデルとコストの全体的なパフォーマンスに影響する可能性があります。

基になるモデル

2025-11-18バージョンでは、モデルルーターは、Anthropicのクロード、DeepSeek、ラマ、Grokモデルを含む9つの新しいモデルを追加し、プロンプトをルーティングするために利用可能な合計18モデルをサポートします。

モデル ルーターのバージョン 基になるモデル 基になるモデルのバージョン
2025-11-18 gpt-4.1
gpt-4.1-mini
gpt-4.1-nano
o4-mini
gpt-5-nano
gpt-5-mini
gpt-5
gpt-5-chat
Deepseek-v3.1
gpt-oss-120b
llama4-maverick-instruct
grok-4
grok-4-fast
gpt-4o
gpt-4o-mini
claude-haiku-4-5
claude-opus-4-1
claude-sonnet-4-5
2025-04-14
2025-04-14
2025-04-14
2025-04-16
2025-08-07
2025-08-07
2025-08-07
2025-08-07
該当なし
該当なし
該当なし
該当なし
該当なし
2024-11-20
2024-07-18
2025-10-01
2025-08-05
2025-09-29
2025-08-07 gpt-4.1
gpt-4.1-mini
gpt-4.1-nano
o4-mini
gpt-5
gpt-5-mini
gpt-5-nano
gpt-5-chat
2025-04-14
2025-04-14
2025-04-14
2025-04-16
2025-08-07
2025-08-07
2025-08-07
2025-08-07
2025-05-19 gpt-4.1
gpt-4.1-mini
gpt-4.1-nano
o4-mini
2025-04-14
2025-04-14
2025-04-14
2025-04-16

ルーティング モード

最新バージョンでは、カスタム デプロイを選択した場合は、ベースライン レベルのパフォーマンスを維持しながら、品質またはコストを最適化する ルーティング モード を選択できます。 ルーティング モードの設定は省略可能であり、設定しない場合、デプロイは既定で balanced モードになります。

使用可能なルーティング モード:

Mode Description
バランス (既定値) コストと品質の両方を動的に考慮します。 汎用シナリオに最適
品質 精度を最大限に高める優先順位を付けます。 複雑な推論や重要な出力に最適
費用 コスト削減に優先順位を付けます。 大量の予算に依存するワークロードに最適

モデルのサブセット

モデル ルーターの最新バージョンでは、モデル のサブセットがサポートされています。カスタム デプロイでは、ルーティングの決定に含める基になるモデルを指定できます。 これにより、コスト、コンプライアンス、パフォーマンスの特性をより詳細に制御できます。

新しい基本モデルが使用可能になると、デプロイの包含リストに明示的に追加しない限り、選択に含まれません。

制限事項

リソースの制限事項

リージョン サポートされている展開の種類
米国東部 2 グローバル標準、データ ゾーン標準
スウェーデン中部 グローバル標準、データ ゾーン標準

モデル ルーターのリージョン の可用性とデプロイの種類については、「モデル」ページも参照してください。

レート制限

モデル 展開の種類 既定の RPM 既定の TPM エンタープライズ RPM と MCA-E RPM エンタープライズ TPM と MCA-E TPM
model-router
(2025-11-18)
データゾーン標準 150 150,000 300 300,000
model-router
(2025-11-18)
GlobalStandard 250 250,000 400 400,000

レート制限については、クォータと制限に関するページも参照してください。

コンテキスト ウィンドウとパラメーターの制限を克服するには、モデル サブセット機能を使用して、目的のプロパティをサポートするルーティング用のモデルを選択します。

[ モデル ] ページに表示されるコンテキスト ウィンドウの制限は、基になるモデルの最小の制限です。 他の基になるモデルは、より大きなコンテキスト ウィンドウと互換性があります。つまり、より大きなコンテキストを持つ API 呼び出しは、プロンプトが適切なモデルにルーティングされた場合にのみ成功し、それ以外の場合は呼び出しは失敗します。 コンテキスト ウィンドウを短くするには、次のいずれかの操作を行います。

  • プロンプトをモデルに渡す前に要約する
  • プロンプトをより関連性の高い部分に切り捨てる
  • ドキュメント埋め込みを使用し、チャット モデルで関連するセクションを取得する: Azure AI Search を参照

モデル ルーターは 、Vision 対応チャット の画像入力を受け入れます (基になるモデルはすべて画像入力を受け入れます)、ルーティングの決定はテキスト入力のみに基づきます。

モデル ルーターはオーディオ入力を処理しません。

課金情報

2025 年 11 月以降、モデル ルーターの使用量は、価格ページに記載されているレートで入力プロンプトに対して課金されます。

Azure portal でモデル ルーターのデプロイのコストを監視できます。

次のステップ