注
現在、この機能はパブリック プレビュー段階にあります。 このプレビュー版はサービス レベル アグリーメントなしで提供されています。運用環境のワークロードに使用することはお勧めできません。 特定の機能はサポート対象ではなく、機能が制限されることがあります。 詳細については、「 Microsoft Azure プレビューの追加使用条件」を参照してください。
エージェント検索では、クエリの計画と回答の定式化のために、大規模言語モデル (LLM) 処理のレベルを指定できます。
retrievalReasoningEffort プロパティを使用して、コストと待機時間に影響する LLM 処理レベルを設定します。 追加の LLM 処理により関連性が向上しますが、時間がかかり、課金対象の LLM リソースも使用されます。 このプロパティは、ナレッジ ベースまたは取得要求で設定できます。
推論作業のレベルは次のとおりです。
| レベル | Effort |
|---|---|
minimal |
LLM 処理なし。 クエリを指定します。 |
low |
LLM ベースのクエリ計画とナレッジ ソースの選択の単一パスを実行します。 これが既定値です。 LLM はクエリを分析し、必要に応じてコンポーネントパーツに分割します。 |
medium |
より深い検索と強化された検索スタックをエージェント検索に追加して、完全性を最大化します。 |
[前提条件]
ナレッジ ベースを持つ Azure AI Search サービス。
ナレッジ ベースを更新するためのアクセス許可。 ユーザー アカウントに割り当てられた Search Service 共同作成者ロール (推奨) を使用してキーレス認証を構成するか、API キーを使用します。
ナレッジ ベースで LLM が指定されている場合、検索サービスには、Microsoft Foundry リソースに対する Cognitive Services ユーザーアクセス許可を持つマネージド ID が必要です。
2025-11-01-preview REST API または同等の Azure SDK プレビュー パッケージ: .NET | Java | JavaScript | Python
推論作業を選択する
このセクションでは、次について説明します。
推論作業レベル
| レベル | Description | 勧告 | Limits |
|---|---|---|---|
minimal |
LLM ベースのクエリ計画を無効にして、エージェント検索のコストと待機時間を最小限に抑えます。 ナレッジ ベースに一覧表示されているナレッジ ソース間で直接テキストとベクター検索を発行し、最適に一致する箇所を返します。 ナレッジ ベース内のすべてのナレッジ ソースは常に検索され、クエリの拡張は実行されないため、動作は予測可能で制御が容易です。 また、取得要求の alwaysQueryKnowledgeSource プロパティは無視されます。 |
Search API からの移行、またはクエリ計画を自分で管理する場合は、"最小限" を使用します。 |
|
low |
エージェント検索の既定のモード。LLM ベースのクエリ計画とナレッジ ソースの選択を 1 回実行します。 エージェント検索エンジンによってサブクエリが生成され、選択したナレッジ ソースにファンアウトされ、結果がマージされます。 回答合成を有効にして、インライン引用で基底の自然言語応答を生成できます。 | 最小待機時間とより深い処理のバランスを取る場合は、"低" を使用します。 |
|
medium |
より深い検索と強化された検索スタックをエージェント検索に追加して、完全性を最大化します。 最初の検索が実行された後、 高精度のセマンティック分類子 は、取得したドキュメントを評価して、さらに処理と L3 ランク付けが必要かどうかを判断します。 最初のパスからの最初の結果がクエリに十分な関連性を持っていない場合は、修正されたクエリ プランを使用してフォローアップイテレーションが実行されます。 この変更されたクエリ プランでは、以前の結果が考慮され、クエリの微調整、用語の拡大、Web などの他のナレッジ ソースの追加によって反復処理が行われます。 また、リソースの制限は、低い労力と最小限の労力と比較して増加します。 この推論レベルでは、完全な再現ではなく、関連性が最適化されます。 | LLM 支援の知識取得の有用性を最大化するには、"medium" を使用します。 |
|
中程度の情報取得量を得るための反復検索
初期結果が十分に関連性がない場合は、中程度の取得推論作業によって反復的な検索が提供されます。 2 回目の反復が必要かどうかを判断するために、追加の セマンティック分類子モデル が呼び出されます。
セマンティック分類子は、次の処理を実行します。
質問に答えるのに十分なコンテキストがある場合に認識します。
コンテキストの既存の情報を使用して、不十分な結果を再試行します。 新しいクエリでは、詳細に絞り込んだり、検索の幅を広げたりする場合があります。 応答のアクティビティ ログには、より包括的な回答に使用される生成されたクエリが表示されます。
L3分類を用いて再スコアリングを行います。 範囲は L2 ランク付けと同じです。絶対範囲は 0 ~ 4.0 です。
再試行は 1 回だけです。 各イテレーションでは待機時間とコストが追加されるため、システムは再試行を 1 回のパスに制限します。 2 回目のイテレーションでは、クエリ パイプラインに入力トークンが追加され、課金対象の入力トークンの合計数が合計されます。
イテレーションでは、さまざまなソースを再利用または選択できます。 2 番目のパスは、不足している情報を提供するために最も有望なナレッジ リソースを選択します。
中規模データ取得のためのリージョンサポート
検索サービスが次のいずれかのリージョンにある場合は、中程度の取得推論作業を設定できます。
- 米国東部 2
- 米国東部
- 米国中南部
- 米国西部 3
- 米国西部 2
- 米国西部
- ドイツ中西部
- 北ヨーロッパ
- スイス北部
- スウェーデン中部
- スペイン中部
- 英国南部
- 韓国中部
- 東日本
- 東南アジア
ナレッジ ベースで推論作業を設定する
既定の動作を確立するには、ナレッジ ベースでプロパティを設定します。
ナレッジ ベースの作成または更新を使用して、
retrievalReasoningEffortを設定します。retrievalReasoningEffortプロパティを追加します。 次の JSON は構文を示しています。 ナレッジ ベースの詳細については、「ナレッジ ベースの作成」を参照してください。"retrievalReasoningEffort": { /* no other parameters when effort is minimal */ "kind": "low" }
取得要求における推論処理を設定する
クエリごとに既定値をオーバーライドするには、取得要求でプロパティを設定します。
既定のナレッジ ベースをオーバーライドするように取得アクション
retrievalReasoningEffort変更します。retrievalReasoningEffortプロパティを追加します。 取得要求は、次の例のようになります。{ "messages": [ /* trimmed for brevity */ ], "retrievalReasoningEffort": { "kind": "low" }, "outputMode": "answerSynthesis", "maxRuntimeInSeconds": 30, "maxOutputSize": 6000 }