Azure OpenAI API 要求のキャッシュされた応答を取得する

2025-05-20

適用対象: すべての API Management レベル

azure-openai-semantic-cache-lookup ポリシーを使用して、構成された外部キャッシュからの Azure OpenAI チャット完了 API 要求に対する応答のキャッシュ検索を実行します。これは、以前の要求に対するプロンプトのベクトル近接性と、指定された類似性スコアのしきい値に基づいています。応答のキャッシュを使用すると、バックエンド Azure OpenAI API の帯域幅および処理の要件が低減され、API コンシューマーによって認識される遅延が小さくなります。

注

このポリシーには、対応する "Azure OpenAI API 要求に対する応答をキャッシュする" ポリシーが必要です。
セマンティックキャッシュを有効にする前提条件と手順については、Azure API Management で Azure OpenAI API のセマンティックキャッシュを有効にする方法に関する記事を参照してください。

注

ポリシーの要素と子要素を、ポリシーステートメントで指定された順序で設定します。 API Management ポリシーを設定または編集する方法について説明します。

サポートされている Azure OpenAI Service モデル

このポリシーは、次の種類の Azure OpenAI Service から API Management に追加された API で使用されます。

[API の種類]	サポートされているモデル
チャット入力候補	`gpt-3.5` `gpt-4` `gpt-4o` `gpt-4o-mini` `o1` `o3`
埋め込み	`text-embedding-3-large` `text-embedding-3-small` `text-embedding-ada-002`
応答 (プレビュー)	`gpt-4o` (バージョン: `2024-11-20`、 `2024-08-06`、 `2024-05-13`) `gpt-4o-mini` (バージョン: `2024-07-18`) `gpt-4.1` (バージョン: `2025-04-14`) `gpt-4.1-nano` (バージョン: `2025-04-14`) `gpt-4.1-mini` (バージョン: `2025-04-14`) `gpt-image-1` (バージョン: `2025-04-15`) `o3` (バージョン: `2025-04-16`) `o4-mini` (バージョン: '2025-04-16)

注

従来の完了 API は、従来のモデルバージョンでのみ使用でき、サポートは制限されています。

モデルとその機能の最新の情報については、 Azure OpenAI サービスモデルに関するページを参照してください。

ポリシーステートメント

<azure-openai-semantic-cache-lookup
    score-threshold="similarity score threshold"
    embeddings-backend-id ="backend entity ID for embeddings API"
    embeddings-backend-auth ="system-assigned"             
    ignore-system-messages="true | false"      
    max-message-count="count" >
    <vary-by>"expression to partition caching"</vary-by>
</azure-openai-semantic-cache-lookup>

属性

属性	説明	必要	既定値
score-threshold	キャッシュされた応答をプロンプトに返すかどうかを決定するために使われる類似性スコアのしきい値。値は 0.0 から 1.0 の間の 10 進数です。値が小さい方が、セマンティックの類似性が高くなります。詳細情報。	はい	該当なし
embeddings-backend-id	OpenAI 埋め込み API 呼び出しのバックエンド ID。	はい	該当なし
embeddings-backend-auth	Azure OpenAI 埋め込み API バックエンドに使われる認証。	はい。 `system-assigned` に設定する必要があります。	該当なし
ignore-system-messages	ブール値。 `true` (推奨) に設定すると、キャッシュの類似性を評価する前に、GPT チャット完了プロンプトからシステムメッセージが削除されます。	いいえ	偽り
max-message-count	指定した場合、キャッシュがスキップされた後の残りのダイアログメッセージ数。	いいえ	該当なし

要素

名前	説明	必要
vary-by	実行時に決定されるカスタム式。その値によってキャッシュはパーティション分割されます。複数の `vary-by` 要素を追加すると、値が連結され、一意の組み合わせが作成されます。	いいえ

使用法

ポリシーセクション: inbound
ポリシースコープ: グローバル、製品、API、操作
ゲートウェイ: クラシック、v2、従量課金

使用上の注意

このポリシーは、ポリシーセクションで 1 回だけ使用できます。
キャッシュするクエリを決定するときに適切な秘密度が使用されるように、アプリケーションに基づいて score-threshold の値を微調整します。 0.05 などの低い値から始めて、キャッシュヒットとミスの比率を最適化するように調整します。
埋め込みモデルには、プロンプトのボリュームとプロンプトに対応できる十分な容量と十分なコンテキストサイズが必要です。

例

対応する azure-openai-semantic-cache-store ポリシーの例

<policies>
    <inbound>
        <base />
        <azure-openai-semantic-cache-lookup
            score-threshold="0.05"
            embeddings-backend-id ="azure-openai-backend"
            embeddings-backend-auth ="system-assigned" >
            <vary-by>@(context.Subscription.Id)</vary-by>
        </azure-openai-semantic-cache-lookup>
    </inbound>
    <outbound>
        <azure-openai-semantic-cache-store duration="60" />
        <base />
    </outbound>
</policies>

ポリシーに対する処理の詳細については、次のトピックを参照してください。

チュートリアル:API を変換および保護する
ポリシーステートメントとその設定の一覧に関するポリシーリファレンス
ポリシー式
ポリシーの設定または編集
ポリシー構成を再利用する
ポリシースニペットのリポジトリ
ポリシープレイグラウンドリポジトリ
Azure API Management ポリシーツールキット
ポリシーの作成、説明、トラブルシューティングを行う Copilot のサポートを受ける

次の方法で共有

Azure OpenAI API 要求のキャッシュされた応答を取得する

サポートされている Azure OpenAI Service モデル

ポリシー ステートメント

属性

要素

使用法

使用上の注意

例

対応する azure-openai-semantic-cache-store ポリシーの例

関連ポリシー

関連するコンテンツ

フィードバック

その他のリソース

ポリシーステートメント