你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

缓存对 Azure OpenAI API 请求的响应

适用于:所有 API 管理层级

azure-openai-semantic-cache-store 策略会将对 Azure OpenAI Chat Completion API 和 Completion API 请求的响应缓存到配置的外部缓存中。 响应缓存可以降低后端 Azure OpenAI API 需要满足的带宽和处理能力要求,并可以减小 API 使用者能够察觉到的延迟。

注意

注意

按照策略声明中提供的顺序设置策略的元素和子元素。 详细了解如何设置或编辑 API 管理策略

受支持的 Azure OpenAI 服务模型

策略与从以下类型的 Azure OpenAI 服务添加到 API 管理的 API 结合使用:

API 类型 支持的模型
聊天补全 gpt-3.5

gpt-4
Completion gpt-3.5-turbo-instruct
嵌入 text-embedding-3-large

text-embedding-3-small

text-embedding-ada-002

有关更多信息,请参阅 Azure OpenAI 服务模型

策略语句

<azure-openai-semantic-cache-store duration="seconds"/>

属性

属性 说明 需要 默认
duration 缓存条目的生存时间,以秒为单位指定。 允许使用策略表达式。 空值

使用情况

使用注意事项

  • 此策略只能在策略部分中使用一次。
  • 如果缓存查找失败,则使用缓存相关操作的 API 调用不会引发错误,并且缓存操作成功完成。

示例

相应的 azure-openai-semantic-cache-lookup 策略的示例

<policies>
    <inbound>
        <base />
        <azure-openai-semantic-cache-lookup
            score-threshold="0.05"
            embeddings-backend-id ="azure-openai-backend"
            embeddings-backend-auth ="system-assigned" >
            <vary-by>@(context.Subscription.Id)</vary-by>
        </azure-openai-semantic-cache-lookup>
    </inbound>
    <outbound>
        <azure-openai-semantic-cache-store duration="60" />
        <base />
    </outbound>
</policies>

有关使用策略的详细信息,请参阅: