Получение кэшированных ответов запросов API Azure OpenAI

ОБЛАСТЬ ПРИМЕНЕНИЯ: все уровни Управление API

azure-openai-semantic-cache-lookup Используйте политику для поиска ответов на запросы API завершения чата Azure OpenAI из настроенного внешнего кэша на основе вектора запроса к предыдущим запросам и заданного порогового значения оценки сходства. Кэширование ответов снижает требования к пропускной способности и обработке, введенные серверной частью API OpenAI, и снижает задержку, воспринимаемую потребителями API.

Примечание.

Эта политика должна иметь соответствующие ответы на запросы API Azure OpenAI.
Предварительные требования и шаги для включения семантического кэширования см. в статье "Включение семантического кэширования для API LLM" в службе "Управление API Azure".

Примечание.

Задайте элементы политики и дочерние элементы в порядке, указанном в правиле политики. Узнайте, как устанавливать или изменять политики службы управления API.

Поддерживаемые модели Azure OpenAI в модели Azure AI Foundry

Политика используется с API, добавленными в управление API из Azure OpenAI в моделях AI Foundry следующих типов:

Тип API	Поддерживаемые модели
Завершение чата	`gpt-3.5` `gpt-4` `gpt-4o` `gpt-4o-mini` `o1` `o3`
Внедрение	`text-embedding-3-large` `text-embedding-3-small` `text-embedding-ada-002`
Ответы (предварительная версия)	`gpt-4o`(версии: `2024-11-20`, `2024-08-062024-05-13`) `gpt-4o-mini` (Версия: `2024-07-18`) `gpt-4.1` (Версия: `2025-04-14`) `gpt-4.1-nano` (Версия: `2025-04-14`) `gpt-4.1-mini` (Версия: `2025-04-14`) `gpt-image-1` (Версия: `2025-04-15`) `o3` (Версия: `2025-04-16`) `o4-mini` (Версия: '2025-04-16)

Примечание.

Традиционные API завершения доступны только в устаревших версиях модели и ограничена поддержка.

Текущие сведения о моделях и их возможностях см. в статье Azure OpenAI в модели Foundry.

Правило политики

<azure-openai-semantic-cache-lookup
    score-threshold="score threshold to return cached response"
    embeddings-backend-id ="backend entity ID for embeddings API"
    embeddings-backend-auth ="system-assigned"             
    ignore-system-messages="true | false"      
    max-message-count="count" >
    <vary-by>"expression to partition caching"</vary-by>
</azure-openai-semantic-cache-lookup>

Атрибуты

Атрибут	Описание	Обязательное поле	По умолчанию.
пороговое значение оценки	Пороговое значение оценки определяет, насколько тесно входящие запросы должны соответствовать кэшированному запросу, чтобы вернуть его сохраненный ответ. Значение диапазонов от 0.0 до 1.0. Ниже значения требуют более высокого семантического сходства для совпадения. Подробнее.	Да	Н/П
embeddings-backend-id	Серверная часть Идентификатор вызова API внедрения.	Да	Н/П
embeddings-backend-auth	Проверка подлинности, используемая для внедрения серверной части API.	Да. Должен иметь значение`system-assigned`.	Н/П
ignore-system-messages	Логическое значение. Если задано значение `true` (рекомендуется), удалите системные сообщения из запроса завершения чата перед оценкой сходства кэша.	нет	неправда
max-message-count	Если задано, количество оставшихся диалоговых сообщений, после которых кэширование пропускается.	нет	Н/П

Элементы

Имя	Описание	Обязательное поле
разными по	Пользовательское выражение, определенное во время выполнения, кэширование значений которого секционирует. Если добавляются несколько `vary-by` элементов, значения объединяются для создания уникальной комбинации.	нет

Использование

Разделы политики: inbound.
Области политики: global, product, API, operation.
Шлюзы: классическая, версия 2, потребление, локальное размещение

Примечания об использовании

Эту политику можно использовать только один раз в разделе политики.
Точно настройте значение score-threshold на основе приложения, чтобы обеспечить правильную чувствительность, чтобы определить, когда возвращать кэшированные ответы для запросов. Начните с низкого значения, например 0,05, и настройте для оптимизации соотношения попаданий кэша в пропущенные значения.
Порог оценки выше 0,2 может привести к несоответствию кэша. Рекомендуется использовать более низкое значение для конфиденциальных вариантов использования.
Управление доступом между пользователями к записям кэша путем vary-by указания с определенными идентификаторами пользователей или групп пользователей.
Модель внедрения должна иметь достаточно емкости и достаточный размер контекста для размещения тома запроса и запросов.
Рассмотрите возможность добавления политики безопасности llm-content-safety с экраном запроса для защиты от атак с запросами.
Мы рекомендуем настроить политику ограничения скорости (или политику ограничения скорости по ключу ) сразу после поиска кэша. Это помогает сохранить серверную службу от перегрузки, если кэш недоступен.

Примеры

Пример с соответствующей политикой azure-openai-semantic-cache-store

В следующем примере показано, как использовать azure-openai-semantic-cache-lookup политику вместе с azure-openai-semantic-cache-store политикой для получения семантически аналогичных кэшированных ответов с пороговым значением оценки сходства 0,05. Кэшированные значения секционируются по идентификатору подписки вызывающего объекта.

Примечание.

Добавьте политику ограничения скорости (или политику ограничения скорости по ключу ) после поиска кэша, чтобы ограничить количество вызовов и предотвратить перегрузку серверной службы в случае, если кэш недоступен.

<policies>
    <inbound>
        <base />
        <azure-openai-semantic-cache-lookup
            score-threshold="0.05"
            embeddings-backend-id ="azure-openai-backend"
            embeddings-backend-auth ="system-assigned" >
            <vary-by>@(context.Subscription.Id)</vary-by>
        </azure-openai-semantic-cache-lookup>
        <rate-limit calls="10" renewal-period="60" />
    </inbound>
    <outbound>
        <azure-openai-semantic-cache-store duration="60" />
        <base />
    </outbound>
</policies>

Дополнительные сведения о работе с политиками см. в нижеуказанных статьях.

Руководство. Преобразование и защита API
Полный перечень операторов политик и их параметров см. в справочнике по политикам.
Выражения политики
Настройка или изменение политик
Повторное использование конфигураций политик
Репозиторий фрагментов политик
Репозиторий игровой площадки политики
Набор средств политики Управление API Azure
Получение помощи Copilot для создания, объяснения и устранения неполадок политик

Обратная связь

Была ли эта страница полезна?

Last updated on 2025-10-27

Поделиться через

Получение кэшированных ответов запросов API Azure OpenAI

Поддерживаемые модели Azure OpenAI в модели Azure AI Foundry

Правило политики

Атрибуты

Элементы

Использование

Примечания об использовании

Примеры

Пример с соответствующей политикой azure-openai-semantic-cache-store

Связанные политики

Связанный контент

Обратная связь

Дополнительные ресурсы