Поделиться через


Ответы кэша на запросы API OpenAI Azure

ОБЛАСТЬ ПРИМЕНЕНИЯ: все уровни Управление API

Политика azure-openai-semantic-cache-store кэширует ответы на запросы API завершения чата OpenAI в настроенный внешний кэш. Кэширование ответов снижает требования к пропускной способности и обработке, введенные серверной частью API OpenAI, и снижает задержку, воспринимаемую потребителями API.

Примечание.

Примечание.

Задайте элементы политики и дочерние элементы в порядке, указанном в правиле политики. Узнайте, как устанавливать или изменять политики службы управления API.

Поддерживаемые модели Azure OpenAI в модели Azure AI Foundry

Политика используется с API, добавленными в управление API из Azure OpenAI в моделях AI Foundry следующих типов:

Тип API Поддерживаемые модели
Завершение чата gpt-3.5

gpt-4

gpt-4o

gpt-4o-mini

o1

o3
Внедрение text-embedding-3-large

text-embedding-3-small

text-embedding-ada-002
Ответы (предварительная версия) gpt-4o(версии: 2024-11-20, 2024-08-062024-05-13)

gpt-4o-mini (Версия: 2024-07-18)

gpt-4.1 (Версия: 2025-04-14)

gpt-4.1-nano (Версия: 2025-04-14)

gpt-4.1-mini (Версия: 2025-04-14)

gpt-image-1 (Версия: 2025-04-15)

o3 (Версия: 2025-04-16)

o4-mini (Версия: '2025-04-16)

Примечание.

Традиционные API завершения доступны только в устаревших версиях модели и ограничена поддержка.

Текущие сведения о моделях и их возможностях см. в статье Azure OpenAI в модели Foundry.

Правило политики

<azure-openai-semantic-cache-store duration="seconds"/>

Атрибуты

Атрибут Описание Обязательное поле По умолчанию.
продолжительность Срок жизни кэшированных записей (в секундах). Допустимы выражения политики. Да Н/П

Использование

Примечания об использовании

  • Эту политику можно использовать только один раз в разделе политики.
  • Если поиск кэша завершается сбоем, вызов API, использующий операцию, связанную с кэшем, не вызывает ошибку, и операция кэша успешно завершается.
  • Мы рекомендуем настроить политику ограничения скорости (или политику ограничения скорости по ключу ) сразу после поиска кэша. Это помогает сохранить серверную службу от перегрузки, если кэш недоступен.

Примеры

Пример с соответствующей политикой поиска azure-openai-semantic-cache-lookup

В следующем примере показано, как использовать azure-openai-semantic-cache-lookup политику вместе с azure-openai-semantic-cache-store политикой для получения семантически аналогичных кэшированных ответов с пороговым значением оценки сходства 0,05. Кэшированные значения секционируются по идентификатору подписки вызывающего объекта.

Примечание.

Добавьте политику ограничения скорости (или политику ограничения скорости по ключу ) после поиска кэша, чтобы ограничить количество вызовов и предотвратить перегрузку серверной службы в случае, если кэш недоступен.

<policies>
    <inbound>
        <base />
        <azure-openai-semantic-cache-lookup
            score-threshold="0.05"
            embeddings-backend-id ="azure-openai-backend"
            embeddings-backend-auth ="system-assigned" >
            <vary-by>@(context.Subscription.Id)</vary-by>
        </azure-openai-semantic-cache-lookup>
        <rate-limit calls="10" renewal-period="60" />
    </inbound>
    <outbound>
        <azure-openai-semantic-cache-store duration="60" />
        <base />
    </outbound>
</policies>

Дополнительные сведения о работе с политиками см. в нижеуказанных статьях.