Поделиться через


Ограничение использования маркера API OpenAI в Azure

ОБЛАСТЬ ПРИМЕНЕНИЯ: Разработчик | Базовый | Базовая версия 2 | Стандартный | Standard v2 | Премиум | Премиум версии 2

Политика azure-openai-token-limit предотвращает пики использования API Azure OpenAI в модели Foundry для каждого ключа путем ограничения потребления маркеров языковой модели на указанную скорость (число в минуту), квоту в течение указанного периода или обоих. При превышении указанного ограничения скорости маркера вызывающий объект получает 429 Too Many Requests код состояния ответа. При превышении указанной квоты вызывающий получает 403 Forbidden код состояния ответа.

Опираясь на метрики использования токенов, возвращаемые с конечной точки Azure OpenAI, политика отслеживает и применяет ограничения на основе фактического потребления токенов. Политика также позволяет заранее оценивать токены запросов с помощью управления API, минимизируя ненужные запросы к серверу Azure OpenAI, если лимит уже превышен. Однако, поскольку фактическое количество потребленных токенов зависит как от размера запроса, так и от размера завершения (который зависит от запроса), политика не может заранее предсказать общее потребление токенов. Такая конструкция позволяет временно превышать лимиты токенов при одновременной обработке нескольких запросов.

Примечание.

Задайте элементы политики и дочерние элементы в порядке, указанном в правиле политики. Узнайте, как устанавливать или изменять политики службы управления API.

Поддерживаемые модели Azure OpenAI в модели Azure AI Foundry

Политика используется с API, добавленными в управление API из Azure OpenAI в моделях AI Foundry следующих типов:

Тип API Поддерживаемые модели
Завершение чата gpt-3.5

gpt-4

gpt-4o

gpt-4o-mini

o1

o3
Внедрение text-embedding-3-large

text-embedding-3-small

text-embedding-ada-002
Ответы (предварительная версия) gpt-4o(версии: 2024-11-20, 2024-08-062024-05-13)

gpt-4o-mini (Версия: 2024-07-18)

gpt-4.1 (Версия: 2025-04-14)

gpt-4.1-nano (Версия: 2025-04-14)

gpt-4.1-mini (Версия: 2025-04-14)

gpt-image-1 (Версия: 2025-04-15)

o3 (Версия: 2025-04-16)

o4-mini (Версия: '2025-04-16)

Примечание.

Традиционные API завершения доступны только в устаревших версиях модели и ограничена поддержка.

Текущие сведения о моделях и их возможностях см. в статье Azure OpenAI в модели Foundry.

Правило политики

<azure-openai-token-limit counter-key="key value"
        tokens-per-minute="number"
        token-quota="number"
        token-quota-period="Hourly | Daily | Weekly | Monthly | Yearly"
        estimate-prompt-tokens="true | false"    
        retry-after-header-name="custom header name, replaces default 'Retry-After'" 
        retry-after-variable-name="policy expression variable name"
        remaining-quota-tokens-header-name="header name"  
        remaining-quota-tokens-variable-name="policy expression variable name"
        remaining-tokens-header-name="header name"  
        remaining-tokens-variable-name="policy expression variable name"
        tokens-consumed-header-name="header name"
        tokens-consumed-variable-name="policy expression variable name" />

Атрибуты

Атрибут Описание Обязательное поле По умолчанию.
counter-key Ключ, используемый для политики ограничения маркеров. Для каждого значения ключа используется один счетчик для всех областей, для которых настроена политика. Допустимы выражения политики. Да Н/П
токены в минуту Максимальное количество маркеров, потребляемых запросом и завершением в минуту. Необходимо указать ограничение скорости (), квоту (tokens-per-minutetoken-quotaпо сравнению с) token-quota-periodили оба. Н/П
квота токена Максимальное количество маркеров, разрешенных в течение интервала времени, указанного в параметре token-quota-period. Выражения политики не допускаются. Необходимо указать ограничение скорости (), квоту (tokens-per-minutetoken-quotaпо сравнению с) token-quota-periodили оба. Н/П
период квоты токена Длина фиксированного окна, после которого token-quota сбрасывается. Значение должно быть одним из следующих значений: Hourly,Daily, Weekly, Monthly, Yearly. Время начала периода квоты вычисляется с помощью метки времени UTC, усеченной в единицу (час, день и т. д.), используемую в течение периода. Необходимо указать ограничение скорости (), квоту (tokens-per-minutetoken-quotaпо сравнению с) token-quota-periodили оба. Н/П
estimate-prompt-token Логическое значение, определяющее, следует ли оценить количество маркеров, необходимых для запроса:
- true: оцените количество токенов на основе схемы запроса в API; может снизить производительность.
- false: не оцените маркеры запроса.

Если задано значение false, остальные маркеры counter-key вычисляются с помощью фактического использования маркеров из ответа модели. Это может привести к отправке запросов в модель, превышающую ограничение маркера. В таком случае это будет обнаружено в ответе, и все последующие запросы будут блокироваться политикой до сброса лимита токена.
Да Н/П
retry-after-header-name Имя пользовательского заголовка ответа, значение которого является рекомендуемой интервалом повтора в секундах после указанного tokens-per-minute или token-quota превышения. Выражения политики не допускаются. нет Retry-After
retry-after-variable-name Имя переменной, которая сохраняет рекомендуемый интервал повторных попыток в секундах после указанного tokens-per-minute или token-quota превышения. Выражения политики не допускаются. нет Н/П
оставшаяся квота-token-header-name Имя заголовка ответа, значение которого после каждого выполнения политики — это предполагаемое количество оставшихся маркеров, token-quota соответствующих разрешенным token-quota-period. Выражения политики не допускаются. нет Н/П
оставшаяся квота-token-variable-name Имя переменной, которая после каждого выполнения политики сохраняет предполагаемое количество оставшихся token-quota маркеров, соответствующих разрешенным token-quota-period. Выражения политики не допускаются. нет Н/П
остальные токены-заголовок-name Имя заголовка ответа, значение которого после каждого выполнения политики — это количество оставшихся маркеров, tokens-per-minute соответствующих допустимому интервалу времени. Выражения политики не допускаются. нет Н/П
остальные токены-переменные-name Имя переменной, которая после каждого выполнения политики сохраняет количество оставшихся маркеров, соответствующих tokens-per-minute допустимому интервалу времени. Выражения политики не допускаются. нет Н/П
token-consumed-header-name Имя заголовка ответа, значение которого — количество маркеров, потребляемых как запросом, так и завершением. Заголовок добавляется в ответ только после получения ответа от серверной части. Выражения политики не допускаются. нет Н/П
token-consumed-variable-name Имя переменной, инициализированной с предполагаемым количеством маркеров в запросе в разделе конвейера, backend если estimate-prompt-tokens значение равно true нулю. Переменная обновляется с указанным числом при получении ответа в outbound разделе. нет Н/П

Использование

Примечания об использовании

  • Эта политика может использоваться несколько раз в зависимости от определения политики
  • Эту политику можно настроить при добавлении Azure OpenAI API через портал.
  • estimate-prompt-tokens Если задано falseзначение , значения в разделе использования ответа из API OpenAI Azure используются для определения использования маркеров.
  • Когда несколько запросов отправляются одновременно или с небольшими задержками, политика может позволить потребление токенов, превышающее установленный лимит. Это происходит потому, что политика не может определить точное количество потребленных токенов до получения ответов от бэкенда. После обработки ответов и превышения лимита токенов последующие запросы блокируются до сброса лимита.
  • Некоторые конечные точки Azure OpenAI поддерживают потоковую передачу ответов. Если stream задано значение true в запросе API для включения потоковой передачи, маркеры запроса всегда оцениваются независимо от значения атрибута estimate-prompt-tokens . Маркеры завершения также оцениваются при потоковой передаче ответов.
  • Значение remaining-quota-tokens-variable-name или remaining-quota-tokens-header-name является оценкой для информационных целей, но может быть больше, чем ожидалось на основе фактического потребления маркеров. Значение является более точным по мере приближения квоты.
  • Для моделей, которые принимают входные данные изображения, маркеры изображений обычно учитываются серверной языковой моделью и включаются в вычисления ограничения и квоты. Однако при использовании или estimate-prompt-tokens установке trueпотоковой передачи политика в настоящее время пересчитывает каждый образ как максимальное число 1200 маркеров.
  • Управление API использует один счетчик для каждого counter-key значения, указанного в политике. Счетчик обновляется во всех областях, в которых политика настроена с этим значением ключа. Если вы хотите настроить отдельные счетчики в разных областях (например, определенный API или продукт), укажите разные значения ключей в разных областях. Например, добавьте строку, которая определяет область к значению выражения.
  • Уровни v2 используют алгоритм token bucket для ограничения скорости, который отличается от алгоритма скользящего окна в классических уровнях. Из-за этой разницы в реализации, когда вы настраиваете лимиты токенов в уровнях v2 на нескольких областях с использованием одного и того counter-keyже , убедитесь, что значение tokens-per-minute одинаковое для всех экземпляров политик. Несогласованные значения могут привести к непредсказуемому поведению.
  • Эта политика отслеживает использование маркеров независимо от каждого шлюза, в котором она применяется, включая шлюзы рабочей области и региональные шлюзы в развертывании с несколькими регионами. Он не агрегирует количество маркеров во всем экземпляре.

Примеры

Ограничение скорости токенов

В следующем примере ограничение скорости токена составляет 5000 в минуту, задается IP-адресом вызывающего абонента. Политика не оценивает количество маркеров, необходимых для запроса. После каждого выполнения политики остальные маркеры, разрешенные для этого ВЫЗЫВАющего IP-адреса в период времени, хранятся в переменной remainingTokens.

<policies>
    <inbound>
        <base />
        <azure-openai-token-limit
            counter-key="@(context.Request.IpAddress)"
            tokens-per-minute="5000" estimate-prompt-tokens="false" remaining-tokens-variable-name="remainingTokens" />
    </inbound>
    <outbound>
        <base />
    </outbound>
</policies>

Квота маркера

В следующем примере квота маркера 10000 определяется идентификатором подписки и сбрасывается ежемесячно. После каждого выполнения политики количество оставшихся маркеров, разрешенных для этого идентификатора подписки в период времени, хранится в переменной remainingQuotaTokens.

<policies>
    <inbound>
        <base />
        <azure-openai-token-limit
            counter-key="@(context.Subscription.Id)"
            token-quota="100000" token-quota-period="Monthly" remaining-quota-tokens-variable-name="remainingQuotaTokens" />
    </inbound>
    <outbound>
        <base />
    </outbound>
</policies>

Дополнительные сведения о работе с политиками см. в нижеуказанных статьях.