Поделиться через


Динамическая квота Azure OpenAI (предварительная версия)

Динамическая квота — это функция Azure OpenAI, которая позволяет стандартному развертыванию (с оплатой по мере использования) использовать преимущества дополнительной квоты при наличии дополнительной емкости. Если динамическая квота отключена, развертывание сможет обрабатывать максимальную пропускную способность, установленную параметром токенов в минуту (TPM). При превышении предустановленного доверенного платформенного модуля запросы возвращают ответы HTTP 429. Если включена динамическая квота, развертывание имеет возможность получить доступ к более высокой пропускной способности, прежде чем возвращать 429 ответов, что позволяет выполнять более ранние вызовы. Дополнительные запросы по-прежнему выставляются по обычным ценам.

Динамическая квота может временно увеличить доступную квоту: она никогда не уменьшается ниже настроенного значения.

Когда следует использовать динамическую квоту

Динамическая квота полезна в большинстве сценариев, особенно если приложение может использовать дополнительную емкость оппортунистически или само приложение управляет скоростью вызова API OpenAI Azure.

Как правило, ситуация, в которой может потребоваться избежать динамической квоты, заключается в том, что ваше приложение обеспечит неблагоприятный опыт, если квота является нестабильной или увеличенной.

Для динамической квоты рассмотрим такие сценарии, как:

  • Массовая обработка,
  • Создание сводных данных или внедрения для получения дополненного поколения (RAG)
  • Автономный анализ журналов для создания метрик и вычислений,
  • Низкоприоритетные исследования,
  • Приложения с небольшим объемом квоты.

Когда вступают в силу динамическая квота?

Серверная часть Azure OpenAI решает, когда и сколько дополнительных динамических квот добавляется или удаляется из разных развертываний. Он не прогнозируется или объявляется заранее, и не предсказуем. Чтобы воспользоваться динамической квотой, код приложения должен иметь возможность выдавать больше запросов, так как ответы HTTP 429 становятся редко. Azure OpenAI позволяет приложению знать, когда вы попали в ограничение квоты, отвечая на запросы HTTP 429 и не разрешая больше вызовов API.

Как динамическая квота изменяет затраты?

  • Вызовы, выполненные над базовой квотой, имеют те же затраты, что и обычные звонки.

  • В развертывании нет дополнительных затрат, чтобы включить динамическую квоту, хотя повышенная пропускная способность в конечном итоге может привести к увеличению затрат в зависимости от объема трафика, получаемого развертыванием.

Примечание.

С динамической квотой не вызывается принудительное применение квоты "потолок" или пропускной способности. Azure OpenAI обрабатывает столько запросов, сколько это может быть выше базовой квоты. Если вам нужно управлять скоростью расходов, даже если квота менее ограничена, код приложения должен отложить запросы соответствующим образом.

Использование динамической квоты

Чтобы использовать динамическую квоту, необходимо:

  • Включите динамическое свойство квоты в развертывании Azure OpenAI.
  • Убедитесь, что приложение может воспользоваться динамической квотой.

Включение динамической квоты

Чтобы активировать динамическую квоту для развертывания, можно перейти к расширенным свойствам в конфигурации ресурсов и включить его:

Снимок экрана: расширенный пользовательский интерфейс конфигурации для развертываний.

Кроме того, его можно включить программным способом с помощью Azure CLI az rest:

Замените {subscriptionId}, {resourceGroupName}{accountName}и {deploymentName} соответствующими значениями для ресурса. В этом случае accountName равно имени ресурса Azure OpenAI.

az rest --method patch --url "https://management.azure.com/subscriptions/{subscriptionId}/resourceGroups/{resourceGroupName}/providers/Microsoft.CognitiveServices/accounts/{accountName}/deployments/{deploymentName}?2023-10-01-preview" --body '{"properties": {"dynamicThrottlingEnabled": true} }'

Разделы справки знать, сколько динамических квот пропускной способности добавляется в мое приложение?

Чтобы отслеживать работу приложения, можно отслеживать пропускную способность приложения в Azure Monitor. Во время предварительной версии динамической квоты нет конкретных метрик или журналов, чтобы указать, была ли квота динамически увеличена или уменьшена. динамическая квота, скорее всего, будет задействована для развертывания, если она выполняется в активно используемых регионах, а также во время пиковых часов использования для этих регионов.

Следующие шаги