Поделиться через


Квоты и ограничения службы Azure OpenAI

В этой статье содержится краткий справочник и подробное описание квот и ограничений для Azure OpenAI в службах ИИ Azure.

Справочник по квотам и ограничениям

В следующих разделах приведены краткие инструкции по квотам по умолчанию и ограничениям, которые применяются к Azure OpenAI:

Имя ограничения Значение ограничения
Ресурсы OpenAI для каждого региона на подписку Azure 30
Ограничения квоты DALL-E 2 по умолчанию 2 параллельных запроса
Ограничения квоты DALL-E по умолчанию 2 единицы емкости (6 запросов в минуту)
Ограничения квоты Whisper по умолчанию 3 запроса в минуту
Максимальное количество маркеров запроса на запрос Зависит от модели. Дополнительные сведения см. в разделе "Модели службы Azure OpenAI"
Максимальное число развертываний модели точной настройки 5
Общее количество заданий обучения на ресурс 100
Максимальное число одновременных заданий обучения на ресурс 1
Максимальное число заданий обучения в очереди 20
Максимальное количество файлов на ресурс (настройка) 50
Общий размер всех файлов на ресурс (точная настройка) 1 ГБ
Максимальное время задания обучения (задание завершится ошибкой при превышении) 720 часов
Максимальный размер задания обучения (токены в файле обучения) x (# эпохи) 2 млрд
Максимальный размер всех файлов на отправку (Azure OpenAI в данных) 16 МБ
Максимальное число или входные данные в массиве с /embeddings 2048
Максимальное /chat/completions количество сообщений 2048
Максимальное /chat/completions число функций 128
Максимальное /chat completions количество инструментов 128
Максимальное количество единиц подготовленной пропускной способности на развертывание 100,000
Максимальное количество файлов на помощника или потока 20
Максимальный размер файла для помощников и точной настройки 512 МБ
Ограничение маркера помощников 2 000 000 маркеров
GPT-4o max images per request (#of images in the messages array/conversation history) 10
Максимальные токены GPT-4 vision-preview и GPT-4 turbo-2024-04-09 16

max_tokens Увеличьте значение параметра, чтобы избежать усеченных ответов. Максимальные маркеры GPT-4o по умолчанию — 4096.

Ограничения региональной квоты

Область/регион GPT-4 GPT-4-32K GPT-4-Turbo GPT-4-Turbo-V gpt-4o gpt-4o — GlobalStandard GPT-35-Turbo GPT-35-Turbo-Instruct Text-Embedding-Ada-002 text-embedding-3-small text-embedding-3-large Babbage-002 Babbage-002 - finetune Davinci-002 Davinci-002 - finetune GPT-35-Turbo - finetune GPT-35-Turbo-1106 - finetune GPT-35-Turbo-0125 - finetune GPT-4 — finetune
australiaeast 40 тыс. 80 K 80 K 30 K - - 300 K - 350 K - - - - - - - - - -
brazilsouth - - - - - - - - 350 K - - - - - - - - - -
canadaeast 40 тыс. 80 K 80 K - - - 300 K - 350 K 350 K 350 K - - - - - - - -
eastus - - 80 K - 150 K
1 млн
450 K
10 М
240 K 240 K 240 K 350 K 350 K - - - - - - - -
eastus2 - - 80 K - 150 K
1 млн
450 K
10 М
300 K - 350 K 350 K 350 K - - - - 250 K 250 K 250 K -
francecentral 20 тыс. 60 K 80 K - - - 240 K - 240 K - 350 K - - - - - - - -
japaneast - - - 30 K - - 300 K - 350 K - 350 K - - - - - - - -
northcentralus - - 80 K - 150 K
1 млн
450 K
10 М
300 K - 350 K - - 240 K 250 K 240 K 250 K 250 K 250 K 250 K 100 тыс.
norwayeast - - 150 K - - - - - 350 K - - - - - - - - - -
southafricanorth - - - - - - - - 350 K - - - - - - - - - -
southcentralus - - 80 K - 150 K
1 млн
450 K
10 М
240 K - 240 K - - - - - - - - - -
southindia - - 150 K - - - 300 K - 350 K - 350 K - - - - - - - -
swedencentral 40 тыс. 80 K 150 K 30 K 150 K
1 млн
- 300 K 240 K 350 K - 350 K 240 K 250 K 240 K 250 K 250 K 250 K 250 K 100 тыс.
switzerlandnorth 40 тыс. 80 K - 30 K - - 300 K - 350 K - - - - - - - - - -
switzerlandwest - - - - - - - - - - - - 250 K - 250 K 250 K 250 K 250 K -
uksouth - - 80 K - - - 240 K - 350 K - 350 K - - - - - - - -
westeurope - - - - - - 240 K - 240 K - - - - - - - - - -
westus - - 80 K 30 K 150 K
1 млн
450 K
10 М
300 K - 350 K - - - - - - - - - -
westus3 - - 80 K - 150 K
1 млн
450 K
10 М
- - 350 K - 350 K - - - - - - - -

Ограничения скорости gpt-4o

gpt-4o предоставляет уровни ограничения скорости с более высокими ограничениями для определенных типов клиентов.

gpt-4o global standard

Уровень Ограничение квоты в маркерах в минуту (TPM) Число запросов в минуту
Соглашение Enterprise 10 М 60 K
По умолчанию. 450 K 2.7 K

M = миллион | K = тысяча

gpt-4o standard

Уровень Ограничение квоты в маркерах в минуту (TPM) Число запросов в минуту
Соглашение Enterprise 1 млн 6 тыс.
По умолчанию. 150 K 900

M = миллион | K = тысяча

Уровни использования

Развертывания Global Standard используют глобальную инфраструктуру Azure, динамически маршрутизацию трафика клиентов в центр обработки данных с наилучшей доступностью для запросов вывода клиента. Это обеспечивает более согласованную задержку для клиентов с низким до среднего уровня трафика. Клиенты с высоким уровнем устойчивого использования могут видеть более изменчивость в задержке ответа.

Ограничение использования определяет уровень использования выше, чем клиенты могут видеть большую вариативность в задержке ответа. Использование клиента определяется для каждой модели и является общими маркерами, используемыми во всех развертываниях во всех подписках во всех регионах для данного клиента.

GPT-4o глобальный стандарт и стандарт

Модель Уровни использования в месяц
GPT-4o 1,5 млрд токенов

Другие типы предложений

Если подписка Azure связана с определенными типами предложений, максимальные значения квоты ниже значений, указанных в приведенных выше таблицах.

Уровень Ограничение квоты в маркерах в минуту (TPM)
Azure для учащихся, бесплатные пробные версии 1 K (все модели)
Подписки MSDN GPT 3.5 Turbo Series: 30 K
Серия GPT-4: 8 K
Ежемесячные подписки на основе кредитной карты 1 GPT 3.5 Turbo Series: 30 K
Серия GPT-4: 8 K

1 Это применимо к типу предложения 0003P

В портал Azure вы можете просмотреть тип предложения, связанный с подпиской, перейдя к подписке и проверив панель обзора подписок. Тип предложения соответствует полю плана в обзоре подписки.

Общие рекомендации по остаться в пределах ограничений скорости

Чтобы свести к минимуму проблемы, связанные с ограничениями скорости, рекомендуется использовать следующие методы:

  • Реализуйте в приложении логику повторных попыток.
  • Избегайте внесения резких изменений в рабочую нагрузку. Увеличивайте рабочую нагрузку постепенно.
  • Протестируйте различные шаблоны увеличения нагрузки.
  • Увеличьте квоту, назначенную развертыванию. При необходимости переместите квоту из другого развертывания.

Как запросить увеличение квот и ограничений по умолчанию

Запросы на увеличение квот можно отправить на странице "Квоты " в Azure OpenAI Studio. Обратите внимание, что из-за подавляющего спроса запросы на увеличение квот принимаются и будут заполнены в том порядке, в который они получены. Приоритет будет предоставлен клиентам, которые создают трафик, который потребляет существующее выделение квот, и ваш запрос может быть отклонен, если это условие не выполнено.

Для других ограничений скорости отправьте запрос на обслуживание.

Следующие шаги

Узнайте, как управлять квотой для развертываний Azure OpenAI. Ознакомьтесь с дополнительными сведениями о базовых моделях, лежащих в основе Azure OpenAI.