Поделиться через


Квоты и ограничения службы Azure OpenAI

В этой статье содержится краткий справочник и подробное описание квот и ограничений для Azure OpenAI в службах ИИ Azure.

Справочник по квотам и ограничениям

В следующих разделах приведены краткие инструкции по квотам по умолчанию и ограничениям, которые применяются к Azure OpenAI:

Имя ограничения Значение ограничения
Ресурсы OpenAI для каждого региона на подписку Azure 30
Ограничения квоты DALL-E 2 по умолчанию 2 параллельных запроса
Ограничения квоты DALL-E по умолчанию 2 единицы емкости (6 запросов в минуту)
Ограничения квоты Whisper по умолчанию 3 запроса в минуту
Максимальное количество маркеров запроса на запрос Зависит от модели. Дополнительные сведения см. в разделе "Модели службы Azure OpenAI"
Максимальное количество развертываний уровня "Стандартный" для каждого ресурса 32
Максимальное число развертываний модели точной настройки 5
Общее количество заданий обучения на ресурс 100
Максимальное число одновременных заданий обучения на ресурс 1
Максимальное число заданий обучения в очереди 20
Максимальное количество файлов на ресурс (настройка) 50
Общий размер всех файлов на ресурс (точная настройка) 1 ГБ
Максимальное время задания обучения (задание завершится ошибкой при превышении) 720 часов
Максимальный размер задания обучения (токены в файле обучения) x (# эпохи) 2 млрд
Максимальный размер всех файлов на отправку (Azure OpenAI в данных) 16 МБ
Максимальное число или входные данные в массиве с /embeddings 2048
Максимальное /chat/completions количество сообщений 2048
Максимальное /chat/completions число функций 128
Максимальное /chat completions количество инструментов 128
Максимальное количество единиц подготовленной пропускной способности на развертывание 100,000
Максимальное количество файлов на помощника или потока 10 000 при использовании API или AI Studio. 20 при использовании Azure OpenAI Studio.
Максимальный размер файла для помощников и точной настройки 512 МБ
Максимальный размер всех отправленных файлов для помощников 100 ГБ
Ограничение маркера помощников 2 000 000 маркеров
GPT-4o max images per request (#of images in the messages array/conversation history) 10
Максимальные токены GPT-4 vision-preview и GPT-4 turbo-2024-04-09 16

max_tokens Увеличьте значение параметра, чтобы избежать усеченных ответов. Максимальные маркеры GPT-4o по умолчанию — 4096.
Максимальное число пользовательских заголовков в запросахAPI 1 10

1 Наши текущие API позволяют до 10 пользовательских заголовков, которые передаются через конвейер и возвращаются. Мы заметили, что некоторые клиенты теперь превышают это число заголовков, что приводит к ошибкам HTTP 431. Для этой ошибки не существует решения, кроме уменьшения объема заголовка. В будущих версиях API мы больше не будем передавать пользовательские заголовки. Мы рекомендуем клиентам не зависеть от пользовательских заголовков в будущих системных архитектурах.

Ограничения региональной квоты

Область/регион GPT-4 GPT-4-32K GPT-4-Turbo GPT-4-Turbo-V gpt-4o gpt-4o-mini GPT-35-Turbo GPT-35-Turbo-Instruct gpt-4o — GlobalStandard gpt-4o-mini - GlobalStandard GPT-4-Turbo — GlobalStandard GPT-4o — global-Batch GPT-4o-mini - Global-Batch GPT-4 — глобальная пакетная служба GPT-4-Turbo — глобальная пакетная служба gpt-35-turbo - Global-Batch Text-Embedding-Ada-002 text-embedding-3-small text-embedding-3-large GPT-4o - finetune GPT-4o-mini - finetune GPT-4 — finetune Babbage-002 Babbage-002 - finetune Davinci-002 Davinci-002 - finetune GPT-35-Turbo - finetune GPT-35-Turbo-1106 - finetune GPT-35-Turbo-0125 - finetune
australiaeast 40 тыс. 80 K 80 K 30 K - - 300 K - 30 М - 2 млн - - - - - 350 K - - - - - - - - - - - -
brazilsouth - - - - - - - - 30 М - 2 млн - - - - - 350 K - - - - - - - - - - - -
canadaeast 40 тыс. 80 K 80 K - - - 300 K - 30 М - 2 млн - - - - - 350 K 350 K 350 K - - - - - - - - - -
eastus - - 80 K - 1 млн 2 млн 240 K 240 K 30 М 50 М 2 млн 5 B 5 B 150 М 300 М 10 B 240 K 350 K 350 K - - - - - - - - - -
eastus2 - - 80 K - 1 млн 2 млн 300 K - 30 М 50 М 2 млн - - - - - 350 K 350 K 350 K 250 K - - - - - - 250 K 250 K 250 K
francecentral 20 тыс. 60 K 80 K - - - 240 K - 30 М - 2 млн - - - - - 240 K - 350 K - - - - - - - - - -
germanywestcentral - - - - - - - - 30 М - 2 млн - - - - - - - - - - - - - - - - - -
japaneast - - - 30 K - - 300 K - 30 М - 2 млн - - - - - 350 K 350 K 350 K - - - - - - - - - -
koreacentral - - - - - - - - 30 М - 2 млн - - - - - - - - - - - - - - - - - -
northcentralus - - 80 K - 1 млн 2 млн 300 K - 30 М 50 М 2 млн - - - - - 350 K - - 250 K 500 тыс. 100 тыс. 240 K 250 K 240 K 250 K 250 K 250 K 250 K
norwayeast - - 150 K - - - - - 30 М - 2 млн - - - - - 350 K - 350 K - - - - - - - - - -
польшацентральная - - - - - - - - 30 М - 2 млн - - - - - - - - - - - - - - - - - -
southafricanorth - - - - - - - - 30 М - 2 млн - - - - - 350 K - - - - - - - - - - - -
southcentralus - - 80 K - 1 млн - 240 K - 30 М - 2 млн - - - - - 240 K - - - - - - - - - - - -
southindia - - 150 K - - - 300 K - 30 М - 2 млн - - - - - 350 K - 350 K - - - - - - - - - -
spaincentral - - - - - - - - 30 М - 2 млн - - - - - - - - - - - - - - - - - -
swedencentral 40 тыс. 80 K 150 K 30 K 1 млн 2 млн 300 K 240 K 30 М 50 М 2 млн 5 B 5 B 150 М 300 М 10 B 350 K - 350 K 250 K 500 тыс. 100 тыс. 240 K 250 K 240 K 250 K 250 K 250 K 250 K
switzerlandnorth 40 тыс. 80 K - 30 K - - 300 K - 30 М 50 М 2 млн - - - - - 350 K - - - - - - - - - - - -
switzerlandwest - - - - - - - - - - - - - - - - - - - - - - - 250 K - 250 K 250 K 250 K 250 K
uksouth - - 80 K - - - 240 K - 30 М - 2 млн - - - - - 350 K - 350 K - - - - - - - - - -
westeurope - - - - - - 240 K - 30 М 50 М 2 млн - - - - - 240 K - - - - - - - - - - - -
westus - - 80 K 30 K 1 млн 2 млн 300 K - 30 М 50 М 2 млн 5 B 5 B 150 М 300 М 10 B 350 K - - - - - - - - - - - -
westus3 - - 80 K - 1 млн 2 млн 300 K - 30 М 50 М 2 млн - - - - - 350 K - 350 K - - - - - - - - - -

Глобальные ограничения пакетной службы

Имя ограничения Значение ограничения
Максимальное количество файлов на ресурс 500
Максимальный размер входного файла 200 МБ
Максимальное количество запросов на файл 100,000

Глобальная квота пакетной службы

В таблице показан предел квоты пакетной службы. Значения квот для глобального пакета представлены с точки зрения закрепленных маркеров. При отправке файла для пакетной обработки количество маркеров, присутствующих в файле, учитывается. До тех пор, пока пакетное задание не достигнет состояния терминала, эти маркеры будут учитываться в отношении общего лимита, затраченного на маркер.

Модель Соглашение Enterprise По умолчанию. Ежемесячные подписки на основе кредитной карты Подписки MSDN Azure для учащихся, бесплатные пробные версии
gpt-4o 5 B 50 М 1.35 M 90 K Н/П
gpt-4o-mini 5 B 50 М 1.35 M 90 K Н/П
gpt-4-turbo 300 М 40 М 1.35 M 90 K Н/П
gpt-4 150 М 5 М 200 K 100 тыс. Н/П
gpt-35-turbo 10 B 100 М 5 М 2 млн 50 тыс

B = миллиард | M = миллион | K = тысяча

Ограничения скорости gpt-4o и GPT-4 Turbo

gpt-4oи gpt-4o-minigpt-4 (turbo-2024-04-09) имеют уровни ограничений скорости с более высокими ограничениями для определенных типов клиентов.

gpt-4o и GPT-4 Turbo global standard

Модель Уровень Ограничение квоты в маркерах в минуту (TPM) Число запросов в минуту
gpt-4o Соглашение Enterprise 30 М 180 K
gpt-4o-mini Соглашение Enterprise 50 М 300 K
gpt-4 (turbo-2024-04-09) Соглашение Enterprise 2 млн 12 тыс.
gpt-4o По умолчанию. 450 K 2.7 K
gpt-4o-mini По умолчанию. 2 млн 12 тыс.
gpt-4 (turbo-2024-04-09) По умолчанию. 450 K 2.7 K

M = миллион | K = тысяча

gpt-4o standard

Модель Уровень Ограничение квоты в маркерах в минуту (TPM) Число запросов в минуту
gpt-4o Соглашение Enterprise 1 млн 6 тыс.
gpt-4o-mini Соглашение Enterprise 2 млн 12 тыс.
gpt-4o По умолчанию. 150 K 900
gpt-4o-mini По умолчанию. 450 K 2.7 K

M = миллион | K = тысяча

Уровни использования

Развертывания Global Standard используют глобальную инфраструктуру Azure, динамически маршрутизацию трафика клиентов в центр обработки данных с наилучшей доступностью для запросов вывода клиента. Это обеспечивает более согласованную задержку для клиентов с низким до среднего уровня трафика. Клиенты с высоким уровнем устойчивого использования могут видеть более вариативность в задержке ответа.

Ограничение использования определяет уровень использования выше, чем клиенты могут видеть большую вариативность в задержке ответа. Использование клиента определяется для каждой модели и является общими маркерами, используемыми во всех развертываниях во всех подписках во всех регионах для данного клиента.

Примечание.

Уровни использования применяются только к стандартным и глобальным типам развертывания уровня "Стандартный". Уровни использования не применяются к глобальным пакетам и подготовленным развертываниям пропускной способности.

GPT-4o глобальный стандарт и стандарт

Модель Уровни использования в месяц
gpt-4o 8 миллиардов токенов
gpt-4o-mini 45 миллиардов токенов

Стандарт GPT-4

Модель Уровни использования в месяц
gpt-4 + gpt-4-32k (все версии) 4 млрд

Другие типы предложений

Если подписка Azure связана с определенными типами предложений, максимальные значения квоты ниже значений, указанных в приведенных выше таблицах.

Уровень Ограничение квоты в маркерах в минуту (TPM)
Azure для учащихся, бесплатные пробные версии 1 K (все модели)
Подписки MSDN GPT 3.5 Turbo Series: 30 K
Серия GPT-4: 8 K
Ежемесячные подписки на основе кредитной карты 1 GPT 3.5 Turbo Series: 30 K
Серия GPT-4: 8 K

1 Это применимо к типу предложения 0003P

В портал Azure вы можете просмотреть тип предложения, связанный с подпиской, перейдя к подписке и проверив панель обзора подписок. Тип предложения соответствует полю плана в обзоре подписки.

Общие рекомендации по остаться в пределах ограничений скорости

Чтобы свести к минимуму проблемы, связанные с ограничениями скорости, рекомендуется использовать следующие методы:

  • Реализуйте в приложении логику повторных попыток.
  • Избегайте внесения резких изменений в рабочую нагрузку. Увеличивайте рабочую нагрузку постепенно.
  • Протестируйте различные шаблоны увеличения нагрузки.
  • Увеличьте квоту, назначенную развертыванию. При необходимости переместите квоту из другого развертывания.

Как запросить увеличение квот и ограничений по умолчанию

Запросы на увеличение квот можно отправить на странице "Квоты " в Azure OpenAI Studio. Обратите внимание, что из-за подавляющего спроса запросы на увеличение квот принимаются и будут заполнены в порядке их получения. Приоритет будет предоставлен клиентам, которые создают трафик, который потребляет существующее выделение квот, и ваш запрос может быть отклонен, если это условие не выполнено.

Для других ограничений скорости отправьте запрос на обслуживание.

Следующие шаги

Узнайте, как управлять квотой для развертываний Azure OpenAI. Ознакомьтесь с дополнительными сведениями о базовых моделях, лежащих в основе Azure OpenAI.