Квоты и ограничения службы Azure OpenAI
В этой статье содержится краткий справочник и подробное описание квот и ограничений для Azure OpenAI в службах ИИ Azure.
Справочник по квотам и ограничениям
В следующих разделах приведены краткие инструкции по квотам по умолчанию и ограничениям, которые применяются к Azure OpenAI:
Имя ограничения | Значение ограничения |
---|---|
Ресурсы OpenAI для каждого региона на подписку Azure | 30 |
Ограничения квоты DALL-E 2 по умолчанию | 2 параллельных запроса |
Ограничения квоты DALL-E по умолчанию | 2 единицы емкости (6 запросов в минуту) |
Ограничения квоты Whisper по умолчанию | 3 запроса в минуту |
Максимальное количество маркеров запроса на запрос | Зависит от модели. Дополнительные сведения см. в разделе "Модели службы Azure OpenAI" |
Максимальное число развертываний модели точной настройки | 5 |
Общее количество заданий обучения на ресурс | 100 |
Максимальное число одновременных заданий обучения на ресурс | 1 |
Максимальное число заданий обучения в очереди | 20 |
Максимальное количество файлов на ресурс (настройка) | 50 |
Общий размер всех файлов на ресурс (точная настройка) | 1 ГБ |
Максимальное время задания обучения (задание завершится ошибкой при превышении) | 720 часов |
Максимальный размер задания обучения (токены в файле обучения) x (# эпохи) | 2 млрд |
Максимальный размер всех файлов на отправку (Azure OpenAI в данных) | 16 МБ |
Максимальное число или входные данные в массиве с /embeddings |
2048 |
Максимальное /chat/completions количество сообщений |
2048 |
Максимальное /chat/completions число функций |
128 |
Максимальное /chat completions количество инструментов |
128 |
Максимальное количество единиц подготовленной пропускной способности на развертывание | 100,000 |
Максимальное количество файлов на помощника или потока | 20 |
Максимальный размер файла для помощников и точной настройки | 512 МБ |
Ограничение маркера помощников | 2 000 000 маркеров |
GPT-4o max images per request (#of images in the messages array/conversation history) | 10 |
Максимальные токены GPT-4 vision-preview и GPT-4 turbo-2024-04-09 |
16 max_tokens Увеличьте значение параметра, чтобы избежать усеченных ответов. Максимальные маркеры GPT-4o по умолчанию — 4096. |
Ограничения региональной квоты
Область/регион | GPT-4 | GPT-4-32K | GPT-4-Turbo | GPT-4-Turbo-V | gpt-4o | gpt-4o — GlobalStandard | GPT-35-Turbo | GPT-35-Turbo-Instruct | Text-Embedding-Ada-002 | text-embedding-3-small | text-embedding-3-large | Babbage-002 | Babbage-002 - finetune | Davinci-002 | Davinci-002 - finetune | GPT-35-Turbo - finetune | GPT-35-Turbo-1106 - finetune | GPT-35-Turbo-0125 - finetune | GPT-4 — finetune |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
australiaeast | 40 тыс. | 80 K | 80 K | 30 K | - | - | 300 K | - | 350 K | - | - | - | - | - | - | - | - | - | - |
brazilsouth | - | - | - | - | - | - | - | - | 350 K | - | - | - | - | - | - | - | - | - | - |
canadaeast | 40 тыс. | 80 K | 80 K | - | - | - | 300 K | - | 350 K | 350 K | 350 K | - | - | - | - | - | - | - | - |
eastus | - | - | 80 K | - | 150 K 1 млн |
450 K 10 М |
240 K | 240 K | 240 K | 350 K | 350 K | - | - | - | - | - | - | - | - |
eastus2 | - | - | 80 K | - | 150 K 1 млн |
450 K 10 М |
300 K | - | 350 K | 350 K | 350 K | - | - | - | - | 250 K | 250 K | 250 K | - |
francecentral | 20 тыс. | 60 K | 80 K | - | - | - | 240 K | - | 240 K | - | 350 K | - | - | - | - | - | - | - | - |
japaneast | - | - | - | 30 K | - | - | 300 K | - | 350 K | - | 350 K | - | - | - | - | - | - | - | - |
northcentralus | - | - | 80 K | - | 150 K 1 млн |
450 K 10 М |
300 K | - | 350 K | - | - | 240 K | 250 K | 240 K | 250 K | 250 K | 250 K | 250 K | 100 тыс. |
norwayeast | - | - | 150 K | - | - | - | - | - | 350 K | - | - | - | - | - | - | - | - | - | - |
southafricanorth | - | - | - | - | - | - | - | - | 350 K | - | - | - | - | - | - | - | - | - | - |
southcentralus | - | - | 80 K | - | 150 K 1 млн |
450 K 10 М |
240 K | - | 240 K | - | - | - | - | - | - | - | - | - | - |
southindia | - | - | 150 K | - | - | - | 300 K | - | 350 K | - | 350 K | - | - | - | - | - | - | - | - |
swedencentral | 40 тыс. | 80 K | 150 K | 30 K | 150 K 1 млн |
- | 300 K | 240 K | 350 K | - | 350 K | 240 K | 250 K | 240 K | 250 K | 250 K | 250 K | 250 K | 100 тыс. |
switzerlandnorth | 40 тыс. | 80 K | - | 30 K | - | - | 300 K | - | 350 K | - | - | - | - | - | - | - | - | - | - |
switzerlandwest | - | - | - | - | - | - | - | - | - | - | - | - | 250 K | - | 250 K | 250 K | 250 K | 250 K | - |
uksouth | - | - | 80 K | - | - | - | 240 K | - | 350 K | - | 350 K | - | - | - | - | - | - | - | - |
westeurope | - | - | - | - | - | - | 240 K | - | 240 K | - | - | - | - | - | - | - | - | - | - |
westus | - | - | 80 K | 30 K | 150 K 1 млн |
450 K 10 М |
300 K | - | 350 K | - | - | - | - | - | - | - | - | - | - |
westus3 | - | - | 80 K | - | 150 K 1 млн |
450 K 10 М |
- | - | 350 K | - | 350 K | - | - | - | - | - | - | - | - |
Ограничения скорости gpt-4o
gpt-4o
предоставляет уровни ограничения скорости с более высокими ограничениями для определенных типов клиентов.
gpt-4o global standard
Уровень | Ограничение квоты в маркерах в минуту (TPM) | Число запросов в минуту |
---|---|---|
Соглашение Enterprise | 10 М | 60 K |
По умолчанию. | 450 K | 2.7 K |
M = миллион | K = тысяча
gpt-4o standard
Уровень | Ограничение квоты в маркерах в минуту (TPM) | Число запросов в минуту |
---|---|---|
Соглашение Enterprise | 1 млн | 6 тыс. |
По умолчанию. | 150 K | 900 |
M = миллион | K = тысяча
Уровни использования
Развертывания Global Standard используют глобальную инфраструктуру Azure, динамически маршрутизацию трафика клиентов в центр обработки данных с наилучшей доступностью для запросов вывода клиента. Это обеспечивает более согласованную задержку для клиентов с низким до среднего уровня трафика. Клиенты с высоким уровнем устойчивого использования могут видеть более изменчивость в задержке ответа.
Ограничение использования определяет уровень использования выше, чем клиенты могут видеть большую вариативность в задержке ответа. Использование клиента определяется для каждой модели и является общими маркерами, используемыми во всех развертываниях во всех подписках во всех регионах для данного клиента.
GPT-4o глобальный стандарт и стандарт
Модель | Уровни использования в месяц |
---|---|
GPT-4o |
1,5 млрд токенов |
Другие типы предложений
Если подписка Azure связана с определенными типами предложений, максимальные значения квоты ниже значений, указанных в приведенных выше таблицах.
Уровень | Ограничение квоты в маркерах в минуту (TPM) |
---|---|
Azure для учащихся, бесплатные пробные версии | 1 K (все модели) |
Подписки MSDN | GPT 3.5 Turbo Series: 30 K Серия GPT-4: 8 K |
Ежемесячные подписки на основе кредитной карты 1 | GPT 3.5 Turbo Series: 30 K Серия GPT-4: 8 K |
1 Это применимо к типу предложения 0003P
В портал Azure вы можете просмотреть тип предложения, связанный с подпиской, перейдя к подписке и проверив панель обзора подписок. Тип предложения соответствует полю плана в обзоре подписки.
Общие рекомендации по остаться в пределах ограничений скорости
Чтобы свести к минимуму проблемы, связанные с ограничениями скорости, рекомендуется использовать следующие методы:
- Реализуйте в приложении логику повторных попыток.
- Избегайте внесения резких изменений в рабочую нагрузку. Увеличивайте рабочую нагрузку постепенно.
- Протестируйте различные шаблоны увеличения нагрузки.
- Увеличьте квоту, назначенную развертыванию. При необходимости переместите квоту из другого развертывания.
Как запросить увеличение квот и ограничений по умолчанию
Запросы на увеличение квот можно отправить на странице "Квоты " в Azure OpenAI Studio. Обратите внимание, что из-за подавляющего спроса запросы на увеличение квот принимаются и будут заполнены в том порядке, в который они получены. Приоритет будет предоставлен клиентам, которые создают трафик, который потребляет существующее выделение квот, и ваш запрос может быть отклонен, если это условие не выполнено.
Для других ограничений скорости отправьте запрос на обслуживание.
Следующие шаги
Узнайте, как управлять квотой для развертываний Azure OpenAI. Ознакомьтесь с дополнительными сведениями о базовых моделях, лежащих в основе Azure OpenAI.
Обратная связь
https://aka.ms/ContentUserFeedback.
Ожидается в ближайшее время: в течение 2024 года мы постепенно откажемся от GitHub Issues как механизма обратной связи для контента и заменим его новой системой обратной связи. Дополнительные сведения см. в разделеОтправить и просмотреть отзыв по