Примечание
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
В этой статье содержится краткий справочник и подробное описание квот и ограничений для Azure OpenAI.
Справочник по квотам и ограничениям
В следующих разделах приведены краткие инструкции по квотам по умолчанию и ограничениям, которые применяются к Azure OpenAI:
Название ограничения | Значение ограничения |
---|---|
Ресурсы Azure OpenAI для каждого региона на каждой подписке Azure | 30 |
Лимиты квоты DALL-E 2 по умолчанию | 2 параллельных запроса |
Стандартные ограничения квоты DALL-E 3 | 2 единицы емкости (6 запросов в минуту) |
Ограничения квоты GPT-image-1 по умолчанию | 2 единицы емкости (6 запросов в минуту) |
Ограничения квоты Sora по умолчанию | 60 запросов в минуту |
Ограничения квоты API преобразования речи в текст по умолчанию | 3 запроса в минуту |
Максимальное количество подсказочных токенов на один запрос | Зависит от модели. Дополнительные сведения см. в моделях Azure OpenAI |
Максимальное количество развертываний уровня "Стандартный" для каждого ресурса | 32 |
Максимальное число развертываний тонко настроенной модели | 5 |
Общее количество заданий обучения на каждый ресурс | 100 |
Максимальное количество одновременных обучающих заданий на один ресурс | 1 |
Максимальное число обучающих задач в очереди | 20 |
Максимальное количество файлов на ресурс (настройка) | 50 |
Общий размер всех файлов на ресурс (тонкая настройка) | 1 ГБ |
Максимальное время задания обучения (задание завершится ошибкой, если оно будет превышено) | 720 часов |
Максимальный размер задачи обучения (количество токенов в тренировочном файле) умножить на (число эпох) | 2 млрд |
Максимальный размер всех файлов на загрузку (Azure OpenAI с вашими данными) | 16 МБ |
Максимальное количество входных данных в массиве с /embeddings |
2048 |
Максимальное /chat/completions количество сообщений |
2048 |
Максимальное /chat/completions число функций |
128 |
Максимальное /chat completions количество инструментов |
128 |
Максимальное количество единиц подготовленной пропускной способности на развертывание | 100 000 |
Максимальное количество файлов на помощника и поток | 10 000 при использовании API или портала Azure AI Foundry. |
Максимальный размер файла для Помощников и тонкой настройки | 512 МБ 200 МБ с помощью портала Azure AI Foundry |
Максимальный размер всех отправленных файлов для помощников | 200 ГБ |
Ограничение на токенов ассистентов | 2 000 000 токенов |
GPT-4o и GPT-4.1 максимальное количество изображений на запрос (количество изображений в массиве сообщений или истории беседы) | 50 |
Максимальные токены по умолчанию GPT-4 vision-preview и GPT-4 turbo-2024-04-09 |
16 max_tokens Увеличьте значение параметра, чтобы избежать усеченных ответов. По умолчанию максимальное количество токенов для GPT-4o — 4096. |
Максимальное число пользовательских заголовков в запросах API1 | 10 |
Ограничение символов сообщения | 1048576 |
Размер сообщения для звуковых файлов | 20 МБ |
1 Наши текущие API позволяют до 10 пользовательских заголовков, которые передаются через конвейер и возвращаются. Некоторые клиенты теперь превышают это число заголовков, что приводит к ошибкам HTTP 431. Для этой ошибки нет решения, кроме уменьшения размера заголовка. В будущих версиях API мы перестанем передавать пользовательские заголовки. Мы рекомендуем клиентам не зависеть от настраиваемых заголовков в будущих системных архитектурах.
Замечание
Ограничения квоты могут быть изменены.
Лимиты на партии
Название ограничения | Значение ограничения |
---|---|
Максимальное количество файлов на ресурс | 500 |
Максимальный размер входного файла | 200 МБ |
Максимальное количество запросов на файл | 100 000 |
Квота на пакетную обработку
В таблице показан предел квоты партии. Значения квот для глобального пакета представлены в виде поставленных в очередь токенов. При отправке файла для пакетной обработки количество маркеров, присутствующих в файле, учитывается. До тех пор, пока пакетное задание не достигнет терминального состояния, эти токены будут учитываться против вашего общего лимита на очередь токенов.
Глобальная партия
Модель | Соглашение Enterprise | По умолчанию | Ежемесячные подписки на основе кредитной карты | Подписки MSDN | Azure для учащихся, бесплатные пробные версии |
---|---|---|---|---|---|
gpt-4.1 |
5 B | 200 М | 50 М | 90 K | Не применимо |
gpt-4.1 mini |
15B | 1 млрд | 50 млн | 90k | Не применимо |
gpt-4.1-nano |
15 B | 1 B | 50 М | 90 K | Не применимо |
gpt-4o |
5 B | 200 М | 50 М | 90 K | Не применимо |
gpt-4o-mini |
15 B | 1 B | 50 М | 90 K | Не применимо |
gpt-4-turbo |
300 М | 80 М | 40 М | 90 K | Не применимо |
gpt-4 |
150 М | 30 М | 5 М | 100 К | Не применимо |
gpt-35-turbo |
10 B | 1 B | 100 М | 2 млн | 50 К |
o3-mini |
15 B | 1 B | 50 М | 90 K | Не применимо |
o4-mini |
15 B | 1 B | 50 М | 90 K | Не применимо |
B = миллиард | M = миллион | K = тысяча
Пакет зоны данных
Модель | Соглашение Enterprise | По умолчанию | Ежемесячные подписки на основе кредитной карты | Подписки MSDN | Azure для учащихся, бесплатные пробные версии |
---|---|---|---|---|---|
gpt-4.1 |
500 М | 30 М | 30 М | 90 K | Не применимо |
gpt-4.1-mini |
1.5 B | 100 М | 50 М | 90 K | Не применимо |
gpt-4o |
500 М | 30 М | 30 М | 90 K | Не применимо |
gpt-4o-mini |
1.5 B | 100 М | 50 М | 90 K | Не применимо |
o3-mini |
1.5 B | 100 М | 50 М | 90 K | Не применимо |
Ограничения скорости GPT-4
GPT-4.5 предварительная версия глобального стандарта
Модель | Тир | Ограничение квоты в токенах в минуту (TPM) | Число запросов в минуту |
---|---|---|---|
gpt-4.5 |
Корпоративный уровень | 200 K | 200 |
gpt-4.5 |
По умолчанию | 150 K | сто пятьдесят |
Глобальный стандарт GPT-4.1
Модель | Тир | Ограничение квоты в токенах в минуту (TPM) | Число запросов в минуту |
---|---|---|---|
gpt-4.1 (2025-04-14) |
Корпоративный уровень | 5 М | 5 км |
gpt-4.1 (2025-04-14) |
По умолчанию | 1 млн | 1 К |
gpt-4.1-nano (2025-04-14) |
Корпоративный уровень | 150 М | 150 K |
gpt-4.1-nano (2025-04-14) |
По умолчанию | 5 М | 5 км |
gpt-4.1-mini (2025-04-14) |
Корпоративный уровень | 150 М | 150 K |
gpt-4.1-mini (2025-04-14) |
По умолчанию | 5 М | 5 км |
Стандарт зоны данных серии GPT-4.1
Модель | Тир | Ограничение квоты в токенах в минуту (TPM) | Число запросов в минуту |
---|---|---|---|
gpt-4.1 (2025-04-14) |
Корпоративный уровень | 2 млн | 2 К |
gpt-4.1 (2025-04-14) |
По умолчанию | 300 К | 300 |
gpt-4.1-nano (2025-04-14) |
Корпоративный уровень | 50 М | 50 К |
gpt-4.1-nano (2025-04-14) |
По умолчанию | 2 млн | 2 К |
gpt-4.1-mini (2025-04-14) |
Корпоративный уровень | 50 М | 50 К |
gpt-4.1-mini (2025-04-14) |
По умолчанию | 2 млн | 2 К |
GPT-4 Turbo
gpt-4
(turbo-2024-04-09
) имеет уровни ограничений скорости с более высокими ограничениями для определенных типов клиентов.
Модель | Тир | Ограничение квоты в токенах в минуту (TPM) | Число запросов в минуту |
---|---|---|---|
gpt-4 (turbo-2024-04-09) |
Соглашение Enterprise | 2 млн | 12 К |
gpt-4 (turbo-2024-04-09) |
По умолчанию | 450 K | 2,7 K |
Ограничения скорости маршрутизатора модели
Модель | Тир | Ограничение квоты в токенах в минуту (TPM) | Число запросов в минуту |
---|---|---|---|
model-router (2025-05-19) |
Корпоративный уровень | 10 М | 10 тыс. |
model-router (2025-05-19) |
По умолчанию | 1 млн | 1 К |
Ограничения глобальной стандартной скорости для предварительного просмотра использования компьютера
Модель | Тир | Ограничение квоты в токенах в минуту (TPM) | Число запросов в минуту |
---|---|---|---|
computer-use-preview |
Корпоративный уровень | 30 М | 300 К |
computer-use-preview |
По умолчанию | 450 K | 4.5 K |
Ограничения частоты o-рядов
Это важно
Соотношение запросов в минуту (RPM) к токенам в минуту (TPM) для квоты может варьироваться в зависимости от модели. При программном развертывании модели или запросе увеличения квоты у вас нет детализированного контроля над TPM и RPM в качестве независимых значений. Квота выделяется в единицах емкости, которые имеют соответствующие показатели RPM и TPM.
Модель | Вместимость | Запросы в минуту (RPM) | Токены за минуту (TPM) |
---|---|---|---|
Старые модели чата: | 1 урок | 6 об/мин | 1 000 TPM |
o1 и o1-preview: | 1 урок | 1 об/мин | 6000 TPM |
o3 | 1 урок | 1 об/мин | 1 000 TPM |
o4-mini | 1 урок | 1 об/мин | 1 000 TPM |
o3-mini: | 1 урок | 1 об/мин | 10 000 TPM |
o1-mini: | 1 урок | 1 об/мин | 10 000 TPM |
o3-pro: | 1 урок | 1 об/мин | 10 000 TPM |
Это особенно важно для развертывания программной модели, так как изменения в соотношении RPM/TPM могут привести к случайному неправильному расположению квоты.
глобальный стандарт o-серии
Модель | Тир | Ограничение квоты в токенах в минуту (TPM) | Число запросов в минуту |
---|---|---|---|
codex-mini |
Соглашение Enterprise | 10 М | 10 тыс. |
o3-pro |
Соглашение Enterprise | 16 М | 1.6 K |
o4-mini |
Соглашение Enterprise | 10 М | 10 тыс. |
o3 |
Соглашение Enterprise | 10 М | 10 тыс. |
o3-mini |
Соглашение Enterprise | 50 М | 5 км |
o1 & o1-preview |
Соглашение Enterprise | 30 М | 5 км |
o1-mini |
Соглашение Enterprise | 50 М | 5 км |
codex-mini |
По умолчанию | 1 млн | 1 К |
o3-pro |
По умолчанию | 1,6 М | 160 |
o4-mini |
По умолчанию | 1 млн | 1 К |
o3 |
По умолчанию | 1 млн | 1 К |
o3-mini |
По умолчанию | 5 М | 500 |
o1 & o1-preview |
По умолчанию | 3 М | 500 |
o1-mini |
По умолчанию | 5 М | 500 |
Стандарт зоны данных o-серии
Модель | Тир | Ограничение квоты в токенах в минуту (TPM) | Число запросов в минуту |
---|---|---|---|
o3-mini |
Соглашение Enterprise | 20 млн. | 2 К |
o3-mini |
По умолчанию | 2 млн | 200 |
o1 |
Соглашение Enterprise | 6 М | 1 К |
o1 |
По умолчанию | 600 K | 100 |
o1-preview и o1-mini standard
Модель | Тир | Ограничение квоты в токенах в минуту (TPM) | Число запросов в минуту |
---|---|---|---|
o1-preview |
Соглашение Enterprise | 600 K | 100 |
o1-mini |
Соглашение Enterprise | 1 млн | 100 |
o1-preview |
По умолчанию | 300 К | 50 |
o1-mini |
По умолчанию | 500 K | 50 |
Ограничения скорости gpt-4o
gpt-4o
и gpt-4o-mini
имеют уровни ограничений скорости с более высокими ограничениями для определенных типов клиентов.
gpt-4o global standard
Модель | Тир | Ограничение квоты в токенах в минуту (TPM) | Число запросов в минуту |
---|---|---|---|
gpt-4o |
Соглашение Enterprise | 30 М | 180 К |
gpt-4o-mini |
Соглашение Enterprise | 50 М | 300 К |
gpt-4o |
По умолчанию | 450 K | 2,7 K |
gpt-4o-mini |
По умолчанию | 2 млн | 12 К |
M = миллион | K = тысяча
Стандарт зоны данных gpt-4o
Модель | Тир | Ограничение квоты в токенах в минуту (TPM) | Число запросов в минуту |
---|---|---|---|
gpt-4o |
Соглашение Enterprise | 10 М | 60 км |
gpt-4o-mini |
Соглашение Enterprise | 20 млн. | 120 К |
gpt-4o |
По умолчанию | 300 К | 1.8 K |
gpt-4o-mini |
По умолчанию | 1 млн | 6 K |
M = миллион | K = тысяча
gpt-4o standard
Модель | Тир | Ограничение квоты в токенах в минуту (TPM) | Число запросов в минуту |
---|---|---|---|
gpt-4o |
Соглашение Enterprise | 1 млн | 6 K |
gpt-4o-mini |
Соглашение Enterprise | 2 млн | 12 К |
gpt-4o |
По умолчанию | 150 K | 900 |
gpt-4o-mini |
По умолчанию | 450 K | 2,7 K |
M = миллион | K = тысяча
звук gpt-4o
Ограничения скорости для каждого gpt-4o
развертывания звуковой модели — 100 K TPM и 1 K RPM. Во время предварительной версии портал Azure AI Foundry и API могут отображать неточные ограничения скорости. Даже если вы пытаетесь установить другой предел скорости, фактический предел скорости составляет 100 K TPM и 1 K RPM.
Модель | Тир | Ограничение квоты в токенах в минуту (TPM) | Число запросов в минуту |
---|---|---|---|
gpt-4o-audio-preview |
По умолчанию | 450 K | 1 К |
gpt-4o-realtime-preview |
По умолчанию | 800 К | 1 К |
gpt-4o-mini-audio-preview |
По умолчанию | 2 млн | 1 К |
gpt-4o-mini-realtime-preview |
По умолчанию | 800 К | 1 К |
M = миллион | K = тысяча
Ограничения скорости для "GPT-image-1"
GPT0-image-1 глобальный стандарт
Модель | Тир | Ограничение квоты в токенах в минуту (TPM) | Число запросов в минуту |
---|---|---|---|
gpt-image-1 |
Соглашение Enterprise | Не применимо | 20 |
gpt-image-1 |
По умолчанию | Не применимо | 6 |
Уровни использования
Глобальные стандартные развертывания используют глобальную инфраструктуру Azure, динамически маршрутизируя трафик клиентов в центр обработки данных с наилучшей доступностью для запросов на вывод. Аналогичным образом развертывания зоны данных уровня "Стандартный" позволяют использовать глобальную инфраструктуру Azure для динамического маршрутизации трафика в центр обработки данных в пределах определенной корпорацией Майкрософт зоны данных с оптимальной доступностью для каждого запроса. Это обеспечивает более согласованную задержку для клиентов с низким до среднего уровня трафика. Клиенты с высоким уровнем устойчивого использования могут видеть большую вариативность в задержке ответа.
Ограничение использования задает порог, выше которого клиенты могут наблюдать значительную вариабельность в задержке ответа. Использование клиента рассчитывается для каждой модели и представляет собой общее количество токенов, потребленных через все развертывания, подписки и регионы для данного арендатора.
Замечание
Уровни использования применяются только к стандартным типам развертывания, стандартной зоне данных и глобальным стандартным типам развертывания. Уровни использования не применяются к глобальным пакетным и предоставленным развертываниям с пропускной способностью.
Глобальный стандарт, стандарт зоны хранения данных и стандарт
Модель | Категории использования в месяц |
---|---|
gpt-4
+
gpt-4-32k (все версии) |
6 миллиардов токенов |
gpt-4o |
12 миллиардов токенов |
gpt-4o-mini |
85 миллиардов токенов |
o3-mini |
50 миллиардов токенов |
o1 |
4 миллиарда токенов |
o4-mini |
50 миллиардов токенов |
o3 |
5 миллиардов токенов |
gpt-4.1 |
30 миллиардов токенов |
gpt-4.1-mini |
150 миллиардов токенов |
gpt-4.1-nano |
550 миллиардов токенов |
Другие типы предложений
Если подписка Azure связана с определенными типами предложений, максимальные значения квоты ниже значений, указанных в приведенных выше таблицах.
Тир | Ограничение квоты в токенах в минуту (TPM) |
---|---|
Azure for Students |
1 K (все модели) Exception o-series & GPT-4.1 & GPT 4.5 Предварительный просмотр: 0 |
MSDN |
GPT-4o-mini: 200 K Серия GPT 3.5 Turbo: 200 K Серия GPT-4: 50 K предпросмотр использования компьютера: 8 КБ gpt-4o-realtime-preview: 1 К o-серия: 0 GPT 4.5 Предварительный просмотр: 0 GPT-4.1: 50 K GPT-4.1-nano: 200 K |
Standard |
GPT-4o-mini: 200 K Серия GPT 3.5 Turbo: 200 K Серия GPT-4: 50 K предварительный просмотр использования компьютера: 30 K o-серия: 0 GPT 4.5 Предварительный просмотр: 0 GPT-4.1: 50 K GPT-4.1-nano: 200 K |
Azure_MS-AZR-0111P Azure_MS-AZR-0035P Azure_MS-AZR-0025P Azure_MS-AZR-0052P |
GPT-4o-mini: 200 K Серия GPT 3.5 Turbo: 200 K Серия GPT-4: 50 K |
CSP Integration Sandbox
*
|
Все модели: 0 |
Lightweight trial Free Trials Azure Pass |
Все модели: 0 |
*Это применимо только к небольшому числу устаревших подписок CSP в песочнице. Используйте следующий запрос, чтобы определить, что quotaId
связано с вашей подпиской.
Чтобы определить тип предложения, связанный с подпиской, можно проверить ваш quotaId
. Если ваша quotaId
подписка не указана в этой таблице, ваша подписка имеет квоту по умолчанию.
az login
access_token=$(az account get-access-token --query accessToken -o tsv)
curl -X GET "https://management.azure.com/subscriptions/{subscriptionId}?api-version=2020-01-01" \
-H "Authorization: Bearer $access_token" \
-H "Content-Type: application/json"
Выходные данные
{
"authorizationSource": "Legacy",
"displayName": "Pay-As-You-Go",
"id": "/subscriptions/aaaaaa-bbbbb-cccc-ddddd-eeeeee",
"state": "Enabled",
"subscriptionId": "aaaaaa-bbbbb-cccc-ddddd-eeeeee",
"subscriptionPolicies": {
"locationPlacementId": "Public_2014-09-01",
"quotaId": "PayAsYouGo_2014-09-01",
"spendingLimit": "Off"
}
}
Распределение квот/Тип предложения | Идентификатор квоты подписки |
---|---|
Предприятие | EnterpriseAgreement_2014-09-01 |
Оплата по мере использования | PayAsYouGo_2014-09-01 |
MSDN | MSDN_2014-09-01 |
Интеграционная песочница CSP | CSPDEVTEST_2018-05-01 |
Azure для учащихся | AzureForStudents_2018-01-01 |
Пробная версия | FreeTrial_2014-09-01 |
Azure Pass | AzurePass_2014-09-01 |
Azure_MS-AZR-0111P | AzureInOpen_2014-09-01 |
Azure_MS-AZR-0150P | LightweightTrial_2016-09-01 |
Azure_MS-AZR-0035P Azure_MS-AZR-0025P Azure_MS-AZR-0052P |
MPN_2014-09-01 |
Azure_MS-AZR-0023P Azure_MS-AZR-0060P Azure_MS-AZR-0148P Azure_MS-AZR-0148G |
MSDNDevTest_2014-09-01 |
По умолчанию | Любой идентификатор квоты, не указанный в этой таблице. |
Основные передовые методы, чтобы оставаться в пределах лимитов скорости
Чтобы свести к минимуму проблемы, связанные с ограничениями скорости, рекомендуется использовать следующие методы:
- Реализуйте в приложении логику повторных попыток.
- Избегайте внесения резких изменений в рабочую нагрузку. Увеличивайте рабочую нагрузку постепенно.
- Протестируйте различные шаблоны увеличения нагрузки.
- Увеличьте назначенную вашему развертыванию квоту. При необходимости переместите квоту из другого развертывания.
Как запросить увеличение квоты
Запросы на увеличение квоты можно отправить с помощью формы запроса на увеличение квоты. Из-за высокого спроса запросы на увеличение квот принимаются и заполняются в том порядке, в который они получены. Приоритет предоставляется клиентам, которые создают трафик, который потребляет существующее выделение квот, и ваш запрос может быть отклонен, если это условие не выполнено.
Для других ограничений скорости отправьте запрос на обслуживание.
Ограничения ёмкости региональной квоты
Вы можете просматривать доступность квоты по регионам для вашей подписки в портале Azure AI Foundry.
Или же, чтобы увидеть емкость квоты по регионам для конкретной модели/версии, вы можете сделать запрос через capacity API для своей подписки. Укажите subscriptionId
, model_name
, и model_version
, и API вернёт доступную емкость для этой модели во всех регионах и типах развертывания вашей подписки.
Замечание
В настоящее время как портал Azure AI Foundry, так и API предоставления емкости возвращают сведения о квоте и емкости для моделей, которые вышедшие из эксплуатации и больше не доступны.
import requests
import json
from azure.identity import DefaultAzureCredential
subscriptionId = "Replace with your subscription ID" #replace with your subscription ID
model_name = "gpt-4o" # Example value, replace with model name
model_version = "2024-08-06" # Example value, replace with model version
token_credential = DefaultAzureCredential()
token = token_credential.get_token('https://management.azure.com/.default')
headers = {'Authorization': 'Bearer ' + token.token}
url = f"https://management.azure.com/subscriptions/{subscriptionId}/providers/Microsoft.CognitiveServices/modelCapacities"
params = {
"api-version": "2024-06-01-preview",
"modelFormat": "OpenAI",
"modelName": model_name,
"modelVersion": model_version
}
response = requests.get(url, params=params, headers=headers)
model_capacity = response.json()
print(json.dumps(model_capacity, indent=2))
Дальнейшие шаги
Узнайте, как управлять квотой для развертываний Azure OpenAI. Ознакомьтесь с дополнительными сведениями о базовых моделях, лежащих в основе Azure OpenAI.