Квоты и ограничения моделей Azure OpenAI в Azure AI Foundry

2025-07-02

В этой статье содержится краткий справочник и подробное описание квот и ограничений для Azure OpenAI.

Справочник по квотам и ограничениям

В следующих разделах приведены краткие инструкции по квотам по умолчанию и ограничениям, которые применяются к Azure OpenAI:

Название ограничения	Значение ограничения
Ресурсы Azure OpenAI для каждого региона на каждой подписке Azure	30
Лимиты квоты DALL-E 2 по умолчанию	2 параллельных запроса
Стандартные ограничения квоты DALL-E 3	2 единицы емкости (6 запросов в минуту)
Ограничения квоты GPT-image-1 по умолчанию	2 единицы емкости (6 запросов в минуту)
Ограничения квоты Sora по умолчанию	60 запросов в минуту
Ограничения квоты API преобразования речи в текст по умолчанию	3 запроса в минуту
Максимальное количество подсказочных токенов на один запрос	Зависит от модели. Дополнительные сведения см. в моделях Azure OpenAI
Максимальное количество развертываний уровня "Стандартный" для каждого ресурса	32
Максимальное число развертываний тонко настроенной модели	5
Общее количество заданий обучения на каждый ресурс	100
Максимальное количество одновременных обучающих заданий на один ресурс	1
Максимальное число обучающих задач в очереди	20
Максимальное количество файлов на ресурс (настройка)	50
Общий размер всех файлов на ресурс (тонкая настройка)	1 ГБ
Максимальное время задания обучения (задание завершится ошибкой, если оно будет превышено)	720 часов
Максимальный размер задачи обучения (количество токенов в тренировочном файле) умножить на (число эпох)	2 млрд
Максимальный размер всех файлов на загрузку (Azure OpenAI с вашими данными)	16 МБ
Максимальное количество входных данных в массиве с `/embeddings`	2048
Максимальное `/chat/completions` количество сообщений	2048
Максимальное `/chat/completions` число функций	128
Максимальное `/chat completions` количество инструментов	128
Максимальное количество единиц подготовленной пропускной способности на развертывание	100 000
Максимальное количество файлов на помощника и поток	10 000 при использовании API или портала Azure AI Foundry.
Максимальный размер файла для Помощников и тонкой настройки	512 МБ 200 МБ с помощью портала Azure AI Foundry
Максимальный размер всех отправленных файлов для помощников	200 ГБ
Ограничение на токенов ассистентов	2 000 000 токенов
GPT-4o и GPT-4.1 максимальное количество изображений на запрос (количество изображений в массиве сообщений или истории беседы)	50
Максимальные токены по умолчанию GPT-4 `vision-preview` и GPT-4 `turbo-2024-04-09`	16 `max_tokens` Увеличьте значение параметра, чтобы избежать усеченных ответов. По умолчанию максимальное количество токенов для GPT-4o — 4096.
Максимальное число пользовательских заголовков в запросах API¹	10
Ограничение символов сообщения	1048576
Размер сообщения для звуковых файлов	20 МБ

¹ Наши текущие API позволяют до 10 пользовательских заголовков, которые передаются через конвейер и возвращаются. Некоторые клиенты теперь превышают это число заголовков, что приводит к ошибкам HTTP 431. Для этой ошибки нет решения, кроме уменьшения размера заголовка. В будущих версиях API мы перестанем передавать пользовательские заголовки. Мы рекомендуем клиентам не зависеть от настраиваемых заголовков в будущих системных архитектурах.

Замечание

Ограничения квоты могут быть изменены.

Лимиты на партии

Название ограничения	Значение ограничения
Максимальное количество файлов на ресурс	500
Максимальный размер входного файла	200 МБ
Максимальное количество запросов на файл	100 000

Квота на пакетную обработку

В таблице показан предел квоты партии. Значения квот для глобального пакета представлены в виде поставленных в очередь токенов. При отправке файла для пакетной обработки количество маркеров, присутствующих в файле, учитывается. До тех пор, пока пакетное задание не достигнет терминального состояния, эти токены будут учитываться против вашего общего лимита на очередь токенов.

Глобальная партия

Модель	Соглашение Enterprise	По умолчанию	Ежемесячные подписки на основе кредитной карты	Подписки MSDN	Azure для учащихся, бесплатные пробные версии
`gpt-4.1`	5 B	200 М	50 М	90 K	Не применимо
`gpt-4.1 mini`	15B	1 млрд	50 млн	90k	Не применимо
`gpt-4.1-nano`	15 B	1 B	50 М	90 K	Не применимо
`gpt-4o`	5 B	200 М	50 М	90 K	Не применимо
`gpt-4o-mini`	15 B	1 B	50 М	90 K	Не применимо
`gpt-4-turbo`	300 М	80 М	40 М	90 K	Не применимо
`gpt-4`	150 М	30 М	5 М	100 К	Не применимо
`gpt-35-turbo`	10 B	1 B	100 М	2 млн	50 К
`o3-mini`	15 B	1 B	50 М	90 K	Не применимо
`o4-mini`	15 B	1 B	50 М	90 K	Не применимо

B = миллиард | M = миллион | K = тысяча

Пакет зоны данных

Модель	Соглашение Enterprise	По умолчанию	Ежемесячные подписки на основе кредитной карты	Подписки MSDN	Azure для учащихся, бесплатные пробные версии
`gpt-4.1`	500 М	30 М	30 М	90 K	Не применимо
`gpt-4.1-mini`	1.5 B	100 М	50 М	90 K	Не применимо
`gpt-4o`	500 М	30 М	30 М	90 K	Не применимо
`gpt-4o-mini`	1.5 B	100 М	50 М	90 K	Не применимо
`o3-mini`	1.5 B	100 М	50 М	90 K	Не применимо

Ограничения скорости GPT-4

GPT-4.5 предварительная версия глобального стандарта

Модель	Тир	Ограничение квоты в токенах в минуту (TPM)	Число запросов в минуту
`gpt-4.5`	Корпоративный уровень	200 K	200
`gpt-4.5`	По умолчанию	150 K	сто пятьдесят

Глобальный стандарт GPT-4.1

Модель	Тир	Ограничение квоты в токенах в минуту (TPM)	Число запросов в минуту
`gpt-4.1` (2025-04-14)	Корпоративный уровень	5 М	5 км
`gpt-4.1` (2025-04-14)	По умолчанию	1 млн	1 К
`gpt-4.1-nano` (2025-04-14)	Корпоративный уровень	150 М	150 K
`gpt-4.1-nano` (2025-04-14)	По умолчанию	5 М	5 км
`gpt-4.1-mini` (2025-04-14)	Корпоративный уровень	150 М	150 K
`gpt-4.1-mini` (2025-04-14)	По умолчанию	5 М	5 км

Стандарт зоны данных серии GPT-4.1

Модель	Тир	Ограничение квоты в токенах в минуту (TPM)	Число запросов в минуту
`gpt-4.1` (2025-04-14)	Корпоративный уровень	2 млн	2 К
`gpt-4.1` (2025-04-14)	По умолчанию	300 К	300
`gpt-4.1-nano` (2025-04-14)	Корпоративный уровень	50 М	50 К
`gpt-4.1-nano` (2025-04-14)	По умолчанию	2 млн	2 К
`gpt-4.1-mini` (2025-04-14)	Корпоративный уровень	50 М	50 К
`gpt-4.1-mini` (2025-04-14)	По умолчанию	2 млн	2 К

GPT-4 Turbo

gpt-4 (turbo-2024-04-09) имеет уровни ограничений скорости с более высокими ограничениями для определенных типов клиентов.

Модель	Тир	Ограничение квоты в токенах в минуту (TPM)	Число запросов в минуту
`gpt-4` (turbo-2024-04-09)	Соглашение Enterprise	2 млн	12 К
`gpt-4` (turbo-2024-04-09)	По умолчанию	450 K	2,7 K

Ограничения скорости маршрутизатора модели

Модель	Тир	Ограничение квоты в токенах в минуту (TPM)	Число запросов в минуту
`model-router` (2025-05-19)	Корпоративный уровень	10 М	10 тыс.
`model-router` (2025-05-19)	По умолчанию	1 млн	1 К

Ограничения глобальной стандартной скорости для предварительного просмотра использования компьютера

Модель	Тир	Ограничение квоты в токенах в минуту (TPM)	Число запросов в минуту
`computer-use-preview`	Корпоративный уровень	30 М	300 К
`computer-use-preview`	По умолчанию	450 K	4.5 K

Ограничения частоты o-рядов

Это важно

Соотношение запросов в минуту (RPM) к токенам в минуту (TPM) для квоты может варьироваться в зависимости от модели. При программном развертывании модели или запросе увеличения квоты у вас нет детализированного контроля над TPM и RPM в качестве независимых значений. Квота выделяется в единицах емкости, которые имеют соответствующие показатели RPM и TPM.

Модель	Вместимость	Запросы в минуту (RPM)	Токены за минуту (TPM)
Старые модели чата:	1 урок	6 об/мин	1 000 TPM
o1 и o1-preview:	1 урок	1 об/мин	6000 TPM
o3	1 урок	1 об/мин	1 000 TPM
o4-mini	1 урок	1 об/мин	1 000 TPM
o3-mini:	1 урок	1 об/мин	10 000 TPM
o1-mini:	1 урок	1 об/мин	10 000 TPM
o3-pro:	1 урок	1 об/мин	10 000 TPM

Это особенно важно для развертывания программной модели, так как изменения в соотношении RPM/TPM могут привести к случайному неправильному расположению квоты.

глобальный стандарт o-серии

Модель	Тир	Ограничение квоты в токенах в минуту (TPM)	Число запросов в минуту
`codex-mini`	Соглашение Enterprise	10 М	10 тыс.
`o3-pro`	Соглашение Enterprise	16 М	1.6 K
`o4-mini`	Соглашение Enterprise	10 М	10 тыс.
`o3`	Соглашение Enterprise	10 М	10 тыс.
`o3-mini`	Соглашение Enterprise	50 М	5 км
`o1` & `o1-preview`	Соглашение Enterprise	30 М	5 км
`o1-mini`	Соглашение Enterprise	50 М	5 км
`codex-mini`	По умолчанию	1 млн	1 К
`o3-pro`	По умолчанию	1,6 М	160
`o4-mini`	По умолчанию	1 млн	1 К
`o3`	По умолчанию	1 млн	1 К
`o3-mini`	По умолчанию	5 М	500
`o1` & `o1-preview`	По умолчанию	3 М	500
`o1-mini`	По умолчанию	5 М	500

Стандарт зоны данных o-серии

Модель	Тир	Ограничение квоты в токенах в минуту (TPM)	Число запросов в минуту
`o3-mini`	Соглашение Enterprise	20 млн.	2 К
`o3-mini`	По умолчанию	2 млн	200
`o1`	Соглашение Enterprise	6 М	1 К
`o1`	По умолчанию	600 K	100

o1-preview и o1-mini standard

Модель	Тир	Ограничение квоты в токенах в минуту (TPM)	Число запросов в минуту
`o1-preview`	Соглашение Enterprise	600 K	100
`o1-mini`	Соглашение Enterprise	1 млн	100
`o1-preview`	По умолчанию	300 К	50
`o1-mini`	По умолчанию	500 K	50

Ограничения скорости gpt-4o

gpt-4o и gpt-4o-mini имеют уровни ограничений скорости с более высокими ограничениями для определенных типов клиентов.

gpt-4o global standard

Модель	Тир	Ограничение квоты в токенах в минуту (TPM)	Число запросов в минуту
`gpt-4o`	Соглашение Enterprise	30 М	180 К
`gpt-4o-mini`	Соглашение Enterprise	50 М	300 К
`gpt-4o`	По умолчанию	450 K	2,7 K
`gpt-4o-mini`	По умолчанию	2 млн	12 К

M = миллион | K = тысяча

Стандарт зоны данных gpt-4o

Модель	Тир	Ограничение квоты в токенах в минуту (TPM)	Число запросов в минуту
`gpt-4o`	Соглашение Enterprise	10 М	60 км
`gpt-4o-mini`	Соглашение Enterprise	20 млн.	120 К
`gpt-4o`	По умолчанию	300 К	1.8 K
`gpt-4o-mini`	По умолчанию	1 млн	6 K

M = миллион | K = тысяча

gpt-4o standard

Модель	Тир	Ограничение квоты в токенах в минуту (TPM)	Число запросов в минуту
`gpt-4o`	Соглашение Enterprise	1 млн	6 K
`gpt-4o-mini`	Соглашение Enterprise	2 млн	12 К
`gpt-4o`	По умолчанию	150 K	900
`gpt-4o-mini`	По умолчанию	450 K	2,7 K

M = миллион | K = тысяча

звук gpt-4o

Ограничения скорости для каждого gpt-4o развертывания звуковой модели — 100 K TPM и 1 K RPM. Во время предварительной версии портал Azure AI Foundry и API могут отображать неточные ограничения скорости. Даже если вы пытаетесь установить другой предел скорости, фактический предел скорости составляет 100 K TPM и 1 K RPM.

Модель	Тир	Ограничение квоты в токенах в минуту (TPM)	Число запросов в минуту
`gpt-4o-audio-preview`	По умолчанию	450 K	1 К
`gpt-4o-realtime-preview`	По умолчанию	800 К	1 К
`gpt-4o-mini-audio-preview`	По умолчанию	2 млн	1 К
`gpt-4o-mini-realtime-preview`	По умолчанию	800 К	1 К

M = миллион | K = тысяча

Ограничения скорости для "GPT-image-1"

GPT0-image-1 глобальный стандарт

Модель	Тир	Ограничение квоты в токенах в минуту (TPM)	Число запросов в минуту
`gpt-image-1`	Соглашение Enterprise	Не применимо	20
`gpt-image-1`	По умолчанию	Не применимо	6

Уровни использования

Глобальные стандартные развертывания используют глобальную инфраструктуру Azure, динамически маршрутизируя трафик клиентов в центр обработки данных с наилучшей доступностью для запросов на вывод. Аналогичным образом развертывания зоны данных уровня "Стандартный" позволяют использовать глобальную инфраструктуру Azure для динамического маршрутизации трафика в центр обработки данных в пределах определенной корпорацией Майкрософт зоны данных с оптимальной доступностью для каждого запроса. Это обеспечивает более согласованную задержку для клиентов с низким до среднего уровня трафика. Клиенты с высоким уровнем устойчивого использования могут видеть большую вариативность в задержке ответа.

Ограничение использования задает порог, выше которого клиенты могут наблюдать значительную вариабельность в задержке ответа. Использование клиента рассчитывается для каждой модели и представляет собой общее количество токенов, потребленных через все развертывания, подписки и регионы для данного арендатора.

Замечание

Уровни использования применяются только к стандартным типам развертывания, стандартной зоне данных и глобальным стандартным типам развертывания. Уровни использования не применяются к глобальным пакетным и предоставленным развертываниям с пропускной способностью.

Глобальный стандарт, стандарт зоны хранения данных и стандарт

Модель	Категории использования в месяц
`gpt-4` + `gpt-4-32k` (все версии)	6 миллиардов токенов
`gpt-4o`	12 миллиардов токенов
`gpt-4o-mini`	85 миллиардов токенов
`o3-mini`	50 миллиардов токенов
`o1`	4 миллиарда токенов
`o4-mini`	50 миллиардов токенов
`o3`	5 миллиардов токенов
`gpt-4.1`	30 миллиардов токенов
`gpt-4.1-mini`	150 миллиардов токенов
`gpt-4.1-nano`	550 миллиардов токенов

Другие типы предложений

Если подписка Azure связана с определенными типами предложений, максимальные значения квоты ниже значений, указанных в приведенных выше таблицах.

Тир	Ограничение квоты в токенах в минуту (TPM)
`Azure for Students`	1 K (все модели) Exception o-series & GPT-4.1 & GPT 4.5 Предварительный просмотр: 0
`MSDN`	GPT-4o-mini: 200 K Серия GPT 3.5 Turbo: 200 K Серия GPT-4: 50 K предпросмотр использования компьютера: 8 КБ gpt-4o-realtime-preview: 1 К o-серия: 0 GPT 4.5 Предварительный просмотр: 0 GPT-4.1: 50 K GPT-4.1-nano: 200 K
`Standard`	GPT-4o-mini: 200 K Серия GPT 3.5 Turbo: 200 K Серия GPT-4: 50 K предварительный просмотр использования компьютера: 30 K o-серия: 0 GPT 4.5 Предварительный просмотр: 0 GPT-4.1: 50 K GPT-4.1-nano: 200 K
`Azure_MS-AZR-0111P` `Azure_MS-AZR-0035P` `Azure_MS-AZR-0025P` `Azure_MS-AZR-0052P`	GPT-4o-mini: 200 K Серия GPT 3.5 Turbo: 200 K Серия GPT-4: 50 K
`CSP Integration Sandbox` ^*	Все модели: 0
`Lightweight trial` `Free Trials` `Azure Pass`	Все модели: 0

^*Это применимо только к небольшому числу устаревших подписок CSP в песочнице. Используйте следующий запрос, чтобы определить, что quotaId связано с вашей подпиской.

Чтобы определить тип предложения, связанный с подпиской, можно проверить ваш quotaId. Если ваша quotaId подписка не указана в этой таблице, ваша подписка имеет квоту по умолчанию.

ОТДЫХ
CLI

Справочник по API

az login
access_token=$(az account get-access-token --query accessToken -o tsv)

curl -X GET "https://management.azure.com/subscriptions/{subscriptionId}?api-version=2020-01-01" \
  -H "Authorization: Bearer $access_token" \
  -H "Content-Type: application/json"

az rest --method GET --uri "https://management.azure.com/subscriptions/{sub-id}?api-version=2020-01-01"

Выходные данные

{
  "authorizationSource": "Legacy",
  "displayName": "Pay-As-You-Go",
  "id": "/subscriptions/aaaaaa-bbbbb-cccc-ddddd-eeeeee",
  "state": "Enabled",
  "subscriptionId": "aaaaaa-bbbbb-cccc-ddddd-eeeeee",
  "subscriptionPolicies": {
    "locationPlacementId": "Public_2014-09-01",
    "quotaId": "PayAsYouGo_2014-09-01",
    "spendingLimit": "Off"
  }
}

Распределение квот/Тип предложения	Идентификатор квоты подписки
Предприятие	`EnterpriseAgreement_2014-09-01`
Оплата по мере использования	`PayAsYouGo_2014-09-01`
MSDN	`MSDN_2014-09-01`
Интеграционная песочница CSP	`CSPDEVTEST_2018-05-01`
Azure для учащихся	`AzureForStudents_2018-01-01`
Пробная версия	`FreeTrial_2014-09-01`
Azure Pass	`AzurePass_2014-09-01`
Azure_MS-AZR-0111P	`AzureInOpen_2014-09-01`
Azure_MS-AZR-0150P	`LightweightTrial_2016-09-01`
Azure_MS-AZR-0035P Azure_MS-AZR-0025P Azure_MS-AZR-0052P	`MPN_2014-09-01`
Azure_MS-AZR-0023P Azure_MS-AZR-0060P Azure_MS-AZR-0148P Azure_MS-AZR-0148G	`MSDNDevTest_2014-09-01`
По умолчанию	Любой идентификатор квоты, не указанный в этой таблице.

Основные передовые методы, чтобы оставаться в пределах лимитов скорости

Чтобы свести к минимуму проблемы, связанные с ограничениями скорости, рекомендуется использовать следующие методы:

Реализуйте в приложении логику повторных попыток.
Избегайте внесения резких изменений в рабочую нагрузку. Увеличивайте рабочую нагрузку постепенно.
Протестируйте различные шаблоны увеличения нагрузки.
Увеличьте назначенную вашему развертыванию квоту. При необходимости переместите квоту из другого развертывания.

Как запросить увеличение квоты

Запросы на увеличение квоты можно отправить с помощью формы запроса на увеличение квоты. Из-за высокого спроса запросы на увеличение квот принимаются и заполняются в том порядке, в который они получены. Приоритет предоставляется клиентам, которые создают трафик, который потребляет существующее выделение квот, и ваш запрос может быть отклонен, если это условие не выполнено.

Для других ограничений скорости отправьте запрос на обслуживание.

Ограничения ёмкости региональной квоты

Вы можете просматривать доступность квоты по регионам для вашей подписки в портале Azure AI Foundry.

Или же, чтобы увидеть емкость квоты по регионам для конкретной модели/версии, вы можете сделать запрос через capacity API для своей подписки. Укажите subscriptionId, model_name, и model_version, и API вернёт доступную емкость для этой модели во всех регионах и типах развертывания вашей подписки.

Замечание

В настоящее время как портал Azure AI Foundry, так и API предоставления емкости возвращают сведения о квоте и емкости для моделей, которые вышедшие из эксплуатации и больше не доступны.

Справочник по API

import requests
import json
from azure.identity import DefaultAzureCredential

subscriptionId = "Replace with your subscription ID" #replace with your subscription ID
model_name = "gpt-4o"     # Example value, replace with model name
model_version = "2024-08-06"   # Example value, replace with model version

token_credential = DefaultAzureCredential()
token = token_credential.get_token('https://management.azure.com/.default')
headers = {'Authorization': 'Bearer ' + token.token}

url = f"https://management.azure.com/subscriptions/{subscriptionId}/providers/Microsoft.CognitiveServices/modelCapacities"
params = {
    "api-version": "2024-06-01-preview",
    "modelFormat": "OpenAI",
    "modelName": model_name,
    "modelVersion": model_version
}

response = requests.get(url, params=params, headers=headers)
model_capacity = response.json()

print(json.dumps(model_capacity, indent=2))

Дальнейшие шаги

Узнайте, как управлять квотой для развертываний Azure OpenAI. Ознакомьтесь с дополнительными сведениями о базовых моделях, лежащих в основе Azure OpenAI.

Поделиться через

Квоты и ограничения моделей Azure OpenAI в Azure AI Foundry

Справочник по квотам и ограничениям

Лимиты на партии

Квота на пакетную обработку

Глобальная партия

Пакет зоны данных

Ограничения скорости GPT-4

GPT-4.5 предварительная версия глобального стандарта

Глобальный стандарт GPT-4.1

Стандарт зоны данных серии GPT-4.1

GPT-4 Turbo

Ограничения скорости маршрутизатора модели

Ограничения глобальной стандартной скорости для предварительного просмотра использования компьютера

Ограничения частоты o-рядов

глобальный стандарт o-серии

Стандарт зоны данных o-серии

o1-preview и o1-mini standard

Ограничения скорости gpt-4o

gpt-4o global standard

Стандарт зоны данных gpt-4o

gpt-4o standard

звук gpt-4o

Ограничения скорости для "GPT-image-1"

GPT0-image-1 глобальный стандарт

Уровни использования

Глобальный стандарт, стандарт зоны хранения данных и стандарт

Другие типы предложений

Выходные данные

Основные передовые методы, чтобы оставаться в пределах лимитов скорости

Как запросить увеличение квоты

Ограничения ёмкости региональной квоты

Дальнейшие шаги

Обратная связь

Дополнительные ресурсы