Поделиться через


Квоты и ограничения моделей Azure OpenAI в Azure AI Foundry

В этой статье содержится краткий справочник и подробное описание квот и ограничений для Azure OpenAI.

Справочник по квотам и ограничениям

В следующих разделах приведены краткие инструкции по квотам по умолчанию и ограничениям, которые применяются к Azure OpenAI:

Название ограничения Значение ограничения
Ресурсы Azure OpenAI для каждого региона на каждой подписке Azure 30
Лимиты квоты DALL-E 2 по умолчанию 2 параллельных запроса
Стандартные ограничения квоты DALL-E 3 2 единицы емкости (6 запросов в минуту)
Ограничения квоты GPT-image-1 по умолчанию 2 единицы емкости (6 запросов в минуту)
Ограничения квоты Sora по умолчанию 60 запросов в минуту
Ограничения квоты API преобразования речи в текст по умолчанию 3 запроса в минуту
Максимальное количество подсказочных токенов на один запрос Зависит от модели. Дополнительные сведения см. в моделях Azure OpenAI
Максимальное количество развертываний уровня "Стандартный" для каждого ресурса 32
Максимальное число развертываний тонко настроенной модели 5
Общее количество заданий обучения на каждый ресурс 100
Максимальное количество одновременных обучающих заданий на один ресурс 1
Максимальное число обучающих задач в очереди 20
Максимальное количество файлов на ресурс (настройка) 50
Общий размер всех файлов на ресурс (тонкая настройка) 1 ГБ
Максимальное время задания обучения (задание завершится ошибкой, если оно будет превышено) 720 часов
Максимальный размер задачи обучения (количество токенов в тренировочном файле) умножить на (число эпох) 2 млрд
Максимальный размер всех файлов на загрузку (Azure OpenAI с вашими данными) 16 МБ
Максимальное количество входных данных в массиве с /embeddings 2048
Максимальное /chat/completions количество сообщений 2048
Максимальное /chat/completions число функций 128
Максимальное /chat completions количество инструментов 128
Максимальное количество единиц подготовленной пропускной способности на развертывание 100 000
Максимальное количество файлов на помощника и поток 10 000 при использовании API или портала Azure AI Foundry.
Максимальный размер файла для Помощников и тонкой настройки 512 МБ

200 МБ с помощью портала Azure AI Foundry
Максимальный размер всех отправленных файлов для помощников 200 ГБ
Ограничение на токенов ассистентов 2 000 000 токенов
GPT-4o и GPT-4.1 максимальное количество изображений на запрос (количество изображений в массиве сообщений или истории беседы) 50
Максимальные токены по умолчанию GPT-4 vision-preview и GPT-4 turbo-2024-04-09 16

max_tokens Увеличьте значение параметра, чтобы избежать усеченных ответов. По умолчанию максимальное количество токенов для GPT-4o — 4096.
Максимальное число пользовательских заголовков в запросах API1 10
Ограничение символов сообщения 1048576
Размер сообщения для звуковых файлов 20 МБ

1 Наши текущие API позволяют до 10 пользовательских заголовков, которые передаются через конвейер и возвращаются. Некоторые клиенты теперь превышают это число заголовков, что приводит к ошибкам HTTP 431. Для этой ошибки нет решения, кроме уменьшения размера заголовка. В будущих версиях API мы перестанем передавать пользовательские заголовки. Мы рекомендуем клиентам не зависеть от настраиваемых заголовков в будущих системных архитектурах.

Замечание

Ограничения квоты могут быть изменены.

Лимиты на партии

Название ограничения Значение ограничения
Максимальное количество файлов на ресурс 500
Максимальный размер входного файла 200 МБ
Максимальное количество запросов на файл 100 000

Квота на пакетную обработку

В таблице показан предел квоты партии. Значения квот для глобального пакета представлены в виде поставленных в очередь токенов. При отправке файла для пакетной обработки количество маркеров, присутствующих в файле, учитывается. До тех пор, пока пакетное задание не достигнет терминального состояния, эти токены будут учитываться против вашего общего лимита на очередь токенов.

Глобальная партия

Модель Соглашение Enterprise По умолчанию Ежемесячные подписки на основе кредитной карты Подписки MSDN Azure для учащихся, бесплатные пробные версии
gpt-4.1 5 B 200 М 50 М 90 K Не применимо
gpt-4.1 mini 15B 1 млрд 50 млн 90k Не применимо
gpt-4.1-nano 15 B 1 B 50 М 90 K Не применимо
gpt-4o 5 B 200 М 50 М 90 K Не применимо
gpt-4o-mini 15 B 1 B 50 М 90 K Не применимо
gpt-4-turbo 300 М 80 М 40 М 90 K Не применимо
gpt-4 150 М 30 М 5 М 100 К Не применимо
gpt-35-turbo 10 B 1 B 100 М 2 млн 50 К
o3-mini 15 B 1 B 50 М 90 K Не применимо
o4-mini 15 B 1 B 50 М 90 K Не применимо

B = миллиард | M = миллион | K = тысяча

Пакет зоны данных

Модель Соглашение Enterprise По умолчанию Ежемесячные подписки на основе кредитной карты Подписки MSDN Azure для учащихся, бесплатные пробные версии
gpt-4.1 500 М 30 М 30 М 90 K Не применимо
gpt-4.1-mini 1.5 B 100 М 50 М 90 K Не применимо
gpt-4o 500 М 30 М 30 М 90 K Не применимо
gpt-4o-mini 1.5 B 100 М 50 М 90 K Не применимо
o3-mini 1.5 B 100 М 50 М 90 K Не применимо

Ограничения скорости GPT-4

GPT-4.5 предварительная версия глобального стандарта

Модель Тир Ограничение квоты в токенах в минуту (TPM) Число запросов в минуту
gpt-4.5 Корпоративный уровень 200 K 200
gpt-4.5 По умолчанию 150 K сто пятьдесят

Глобальный стандарт GPT-4.1

Модель Тир Ограничение квоты в токенах в минуту (TPM) Число запросов в минуту
gpt-4.1 (2025-04-14) Корпоративный уровень 5 М 5 км
gpt-4.1 (2025-04-14) По умолчанию 1 млн 1 К
gpt-4.1-nano (2025-04-14) Корпоративный уровень 150 М 150 K
gpt-4.1-nano (2025-04-14) По умолчанию 5 М 5 км
gpt-4.1-mini (2025-04-14) Корпоративный уровень 150 М 150 K
gpt-4.1-mini (2025-04-14) По умолчанию 5 М 5 км

Стандарт зоны данных серии GPT-4.1

Модель Тир Ограничение квоты в токенах в минуту (TPM) Число запросов в минуту
gpt-4.1 (2025-04-14) Корпоративный уровень 2 млн 2 К
gpt-4.1 (2025-04-14) По умолчанию 300 К 300
gpt-4.1-nano (2025-04-14) Корпоративный уровень 50 М 50 К
gpt-4.1-nano (2025-04-14) По умолчанию 2 млн 2 К
gpt-4.1-mini (2025-04-14) Корпоративный уровень 50 М 50 К
gpt-4.1-mini (2025-04-14) По умолчанию 2 млн 2 К

GPT-4 Turbo

gpt-4 (turbo-2024-04-09) имеет уровни ограничений скорости с более высокими ограничениями для определенных типов клиентов.

Модель Тир Ограничение квоты в токенах в минуту (TPM) Число запросов в минуту
gpt-4 (turbo-2024-04-09) Соглашение Enterprise 2 млн 12 К
gpt-4 (turbo-2024-04-09) По умолчанию 450 K 2,7 K

Ограничения скорости маршрутизатора модели

Модель Тир Ограничение квоты в токенах в минуту (TPM) Число запросов в минуту
model-router (2025-05-19) Корпоративный уровень 10 М 10 тыс.
model-router (2025-05-19) По умолчанию 1 млн 1 К

Ограничения глобальной стандартной скорости для предварительного просмотра использования компьютера

Модель Тир Ограничение квоты в токенах в минуту (TPM) Число запросов в минуту
computer-use-preview Корпоративный уровень 30 М 300 К
computer-use-preview По умолчанию 450 K 4.5 K

Ограничения частоты o-рядов

Это важно

Соотношение запросов в минуту (RPM) к токенам в минуту (TPM) для квоты может варьироваться в зависимости от модели. При программном развертывании модели или запросе увеличения квоты у вас нет детализированного контроля над TPM и RPM в качестве независимых значений. Квота выделяется в единицах емкости, которые имеют соответствующие показатели RPM и TPM.

Модель Вместимость Запросы в минуту (RPM) Токены за минуту (TPM)
Старые модели чата: 1 урок 6 об/мин 1 000 TPM
o1 и o1-preview: 1 урок 1 об/мин 6000 TPM
o3 1 урок 1 об/мин 1 000 TPM
o4-mini 1 урок 1 об/мин 1 000 TPM
o3-mini: 1 урок 1 об/мин 10 000 TPM
o1-mini: 1 урок 1 об/мин 10 000 TPM
o3-pro: 1 урок 1 об/мин 10 000 TPM

Это особенно важно для развертывания программной модели, так как изменения в соотношении RPM/TPM могут привести к случайному неправильному расположению квоты.

глобальный стандарт o-серии

Модель Тир Ограничение квоты в токенах в минуту (TPM) Число запросов в минуту
codex-mini Соглашение Enterprise 10 М 10 тыс.
o3-pro Соглашение Enterprise 16 М 1.6 K
o4-mini Соглашение Enterprise 10 М 10 тыс.
o3 Соглашение Enterprise 10 М 10 тыс.
o3-mini Соглашение Enterprise 50 М 5 км
o1 & o1-preview Соглашение Enterprise 30 М 5 км
o1-mini Соглашение Enterprise 50 М 5 км
codex-mini По умолчанию 1 млн 1 К
o3-pro По умолчанию 1,6 М 160
o4-mini По умолчанию 1 млн 1 К
o3 По умолчанию 1 млн 1 К
o3-mini По умолчанию 5 М 500
o1 & o1-preview По умолчанию 3 М 500
o1-mini По умолчанию 5 М 500

Стандарт зоны данных o-серии

Модель Тир Ограничение квоты в токенах в минуту (TPM) Число запросов в минуту
o3-mini Соглашение Enterprise 20 млн. 2 К
o3-mini По умолчанию 2 млн 200
o1 Соглашение Enterprise 6 М 1 К
o1 По умолчанию 600 K 100

o1-preview и o1-mini standard

Модель Тир Ограничение квоты в токенах в минуту (TPM) Число запросов в минуту
o1-preview Соглашение Enterprise 600 K 100
o1-mini Соглашение Enterprise 1 млн 100
o1-preview По умолчанию 300 К 50
o1-mini По умолчанию 500 K 50

Ограничения скорости gpt-4o

gpt-4o и gpt-4o-mini имеют уровни ограничений скорости с более высокими ограничениями для определенных типов клиентов.

gpt-4o global standard

Модель Тир Ограничение квоты в токенах в минуту (TPM) Число запросов в минуту
gpt-4o Соглашение Enterprise 30 М 180 К
gpt-4o-mini Соглашение Enterprise 50 М 300 К
gpt-4o По умолчанию 450 K 2,7 K
gpt-4o-mini По умолчанию 2 млн 12 К

M = миллион | K = тысяча

Стандарт зоны данных gpt-4o

Модель Тир Ограничение квоты в токенах в минуту (TPM) Число запросов в минуту
gpt-4o Соглашение Enterprise 10 М 60 км
gpt-4o-mini Соглашение Enterprise 20 млн. 120 К
gpt-4o По умолчанию 300 К 1.8 K
gpt-4o-mini По умолчанию 1 млн 6 K

M = миллион | K = тысяча

gpt-4o standard

Модель Тир Ограничение квоты в токенах в минуту (TPM) Число запросов в минуту
gpt-4o Соглашение Enterprise 1 млн 6 K
gpt-4o-mini Соглашение Enterprise 2 млн 12 К
gpt-4o По умолчанию 150 K 900
gpt-4o-mini По умолчанию 450 K 2,7 K

M = миллион | K = тысяча

звук gpt-4o

Ограничения скорости для каждого gpt-4o развертывания звуковой модели — 100 K TPM и 1 K RPM. Во время предварительной версии портал Azure AI Foundry и API могут отображать неточные ограничения скорости. Даже если вы пытаетесь установить другой предел скорости, фактический предел скорости составляет 100 K TPM и 1 K RPM.

Модель Тир Ограничение квоты в токенах в минуту (TPM) Число запросов в минуту
gpt-4o-audio-preview По умолчанию 450 K 1 К
gpt-4o-realtime-preview По умолчанию 800 К 1 К
gpt-4o-mini-audio-preview По умолчанию 2 млн 1 К
gpt-4o-mini-realtime-preview По умолчанию 800 К 1 К

M = миллион | K = тысяча

Ограничения скорости для "GPT-image-1"

GPT0-image-1 глобальный стандарт

Модель Тир Ограничение квоты в токенах в минуту (TPM) Число запросов в минуту
gpt-image-1 Соглашение Enterprise Не применимо 20
gpt-image-1 По умолчанию Не применимо 6

Уровни использования

Глобальные стандартные развертывания используют глобальную инфраструктуру Azure, динамически маршрутизируя трафик клиентов в центр обработки данных с наилучшей доступностью для запросов на вывод. Аналогичным образом развертывания зоны данных уровня "Стандартный" позволяют использовать глобальную инфраструктуру Azure для динамического маршрутизации трафика в центр обработки данных в пределах определенной корпорацией Майкрософт зоны данных с оптимальной доступностью для каждого запроса. Это обеспечивает более согласованную задержку для клиентов с низким до среднего уровня трафика. Клиенты с высоким уровнем устойчивого использования могут видеть большую вариативность в задержке ответа.

Ограничение использования задает порог, выше которого клиенты могут наблюдать значительную вариабельность в задержке ответа. Использование клиента рассчитывается для каждой модели и представляет собой общее количество токенов, потребленных через все развертывания, подписки и регионы для данного арендатора.

Замечание

Уровни использования применяются только к стандартным типам развертывания, стандартной зоне данных и глобальным стандартным типам развертывания. Уровни использования не применяются к глобальным пакетным и предоставленным развертываниям с пропускной способностью.

Глобальный стандарт, стандарт зоны хранения данных и стандарт

Модель Категории использования в месяц
gpt-4 + gpt-4-32k (все версии) 6 миллиардов токенов
gpt-4o 12 миллиардов токенов
gpt-4o-mini 85 миллиардов токенов
o3-mini 50 миллиардов токенов
o1 4 миллиарда токенов
o4-mini 50 миллиардов токенов
o3 5 миллиардов токенов
gpt-4.1 30 миллиардов токенов
gpt-4.1-mini 150 миллиардов токенов
gpt-4.1-nano 550 миллиардов токенов

Другие типы предложений

Если подписка Azure связана с определенными типами предложений, максимальные значения квоты ниже значений, указанных в приведенных выше таблицах.

Тир Ограничение квоты в токенах в минуту (TPM)
Azure for Students 1 K (все модели)
Exception o-series & GPT-4.1 & GPT 4.5 Предварительный просмотр: 0
MSDN GPT-4o-mini: 200 K
Серия GPT 3.5 Turbo: 200 K
Серия GPT-4: 50 K
предпросмотр использования компьютера: 8 КБ
gpt-4o-realtime-preview: 1 К
o-серия: 0
GPT 4.5 Предварительный просмотр: 0
GPT-4.1: 50 K
GPT-4.1-nano: 200 K
Standard GPT-4o-mini: 200 K
Серия GPT 3.5 Turbo: 200 K
Серия GPT-4: 50 K
предварительный просмотр использования компьютера: 30 K
o-серия: 0
GPT 4.5 Предварительный просмотр: 0
GPT-4.1: 50 K
GPT-4.1-nano: 200 K
Azure_MS-AZR-0111P
Azure_MS-AZR-0035P
Azure_MS-AZR-0025P
Azure_MS-AZR-0052P
GPT-4o-mini: 200 K
Серия GPT 3.5 Turbo: 200 K
Серия GPT-4: 50 K
CSP Integration Sandbox * Все модели: 0
Lightweight trial
Free Trials
Azure Pass
Все модели: 0

*Это применимо только к небольшому числу устаревших подписок CSP в песочнице. Используйте следующий запрос, чтобы определить, что quotaId связано с вашей подпиской.

Чтобы определить тип предложения, связанный с подпиской, можно проверить ваш quotaId. Если ваша quotaId подписка не указана в этой таблице, ваша подписка имеет квоту по умолчанию.

Справочник по API

az login
access_token=$(az account get-access-token --query accessToken -o tsv)
curl -X GET "https://management.azure.com/subscriptions/{subscriptionId}?api-version=2020-01-01" \
  -H "Authorization: Bearer $access_token" \
  -H "Content-Type: application/json"

Выходные данные

{
  "authorizationSource": "Legacy",
  "displayName": "Pay-As-You-Go",
  "id": "/subscriptions/aaaaaa-bbbbb-cccc-ddddd-eeeeee",
  "state": "Enabled",
  "subscriptionId": "aaaaaa-bbbbb-cccc-ddddd-eeeeee",
  "subscriptionPolicies": {
    "locationPlacementId": "Public_2014-09-01",
    "quotaId": "PayAsYouGo_2014-09-01",
    "spendingLimit": "Off"
  }
}
Распределение квот/Тип предложения Идентификатор квоты подписки
Предприятие EnterpriseAgreement_2014-09-01
Оплата по мере использования PayAsYouGo_2014-09-01
MSDN MSDN_2014-09-01
Интеграционная песочница CSP CSPDEVTEST_2018-05-01
Azure для учащихся AzureForStudents_2018-01-01
Пробная версия FreeTrial_2014-09-01
Azure Pass AzurePass_2014-09-01
Azure_MS-AZR-0111P AzureInOpen_2014-09-01
Azure_MS-AZR-0150P LightweightTrial_2016-09-01
Azure_MS-AZR-0035P
Azure_MS-AZR-0025P
Azure_MS-AZR-0052P
MPN_2014-09-01
Azure_MS-AZR-0023P
Azure_MS-AZR-0060P
Azure_MS-AZR-0148P
Azure_MS-AZR-0148G
MSDNDevTest_2014-09-01
По умолчанию Любой идентификатор квоты, не указанный в этой таблице.

Основные передовые методы, чтобы оставаться в пределах лимитов скорости

Чтобы свести к минимуму проблемы, связанные с ограничениями скорости, рекомендуется использовать следующие методы:

  • Реализуйте в приложении логику повторных попыток.
  • Избегайте внесения резких изменений в рабочую нагрузку. Увеличивайте рабочую нагрузку постепенно.
  • Протестируйте различные шаблоны увеличения нагрузки.
  • Увеличьте назначенную вашему развертыванию квоту. При необходимости переместите квоту из другого развертывания.

Как запросить увеличение квоты

Запросы на увеличение квоты можно отправить с помощью формы запроса на увеличение квоты. Из-за высокого спроса запросы на увеличение квот принимаются и заполняются в том порядке, в который они получены. Приоритет предоставляется клиентам, которые создают трафик, который потребляет существующее выделение квот, и ваш запрос может быть отклонен, если это условие не выполнено.

Для других ограничений скорости отправьте запрос на обслуживание.

Ограничения ёмкости региональной квоты

Вы можете просматривать доступность квоты по регионам для вашей подписки в портале Azure AI Foundry.

Или же, чтобы увидеть емкость квоты по регионам для конкретной модели/версии, вы можете сделать запрос через capacity API для своей подписки. Укажите subscriptionId, model_name, и model_version, и API вернёт доступную емкость для этой модели во всех регионах и типах развертывания вашей подписки.

Замечание

В настоящее время как портал Azure AI Foundry, так и API предоставления емкости возвращают сведения о квоте и емкости для моделей, которые вышедшие из эксплуатации и больше не доступны.

Справочник по API

import requests
import json
from azure.identity import DefaultAzureCredential

subscriptionId = "Replace with your subscription ID" #replace with your subscription ID
model_name = "gpt-4o"     # Example value, replace with model name
model_version = "2024-08-06"   # Example value, replace with model version

token_credential = DefaultAzureCredential()
token = token_credential.get_token('https://management.azure.com/.default')
headers = {'Authorization': 'Bearer ' + token.token}

url = f"https://management.azure.com/subscriptions/{subscriptionId}/providers/Microsoft.CognitiveServices/modelCapacities"
params = {
    "api-version": "2024-06-01-preview",
    "modelFormat": "OpenAI",
    "modelName": model_name,
    "modelVersion": model_version
}

response = requests.get(url, params=params, headers=headers)
model_capacity = response.json()

print(json.dumps(model_capacity, indent=2))

Дальнейшие шаги

Узнайте, как управлять квотой для развертываний Azure OpenAI. Ознакомьтесь с дополнительными сведениями о базовых моделях, лежащих в основе Azure OpenAI.