Примечание.
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
Приоритетная обработка обеспечивает низкую задержку с гибкой системой оплаты «по мере использования». В этой статье описано, как включить обработку приоритета в развертывании модели, проверить, какой уровень служб обработал ваши запросы, и отслеживать связанные затраты.
Необходимые условия
- Подписка Azure — Создайте подписку бесплатно.
- Проект Microsoft Foundry с типом модели развертывания
GlobalStandardилиDataZoneStandard. - Версии модели
2025-12-01или более поздние.
Основные варианты использования
- Последовательная, низкая задержка для отзывчивости пользовательского опыта.
- Простота оплаты по мере использования без долгосрочных обязательств.
- Трафик в рабочее время или пиковый трафик, который получает преимущества от масштабируемой, эффективной системы с точки зрения затрат. При необходимости, вы можете комбинировать обработку с приоритетом с подготовленными единицами пропускной способности (PTU) для оптимизации затрат и поддержания стабильной емкости.
Целевое значение задержки
| Модель | Целевое значение задержки2 |
|---|---|
| gpt-5.5, 2026-04-24 | 99% > 100 токенов в секунду |
| gpt-5.4, 2026-03-051 | 99% > 50 токенов в секунду |
| gpt-5.2, 2025-12-11 | 99% > 50 токенов в секунду |
| gpt-5.1, 2025-11-13 | 99% > 50 токенов в секунду |
| gpt-4.1, 2025-04-141 | 99% > 80 токенов в секунду |
1 Длинные запросы контекста (т. е. запросы, оцененные как содержащие более 128k маркеров запроса) будут понижены до стандартной обработки, и с вас будет взиматься плата по стандартной ставке.
2 Вычисляется как задержка запроса p50 за 5 минут.
Доступность приоритетной обработки по типу развертывания
Обработка приоритета может быть включена в развертываниях глобального уровня "Стандартный" или в стандартных развертываниях зоны данных (США). Сведения о ценах см. на странице с ценами Azure OpenAI.
Доступность глобальной стандартной модели
| Регион | gpt-5.5, 2026-04-24 | gpt-5.4-mini, 2026-03-17 | gpt-5.4, 2026-03-05 | gpt-5.2, 2025-12-11 | gpt-5.1, 2025-11-13 | gpt-4.1, 2025-04-14 |
|---|---|---|---|---|---|---|
| австралия восток | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| бразилияюг | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| canadacentral | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| canadaeast | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| centralus | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| eastus | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| eastus2 | ✅ | ✅ | ✅ | ✅ | ✅ | - |
| francecentral | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| germanywestcentral | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| италия север | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| japaneast | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| koreacentral | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| northcentralus | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| norwayeast | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| Центральная Польша | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| southafricanorth | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| southcentralus | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| Юго-Восточная Азия | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| южная индия | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| spaincentral | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| Швецияцентр | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| свицерланднорт | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| запад швейцарии | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| uaenorth | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| uksouth | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| westeurope | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| westus | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| westus3 | - | ✅ | ✅ | ✅ | ✅ | ✅ |
Включение обработки приоритета на уровне развертывания
Вы можете включить обработку приоритета на уровне развертывания и (необязательно) на уровне запроса.
Примечание
В развертываниях global standard или Data Zone standard (US) можно включить обработку приоритета. Приоритетная обработка использует ту же квоту, что и стандартная обработка.
На портале Microsoft Foundry включите переключатель Priority processing на странице сведений о развертывании при создании развертывания или отредактируйте сведения о развертывании для обновления настройки развернутой модели.
Примечание
Если вы предпочитаете использовать код для включения обработки приоритета на уровне развертывания, это можно сделать с помощью REST API для развертывания, задав service_tier атрибут следующим образом: "properties" : {"service_tier" : "priority"} Допустимые значения атрибута service_tier : default и priority.
default подразумевает стандартную обработку, в то время как priority включает обработку приоритета.
После настройки развертывания модели для использования обработки приоритета можно начать отправку запросов в модель.
Просмотр метрик использования
Вы можете просмотреть меру использования ресурса в разделе Azure Monitor на портале Azure.
Чтобы просмотреть количество запросов, обработанных по стандартной и приоритетной обработке, разделенных по уровню услуг (стандартный или приоритетный), который был указан в исходном запросе:
- Войдите в https://portal.azure.com.
- Перейдите к ресурсу OpenAI Azure и выберите параметр Metrics в области навигации слева.
- На странице метрик добавьте метрику запросы Azure OpenAI. Вы также можете выбрать другие метрики, такие как Azure задержка OpenAI, Azure использование OpenAI и другие.
- Выберите "Добавить фильтр", чтобы выбрать стандартное развертывание, для которого были обработаны запросы на обработку приоритета.
- Выберите "Применить разделение" , чтобы разделить значения по ServiceTierRequest и ServiceTierResponse.
Дополнительные сведения о мониторинге развертываний см. в разделе Monitor Azure OpenAI.
Мониторинг затрат
Вы можете просмотреть разбивку затрат на приоритеты и стандартные запросы на странице анализа затрат на портале Azure, отфильтровав имя развертывания и теги выставления счетов следующим образом:
- Перейдите на страницу анализа затрат на портале Azure.
- (Необязательно) Фильтрация по ресурсу.
- Чтобы фильтровать по имени развертывания: добавьте фильтр для тега> выставления счетов выберите развертывание в качестве значения, а затем выберите имя развертывания .
Сведения о ценах на приоритетную обработку см. в обзоре цен Служба Azure OpenAI.
Включение обработки приоритета на уровне запроса
Включение обработки приоритета на уровне запроса является необязательным. API завершения чата и API ответов имеют необязательный атрибут service_tier , указывающий тип обработки, используемый при обслуживании запроса. В следующем примере показано, как задать значение service_tierpriority в запросе ответов.
curl -X POST https://YOUR-RESOURCE-NAME.openai.azure.com/openai/v1/responses \
-H "Content-Type: application/json" \
-H "Authorization: Bearer $AZURE_OPENAI_AUTH_TOKEN" \
-d '{
"model": "gpt-4.1",
"input": "This is a test",
"service_tier": "priority"
}'
service_tier Используйте атрибут для переопределения параметра уровня развертывания.
service_tier может принимать значения auto, defaultи priority.
Если атрибут не задан, он принимает значение по умолчанию
auto.service_tier = autoозначает, что запрос использует уровень служб, настроенный в развертывании.service_tier = defaultозначает, что запрос использует стандартные цены и производительность выбранной модели.service_tier = priorityозначает, что запрос использует уровень служб обработки приоритета.
В следующей таблице приведены сведения о том, какой уровень служб обрабатывает запросы на основе параметров уровня развертывания и уровня запросов.service_tier
| Параметр уровня развертывания | Параметр уровня запроса | Запрос, обработанный по уровню служб |
|---|---|---|
| По умолчанию | auto, по умолчанию | Стандартный |
| По умолчанию | Приоритет | Приоритетная обработка |
| Приоритет | Авто, приоритет | Приоритетная обработка |
| Приоритет | По умолчанию | Стандартный |
Ограничения
В настоящее время служба не поддерживает региональные стандартные развертывания и стандартные развертывания в зоне данных ЕС.
Служба может перенаправить некоторые приоритетные запросы на стандартную обработку* во время следующих сценариев:
- Если быстро увеличивается количество токенов приоритетной обработки в минуту, это приведет к достижению пределов скорости увеличения ограничений скорости увеличения. В настоящее время ограничение скорости повышения определяется как увеличение трафика более чем на 50% токенов в минуту за период менее 15 минут.
- Во время пиковых нагрузок на процесс обработки с приоритетом.
- Длинные контекстные запросы, отправленные определенным моделям, перечисленным в целевой таблице задержки.
Совет
Если вы обычно сталкиваетесь с ограничениями предельных режимов, рассмотрите возможность приобретения PTU вместо или в дополнение к приоритетной обработке.
* Сервис выставляет счета за запросы, обработанные по стандартному уровню обслуживания, по стандартным тарифам. Запросы, обрабатываемые стандартным уровнем обслуживания, включают
service_tier = defaultв ответ, а запросы, обработанные уровнем приоритетной обработки, включаютservice_tier = priorityв ответ.
Устранение неполадок
| Проблема | Причина | Разрешение |
|---|---|---|
| Запросы, пониженные до уровня "Стандартный" | Одна из следующих ситуаций: - Трафик увеличился более чем на 50% токенов в минуту менее чем за 15 минут, достигнув лимита скорости увеличения. — запросы, отправленные в периоды максимальной загруженности, на приоритетную обработку. — Длинные запросы контекста, отправленные определенным моделям, перечисленным в целевой таблице задержки. |
- Постепенное увеличение трафика, если вы столкнулись с ограничениями скорости рампы. - Рассмотрите возможность приобретения PTU для стабильной пропускной способности. |