Примечание.
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
Приоритетная обработка обеспечивает производительность с низкой задержкой и гибкостью модели оплаты по мере использования. В этой статье описано, как включить обработку приоритета в развертывании модели, проверить, какой уровень служб обработал ваши запросы, и отслеживать связанные затраты.
Предпосылки
- Подписка Azure — Создать бесплатно.
- Проект Майкрософт Foundry с моделью типа развертывания
GlobalStandardилиDataZoneStandard. - Версии модели
2025-12-01или более поздние.
Основные варианты использования
- Постоянная, низкая задержка для обеспечения быстрого взаимодействия с пользователем.
- Простота оплаты по мере использования без долгосрочных обязательств.
- Трафик в рабочие часы или всплесковый трафик, которые получают преимущества от масштабируемой, экономичной производительности. При необходимости можно объединить приоритетную обработку с предоставленными единицами пропускной способности (PTU) для оптимизации производительности и затрат в устойчивом состоянии.
Целевой показатель задержки
| Модель | Целевое значение задержки2 |
|---|---|
| gpt-5.4, 2026-03-051 | 99% > 50 токенов в секунду |
| gpt-5.2, 2025-12-11 | 99% > 50 токенов в секунду |
| gpt-5.1, 2025-11-13 | 99% > 50 токенов в секунду |
| gpt-4.1, 2025-04-141 | 99% > 80 токенов в секунду |
1 Длинные запросы контекста (т. е. запросы, оцененные в размере более 128k токенов запроса), будут понижены до стандартной обработки, и с вас будет взиматься плата по стандартной ставке.
2 Вычисляется как задержка запроса p50 за 5 минут.
Доступность приоритетной обработки по типу развертывания
Приоритетная обработка может быть включена в глобальных развертываниях уровня "Стандартный" или в стандартных развертываниях банка данных (США). Сведения о ценах см. на странице ценообразования Azure OpenAI.
Доступность глобальной стандартной модели
| Регион | gpt-5.4, 2026-03-05 | gpt-5.2, 2025-12-11 | gpt-5.1, 2025-11-13 | gpt-4.1, 2025-04-14 |
|---|---|---|---|---|
| австралиявосток | - | ✅ | ✅ | ✅ |
| Бразильский Юг | - | ✅ | ✅ | ✅ |
| Центральная Канада | - | ✅ | ✅ | ✅ |
| Канада Восток | - | ✅ | ✅ | ✅ |
| Центральус | - | ✅ | ✅ | ✅ |
| Истус | - | ✅ | ✅ | ✅ |
| eastus2 | - | - | - | - |
| francecentral | - | ✅ | ✅ | ✅ |
| Германия-запад-центр | - | ✅ | ✅ | ✅ |
| северная италия | - | ✅ | ✅ | ✅ |
| japaneast | - | ✅ | ✅ | ✅ |
| koreacentral | - | ✅ | ✅ | ✅ |
| Northcentralus | - | ✅ | ✅ | ✅ |
| Норвегия Восток | - | ✅ | ✅ | ✅ |
| Польша Центральная | ✅ | ✅ | ✅ | ✅ |
| Южная Африка-север | - | ✅ | ✅ | ✅ |
| СаутЦентралус | ✅ | ✅ | ✅ | ✅ |
| southeastasia | - | ✅ | ✅ | ✅ |
| Южная Индия | - | ✅ | ✅ | ✅ |
| spaincentral | - | ✅ | ✅ | ✅ |
| SwedenCentral | ✅ | ✅ | ✅ | ✅ |
| Швейцария север | - | ✅ | ✅ | ✅ |
| switzerlandwest | - | ✅ | ✅ | ✅ |
| uaenorth | - | ✅ | ✅ | ✅ |
| UKSOUTH | - | ✅ | ✅ | ✅ |
| Западная Европа | - | ✅ | ✅ | ✅ |
| Вестус | - | ✅ | ✅ | ✅ |
| westus3 | - | ✅ | ✅ | ✅ |
Включение обработки приоритета на уровне развертывания
Вы можете включить обработку приоритета на уровне развертывания и (необязательно) на уровне запроса.
Замечание
В развертываниях Global Standard или Data Zone Standard (US) можно включить приоритетную обработку. Приоритетная обработка использует ту же квоту, что и стандартная обработка.
На портале Майкрософт Foundry на странице сведений о развертывании включите переключатель приоритетной обработки при создании развертывания. Чтобы обновить настройку развернутой модели, измените сведения о развертывании.
Замечание
Если вы предпочитаете использовать код для включения обработки приоритета на уровне развертывания, это можно сделать с помощью REST API для развертывания, задав service_tier атрибут следующим образом: "properties" : {"service_tier" : "priority"} Допустимые значения атрибута service_tier : default и priority.
default подразумевает стандартную обработку, в то время как priority включает обработку приоритета.
После настройки развертывания модели для использования обработки приоритета можно начать отправку запросов в модель.
Просмотр метрик использования
Вы можете просмотреть меру использования ресурса в разделе Azure Monitor на портале Azure.
Чтобы просмотреть объем запросов, обработанных стандартной обработкой и обработкой приоритета, в разбивке по уровню обслуживания (стандартному или приоритетному), который был в исходном запросе:
- Войдите в https://portal.azure.com.
- Перейдите к ресурсу OpenAI Azure и выберите параметр Metrics в области навигации слева.
- На странице метрик добавьте метрику запросы Azure OpenAI. Вы также можете выбрать другие метрики, такие как Azure задержка OpenAI, Azure использование OpenAI и другие.
- Выберите "Добавить фильтр", чтобы выбрать стандартное развертывание, для которого были обработаны запросы на обработку приоритета.
- Выберите "Применить разделение" , чтобы разделить значения по ServiceTierRequest и ServiceTierResponse.
Дополнительные сведения о мониторинге развертываний см. в разделе Monitor Azure OpenAI.
Мониторинг затрат
Вы можете просмотреть разбивку затрат на приоритеты и стандартные запросы на странице анализа затрат на портале Azure, отфильтровав имя развертывания и теги выставления счетов следующим образом:
- Перейдите на страницу анализа затрат на портале Azure.
- (Необязательно) Фильтрация по ресурсу.
- Чтобы фильтровать по имени развертывания: добавьте фильтр для тега выставления счетов, выберите в качестве значения >, а затем выберите имя вашего развертывания.
Сведения о ценообразовании для приоритетной обработки см. в разделе обзор цен Служба Azure OpenAI.
Включение обработки приоритета на уровне запроса
Включение обработки приоритета на уровне запроса является необязательным. API завершения чата и API ответов имеют необязательный атрибут service_tier , указывающий тип обработки, используемый при обслуживании запроса. В следующем примере показано, как задать значение service_tierpriority в запросе ответов.
curl -X POST https://YOUR-RESOURCE-NAME.openai.azure.com/openai/v1/responses \
-H "Content-Type: application/json" \
-H "Authorization: Bearer $AZURE_OPENAI_AUTH_TOKEN" \
-d '{
"model": "gpt-4.1",
"input": "This is a test",
"service_tier": "priority"
}'
service_tier Используйте атрибут для переопределения параметра уровня развертывания.
service_tier может принимать значения auto, defaultи priority.
Если вы не задаете атрибут, он по умолчанию принимает значение
auto.service_tier = autoозначает, что запрос использует уровень служб, настроенный в развертывании.service_tier = defaultозначает, что запрос использует стандартные цены и производительность выбранной модели.service_tier = priorityозначает, что запрос использует уровень служб обработки приоритета.
В следующей таблице приведены сведения о том, какой уровень служб обрабатывает запросы на основе параметров уровня развертывания и уровня запросов.service_tier
| Параметр уровня развертывания | Параметр уровня запроса | Запрос, обработанный по уровню служб |
|---|---|---|
| default | авто, по умолчанию | Стандарт |
| default | priority | Приоритетная обработка |
| priority | авто, приоритет | Приоритетная обработка |
| priority | default | Стандарт |
Ограничения
В настоящее время служба не поддерживает региональные стандартные развертывания и стандартные развертывания в зоне данных ЕС.
Служба может перенаправить некоторые приоритетные запросы на стандартную обработку* во время следующих сценариев:
- Если быстрое увеличение количества маркеров приоритетной обработки в минуту приводит к достижению ограничений скорости увеличения. В настоящее время ограничение скорости нарастания определяется как увеличение трафика более чем на 50% токенов в минуту менее чем за 15 минут.
- Во времена пиковых запросов к приоритетной обработке.
- Запросы с длинным контекстом, отправленные некоторым моделям, перечисленным в таблице целевых задержек.
Подсказка
Если вы обычно сталкиваетесь с ограничениями скорости нарастания мощности, рассмотрите возможность приобретения PTU вместо или в дополнение к приоритетной обработке.
* Сервис выставляет счета за запросы, обработанные на стандартном уровне обслуживания, по стандартным тарифам. Запросы, обработанные стандартным уровнем службы, включают
service_tier = defaultв ответ, а запросы, обработанные уровнем приоритетной обработки, включаютservice_tier = priorityв ответ.
Устранение неполадок
| Проблема | Причина | Резолюция |
|---|---|---|
| Запросы, пониженные до уровня "Стандартный" | Одна из следующих ситуаций: - Трафик увеличился более чем на 50% токенов в минуту менее чем за 15 минут, достигнув лимита скорости увеличения. — запросы, отправленные на обработку с высоким приоритетом в периоды пиковых запросов. — Длинные запросы контекста, отправленные определенным моделям, перечисленным в целевой таблице задержки. |
- Постепенное увеличение трафика, если вы столкнулись с ограничениями скорости рампы. - Рассмотрите возможность приобретения PTU для постоянной пропускной способности. |