Включение обработки приоритета для моделей Майкрософт Foundry

Приоритетная обработка обеспечивает производительность с низкой задержкой и гибкостью модели оплаты по мере использования. В этой статье описано, как включить обработку приоритета в развертывании модели, проверить, какой уровень служб обработал ваши запросы, и отслеживать связанные затраты.

Предпосылки

Подписка Azure — Создать бесплатно.
Проект Майкрософт Foundry с моделью типа развертывания GlobalStandard или DataZoneStandard.
Версии модели 2025-12-01 или более поздние.

Основные варианты использования

Постоянная, низкая задержка для обеспечения быстрого взаимодействия с пользователем.
Простота оплаты по мере использования без долгосрочных обязательств.
Трафик в рабочие часы или всплесковый трафик, которые получают преимущества от масштабируемой, экономичной производительности. При необходимости можно объединить приоритетную обработку с предоставленными единицами пропускной способности (PTU) для оптимизации производительности и затрат в устойчивом состоянии.

Целевой показатель задержки

Модель	Целевое значение задержки²
gpt-5.4, 2026-03-05¹	99% > 50 токенов в секунду
gpt-5.2, 2025-12-11	99% > 50 токенов в секунду
gpt-5.1, 2025-11-13	99% > 50 токенов в секунду
gpt-4.1, 2025-04-14¹	99% > 80 токенов в секунду

¹ Длинные запросы контекста (т. е. запросы, оцененные в размере более 128k токенов запроса), будут понижены до стандартной обработки, и с вас будет взиматься плата по стандартной ставке.

² Вычисляется как задержка запроса p50 за 5 минут.

Доступность приоритетной обработки по типу развертывания

Приоритетная обработка может быть включена в глобальных развертываниях уровня "Стандартный" или в стандартных развертываниях банка данных (США). Сведения о ценах см. на странице ценообразования Azure OpenAI.

Глобальный стандарт
Стандарт зоны данных

Доступность глобальной стандартной модели

Регион	gpt-5.4, 2026-03-05	gpt-5.2, 2025-12-11	gpt-5.1, 2025-11-13	gpt-4.1, 2025-04-14
австралиявосток	-	✅	✅	✅
Бразильский Юг	-	✅	✅	✅
Центральная Канада	-	✅	✅	✅
Канада Восток	-	✅	✅	✅
Центральус	-	✅	✅	✅
Истус	-	✅	✅	✅
eastus2	-	-	-	-
francecentral	-	✅	✅	✅
Германия-запад-центр	-	✅	✅	✅
северная италия	-	✅	✅	✅
japaneast	-	✅	✅	✅
koreacentral	-	✅	✅	✅
Northcentralus	-	✅	✅	✅
Норвегия Восток	-	✅	✅	✅
Польша Центральная	✅	✅	✅	✅
Южная Африка-север	-	✅	✅	✅
СаутЦентралус	✅	✅	✅	✅
southeastasia	-	✅	✅	✅
Южная Индия	-	✅	✅	✅
spaincentral	-	✅	✅	✅
SwedenCentral	✅	✅	✅	✅
Швейцария север	-	✅	✅	✅
switzerlandwest	-	✅	✅	✅
uaenorth	-	✅	✅	✅
UKSOUTH	-	✅	✅	✅
Западная Европа	-	✅	✅	✅
Вестус	-	✅	✅	✅
westus3	-	✅	✅	✅

Доступность стандартной модели зоны данных

Регион	gpt-5.4, 2026-03-05	gpt-5.2, 2025-12-11	gpt-5.1, 2025-11-13	gpt-4.1, 2025-04-14
Центральус	✅	✅	✅	✅
Истус	✅	✅	✅	✅
eastus2	-	-	-	-
Northcentralus	✅	✅	✅	✅
СаутЦентралус	✅	✅	✅	✅
Вестус	✅	✅	✅	✅
westus3	✅	✅	✅	✅

Включение обработки приоритета на уровне развертывания

Вы можете включить обработку приоритета на уровне развертывания и (необязательно) на уровне запроса.

Замечание

В развертываниях Global Standard или Data Zone Standard (US) можно включить приоритетную обработку. Приоритетная обработка использует ту же квоту, что и стандартная обработка.

На портале Майкрософт Foundry на странице сведений о развертывании включите переключатель приоритетной обработки при создании развертывания. Чтобы обновить настройку развернутой модели, измените сведения о развертывании.

Замечание

Если вы предпочитаете использовать код для включения обработки приоритета на уровне развертывания, это можно сделать с помощью REST API для развертывания, задав service_tier атрибут следующим образом: "properties" : {"service_tier" : "priority"} Допустимые значения атрибута service_tier : default и priority. default подразумевает стандартную обработку, в то время как priority включает обработку приоритета.

После настройки развертывания модели для использования обработки приоритета можно начать отправку запросов в модель.

Просмотр метрик использования

Вы можете просмотреть меру использования ресурса в разделе Azure Monitor на портале Azure.

Чтобы просмотреть объем запросов, обработанных стандартной обработкой и обработкой приоритета, в разбивке по уровню обслуживания (стандартному или приоритетному), который был в исходном запросе:

Войдите в https://portal.azure.com.
Перейдите к ресурсу OpenAI Azure и выберите параметр Metrics в области навигации слева.
На странице метрик добавьте метрику запросы Azure OpenAI. Вы также можете выбрать другие метрики, такие как Azure задержка OpenAI, Azure использование OpenAI и другие.
Выберите "Добавить фильтр", чтобы выбрать стандартное развертывание, для которого были обработаны запросы на обработку приоритета.
Выберите "Применить разделение" , чтобы разделить значения по ServiceTierRequest и ServiceTierResponse.

Дополнительные сведения о мониторинге развертываний см. в разделе Monitor Azure OpenAI.

Мониторинг затрат

Вы можете просмотреть разбивку затрат на приоритеты и стандартные запросы на странице анализа затрат на портале Azure, отфильтровав имя развертывания и теги выставления счетов следующим образом:

Перейдите на страницу анализа затрат на портале Azure.
(Необязательно) Фильтрация по ресурсу.
Чтобы фильтровать по имени развертывания: добавьте фильтр для тега выставления счетов, выберите в качестве значения >, а затем выберите имя вашего развертывания.

Сведения о ценообразовании для приоритетной обработки см. в разделе обзор цен Служба Azure OpenAI.

Включение обработки приоритета на уровне запроса

Включение обработки приоритета на уровне запроса является необязательным. API завершения чата и API ответов имеют необязательный атрибут service_tier , указывающий тип обработки, используемый при обслуживании запроса. В следующем примере показано, как задать значение service_tierpriority в запросе ответов.

curl -X POST https://YOUR-RESOURCE-NAME.openai.azure.com/openai/v1/responses \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $AZURE_OPENAI_AUTH_TOKEN" \
  -d '{
     "model": "gpt-4.1",
     "input": "This is a test",
     "service_tier": "priority"
    }'

service_tier Используйте атрибут для переопределения параметра уровня развертывания. service_tier может принимать значения auto, defaultи priority.

Если вы не задаете атрибут, он по умолчанию принимает значение auto.
service_tier = auto означает, что запрос использует уровень служб, настроенный в развертывании.
service_tier = default означает, что запрос использует стандартные цены и производительность выбранной модели.
service_tier = priority означает, что запрос использует уровень служб обработки приоритета.

В следующей таблице приведены сведения о том, какой уровень служб обрабатывает запросы на основе параметров уровня развертывания и уровня запросов.service_tier

Параметр уровня развертывания	Параметр уровня запроса	Запрос, обработанный по уровню служб
default	авто, по умолчанию	Стандарт
default	priority	Приоритетная обработка
priority	авто, приоритет	Приоритетная обработка
priority	default	Стандарт

Ограничения

В настоящее время служба не поддерживает региональные стандартные развертывания и стандартные развертывания в зоне данных ЕС.
Служба может перенаправить некоторые приоритетные запросы на стандартную обработку* во время следующих сценариев:
- Если быстрое увеличение количества маркеров приоритетной обработки в минуту приводит к достижению ограничений скорости увеличения. В настоящее время ограничение скорости нарастания определяется как увеличение трафика более чем на 50% токенов в минуту менее чем за 15 минут.
- Во времена пиковых запросов к приоритетной обработке.
- Запросы с длинным контекстом, отправленные некоторым моделям, перечисленным в таблице целевых задержек.
Подсказка

Если вы обычно сталкиваетесь с ограничениями скорости нарастания мощности, рассмотрите возможность приобретения PTU вместо или в дополнение к приоритетной обработке.

* Сервис выставляет счета за запросы, обработанные на стандартном уровне обслуживания, по стандартным тарифам. Запросы, обработанные стандартным уровнем службы, включают service_tier = default в ответ, а запросы, обработанные уровнем приоритетной обработки, включают service_tier = priority в ответ.

Устранение неполадок

Проблема	Причина	Резолюция
Запросы, пониженные до уровня "Стандартный"	Одна из следующих ситуаций: - Трафик увеличился более чем на 50% токенов в минуту менее чем за 15 минут, достигнув лимита скорости увеличения. — запросы, отправленные на обработку с высоким приоритетом в периоды пиковых запросов. — Длинные запросы контекста, отправленные определенным моделям, перечисленным в целевой таблице задержки.	- Постепенное увеличение трафика, если вы столкнулись с ограничениями скорости рампы. - Рассмотрите возможность приобретения PTU для постоянной пропускной способности.

Обратная связь

Были ли сведения на этой странице полезными?

Last updated on 2026-04-09