Поделиться через


Включение обработки приоритета для моделей Майкрософт Foundry

Приоритетная обработка обеспечивает производительность с низкой задержкой и гибкостью модели оплаты по мере использования. В этой статье описано, как включить обработку приоритета в развертывании модели, проверить, какой уровень служб обработал ваши запросы, и отслеживать связанные затраты.

Предпосылки

  • Подписка Azure — Создать бесплатно.
  • Проект Майкрософт Foundry с моделью типа развертывания GlobalStandard или DataZoneStandard.
  • Версии модели 2025-12-01 или более поздние.

Основные варианты использования

  • Постоянная, низкая задержка для обеспечения быстрого взаимодействия с пользователем.
  • Простота оплаты по мере использования без долгосрочных обязательств.
  • Трафик в рабочие часы или всплесковый трафик, которые получают преимущества от масштабируемой, экономичной производительности. При необходимости можно объединить приоритетную обработку с предоставленными единицами пропускной способности (PTU) для оптимизации производительности и затрат в устойчивом состоянии.

Целевой показатель задержки

Модель Целевое значение задержки2
gpt-5.4, 2026-03-051 99% > 50 токенов в секунду
gpt-5.2, 2025-12-11 99% > 50 токенов в секунду
gpt-5.1, 2025-11-13 99% > 50 токенов в секунду
gpt-4.1, 2025-04-141 99% > 80 токенов в секунду

1 Длинные запросы контекста (т. е. запросы, оцененные в размере более 128k токенов запроса), будут понижены до стандартной обработки, и с вас будет взиматься плата по стандартной ставке.

2 Вычисляется как задержка запроса p50 за 5 минут.

Доступность приоритетной обработки по типу развертывания

Приоритетная обработка может быть включена в глобальных развертываниях уровня "Стандартный" или в стандартных развертываниях банка данных (США). Сведения о ценах см. на странице ценообразования Azure OpenAI.

Доступность глобальной стандартной модели

Регион gpt-5.4, 2026-03-05 gpt-5.2, 2025-12-11 gpt-5.1, 2025-11-13 gpt-4.1, 2025-04-14
австралиявосток -
Бразильский Юг -
Центральная Канада -
Канада Восток -
Центральус -
Истус -
eastus2 - - - -
francecentral -
Германия-запад-центр -
северная италия -
japaneast -
koreacentral -
Northcentralus -
Норвегия Восток -
Польша Центральная
Южная Африка-север -
СаутЦентралус
southeastasia -
Южная Индия -
spaincentral -
SwedenCentral
Швейцария север -
switzerlandwest -
uaenorth -
UKSOUTH -
Западная Европа -
Вестус -
westus3 -

Включение обработки приоритета на уровне развертывания

Вы можете включить обработку приоритета на уровне развертывания и (необязательно) на уровне запроса.

Замечание

В развертываниях Global Standard или Data Zone Standard (US) можно включить приоритетную обработку. Приоритетная обработка использует ту же квоту, что и стандартная обработка.

На портале Майкрософт Foundry на странице сведений о развертывании включите переключатель приоритетной обработки при создании развертывания. Чтобы обновить настройку развернутой модели, измените сведения о развертывании.

Снимок экрана: включение обработки приоритета во время развертывания модели на портале Foundry.

Замечание

Если вы предпочитаете использовать код для включения обработки приоритета на уровне развертывания, это можно сделать с помощью REST API для развертывания, задав service_tier атрибут следующим образом: "properties" : {"service_tier" : "priority"} Допустимые значения атрибута service_tier : default и priority. default подразумевает стандартную обработку, в то время как priority включает обработку приоритета.

После настройки развертывания модели для использования обработки приоритета можно начать отправку запросов в модель.

Просмотр метрик использования

Вы можете просмотреть меру использования ресурса в разделе Azure Monitor на портале Azure.

Чтобы просмотреть объем запросов, обработанных стандартной обработкой и обработкой приоритета, в разбивке по уровню обслуживания (стандартному или приоритетному), который был в исходном запросе:

  1. Войдите в https://portal.azure.com.
  2. Перейдите к ресурсу OpenAI Azure и выберите параметр Metrics в области навигации слева.
  3. На странице метрик добавьте метрику запросы Azure OpenAI. Вы также можете выбрать другие метрики, такие как Azure задержка OpenAI, Azure использование OpenAI и другие.
  4. Выберите "Добавить фильтр", чтобы выбрать стандартное развертывание, для которого были обработаны запросы на обработку приоритета.
  5. Выберите "Применить разделение" , чтобы разделить значения по ServiceTierRequest и ServiceTierResponse.

Снимок экрана использования приоритетной обработки на странице метрик ресурса в портале Azure.

Дополнительные сведения о мониторинге развертываний см. в разделе Monitor Azure OpenAI.

Мониторинг затрат

Вы можете просмотреть разбивку затрат на приоритеты и стандартные запросы на странице анализа затрат на портале Azure, отфильтровав имя развертывания и теги выставления счетов следующим образом:

  1. Перейдите на страницу анализа затрат на портале Azure.
  2. (Необязательно) Фильтрация по ресурсу.
  3. Чтобы фильтровать по имени развертывания: добавьте фильтр для тега выставления счетов, выберите в качестве значения >, а затем выберите имя вашего развертывания.

Снимок экрана использования приоритетной обработки на странице анализа затрат ресурса в портале Azure.

Сведения о ценообразовании для приоритетной обработки см. в разделе обзор цен Служба Azure OpenAI.

Включение обработки приоритета на уровне запроса

Включение обработки приоритета на уровне запроса является необязательным. API завершения чата и API ответов имеют необязательный атрибут service_tier , указывающий тип обработки, используемый при обслуживании запроса. В следующем примере показано, как задать значение service_tierpriority в запросе ответов.

curl -X POST https://YOUR-RESOURCE-NAME.openai.azure.com/openai/v1/responses \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $AZURE_OPENAI_AUTH_TOKEN" \
  -d '{
     "model": "gpt-4.1",
     "input": "This is a test",
     "service_tier": "priority"
    }'

service_tier Используйте атрибут для переопределения параметра уровня развертывания. service_tier может принимать значения auto, defaultи priority.

  • Если вы не задаете атрибут, он по умолчанию принимает значение auto.

  • service_tier = auto означает, что запрос использует уровень служб, настроенный в развертывании.

  • service_tier = default означает, что запрос использует стандартные цены и производительность выбранной модели.

  • service_tier = priority означает, что запрос использует уровень служб обработки приоритета.

В следующей таблице приведены сведения о том, какой уровень служб обрабатывает запросы на основе параметров уровня развертывания и уровня запросов.service_tier

Параметр уровня развертывания Параметр уровня запроса Запрос, обработанный по уровню служб
default авто, по умолчанию Стандарт
default priority Приоритетная обработка
priority авто, приоритет Приоритетная обработка
priority default Стандарт

Ограничения

  • В настоящее время служба не поддерживает региональные стандартные развертывания и стандартные развертывания в зоне данных ЕС.

  • Служба может перенаправить некоторые приоритетные запросы на стандартную обработку* во время следующих сценариев:

    • Если быстрое увеличение количества маркеров приоритетной обработки в минуту приводит к достижению ограничений скорости увеличения. В настоящее время ограничение скорости нарастания определяется как увеличение трафика более чем на 50% токенов в минуту менее чем за 15 минут.
    • Во времена пиковых запросов к приоритетной обработке.
    • Запросы с длинным контекстом, отправленные некоторым моделям, перечисленным в таблице целевых задержек.

    Подсказка

    Если вы обычно сталкиваетесь с ограничениями скорости нарастания мощности, рассмотрите возможность приобретения PTU вместо или в дополнение к приоритетной обработке.

    * Сервис выставляет счета за запросы, обработанные на стандартном уровне обслуживания, по стандартным тарифам. Запросы, обработанные стандартным уровнем службы, включают service_tier = default в ответ, а запросы, обработанные уровнем приоритетной обработки, включают service_tier = priority в ответ.

Устранение неполадок

Проблема Причина Резолюция
Запросы, пониженные до уровня "Стандартный" Одна из следующих ситуаций:
- Трафик увеличился более чем на 50% токенов в минуту менее чем за 15 минут, достигнув лимита скорости увеличения.
— запросы, отправленные на обработку с высоким приоритетом в периоды пиковых запросов.
— Длинные запросы контекста, отправленные определенным моделям, перечисленным в целевой таблице задержки.
- Постепенное увеличение трафика, если вы столкнулись с ограничениями скорости рампы.
- Рассмотрите возможность приобретения PTU для постоянной пропускной способности.