Включение обработки приоритета для моделей Microsoft Foundry

Приоритетная обработка обеспечивает низкую задержку с гибкой системой оплаты «по мере использования». В этой статье описано, как включить обработку приоритета в развертывании модели, проверить, какой уровень служб обработал ваши запросы, и отслеживать связанные затраты.

Необходимые условия

  • Подписка Azure — Создайте подписку бесплатно.
  • Проект Microsoft Foundry с типом модели развертывания GlobalStandard или DataZoneStandard.
  • Версии модели 2025-12-01 или более поздние.

Основные варианты использования

  • Последовательная, низкая задержка для отзывчивости пользовательского опыта.
  • Простота оплаты по мере использования без долгосрочных обязательств.
  • Трафик в рабочее время или пиковый трафик, который получает преимущества от масштабируемой, эффективной системы с точки зрения затрат. При необходимости, вы можете комбинировать обработку с приоритетом с подготовленными единицами пропускной способности (PTU) для оптимизации затрат и поддержания стабильной емкости.

Целевое значение задержки

Модель Целевое значение задержки2
gpt-5.5, 2026-04-24 99% > 100 токенов в секунду
gpt-5.4, 2026-03-051 99% > 50 токенов в секунду
gpt-5.2, 2025-12-11 99% > 50 токенов в секунду
gpt-5.1, 2025-11-13 99% > 50 токенов в секунду
gpt-4.1, 2025-04-141 99% > 80 токенов в секунду

1 Длинные запросы контекста (т. е. запросы, оцененные как содержащие более 128k маркеров запроса) будут понижены до стандартной обработки, и с вас будет взиматься плата по стандартной ставке.

2 Вычисляется как задержка запроса p50 за 5 минут.

Доступность приоритетной обработки по типу развертывания

Обработка приоритета может быть включена в развертываниях глобального уровня "Стандартный" или в стандартных развертываниях зоны данных (США). Сведения о ценах см. на странице с ценами Azure OpenAI.

Доступность глобальной стандартной модели

Регион gpt-5.5, 2026-04-24 gpt-5.4-mini, 2026-03-17 gpt-5.4, 2026-03-05 gpt-5.2, 2025-12-11 gpt-5.1, 2025-11-13 gpt-4.1, 2025-04-14
австралия восток -
бразилияюг -
canadacentral -
canadaeast -
centralus -
eastus -
eastus2 -
francecentral -
germanywestcentral -
италия север -
japaneast -
koreacentral -
northcentralus -
norwayeast -
Центральная Польша
southafricanorth -
southcentralus
Юго-Восточная Азия -
южная индия -
spaincentral -
Швецияцентр
свицерланднорт -
запад швейцарии -
uaenorth -
uksouth -
westeurope -
westus -
westus3 -

Включение обработки приоритета на уровне развертывания

Вы можете включить обработку приоритета на уровне развертывания и (необязательно) на уровне запроса.

Примечание

В развертываниях global standard или Data Zone standard (US) можно включить обработку приоритета. Приоритетная обработка использует ту же квоту, что и стандартная обработка.

На портале Microsoft Foundry включите переключатель Priority processing на странице сведений о развертывании при создании развертывания или отредактируйте сведения о развертывании для обновления настройки развернутой модели.

Снимок экрана: включение обработки приоритета во время развертывания модели на портале Foundry.

Примечание

Если вы предпочитаете использовать код для включения обработки приоритета на уровне развертывания, это можно сделать с помощью REST API для развертывания, задав service_tier атрибут следующим образом: "properties" : {"service_tier" : "priority"} Допустимые значения атрибута service_tier : default и priority. default подразумевает стандартную обработку, в то время как priority включает обработку приоритета.

После настройки развертывания модели для использования обработки приоритета можно начать отправку запросов в модель.

Просмотр метрик использования

Вы можете просмотреть меру использования ресурса в разделе Azure Monitor на портале Azure.

Чтобы просмотреть количество запросов, обработанных по стандартной и приоритетной обработке, разделенных по уровню услуг (стандартный или приоритетный), который был указан в исходном запросе:

  1. Войдите в https://portal.azure.com.
  2. Перейдите к ресурсу OpenAI Azure и выберите параметр Metrics в области навигации слева.
  3. На странице метрик добавьте метрику запросы Azure OpenAI. Вы также можете выбрать другие метрики, такие как Azure задержка OpenAI, Azure использование OpenAI и другие.
  4. Выберите "Добавить фильтр", чтобы выбрать стандартное развертывание, для которого были обработаны запросы на обработку приоритета.
  5. Выберите "Применить разделение" , чтобы разделить значения по ServiceTierRequest и ServiceTierResponse.

Скриншот использования приоритетной обработки на странице метрик ресурса в портале Azure.

Дополнительные сведения о мониторинге развертываний см. в разделе Monitor Azure OpenAI.

Мониторинг затрат

Вы можете просмотреть разбивку затрат на приоритеты и стандартные запросы на странице анализа затрат на портале Azure, отфильтровав имя развертывания и теги выставления счетов следующим образом:

  1. Перейдите на страницу анализа затрат на портале Azure.
  2. (Необязательно) Фильтрация по ресурсу.
  3. Чтобы фильтровать по имени развертывания: добавьте фильтр для тега> выставления счетов выберите развертывание в качестве значения, а затем выберите имя развертывания .

Скриншот использования обработки по приоритету на странице анализа затрат ресурса в портале Azure.

Сведения о ценах на приоритетную обработку см. в обзоре цен Служба Azure OpenAI.

Включение обработки приоритета на уровне запроса

Включение обработки приоритета на уровне запроса является необязательным. API завершения чата и API ответов имеют необязательный атрибут service_tier , указывающий тип обработки, используемый при обслуживании запроса. В следующем примере показано, как задать значение service_tierpriority в запросе ответов.

curl -X POST https://YOUR-RESOURCE-NAME.openai.azure.com/openai/v1/responses \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $AZURE_OPENAI_AUTH_TOKEN" \
  -d '{
     "model": "gpt-4.1",
     "input": "This is a test",
     "service_tier": "priority"
    }'

service_tier Используйте атрибут для переопределения параметра уровня развертывания. service_tier может принимать значения auto, defaultи priority.

  • Если атрибут не задан, он принимает значение по умолчанию auto.

  • service_tier = auto означает, что запрос использует уровень служб, настроенный в развертывании.

  • service_tier = default означает, что запрос использует стандартные цены и производительность выбранной модели.

  • service_tier = priority означает, что запрос использует уровень служб обработки приоритета.

В следующей таблице приведены сведения о том, какой уровень служб обрабатывает запросы на основе параметров уровня развертывания и уровня запросов.service_tier

Параметр уровня развертывания Параметр уровня запроса Запрос, обработанный по уровню служб
По умолчанию auto, по умолчанию Стандартный
По умолчанию Приоритет Приоритетная обработка
Приоритет Авто, приоритет Приоритетная обработка
Приоритет По умолчанию Стандартный

Ограничения

  • В настоящее время служба не поддерживает региональные стандартные развертывания и стандартные развертывания в зоне данных ЕС.

  • Служба может перенаправить некоторые приоритетные запросы на стандартную обработку* во время следующих сценариев:

    • Если быстро увеличивается количество токенов приоритетной обработки в минуту, это приведет к достижению пределов скорости увеличения ограничений скорости увеличения. В настоящее время ограничение скорости повышения определяется как увеличение трафика более чем на 50% токенов в минуту за период менее 15 минут.
    • Во время пиковых нагрузок на процесс обработки с приоритетом.
    • Длинные контекстные запросы, отправленные определенным моделям, перечисленным в целевой таблице задержки.

    Совет

    Если вы обычно сталкиваетесь с ограничениями предельных режимов, рассмотрите возможность приобретения PTU вместо или в дополнение к приоритетной обработке.

    * Сервис выставляет счета за запросы, обработанные по стандартному уровню обслуживания, по стандартным тарифам. Запросы, обрабатываемые стандартным уровнем обслуживания, включают service_tier = default в ответ, а запросы, обработанные уровнем приоритетной обработки, включают service_tier = priority в ответ.

Устранение неполадок

Проблема Причина Разрешение
Запросы, пониженные до уровня "Стандартный" Одна из следующих ситуаций:
- Трафик увеличился более чем на 50% токенов в минуту менее чем за 15 минут, достигнув лимита скорости увеличения.
— запросы, отправленные в периоды максимальной загруженности, на приоритетную обработку.
— Длинные запросы контекста, отправленные определенным моделям, перечисленным в целевой таблице задержки.
- Постепенное увеличение трафика, если вы столкнулись с ограничениями скорости рампы.
- Рассмотрите возможность приобретения PTU для стабильной пропускной способности.