Sdílet prostřednictvím


Povolení zpracování priority pro modely Microsoft Foundry

Prioritní zpracování poskytuje nízkou latenci s flexibilitou plateb za skutečné použití. V tomto článku povolíte zpracování priority v nasazení modelu, ověříte, která úroveň služby zpracovávala vaše požadavky, a budete monitorovat související náklady.

Předpoklady

  • Předplatné Azure – Kreate si ho zdarma.
  • projekt Microsoft Foundry s nasazeným modelem typu GlobalStandard nebo DataZoneStandard.
  • Verze 2025-12-01 rozhraní API nebo novější.

Klíčové případy použití

  • Konzistentní a nízká latence pro responzivní uživatelské prostředí
  • Jednoduchost průběžných plateb bez dlouhodobých závazků.
  • Provoz během pracovní doby nebo jako nárazový provoz, který využívá výhody škálovatelného a nákladově efektivního výkonu. Volitelně můžete kombinovat zpracování priority se zřízenými jednotkami propustnosti (PTU) pro zajištění kapacity stabilního stavu a optimalizace nákladů.

Cíl latence

Model Cílová hodnota latence2
gpt-5.4, 2026-03-051 99% > 50 tokenů za sekundu
gpt-5.2, 2025-12-11 99% > 50 tokenů za sekundu
gpt-5.1, 2025-11-13 99% > 50 tokenů za sekundu
gpt-4.1, 2025-04-141 99% > 80 tokenů za sekundu

1 Dlouhé kontextové požadavky (to znamená požadavky odhadované na více než 128 tisíc promptových tokenů) budou sníženy na standardní zpracování a budou vám účtovány standardní sazby.

2 Vypočítané jako latence požadavku p50 za 5 minut.

Dostupnost prioritního zpracování pro jednotlivé typy nasazení

Prioritní zpracování lze povolit ve standardních globálních nasazeních nebo ve standardních nasazeních datové zóny (USA). Informace o cenách najdete na stránce s cenami Azure OpenAI.

Globální standardní dostupnost modelu

Oblast gpt-5.4, 2026-03-05 gpt-5.2, 2025-12-11 gpt-5.1, 2025-11-13 gpt-4.1, 2025-04-14
Austrálie - východ -
Jižní Brazílie -
kanadacentral -
východní Kanada -
centrálus -
Eastus -
eastus2 - - - -
franciecentral -
Německo – středozápad -
itálie sever -
japaneast -
koreacentral -
Northcentralus -
Norsko – východ -
polskocentral
Jižní Afrika – sever -
southcentralus
southeastasia -
Jižní Indie -
spaincentral -
Sweden Central
Švýcarsko – sever -
switzerlandwest -
uaenorth -
uksouth -
západní evropa -
westus -
westus3 -

Umožnění prioritního zpracování na úrovni nasazení

Můžete povolit zpracování priority na úrovni nasazení a (volitelně) na úrovni požadavku.

Poznámka:

Prioritní zpracování je možné povolit v nasazeních globálního standardu nebo standardu datové zóny (USA). Prioritní zpracování používá stejnou kvótu jako standardní zpracování.

Na portálu Microsoft Foundry zapněte přepínač Zpracování priority na stránce podrobností nasazení při vytváření nasazení nebo aktualizaci nastavení nasazeného modelu úpravou podrobností o nasazení.

Snímek obrazovky znázorňující, jak povolit zpracování priority během nasazení modelu na portálu Foundry

Poznámka:

Pokud dáváte přednost použití kódu k povolení zpracování priority na úrovni nasazení, můžete to provést prostřednictvím rozhraní REST API pro nasazení nastavením atributu service_tier následujícím způsobem: "properties" : {"service_tier" : "priority"}. Povolené hodnoty atributu service_tier jsou default a priority. default předpokládá standardní zpracování, zatímco priority umožňuje zpracování podle priority.

Jakmile je nasazení modelu nakonfigurované tak, aby používalo zpracování priority, můžete do modelu začít odesílat požadavky.

Zobrazení metrik využití

Míru využití vašeho prostředku můžete zobrazit v části monitorování Azure v Azure portal.

Pokud chcete zobrazit objem požadavků zpracovaných standardním zpracováním a zpracováním priority, rozdělte vrstvu služby (standard nebo prioritu), která byla v původním požadavku:

  1. Přihlaste se k https://portal.azure.com.
  2. Přejděte na prostředek Azure OpenAI a v levém navigačním panelu vyberte možnost Metrické metriky.
  3. Na stránce metrik přidejte metriku žádosti Azure OpenAI. Můžete také vybrat další metriky, jako je latence Azure OpenAI, využití Azure OpenAI a další.
  4. Výběrem možnosti Přidat filtr zvolte standardní nasazení, pro které byly zpracovávány požadavky s vysokou prioritou.
  5. Chcete-li rozdělit hodnoty podle ServiceTierRequest a ServiceTierResponse, vyberte Použít rozdělení.

Snímek obrazovky využití zpracování priority na stránce metrik prostředku v Azure portálu.

Další informace o monitorování nasazení najdete v tématu Monitor Azure OpenAI.

Monitorování nákladů

Na stránce analýzy nákladů Azure portal můžete zobrazit rozpis nákladů podle priority a standardních požadavků, a to tak, že vyfiltrujete název nasazení a fakturační značky následujícím způsobem:

  1. Přejděte na stránku analýzy nákladů v Azure portal.
  2. (Volitelné) Filtrovat podle prostředku
  3. Pokud chcete filtrovat podle názvu nasazení, přidejte filtr pro fakturační značku>, vyberte nasazení jako hodnotu a poté zvolte svůj název nasazení.

Screenshot využití zpracování priority na stránce analýzy nákladů prostředku na portálu Azure.

Informace o cenách pro prioritní zpracování najdete v přehledu cen Azure OpenAI Service.

Povolit prioritní zpracování na úrovni požadavku

Povolení zpracování priority na úrovni požadavku je volitelné. Rozhraní API pro dokončování chatu i odpovědi mají volitelný atribut service_tier , který určuje typ zpracování, který se má použít při poskytování požadavku. Následující příklad ukazuje, jak nastavit service_tier na priority v požadavku na odpověď.

curl -X POST https://YOUR-RESOURCE-NAME.openai.azure.com/openai/v1/responses \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $AZURE_OPENAI_AUTH_TOKEN" \
  -d '{
     "model": "gpt-4.1",
     "input": "This is a test",
     "service_tier": "priority"
    }'

Chcete-li přepsat nastavení na úrovni nasazení, použijte atribut service_tier. service_tier může převzít hodnoty auto, defaulta priority.

  • Pokud atribut nenastavíte, ve výchozím nastavení se nastaví na auto.

  • service_tier = auto znamená, že požadavek používá úroveň služby nakonfigurovanou v nasazení.

  • service_tier = default znamená, že požadavek používá pro vybraný model standardní ceny a výkon.

  • service_tier = priority znamená, že požadavek používá úroveň služby zpracování priority.

Následující tabulka shrnuje služební úrovně, které zpracovávají vaše požadavky na základě nastavení na úrovni nasazení a úrovni požadavků.service_tier

Nastavení na úrovni nasazení Nastavení na úrovni požadavku Požadavek zpracovaný podle úrovně služby
výchozí auto, výchozí Standard
výchozí priority Prioritní zpracování
priority automaticky, priorita Prioritní zpracování
priority výchozí Standard

Omezení

  • Služba v současné době nepodporuje regionální standardní nasazení a standardní nasazení datového pásma EU.

  • Služba může během těchto scénářů znovu směrovat požadavky na určité priority na standardní zpracování*:

    • Pokud se rychle zvýší počet tokenů zpracování priority za minutu, může dojít k dosažení limitů rychlosti nárůstu. V současné době je limit rychlosti rampy definován jako zvýšení provozu o více než 50% tokenů za minutu za méně než 15 minut.
    • Během období špičkových požadavků na prioritní zpracování.
    • Dlouhé požadavky na kontext odeslané do určitých modelů uvedených v cílové tabulce latence

    Návod

    Pokud se běžně setkáváte s limity rychlosti náběhu, zvažte zakoupení PTU namísto prioritního zpracování nebo jako jeho doplněk.

    * Žádosti na vyúčtování služeb zpracovávané úrovní služby Standard se standardními sazbami. Požadavky zpracovávané úrovní služby Standard zahrnují service_tier = default do odpovědi, zatímco požadavky zpracovávané vrstvou zpracování priority zahrnují service_tier = priority odpověď.

Řešení problémů

Problém Příčina Řešení
Požadavky downgradované na úroveň Standard Jedna z těchto situací:
- Provoz se zvýšil o více než 50 % tokenů za minutu během necelých 15 minut, čímž dosáhlo limitu míry růstu.
– Požadavky odeslané během období špičky jsou zpracovány prioritně.
– Dlouhé požadavky na kontext odeslané do určitých modelů uvedených v cílové tabulce latence.
- Pokud jste narazili na limity rychlosti rampy, zvyšte provoz postupně.
- Zvažte nákup PTU pro kapacitu systému ve stálém stavu.