Poznámka:
Přístup k této stránce vyžaduje autorizaci. Můžete se zkusit přihlásit nebo změnit adresáře.
Přístup k této stránce vyžaduje autorizaci. Můžete zkusit změnit adresáře.
Prioritní zpracování poskytuje nízkou latenci s flexibilitou plateb za skutečné použití. V tomto článku povolíte zpracování priority v nasazení modelu, ověříte, která úroveň služby zpracovávala vaše požadavky, a budete monitorovat související náklady.
Předpoklady
- Předplatné Azure – Kreate si ho zdarma.
- projekt Microsoft Foundry s nasazeným modelem typu
GlobalStandardneboDataZoneStandard. - Verze
2025-12-01rozhraní API nebo novější.
Klíčové případy použití
- Konzistentní a nízká latence pro responzivní uživatelské prostředí
- Jednoduchost průběžných plateb bez dlouhodobých závazků.
- Provoz během pracovní doby nebo jako nárazový provoz, který využívá výhody škálovatelného a nákladově efektivního výkonu. Volitelně můžete kombinovat zpracování priority se zřízenými jednotkami propustnosti (PTU) pro zajištění kapacity stabilního stavu a optimalizace nákladů.
Cíl latence
| Model | Cílová hodnota latence2 |
|---|---|
| gpt-5.4, 2026-03-051 | 99% > 50 tokenů za sekundu |
| gpt-5.2, 2025-12-11 | 99% > 50 tokenů za sekundu |
| gpt-5.1, 2025-11-13 | 99% > 50 tokenů za sekundu |
| gpt-4.1, 2025-04-141 | 99% > 80 tokenů za sekundu |
1 Dlouhé kontextové požadavky (to znamená požadavky odhadované na více než 128 tisíc promptových tokenů) budou sníženy na standardní zpracování a budou vám účtovány standardní sazby.
2 Vypočítané jako latence požadavku p50 za 5 minut.
Dostupnost prioritního zpracování pro jednotlivé typy nasazení
Prioritní zpracování lze povolit ve standardních globálních nasazeních nebo ve standardních nasazeních datové zóny (USA). Informace o cenách najdete na stránce s cenami Azure OpenAI.
Globální standardní dostupnost modelu
| Oblast | gpt-5.4, 2026-03-05 | gpt-5.2, 2025-12-11 | gpt-5.1, 2025-11-13 | gpt-4.1, 2025-04-14 |
|---|---|---|---|---|
| Austrálie - východ | - | ✅ | ✅ | ✅ |
| Jižní Brazílie | - | ✅ | ✅ | ✅ |
| kanadacentral | - | ✅ | ✅ | ✅ |
| východní Kanada | - | ✅ | ✅ | ✅ |
| centrálus | - | ✅ | ✅ | ✅ |
| Eastus | - | ✅ | ✅ | ✅ |
| eastus2 | - | - | - | - |
| franciecentral | - | ✅ | ✅ | ✅ |
| Německo – středozápad | - | ✅ | ✅ | ✅ |
| itálie sever | - | ✅ | ✅ | ✅ |
| japaneast | - | ✅ | ✅ | ✅ |
| koreacentral | - | ✅ | ✅ | ✅ |
| Northcentralus | - | ✅ | ✅ | ✅ |
| Norsko – východ | - | ✅ | ✅ | ✅ |
| polskocentral | ✅ | ✅ | ✅ | ✅ |
| Jižní Afrika – sever | - | ✅ | ✅ | ✅ |
| southcentralus | ✅ | ✅ | ✅ | ✅ |
| southeastasia | - | ✅ | ✅ | ✅ |
| Jižní Indie | - | ✅ | ✅ | ✅ |
| spaincentral | - | ✅ | ✅ | ✅ |
| Sweden Central | ✅ | ✅ | ✅ | ✅ |
| Švýcarsko – sever | - | ✅ | ✅ | ✅ |
| switzerlandwest | - | ✅ | ✅ | ✅ |
| uaenorth | - | ✅ | ✅ | ✅ |
| uksouth | - | ✅ | ✅ | ✅ |
| západní evropa | - | ✅ | ✅ | ✅ |
| westus | - | ✅ | ✅ | ✅ |
| westus3 | - | ✅ | ✅ | ✅ |
Umožnění prioritního zpracování na úrovni nasazení
Můžete povolit zpracování priority na úrovni nasazení a (volitelně) na úrovni požadavku.
Poznámka:
Prioritní zpracování je možné povolit v nasazeních globálního standardu nebo standardu datové zóny (USA). Prioritní zpracování používá stejnou kvótu jako standardní zpracování.
Na portálu Microsoft Foundry zapněte přepínač Zpracování priority na stránce podrobností nasazení při vytváření nasazení nebo aktualizaci nastavení nasazeného modelu úpravou podrobností o nasazení.
Poznámka:
Pokud dáváte přednost použití kódu k povolení zpracování priority na úrovni nasazení, můžete to provést prostřednictvím rozhraní REST API pro nasazení nastavením atributu service_tier následujícím způsobem: "properties" : {"service_tier" : "priority"}. Povolené hodnoty atributu service_tier jsou default a priority.
default předpokládá standardní zpracování, zatímco priority umožňuje zpracování podle priority.
Jakmile je nasazení modelu nakonfigurované tak, aby používalo zpracování priority, můžete do modelu začít odesílat požadavky.
Zobrazení metrik využití
Míru využití vašeho prostředku můžete zobrazit v části monitorování Azure v Azure portal.
Pokud chcete zobrazit objem požadavků zpracovaných standardním zpracováním a zpracováním priority, rozdělte vrstvu služby (standard nebo prioritu), která byla v původním požadavku:
- Přihlaste se k https://portal.azure.com.
- Přejděte na prostředek Azure OpenAI a v levém navigačním panelu vyberte možnost Metrické metriky.
- Na stránce metrik přidejte metriku žádosti Azure OpenAI. Můžete také vybrat další metriky, jako je latence Azure OpenAI, využití Azure OpenAI a další.
- Výběrem možnosti Přidat filtr zvolte standardní nasazení, pro které byly zpracovávány požadavky s vysokou prioritou.
- Chcete-li rozdělit hodnoty podle ServiceTierRequest a ServiceTierResponse, vyberte Použít rozdělení.
Další informace o monitorování nasazení najdete v tématu Monitor Azure OpenAI.
Monitorování nákladů
Na stránce analýzy nákladů Azure portal můžete zobrazit rozpis nákladů podle priority a standardních požadavků, a to tak, že vyfiltrujete název nasazení a fakturační značky následujícím způsobem:
- Přejděte na stránku analýzy nákladů v Azure portal.
- (Volitelné) Filtrovat podle prostředku
- Pokud chcete filtrovat podle názvu nasazení, přidejte filtr pro fakturační značku>, vyberte nasazení jako hodnotu a poté zvolte svůj název nasazení.
Informace o cenách pro prioritní zpracování najdete v přehledu cen Azure OpenAI Service.
Povolit prioritní zpracování na úrovni požadavku
Povolení zpracování priority na úrovni požadavku je volitelné. Rozhraní API pro dokončování chatu i odpovědi mají volitelný atribut service_tier , který určuje typ zpracování, který se má použít při poskytování požadavku. Následující příklad ukazuje, jak nastavit service_tier na priority v požadavku na odpověď.
curl -X POST https://YOUR-RESOURCE-NAME.openai.azure.com/openai/v1/responses \
-H "Content-Type: application/json" \
-H "Authorization: Bearer $AZURE_OPENAI_AUTH_TOKEN" \
-d '{
"model": "gpt-4.1",
"input": "This is a test",
"service_tier": "priority"
}'
Chcete-li přepsat nastavení na úrovni nasazení, použijte atribut service_tier.
service_tier může převzít hodnoty auto, defaulta priority.
Pokud atribut nenastavíte, ve výchozím nastavení se nastaví na
auto.service_tier = autoznamená, že požadavek používá úroveň služby nakonfigurovanou v nasazení.service_tier = defaultznamená, že požadavek používá pro vybraný model standardní ceny a výkon.service_tier = priorityznamená, že požadavek používá úroveň služby zpracování priority.
Následující tabulka shrnuje služební úrovně, které zpracovávají vaše požadavky na základě nastavení na úrovni nasazení a úrovni požadavků.service_tier
| Nastavení na úrovni nasazení | Nastavení na úrovni požadavku | Požadavek zpracovaný podle úrovně služby |
|---|---|---|
| výchozí | auto, výchozí | Standard |
| výchozí | priority | Prioritní zpracování |
| priority | automaticky, priorita | Prioritní zpracování |
| priority | výchozí | Standard |
Omezení
Služba v současné době nepodporuje regionální standardní nasazení a standardní nasazení datového pásma EU.
Služba může během těchto scénářů znovu směrovat požadavky na určité priority na standardní zpracování*:
- Pokud se rychle zvýší počet tokenů zpracování priority za minutu, může dojít k dosažení limitů rychlosti nárůstu. V současné době je limit rychlosti rampy definován jako zvýšení provozu o více než 50% tokenů za minutu za méně než 15 minut.
- Během období špičkových požadavků na prioritní zpracování.
- Dlouhé požadavky na kontext odeslané do určitých modelů uvedených v cílové tabulce latence
Návod
Pokud se běžně setkáváte s limity rychlosti náběhu, zvažte zakoupení PTU namísto prioritního zpracování nebo jako jeho doplněk.
* Žádosti na vyúčtování služeb zpracovávané úrovní služby Standard se standardními sazbami. Požadavky zpracovávané úrovní služby Standard zahrnují
service_tier = defaultdo odpovědi, zatímco požadavky zpracovávané vrstvou zpracování priority zahrnujíservice_tier = priorityodpověď.
Řešení problémů
| Problém | Příčina | Řešení |
|---|---|---|
| Požadavky downgradované na úroveň Standard | Jedna z těchto situací: - Provoz se zvýšil o více než 50 % tokenů za minutu během necelých 15 minut, čímž dosáhlo limitu míry růstu. – Požadavky odeslané během období špičky jsou zpracovány prioritně. – Dlouhé požadavky na kontext odeslané do určitých modelů uvedených v cílové tabulce latence. |
- Pokud jste narazili na limity rychlosti rampy, zvyšte provoz postupně. - Zvažte nákup PTU pro kapacitu systému ve stálém stavu. |