Sdílet prostřednictvím


Jaká je zřízená propustnost pro modely Foundry?

Nabídka průchodnosti zajištěná službou Microsoft Foundry je typ nasazení modelu, který umožňuje nastavit požadovanou úroveň průchodnosti během nasazení modelu. Foundry pak přidělí potřebnou kapacitu zpracování modelu a zajistí, že je pro vás připravená. Využijte zřízenou propustnost, kterou jste požadovali v různých portfoliech modelů, které se prodávají přímo Azure. Mezi tyto modely patří modely Azure OpenAI a nově představené vlajkové rodiny modelů, jako jsou Azure DeepSeek v rámci foundry Models, s více rodinami modelů, které se v průběhu času připojují.

Zřízená propustnost poskytuje:

Prospěch Description
Širší volba modelu Přístup k nejnovějším vlajkovým modelům
Flexibilita Změna modelů a implementací s danou kvótou navržené propustnosti
Významné slevy Zvýšení využití rezervací s flexibilnější volbou rezervace
Předvídatelný výkon Stabilní maximální latence a propustnost pro jednotné úlohy
Přidělená kapacita zpracování Propustnost je dostupná bez ohledu na to, jestli se po nasazení používá nebo ne.
Úspora nákladů Úlohy s vysokou propustností můžou přinést úspory nákladů oproti spotřebě založené na tokenech.

Návod

Předpoklady

  • Předplatné Azure. Vytvořte si ho zdarma.
  • Projekt Microsoft Foundry, který má model nasazený pomocí nasazení s přidělenou propustností.
  • Zřízená kvóta propustnosti přidělená vašemu předplatnému v cílové oblasti
  • Azure CLI (pokud plánujete vytvářet nasazení prostřednictvím příkazového řádku).

Kdy použít zřízenou propustnost

Zvažte nasazení zřízené propustnosti, pokud máte dobře definované, předvídatelné požadavky na propustnost a latenci – obvykle pro produkční aplikace se známými vzory provozu. Zřízená propustnost je užitečná také pro aplikace citlivé na latenci nebo v reálném čase.

Vysvětlení přidělení PTU

Zřízené jednotky propustnosti (PTU) a typy nasazení jsou stavební bloky zřízené propustnosti. Následující části popisují, jak fungují.

Přidělené jednotky propustnosti (PTU)

Zřízené jednotky propustnosti (PTU) jsou obecné jednotky kapacity zpracování modelu, které využíváte k nastavení velikosti zřízených nasazení pro dosažení požadované propustnosti při zpracování podnětů a generování výstupů. Zřízené jednotky výkonu jsou přiřazeny k předplatnému jako kvóta a používají se k definování nákladů. Každá kvóta je specifická pro oblast a definuje maximální počet PTU, který lze přiřadit k nasazením v daném předplatném a oblasti.

Správa nákladů v rámci sdílené rezervace PTU

Využijte možnost PTU k bezproblémové správě nákladů na modely Foundry v rámci sdílené rezervace PTU. Požadované jednotky PTU pro výkon nasazení a propustnosti jsou ale dynamicky přizpůsobené zvoleným modelům. Další informace o nákladech na PTU a bodech latence modelu najdete v tématu Vysvětlení nákladů spojených s PTU.

Stávající rezervace PTU se automaticky upgradují, aby zákazníkům mohly zajistit vyšší efektivitu a úsporu nákladů při nasazování modelů Foundry. Předpokládejme například, že máte existující rezervaci PTU se zakoupenými 500 PTU. Pro Azure modely OpenAI používáte 300 jednotek a rozhodnete se také použít PTU k nasazení Azure DeepSeek, Azure Llama nebo jiných modelů s funkcí PTU v modelech Foundry.

  • Pokud použijete zbývajících 200 PTU pro DeepSeek-R1, 200 PTU automaticky sdílí slevu za rezervaci a celkové využití rezervace je 500 PTU.

  • Pokud použijete 300 PTU pro DeepSeek-R1, poté se pro 200 PTU automaticky uplatní sleva za rezervaci, zatímco 100 PTU překročí rezervaci a jsou účtovány hodinovou sazbou DeepSeek-R1.

Další informace o úsporách nákladů s rezervacemi PTU najdete v tématu Šetřete náklady s rezervacemi zřízené propustnosti Microsoft Foundry.

Typy nasazení

Při vytváření zřízeného nasazení v Foundry můžete typ nasazení v dialogovém okně Vytvořit nasazení nastavit na globální zřízenou propustnost, zřízenou propustnost zóny dat nebo typ nasazení regionální zřízené propustnosti v závislosti na potřebách zpracování dat pro danou úlohu.

Při vytváření zřízeného nasazení v Foundry prostřednictvím rozhraní příkazového řádku nebo rozhraní API můžete nastavit sku-name na GlobalProvisionedManaged, DataZoneProvisionedManaged nebo ProvisionedManaged v závislosti na potřebě zpracování dat pro danou úlohu.

Typ nasazení název SKU v příkazovém řádku
Globální zřízená propustnost GlobalProvisionedManaged
Zřízená propustnost datové zóny Spravovaná Datová Zóna Zajištěná
Regionální zřízená propustnost ProvisionovanýSpravovaný

Pokud chcete přizpůsobit následující příkaz Azure CLI příkladu jinému typu nasazení, aktualizujte parametr sku-name tak, aby odpovídal typu nasazení, který chcete nasadit.

az cognitiveservices account deployment create \
--name <myResourceName> \
--resource-group  <myResourceGroupName> \
--deployment-name MyDeployment \
--model-name gpt-4o \
--model-version 2024-08-06  \
--model-format OpenAI \
--sku-capacity 15 \
--sku-name GlobalProvisionedManaged

Správa kapacity a dostupnosti

Kapacita zřízené propustnosti podléhá regionální dostupnosti a poptávce v reálném čase. Následující části popisují, jak kapacita funguje a jak ji najít.

Transparentnost kapacity

Modely prodané přímo Azure jsou vysoce vyhledávanými službami, ve kterých může poptávka zákazníků překročit kapacitu GPU služby. Microsoft se snaží poskytnout kapacitu pro všechny oblasti a modely na vyžádání, ale prodej oblasti je vždy možností. Toto omezení může omezit schopnost některých zákazníků vytvořit nasazení požadovaného modelu, verze nebo počtu PTU v požadované oblasti – i když mají v této oblasti dostupnou kvótu.

Důležité

Kvóta omezuje maximální počet PTU, které je možné nasadit v předplatném a oblasti, ale nezaručuje dostupnost kapacity. Kapacita je přidělena v době nasazení.

Obecně řečeno:

  • Kvóta nezaručuje kapacitu. Kvóta omezuje maximální počet PTU, které je možné nasadit v předplatném a oblasti.
  • Kapacita se přiděluje v době nasazení a uchovává se tak dlouho, dokud nasazení existuje. Pokud není dostupná kapacita služby, nasazení selže.
  • Informace o kvótách a dostupnosti kapacity v reálném čase použijte k výběru vhodné oblasti pro váš scénář.
  • Redukce nebo odstranění nasazení uvolní kapacitu zpět do oblasti. Není zaručeno, že je kapacita disponibilní, pokud se nasazení škáluje nebo znovu nasadí později.

Pokyny k regionální kapacitě

Pokud chcete najít kapacitu potřebnou pro jejich nasazení, použijte rozhraní API kapacity nebo prostředí nasazení Foundry k poskytování informací o dostupnosti kapacity v reálném čase.

Ve Foundry prostředí nasazení identifikuje, kdy oblast nemá kapacitu potřebnou k nasazení modelu. Tím se podíváte na požadovaný model, verzi a počet PTU. Pokud není kapacita dostupná, prostředí uživatele nasměruje na výběr alternativní oblasti.

Podrobnosti o prostředí nasazení najdete v úvodní příručce Foundry Provisioned.

Rozhraní API kapacit modelu slouží k programové identifikaci maximální velikosti nasazení zadaného modelu. API bere v úvahu jak kvótu, tak kapacitu služby v dané oblasti.

Pokud není dostupná přijatelná oblast pro podporu požadovaného modelu, verze nebo PTU, zákazníci můžou vyzkoušet také následující kroky:

  • Pokuste se o nasazení s menším počtem PTU.
  • Pokuste se o nasazení v jiném okamžiku. Změny dostupnosti kapacity se dynamicky mění na základě poptávky zákazníků a další kapacita se může později zpřístupnit.
  • Ujistěte se, že je kvóta dostupná ve všech přijatelných oblastech. Rozhraní API pro kapacity modelu a prostředí Foundry zvažují dostupnost kvót při vracení alternativních oblastí pro vytvoření nasazení.

Monitorování využití a výkonu

Následující části popisují, jak monitorovat využití a zpracovávat limity kapacity.

Monitorování kapacity

Metrika využití Provisioned-Managed V2 v Azure Monitor měří využití daného nasazení v jednominutových intervalech. Všechny zřízené typy nasazení jsou optimalizovány tak, aby se zajistilo, že přijatá volání jsou zpracovávána s konzistentním časem zpracování modelu (skutečná end-to-end latence závisí na charakteristikách volání).

Výkon využití

Nasazení s přidělenou kapacitou poskytují určené množství kapacity pro zpracování a spuštění konkrétního modelu.

Ve všech zřízených typech nasazení vrátí rozhraní API při překročení kapacity chybu stavu HTTP 429. Rychlá odpověď uživateli umožňuje rozhodovat se, jak spravovat provoz. Uživatelé můžou žádosti přesměrovat do samostatného nasazení, do standardní instance nasazení nebo ke správě daného požadavku použít strategii opakování. Služba nadále vrací stavový kód HTTP 429, dokud využití klesne pod 100 %.

Zpracování odpovědí HTTP 429

Odpověď 429 není chybou, ale je součástí návrhu, který uživatelům říká, že dané nasazení je plně využité v určitém okamžiku. Poskytnutím rychlé odpovědi na selhání máte kontrolu nad tím, jak tyto situace řídit způsobem, který nejlépe vyhovuje požadavkům vaší aplikace.

Hlavičky retry-after-ms a retry-after v odpovědi vám řeknou, jak dlouho čekat, než bude přijato další volání. Způsob zpracování této odpovědi závisí na požadavcích vaší aplikace. Tady je několik aspektů:

  • Zvažte přesměrování provozu na jiné modely, nasazení nebo prostředí. Tato možnost je řešením s nejnižší latencí, protože akce se dá provést, jakmile obdržíte signál 429. Tipy pro efektivní implementaci tohoto modelu najdete v tomto komunitním příspěvku.
  • Pokud vám nevadí delší latence pro jednotlivé hovory, implementujte logiku opakování na straně klienta. Tato možnost poskytuje nejvyšší propustnost na PTU. Klientské knihovny Foundry zahrnují integrované funkce pro zpracování opakovaných pokusů.

Vyhodnocení požadavků na základě využití

Ve všech zřízených typech nasazení se každý požadavek vyhodnocuje jednotlivě podle velikosti výzvy, očekávané velikosti generování a modelu, aby bylo možné určit očekávané využití. Toto chování je na rozdíl od standardních nasazení, která mají vlastní nastavení omezení rychlosti založené na odhadovaném zatížení provozu. U standardních nasazení může toto vlastní chování omezování rychlosti vést k chybám HTTP 429 před překročením definovaných hodnot kvót, pokud provoz není rovnoměrně distribuovaný.

Pro zřízená nasazení používáme variantu algoritmu děravého kbelíku, abychom zachovali využití pod 100 % a umožnili tak určitý nárazový růst provozu. Logika vysoké úrovně je následující:

  1. Každý zákazník má nastavenou kapacitu, kterou může použít v nasazení.

  2. Při podání žádosti:

    a. Pokud je aktuální využití vyšší než 100%, vrátí služba kód 429 s retry-after-ms hlavičkou nastavenou na čas, dokud nebude využití nižší než 100%.

    b) V opačném případě služba odhaduje přírůstkovou změnu využití vyžadovanou k poskytování požadavku kombinací tokenů výzvy, odečtením jakýchkoli tokenů uložených v mezipaměti a zadané max_tokens při volání. Zákazník může získat až 100% slevu na "prompt" tokeny v závislosti na velikosti svých uložených tokenů v mezipaměti. max_tokens Pokud parametr není zadaný, služba odhaduje hodnotu. Tento odhad může vést k nižší souběžnosti, než se čekalo, když je počet generovaných tokenů malý. Pokud chcete zajistit nejvyšší souběžnost, ujistěte se, že max_tokens je hodnota co nejblíže velikosti skutečné generace.

  3. Po dokončení požadavku nyní známe skutečné náklady na výpočet volání. Abychom zajistili přesné účtování, opravíme využití pomocí následující logiky:

    a. Pokud je skutečný > hodnotou odhadnut, rozdíl se přidá k využití nasazení.

    b) Pokud je skutečná hodnota < vyšší než odhadovaná, rozdíl se odečte.

  4. Celkové využití se dekrementuje nepřetržitě na základě počtu nasazených PTU.

Poznámka:

Volání se přijímají, dokud využití nedosáhne 100 %. V krátkých obdobích mohou být povoleny výkyvy nad 100%, ale postupem času je váš provoz omezen na využití 100%.

Diagram algoritmu děravého kbelíku pro provisionované využití propustnosti znázorňující, jak příchozí požadavky přidávají k využití, zatímco kapacita se odčerpává na základě počtu nasazených PTU.

Limity souběžných volání

Počet souběžných volání, kterých lze dosáhnout při nasazení, závisí na tvaru každého volání (velikost výzvy, max_tokens parametr a podobné faktory). Služba nadále přijímá volání, dokud využití nedosáhne 100 %. Pokud chcete určit přibližný počet souběžných volání, můžete v kalkulačce kapacity vymodelovat maximální počet požadavků za minutu pro určitý obrazec volání. Pokud systém vygeneruje méně než počet výstupních tokenů nastavených pro max_tokens parametr, bude zřízené nasazení přijímat více požadavků.

Možnost zřízené propustnosti pro modely prodávané přímo společností Azure

Tato část obsahuje seznam modelů Foundry, které podporují zřízenou propustnost. Použijte kvótu PTU a rezervaci PTU pro modely zobrazené v tabulce.

  • Verze modelu není součástí této tabulky. Při výběru možnosti nasazení na portálu Foundry zkontrolujte podporovanou verzi jednotlivých modelů.

  • Možnosti nasazení místní zřízené propustnosti se liší podle oblasti.

  • Nové modely, které Azure prodává přímo, se nejprve připojují s možností nasazení globálně předem nastavené propustnosti. Možnost Poskytnutá zóna dat bude dostupná později.

  • PTU se spravují regionálně a podle typu nabídky. Kvóta PTU a všechny rezervace musí být v oblasti a formátu (globální, zóna dat, regionální), kterou chcete použít.

  • Přelití je volitelná funkce, která spravuje kolísání provozu ve zřízených nasazeních. Další informace o přebytkovém provozu najdete v tématu o správě provozu s přebytkovým provozem pro předem připravená nasazení.

Modelová řada Název modelu Globálně zajištěno Zřízená datová zóna Zajištěno regionálně Funkce přelivu
Azure OpenAI GPT 5.2
Gpt 5.1
Gpt 5.1 codex
GPT 5
Gpt 5 mini
Gpt 4.1
Gpt 4.1 mini
Gpt 4.1 nano
GPT 4o
Gpt 4o mini
Gpt 3.5 Turbo
o1
o3
o3 mini
o4 mini
Azure DeepSeek DeepSeek-R1
DeepSeek-V3-0324
DeepSeek-R1-0528
Meta Llama Llama-3.3-70B-Instruct

Dostupnost oblastí pro zřízenou propustnost

Globální dostupnost modelu zřízené propustnosti

Oblast gpt-5.4, 2026-03-05 gpt-5.3-codex, 2026-02-24 gpt-5.2-codex, 2026-01-14 gpt-5.2, 2025-12-11 gpt-5.1, 2025-11-13 gpt-5.1-codex, 2025-11-13 gpt-5, 2025-08-07 gpt-5-mini, 2025-08-07 o3, 2025-04-16 o4-mini, 2025-04-16 gpt-4.1, 2025-04-14 gpt-4.1-mini, 2025-04-14 gpt-4.1-nano, 2025-04-14 o3-mini, 2025-01-31 o1, 2024-12-17 gpt-4o, 2024-11-20 gpt-4o, 2024-08-06 gpt-4o, 2024-05-13 gpt-4o-mini, 2024-07-18
Austrálie - východ
Jižní Brazílie
kanadacentral
východní Kanada
centrálus
Eastus
eastus2
franciecentral
Německo – středozápad
itálie sever
japaneast
koreacentral
Northcentralus
Norsko – východ
polskocentral
Jižní Afrika – sever
southcentralus
southeastasia
Jižní Indie
spaincentral
Sweden Central
Švýcarsko – sever
switzerlandwest
uaenorth
uksouth
západní evropa
westus
westus3

Poznámka:

Poskytnutá verze gpt-4Verze:turbo-2024-04-09 je v současné době omezena pouze na text.