Poznámka:
Přístup k této stránce vyžaduje autorizaci. Můžete se zkusit přihlásit nebo změnit adresáře.
Přístup k této stránce vyžaduje autorizaci. Můžete zkusit změnit adresáře.
Nabídka průchodnosti zajištěná službou Microsoft Foundry je typ nasazení modelu, který umožňuje nastavit požadovanou úroveň průchodnosti během nasazení modelu. Foundry pak přidělí potřebnou kapacitu zpracování modelu a zajistí, že je pro vás připravená. Využijte zřízenou propustnost, kterou jste požadovali v různých portfoliech modelů, které se prodávají přímo Azure. Mezi tyto modely patří modely Azure OpenAI a nově představené vlajkové rodiny modelů, jako jsou Azure DeepSeek v rámci foundry Models, s více rodinami modelů, které se v průběhu času připojují.
Zřízená propustnost poskytuje:
| Prospěch | Description |
|---|---|
| Širší volba modelu | Přístup k nejnovějším vlajkovým modelům |
| Flexibilita | Změna modelů a implementací s danou kvótou navržené propustnosti |
| Významné slevy | Zvýšení využití rezervací s flexibilnější volbou rezervace |
| Předvídatelný výkon | Stabilní maximální latence a propustnost pro jednotné úlohy |
| Přidělená kapacita zpracování | Propustnost je dostupná bez ohledu na to, jestli se po nasazení používá nebo ne. |
| Úspora nákladů | Úlohy s vysokou propustností můžou přinést úspory nákladů oproti spotřebě založené na tokenech. |
Návod
- Využijte více úspor nákladů při nákupu rezervací propustnosti Microsoft Foundry.
- Zřízená propustnost je dostupná v následujících typech nasazení: globální zřízená, zřízená datová zóna a zřízená oblast.
Předpoklady
- Předplatné Azure. Vytvořte si ho zdarma.
- Projekt Microsoft Foundry, který má model nasazený pomocí nasazení s přidělenou propustností.
- Zřízená kvóta propustnosti přidělená vašemu předplatnému v cílové oblasti
- Azure CLI (pokud plánujete vytvářet nasazení prostřednictvím příkazového řádku).
Kdy použít zřízenou propustnost
Zvažte nasazení zřízené propustnosti, pokud máte dobře definované, předvídatelné požadavky na propustnost a latenci – obvykle pro produkční aplikace se známými vzory provozu. Zřízená propustnost je užitečná také pro aplikace citlivé na latenci nebo v reálném čase.
Vysvětlení přidělení PTU
Zřízené jednotky propustnosti (PTU) a typy nasazení jsou stavební bloky zřízené propustnosti. Následující části popisují, jak fungují.
Přidělené jednotky propustnosti (PTU)
Zřízené jednotky propustnosti (PTU) jsou obecné jednotky kapacity zpracování modelu, které využíváte k nastavení velikosti zřízených nasazení pro dosažení požadované propustnosti při zpracování podnětů a generování výstupů. Zřízené jednotky výkonu jsou přiřazeny k předplatnému jako kvóta a používají se k definování nákladů. Každá kvóta je specifická pro oblast a definuje maximální počet PTU, který lze přiřadit k nasazením v daném předplatném a oblasti.
Správa nákladů v rámci sdílené rezervace PTU
Využijte možnost PTU k bezproblémové správě nákladů na modely Foundry v rámci sdílené rezervace PTU. Požadované jednotky PTU pro výkon nasazení a propustnosti jsou ale dynamicky přizpůsobené zvoleným modelům. Další informace o nákladech na PTU a bodech latence modelu najdete v tématu Vysvětlení nákladů spojených s PTU.
Stávající rezervace PTU se automaticky upgradují, aby zákazníkům mohly zajistit vyšší efektivitu a úsporu nákladů při nasazování modelů Foundry. Předpokládejme například, že máte existující rezervaci PTU se zakoupenými 500 PTU. Pro Azure modely OpenAI používáte 300 jednotek a rozhodnete se také použít PTU k nasazení Azure DeepSeek, Azure Llama nebo jiných modelů s funkcí PTU v modelech Foundry.
Pokud použijete zbývajících 200 PTU pro DeepSeek-R1, 200 PTU automaticky sdílí slevu za rezervaci a celkové využití rezervace je 500 PTU.
Pokud použijete 300 PTU pro DeepSeek-R1, poté se pro 200 PTU automaticky uplatní sleva za rezervaci, zatímco 100 PTU překročí rezervaci a jsou účtovány hodinovou sazbou DeepSeek-R1.
Další informace o úsporách nákladů s rezervacemi PTU najdete v tématu Šetřete náklady s rezervacemi zřízené propustnosti Microsoft Foundry.
Typy nasazení
Při vytváření zřízeného nasazení v Foundry můžete typ nasazení v dialogovém okně Vytvořit nasazení nastavit na globální zřízenou propustnost, zřízenou propustnost zóny dat nebo typ nasazení regionální zřízené propustnosti v závislosti na potřebách zpracování dat pro danou úlohu.
Při vytváření zřízeného nasazení v Foundry prostřednictvím rozhraní příkazového řádku nebo rozhraní API můžete nastavit sku-name na GlobalProvisionedManaged, DataZoneProvisionedManaged nebo ProvisionedManaged v závislosti na potřebě zpracování dat pro danou úlohu.
| Typ nasazení | název SKU v příkazovém řádku |
|---|---|
| Globální zřízená propustnost | GlobalProvisionedManaged |
| Zřízená propustnost datové zóny | Spravovaná Datová Zóna Zajištěná |
| Regionální zřízená propustnost | ProvisionovanýSpravovaný |
Pokud chcete přizpůsobit následující příkaz Azure CLI příkladu jinému typu nasazení, aktualizujte parametr sku-name tak, aby odpovídal typu nasazení, který chcete nasadit.
az cognitiveservices account deployment create \
--name <myResourceName> \
--resource-group <myResourceGroupName> \
--deployment-name MyDeployment \
--model-name gpt-4o \
--model-version 2024-08-06 \
--model-format OpenAI \
--sku-capacity 15 \
--sku-name GlobalProvisionedManaged
Správa kapacity a dostupnosti
Kapacita zřízené propustnosti podléhá regionální dostupnosti a poptávce v reálném čase. Následující části popisují, jak kapacita funguje a jak ji najít.
Transparentnost kapacity
Modely prodané přímo Azure jsou vysoce vyhledávanými službami, ve kterých může poptávka zákazníků překročit kapacitu GPU služby. Microsoft se snaží poskytnout kapacitu pro všechny oblasti a modely na vyžádání, ale prodej oblasti je vždy možností. Toto omezení může omezit schopnost některých zákazníků vytvořit nasazení požadovaného modelu, verze nebo počtu PTU v požadované oblasti – i když mají v této oblasti dostupnou kvótu.
Důležité
Kvóta omezuje maximální počet PTU, které je možné nasadit v předplatném a oblasti, ale nezaručuje dostupnost kapacity. Kapacita je přidělena v době nasazení.
Obecně řečeno:
- Kvóta nezaručuje kapacitu. Kvóta omezuje maximální počet PTU, které je možné nasadit v předplatném a oblasti.
- Kapacita se přiděluje v době nasazení a uchovává se tak dlouho, dokud nasazení existuje. Pokud není dostupná kapacita služby, nasazení selže.
- Informace o kvótách a dostupnosti kapacity v reálném čase použijte k výběru vhodné oblasti pro váš scénář.
- Redukce nebo odstranění nasazení uvolní kapacitu zpět do oblasti. Není zaručeno, že je kapacita disponibilní, pokud se nasazení škáluje nebo znovu nasadí později.
Pokyny k regionální kapacitě
Pokud chcete najít kapacitu potřebnou pro jejich nasazení, použijte rozhraní API kapacity nebo prostředí nasazení Foundry k poskytování informací o dostupnosti kapacity v reálném čase.
Ve Foundry prostředí nasazení identifikuje, kdy oblast nemá kapacitu potřebnou k nasazení modelu. Tím se podíváte na požadovaný model, verzi a počet PTU. Pokud není kapacita dostupná, prostředí uživatele nasměruje na výběr alternativní oblasti.
Podrobnosti o prostředí nasazení najdete v úvodní příručce Foundry Provisioned.
Rozhraní API kapacit modelu slouží k programové identifikaci maximální velikosti nasazení zadaného modelu. API bere v úvahu jak kvótu, tak kapacitu služby v dané oblasti.
Pokud není dostupná přijatelná oblast pro podporu požadovaného modelu, verze nebo PTU, zákazníci můžou vyzkoušet také následující kroky:
- Pokuste se o nasazení s menším počtem PTU.
- Pokuste se o nasazení v jiném okamžiku. Změny dostupnosti kapacity se dynamicky mění na základě poptávky zákazníků a další kapacita se může později zpřístupnit.
- Ujistěte se, že je kvóta dostupná ve všech přijatelných oblastech. Rozhraní API pro kapacity modelu a prostředí Foundry zvažují dostupnost kvót při vracení alternativních oblastí pro vytvoření nasazení.
Monitorování využití a výkonu
Následující části popisují, jak monitorovat využití a zpracovávat limity kapacity.
Monitorování kapacity
Metrika využití Provisioned-Managed V2 v Azure Monitor měří využití daného nasazení v jednominutových intervalech. Všechny zřízené typy nasazení jsou optimalizovány tak, aby se zajistilo, že přijatá volání jsou zpracovávána s konzistentním časem zpracování modelu (skutečná end-to-end latence závisí na charakteristikách volání).
Výkon využití
Nasazení s přidělenou kapacitou poskytují určené množství kapacity pro zpracování a spuštění konkrétního modelu.
Ve všech zřízených typech nasazení vrátí rozhraní API při překročení kapacity chybu stavu HTTP 429. Rychlá odpověď uživateli umožňuje rozhodovat se, jak spravovat provoz. Uživatelé můžou žádosti přesměrovat do samostatného nasazení, do standardní instance nasazení nebo ke správě daného požadavku použít strategii opakování. Služba nadále vrací stavový kód HTTP 429, dokud využití klesne pod 100 %.
Zpracování odpovědí HTTP 429
Odpověď 429 není chybou, ale je součástí návrhu, který uživatelům říká, že dané nasazení je plně využité v určitém okamžiku. Poskytnutím rychlé odpovědi na selhání máte kontrolu nad tím, jak tyto situace řídit způsobem, který nejlépe vyhovuje požadavkům vaší aplikace.
Hlavičky retry-after-ms a retry-after v odpovědi vám řeknou, jak dlouho čekat, než bude přijato další volání. Způsob zpracování této odpovědi závisí na požadavcích vaší aplikace. Tady je několik aspektů:
- Zvažte přesměrování provozu na jiné modely, nasazení nebo prostředí. Tato možnost je řešením s nejnižší latencí, protože akce se dá provést, jakmile obdržíte signál 429. Tipy pro efektivní implementaci tohoto modelu najdete v tomto komunitním příspěvku.
- Pokud vám nevadí delší latence pro jednotlivé hovory, implementujte logiku opakování na straně klienta. Tato možnost poskytuje nejvyšší propustnost na PTU. Klientské knihovny Foundry zahrnují integrované funkce pro zpracování opakovaných pokusů.
Vyhodnocení požadavků na základě využití
Ve všech zřízených typech nasazení se každý požadavek vyhodnocuje jednotlivě podle velikosti výzvy, očekávané velikosti generování a modelu, aby bylo možné určit očekávané využití. Toto chování je na rozdíl od standardních nasazení, která mají vlastní nastavení omezení rychlosti založené na odhadovaném zatížení provozu. U standardních nasazení může toto vlastní chování omezování rychlosti vést k chybám HTTP 429 před překročením definovaných hodnot kvót, pokud provoz není rovnoměrně distribuovaný.
Pro zřízená nasazení používáme variantu algoritmu děravého kbelíku, abychom zachovali využití pod 100 % a umožnili tak určitý nárazový růst provozu. Logika vysoké úrovně je následující:
Každý zákazník má nastavenou kapacitu, kterou může použít v nasazení.
Při podání žádosti:
a. Pokud je aktuální využití vyšší než 100%, vrátí služba kód 429 s
retry-after-mshlavičkou nastavenou na čas, dokud nebude využití nižší než 100%.b) V opačném případě služba odhaduje přírůstkovou změnu využití vyžadovanou k poskytování požadavku kombinací tokenů výzvy, odečtením jakýchkoli tokenů uložených v mezipaměti a zadané
max_tokenspři volání. Zákazník může získat až 100% slevu na "prompt" tokeny v závislosti na velikosti svých uložených tokenů v mezipaměti.max_tokensPokud parametr není zadaný, služba odhaduje hodnotu. Tento odhad může vést k nižší souběžnosti, než se čekalo, když je počet generovaných tokenů malý. Pokud chcete zajistit nejvyšší souběžnost, ujistěte se, žemax_tokensje hodnota co nejblíže velikosti skutečné generace.Po dokončení požadavku nyní známe skutečné náklady na výpočet volání. Abychom zajistili přesné účtování, opravíme využití pomocí následující logiky:
a. Pokud je skutečný > hodnotou odhadnut, rozdíl se přidá k využití nasazení.
b) Pokud je skutečná hodnota < vyšší než odhadovaná, rozdíl se odečte.
Celkové využití se dekrementuje nepřetržitě na základě počtu nasazených PTU.
Poznámka:
Volání se přijímají, dokud využití nedosáhne 100 %. V krátkých obdobích mohou být povoleny výkyvy nad 100%, ale postupem času je váš provoz omezen na využití 100%.
Limity souběžných volání
Počet souběžných volání, kterých lze dosáhnout při nasazení, závisí na tvaru každého volání (velikost výzvy, max_tokens parametr a podobné faktory). Služba nadále přijímá volání, dokud využití nedosáhne 100 %. Pokud chcete určit přibližný počet souběžných volání, můžete v kalkulačce kapacity vymodelovat maximální počet požadavků za minutu pro určitý obrazec volání. Pokud systém vygeneruje méně než počet výstupních tokenů nastavených pro max_tokens parametr, bude zřízené nasazení přijímat více požadavků.
Možnost zřízené propustnosti pro modely prodávané přímo společností Azure
Tato část obsahuje seznam modelů Foundry, které podporují zřízenou propustnost. Použijte kvótu PTU a rezervaci PTU pro modely zobrazené v tabulce.
Verze modelu není součástí této tabulky. Při výběru možnosti nasazení na portálu Foundry zkontrolujte podporovanou verzi jednotlivých modelů.
Možnosti nasazení místní zřízené propustnosti se liší podle oblasti.
Nové modely, které Azure prodává přímo, se nejprve připojují s možností nasazení globálně předem nastavené propustnosti. Možnost Poskytnutá zóna dat bude dostupná později.
PTU se spravují regionálně a podle typu nabídky. Kvóta PTU a všechny rezervace musí být v oblasti a formátu (globální, zóna dat, regionální), kterou chcete použít.
Přelití je volitelná funkce, která spravuje kolísání provozu ve zřízených nasazeních. Další informace o přebytkovém provozu najdete v tématu o správě provozu s přebytkovým provozem pro předem připravená nasazení.
| Modelová řada | Název modelu | Globálně zajištěno | Zřízená datová zóna | Zajištěno regionálně | Funkce přelivu |
|---|---|---|---|---|---|
| Azure OpenAI | GPT 5.2 | ✅ | ✅ | ||
| Gpt 5.1 | ✅ | ✅ | ✅ | ||
| Gpt 5.1 codex | ✅ | ✅ | ✅ | ||
| GPT 5 | ✅ | ✅ | ✅ | ✅ | |
| Gpt 5 mini | ✅ | ✅ | ✅ | ✅ | |
| Gpt 4.1 | ✅ | ✅ | ✅ | ✅ | |
| Gpt 4.1 mini | ✅ | ✅ | ✅ | ✅ | |
| Gpt 4.1 nano | ✅ | ✅ | ✅ | ✅ | |
| GPT 4o | ✅ | ✅ | ✅ | ✅ | |
| Gpt 4o mini | ✅ | ✅ | ✅ | ✅ | |
| Gpt 3.5 Turbo | ✅ | ✅ | ✅ | ✅ | |
| o1 | ✅ | ✅ | ✅ | ✅ | |
| o3 | ✅ | ✅ | ✅ | ✅ | |
| o3 mini | ✅ | ✅ | ✅ | ✅ | |
| o4 mini | ✅ | ✅ | ✅ | ✅ | |
| Azure DeepSeek | DeepSeek-R1 | ✅ | |||
| DeepSeek-V3-0324 | ✅ | ||||
| DeepSeek-R1-0528 | ✅ | ||||
| Meta Llama | Llama-3.3-70B-Instruct | ✅ |
Dostupnost oblastí pro zřízenou propustnost
Globální dostupnost modelu zřízené propustnosti
| Oblast | gpt-5.4, 2026-03-05 | gpt-5.3-codex, 2026-02-24 | gpt-5.2-codex, 2026-01-14 | gpt-5.2, 2025-12-11 | gpt-5.1, 2025-11-13 | gpt-5.1-codex, 2025-11-13 | gpt-5, 2025-08-07 | gpt-5-mini, 2025-08-07 | o3, 2025-04-16 | o4-mini, 2025-04-16 | gpt-4.1, 2025-04-14 | gpt-4.1-mini, 2025-04-14 | gpt-4.1-nano, 2025-04-14 | o3-mini, 2025-01-31 | o1, 2024-12-17 | gpt-4o, 2024-11-20 | gpt-4o, 2024-08-06 | gpt-4o, 2024-05-13 | gpt-4o-mini, 2024-07-18 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Austrálie - východ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| Jižní Brazílie | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| kanadacentral | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| východní Kanada | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| centrálus | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| Eastus | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| eastus2 | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| franciecentral | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| Německo – středozápad | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| itálie sever | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| japaneast | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| koreacentral | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| Northcentralus | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| Norsko – východ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| polskocentral | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| Jižní Afrika – sever | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| southcentralus | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| southeastasia | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| Jižní Indie | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| spaincentral | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| Sweden Central | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| Švýcarsko – sever | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| switzerlandwest | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| uaenorth | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| uksouth | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| západní evropa | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| westus | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| westus3 | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
Poznámka:
Poskytnutá verze gpt-4Verze:turbo-2024-04-09 je v současné době omezena pouze na text.
Související obsah
- Zjistěte více o krocích začlenění pro zřízená nasazení
- Úvodní příručka pro zřízené jednotky propustnosti (PTU)
- Pochopte typy nasazení
- Řízení provozu pomocí přetečení pro přidělená nasazení
- Monitor modely Azure OpenAI
- Správa kvóty pro Azure OpenAI
- Ušetřete náklady s rezervacemi propustnosti Microsoft Foundry