備註
本文件指的是 Microsoft Foundry(新) 入口網站。
小提示
欲了解近期配置吞吐量服務的變更,請參閱 更新文章。
Microsoft Foundry 的配置吞吐量是一種模型部署類型,允許你指定模型部署所需的吞吐量。 Foundry 接著會配置必要的模型處理容量,並確認可供您使用。 使用您要求的佈建輸送量,適用於由 Azure 直接銷售的各種模型組合。 這些模型包括 Azure OpenAI 模型,以及新推出的旗艦模型家族,如 Azure DeepSeek、Azure Grok、Azure Llama 等,皆在 Foundry Models 中推出。
配置的吞吐量提供:
| 優點 | Description |
|---|---|
| 更廣泛的模型選擇 | 最新旗艦車型的使用權 |
| 彈性 | 使用既有的佈建輸送量配額切換模型與部署 |
| 顯著折扣 | 透過更靈活的預訂選擇提升您的預訂使用率 |
| 可預測的表現 | 穩定的最大延遲與吞吐量,適用於統一工作負載 |
| 分配的處理容量 | 吞吐量在部署後無論是否使用皆可用 |
| 節省成本 | 高輸送量工作負載相較於以 token 計費的耗用模式可能更具成本節省效益 |
小提示
- 透過購買 Microsoft Foundry 佈建輸送量保留項目來享有更多成本節省效益。
- 布建的預配置吞吐量可作為下列部署類型:全域預配置、數據區域預配置及區域預配置。
使用布建輸送量的時機
當您擁有明確且可預測的吞吐量與延遲需求時,考慮部署配置吞吐量,通常是針對具有已知流量模式的生產應用。 配置吞吐量對於即時或延遲敏感的應用也很有用。
重要概念
下列各節說明在使用布建的輸送量供應項目時應該注意的重要概念。
配置吞吐量單元(PTU)
配置吞吐量單元(PTU)是模型處理容量的通用單位,用來調整配置部署的規模,以達到處理提示和產生完成任務所需的吞吐量。 預配置的吞吐量單位以配額形式提供給訂閱,用於定義成本。 每個配額都專屬於某個區域,並定義可指派給該訂用帳戶和區域中部署的 PTU 數目上限。
共用 PTU 保留下的成本管理
使用 PTU 功能,在共用 PTU 保留項目下順暢地管理 Foundry 模型成本。 但部署與吞吐量所需的PTU單元會根據所選型號動態調整。 若要深入瞭解 PTU 成本和模型延遲點,請參閱 瞭解與 PTU 相關聯的成本。
現有 PTU 保留專案會自動升級,讓客戶能夠更有效率地部署 Foundry 模型,同時節省成本。 例如,假設您有購買了 500 個 PTU 的現有 PTU 保留。 您針對 Azure OpenAI 模型使用 300 個單位,並選擇也使用 PTU 來部署 Azure DeepSeek、Azure Llama 或其他在 Foundry Models 上具有 PTU 功能的模型。
如果您將剩餘的 200 PTU 用於 DeepSeek-R1,則這 200 PTU 會自動共享預訂折扣,讓預訂的總使用量達到 500 PTU。
如果您在 DeepSeek-R1 上使用 300 PTU,則有 200 PTU 會自動享有預訂折扣,而超過預訂的 100 PTU 則按 DeepSeek-R1 的每小時費率計費。
想了解如何透過 PTU 預留節省成本,請參閱「 使用 Microsoft Foundry 預備吞吐量預留節省成本」。
部署類型
當你在 Foundry 中建立已配置部署時, 建立 部署對話框的部署類型可設定為全域配置吞吐量、資料區域配置吞吐量或區域配置吞吐量部署類型,視該工作負載的資料處理需求而定。
當你在 Foundry 透過 CLI 或 API 建立配置部署時, sku-name 可以根據特定工作負載的資料處理需求,設定為 GlobalProvisionedManaged、 DataZoneProvisionedManaged或 ProvisionedManaged 。
| 部署類型 | CLI 中的「sku-name」 |
|---|---|
| 全域預配置的吞吐量 | GlobalProvisionedManaged |
| 資料區域佈建的輸送量 | DataZoneProvisionedManaged |
| 區域預配置吞吐量 | ProvisionedManaged |
若要將下列 Azure CLI 範例命令調整為不同的部署類型,請更新 sku-name 參數以符合您想要部署的部署類型。
az cognitiveservices account deployment create \
--name <myResourceName> \
--resource-group <myResourceGroupName> \
--deployment-name MyDeployment \
--model-name gpt-4o \
--model-version 2024-08-06 \
--model-format OpenAI \
--sku-capacity 15 \
--sku-name GlobalProvisionedManaged
容量透明度
Azure 直接銷售的模型是備受追捧的服務,其中客戶需求可能超過服務 GPU 容量。 Microsoft 努力為所有需求區域和模型提供容量,但總是有可能在某個區域銷售一空。 此限制可能限制部分客戶在特定區域部署其期望型號、版本或 PTU 數量的能力——即使該區域已有配額。 一般而言:
- 配額限制了訂閱和地區內可部署的最大PTU數量,且不保證容量可用性。
- 容量會在部署時配置,只要部署存在,就會保留容量。 如果服務容量無法使用,部署就會失敗。
- 客戶使用配額/容量可用性的實時資訊,為具有必要模型容量的案例選擇適當的區域。
- 縮小或刪除部署會將容量釋放回區域中。 如果部署規模擴大或重建,無法保證容量是否仍然可用。
區域容量指引
要查詢部署所需的容量,您可以使用容量 API 或 Foundry 部署工具,藉此提供即時的容量可用性資訊。
在 Foundry 中,部署經驗會識別區域何時缺乏部署該模型所需的容量。 這會查看所需的模型、版本和 PTU 數目。 如果容量無法使用,體驗會指示用戶選取替代區域。
關於部署體驗的詳細資訊,請參閱 Foundry Provisioned 入門指南。
使用模型容量 API 程式化地識別指定模型的最大部署規模。 API 會考慮您在區域中的配額和服務容量。
如果可接受的區域無法支援所需的模型、版本和/或 PTU,客戶也可以嘗試下列步驟:
- 嘗試用較少數量的PTU部署。
- 嘗試在不同的時間部署。 容量可用性會根據客戶需求動態變化,未來可能會有更多容量可用。
- 確定所有可接受的區域都有可用的配額。 模型容量 API 和 Foundry 體驗會在傳回替代區域以建立部署時考慮配額可用性。
監視容量
Azure 監視器中的 Provisioned-Managed Utilization V2 計量 (部分機器翻譯) 會以 1 分鐘的增量來測量指定的部署使用率。 所有佈建的部署類型都已最佳化,確保接受的呼叫會以一致的模型處理時間進行處理 (實際的端對端延遲取決於呼叫的特性)。
利用率
佈建的部署為您提供已配置的模型處理容量,用於執行指定的模型。
在所有布建的部署類型中,超過容量時,API 會傳回 429 HTTP 狀態錯誤。 快速回應可讓用戶決定如何管理其流量。 用戶可以將要求重新導向至個別的部署、標準部署實例,或使用重試策略來管理指定的要求。 服務會持續傳回 429 HTTP 狀態代碼,直到使用率低於 100%。
處理 HTTP 429 回應
429 回應並非錯誤,而是設計的一部分,用來向使用者告知某個部署在某個時間點已被充分利用。 藉由提供快速失敗的回應,您可以透過最符合應用程式需求的方式,控制這些情況的處理方式。
回應包含 retry-after-ms 和 retry-after 標頭,用於告知接受下一個呼叫之前須等待的時間。 要如何處理此回應取決於您的應用程式需求。 以下是一些考量:
- 請考慮將流量重新導向至其他模型、部署或體驗。 此選項是最低延遲解決方案,因為只要收到 429 訊號就可以採取此動作。 如需有效實作此模式的想法,請參閱這篇社群文章 (英文)。
- 如果您能夠接受較長的每次呼叫延遲,請實作使用者端重試邏輯。 此選項可讓您達到每個 PTU 的最大輸送量。 Foundry 用戶端函式庫內建處理重試的功能。
服務如何決定傳送 429 的時機?
在所有布建的部署類型中,每個要求都會根據其提示大小、預期產生大小和模型個別評估,以判斷其預期的使用率。 此行為與標準部署形成對比,其具有根據估計流量負載的 自定義速率限制行為 。 針對標準部署,如果流量未平均散發,此自定義速率限制行為可能會導致在定義的配額值超過之前產生 HTTP 429 錯誤。
針對佈建的部署,我們會使用流失值區演算法的變化來維持 100% 以下的使用率,同時允許流量中的某些高載。 高階邏輯如下所示:
每個客戶在部署時都有固定的容量可用。
提出要求時:
一。 當目前利用率超過 100%時,服務會回傳一個 429 代碼,並將標頭
retry-after-ms設定為直到利用率低於 100%為止的時間。b。 否則,服務會藉由結合提示權杖、減少任何快取的權杖和呼叫中指定的
max_tokens,估計為要求提供服務所需的增量變更。 客戶可以根據快取權杖的大小,在其提示權杖上收到最多 100% 的折扣。max_tokens如果未指定 參數,服務會估計值。 當實際產生的權杖數目很小時,此估計可能會導致並行存取率低於預期。 若想達到最高的並行存取,請確保max_tokens值盡可能接近真正的產生大小。當要求完成時,現在我們知道呼叫的實際計算成本。 為了確保準確的計量,我們會使用下列邏輯來更正使用率:
一。 如果估計了實際值 >,則會將差異值新增至部署的使用率。
b。 如果實際值 < 估計值,則會減去差異值。
根據部署的 PTU 數目,整體使用率會以連續速率遞減。
備註
在使用率達到 100% 之前會持續接受呼叫。 高載可能只會在短時間內允許超過 100%,但您的流量使用率會逐步回到 100% 上限。
同時通話限制
部署中你能同時接到的通話數量取決於每個通話的形狀(提示大小、 max_tokens 參數及類似因素)。 服務會繼續接受呼叫,直到使用率達到 100%。 若要判斷並行呼叫的近似數目,您可以在容量計算機中,針對特定呼叫結構建立每分鐘最大要求數的模型。 如果系統產生小於為 max_tokens 參數設定的輸出語彙基元數目,則佈建的部署將會接受更多要求。
適用於由 Azure 直接銷售模型的佈建輸送量功能
本節列出支援布建輸送量功能的 Foundry 模型。 在表格所列模型之間使用您的 PTU 配額與 PTU 保留項目。
此表格中未包含模型版本。 在 Foundry 入口網站選擇部署選項時,請檢查每個模型的支援版本。
區域性配置的吞吐量部署選項因地區而異。
Azure 直接銷售的新模型會先啟用全球預配置吞吐量部署選項。 資料區域佈建的選項稍後推出。
PTU 會依區域與供應項目類型進行管理。 PTU 配額和任何保留都必須位於您想要使用的區域和圖形 (全域、資料區域、區域) 中。
溢出是一項選擇性功能,可管理布建部署上的流量波動。 如需有關溢出的詳細資訊,請參閱 使用已配置的部署來管理流量的溢出。
| 模型系列 | 模型名稱 | 全域佈建 | 資料區域佈建 | 區域佈建 | 溢出功能 |
|---|---|---|---|---|---|
| Azure OpenAI | Gpt 5.2 | ✅ | ✅ | ||
| Gpt 5.1 | ✅ | ✅ | ✅ | ||
| Gpt 5.1 Codex | ✅ | ✅ | ✅ | ||
| GPT-5 | ✅ | ✅ | ✅ | ✅ | |
| Gpt 5 迷你版 | ✅ | ✅ | ✅ | ✅ | |
| GPT 4.1 | ✅ | ✅ | ✅ | ✅ | |
| Gpt 4.1 mini | ✅ | ✅ | ✅ | ✅ | |
| Gpt 4.1 納米 | ✅ | ✅ | ✅ | ✅ | |
| GPT 4o | ✅ | ✅ | ✅ | ✅ | |
| Gpt 4o mini | ✅ | ✅ | ✅ | ✅ | |
| Gpt 3.5 渦輪增壓 | ✅ | ✅ | ✅ | ✅ | |
| o1 | ✅ | ✅ | ✅ | ✅ | |
| o3 | ✅ | ✅ | ✅ | ✅ | |
| O3 迷你 | ✅ | ✅ | ✅ | ✅ | |
| O4 迷你 | ✅ | ✅ | ✅ | ✅ | |
| Azure DeepSeek | DeepSeek-R1 | ✅ | |||
| DeepSeek-V3-0324 | ✅ | ||||
| DeepSeek-R1-0528 | ✅ |
佈建輸送量功能的區域可用性
全球配置吞吐量模型可用性
| 區域 | GPT-5.2,2025-12-11 | GPT-5.1,2025-11-13 | GPT-5.1-Codex,2025-11-13 | gpt-5, 2025-08-07 | gpt-5-mini, 2025-08-07 | o3, 2025-04-16 | o4-mini, 2025-04-16 | gpt-4.1, 2025-04-14 | gpt-4.1-nano, 2025-04-14 | gpt-4.1-mini, 2025-04-14 | o3-mini, 2025-01-31 | o1, 2024-12-17 | gpt-4o,2024-05-13 | gpt-4o,2024-08-06 | gpt-4o, 2024-11-20 | gpt-4o-mini, 2024-07-18 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| australiaeast | - | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| brazilsouth(巴西南部) | - | ✅ | - | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| canadacentral | - | ✅ | - | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| canadaeast | - | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| centralus | - | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| eastus | - | ✅ | - | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| eastus2 | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| francecentral | - | ✅ | - | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| 德國西中部 | - | ✅ | - | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| italynorth | - | ✅ | - | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| japaneast | - | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| koreacentral | - | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| northcentralus | - | ✅ | - | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| 挪威東部 | - | ✅ | - | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| 波蘭中心 | - | ✅ | - | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| southafricanorth | - | ✅ | - | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| southcentralus | - | ✅ | - | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| southeastasia | - | ✅ | - | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| 南印度 | - | ✅ | - | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| spaincentral | - | ✅ | - | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| 瑞典central | - | ✅ | - | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| switzerlandnorth | - | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| switzerlandwest | - | ✅ | - | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| uaenorth | - | ✅ | - | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| uksouth | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| westeurope | - | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| 維斯特斯 | - | ✅ | - | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| westus3 | - | ✅ | - | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
備註
提供的gpt-4版本:turbo-2024-04-09 目前僅限於文字。
相關內容
- 了解已佈建部署的上線步驟 (部分機器翻譯)
- 佈建的輸送量單位 (PTU) 使用者入門指南