共用方式為


Foundry 模型的配置吞吐量是什麼?

備註

本文件指的是 Microsoft Foundry(經典版) 入口網站。

🔄如果你正在使用新的入口網站,請切換至 Microsoft Foundry(新版)文件

備註

本文件指的是 Microsoft Foundry(新) 入口網站。

小提示

欲了解近期配置吞吐量服務的變更,請參閱 更新文章

Microsoft Foundry 的配置吞吐量是一種模型部署類型,允許你指定模型部署所需的吞吐量。 Foundry 接著會配置必要的模型處理容量,並確認可供您使用。 使用您要求的佈建輸送量,適用於由 Azure 直接銷售的各種模型組合。 這些模型包括 Azure OpenAI 模型,以及新推出的旗艦模型家族,如 Azure DeepSeek、Azure Grok、Azure Llama 等,皆在 Foundry Models 中推出。

配置的吞吐量提供:

優點 Description
更廣泛的模型選擇 最新旗艦車型的使用權
彈性 使用既有的佈建輸送量配額切換模型與部署
顯著折扣 透過更靈活的預訂選擇提升您的預訂使用率
可預測的表現 穩定的最大延遲與吞吐量,適用於統一工作負載
分配的處理容量 吞吐量在部署後無論是否使用皆可用
節省成本 高輸送量工作負載相較於以 token 計費的耗用模式可能更具成本節省效益

小提示

使用布建輸送量的時機

當您擁有明確且可預測的吞吐量與延遲需求時,考慮部署配置吞吐量,通常是針對具有已知流量模式的生產應用。 配置吞吐量對於即時或延遲敏感的應用也很有用。

重要概念

下列各節說明在使用布建的輸送量供應項目時應該注意的重要概念。

配置吞吐量單元(PTU)

配置吞吐量單元(PTU)是模型處理容量的通用單位,用來調整配置部署的規模,以達到處理提示和產生完成任務所需的吞吐量。 預配置的吞吐量單位以配額形式提供給訂閱,用於定義成本。 每個配額都專屬於某個區域,並定義可指派給該訂用帳戶和區域中部署的 PTU 數目上限。

共用 PTU 保留下的成本管理

使用 PTU 功能,在共用 PTU 保留項目下順暢地管理 Foundry 模型成本。 但部署與吞吐量所需的PTU單元會根據所選型號動態調整。 若要深入瞭解 PTU 成本和模型延遲點,請參閱 瞭解與 PTU 相關聯的成本

現有 PTU 保留專案會自動升級,讓客戶能夠更有效率地部署 Foundry 模型,同時節省成本。 例如,假設您有購買了 500 個 PTU 的現有 PTU 保留。 您針對 Azure OpenAI 模型使用 300 個單位,並選擇也使用 PTU 來部署 Azure DeepSeek、Azure Llama 或其他在 Foundry Models 上具有 PTU 功能的模型。

  • 如果您將剩餘的 200 PTU 用於 DeepSeek-R1,則這 200 PTU 會自動共享預訂折扣,讓預訂的總使用量達到 500 PTU。

  • 如果您在 DeepSeek-R1 上使用 300 PTU,則有 200 PTU 會自動享有預訂折扣,而超過預訂的 100 PTU 則按 DeepSeek-R1 的每小時費率計費。

想了解如何透過 PTU 預留節省成本,請參閱「 使用 Microsoft Foundry 預備吞吐量預留節省成本」。

部署類型

當你在 Foundry 中建立已配置部署時, 建立 部署對話框的部署類型可設定為全域配置吞吐量、資料區域配置吞吐量或區域配置吞吐量部署類型,視該工作負載的資料處理需求而定。

當你在 Foundry 透過 CLI 或 API 建立配置部署時, sku-name 可以根據特定工作負載的資料處理需求,設定為 GlobalProvisionedManagedDataZoneProvisionedManagedProvisionedManaged

部署類型 CLI 中的「sku-name」
全域預配置的吞吐量 GlobalProvisionedManaged
資料區域佈建的輸送量 DataZoneProvisionedManaged
區域預配置吞吐量 ProvisionedManaged

若要將下列 Azure CLI 範例命令調整為不同的部署類型,請更新 sku-name 參數以符合您想要部署的部署類型。

az cognitiveservices account deployment create \
--name <myResourceName> \
--resource-group  <myResourceGroupName> \
--deployment-name MyDeployment \
--model-name gpt-4o \
--model-version 2024-08-06  \
--model-format OpenAI \
--sku-capacity 15 \
--sku-name GlobalProvisionedManaged

容量透明度

Azure 直接銷售的模型是備受追捧的服務,其中客戶需求可能超過服務 GPU 容量。 Microsoft 努力為所有需求區域和模型提供容量,但總是有可能在某個區域銷售一空。 此限制可能限制部分客戶在特定區域部署其期望型號、版本或 PTU 數量的能力——即使該區域已有配額。 一般而言:

  • 配額限制了訂閱和地區內可部署的最大PTU數量,且不保證容量可用性。
  • 容量會在部署時配置,只要部署存在,就會保留容量。 如果服務容量無法使用,部署就會失敗。
  • 客戶使用配額/容量可用性的實時資訊,為具有必要模型容量的案例選擇適當的區域。
  • 縮小或刪除部署會將容量釋放回區域中。 如果部署規模擴大或重建,無法保證容量是否仍然可用。

區域容量指引

要查詢部署所需的容量,您可以使用容量 API 或 Foundry 部署工具,藉此提供即時的容量可用性資訊。

在 Foundry 中,部署經驗會識別區域何時缺乏部署該模型所需的容量。 這會查看所需的模型、版本和 PTU 數目。 如果容量無法使用,體驗會指示用戶選取替代區域。

關於部署體驗的詳細資訊,請參閱 Foundry Provisioned 入門指南

使用模型容量 API 程式化地識別指定模型的最大部署規模。 API 會考慮您在區域中的配額和服務容量。

如果可接受的區域無法支援所需的模型、版本和/或 PTU,客戶也可以嘗試下列步驟:

  • 嘗試用較少數量的PTU部署。
  • 嘗試在不同的時間部署。 容量可用性會根據客戶需求動態變化,未來可能會有更多容量可用。
  • 確定所有可接受的區域都有可用的配額。 模型容量 API 和 Foundry 體驗會在傳回替代區域以建立部署時考慮配額可用性。

監視容量

Azure 監視器中的 Provisioned-Managed Utilization V2 計量 (部分機器翻譯) 會以 1 分鐘的增量來測量指定的部署使用率。 所有佈建的部署類型都已最佳化,確保接受的呼叫會以一致的模型處理時間進行處理 (實際的端對端延遲取決於呼叫的特性)。

利用率

佈建的部署為您提供已配置的模型處理容量,用於執行指定的模型。

在所有布建的部署類型中,超過容量時,API 會傳回 429 HTTP 狀態錯誤。 快速回應可讓用戶決定如何管理其流量。 用戶可以將要求重新導向至個別的部署、標準部署實例,或使用重試策略來管理指定的要求。 服務會持續傳回 429 HTTP 狀態代碼,直到使用率低於 100%。

處理 HTTP 429 回應

429 回應並非錯誤,而是設計的一部分,用來向使用者告知某個部署在某個時間點已被充分利用。 藉由提供快速失敗的回應,您可以透過最符合應用程式需求的方式,控制這些情況的處理方式。

回應包含 retry-after-msretry-after 標頭,用於告知接受下一個呼叫之前須等待的時間。 要如何處理此回應取決於您的應用程式需求。 以下是一些考量:

  • 請考慮將流量重新導向至其他模型、部署或體驗。 此選項是最低延遲解決方案,因為只要收到 429 訊號就可以採取此動作。 如需有效實作此模式的想法,請參閱這篇社群文章 (英文)。
  • 如果您能夠接受較長的每次呼叫延遲,請實作使用者端重試邏輯。 此選項可讓您達到每個 PTU 的最大輸送量。 Foundry 用戶端函式庫內建處理重試的功能。

服務如何決定傳送 429 的時機?

在所有布建的部署類型中,每個要求都會根據其提示大小、預期產生大小和模型個別評估,以判斷其預期的使用率。 此行為與標準部署形成對比,其具有根據估計流量負載的 自定義速率限制行為 。 針對標準部署,如果流量未平均散發,此自定義速率限制行為可能會導致在定義的配額值超過之前產生 HTTP 429 錯誤。

針對佈建的部署,我們會使用流失值區演算法的變化來維持 100% 以下的使用率,同時允許流量中的某些高載。 高階邏輯如下所示:

  1. 每個客戶在部署時都有固定的容量可用。

  2. 提出要求時:

    一。 當目前利用率超過 100%時,服務會回傳一個 429 代碼,並將標頭 retry-after-ms 設定為直到利用率低於 100%為止的時間。

    b。 否則,服務會藉由結合提示權杖、減少任何快取的權杖和呼叫中指定的 max_tokens,估計為要求提供服務所需的增量變更。 客戶可以根據快取權杖的大小,在其提示權杖上收到最多 100% 的折扣。 max_tokens如果未指定 參數,服務會估計值。 當實際產生的權杖數目很小時,此估計可能會導致並行存取率低於預期。 若想達到最高的並行存取,請確保 max_tokens 值盡可能接近真正的產生大小。

  3. 當要求完成時,現在我們知道呼叫的實際計算成本。 為了確保準確的計量,我們會使用下列邏輯來更正使用率:

    一。 如果估計了實際值 >,則會將差異值新增至部署的使用率。

    b。 如果實際值 < 估計值,則會減去差異值。

  4. 根據部署的 PTU 數目,整體使用率會以連續速率遞減。

備註

在使用率達到 100% 之前會持續接受呼叫。 高載可能只會在短時間內允許超過 100%,但您的流量使用率會逐步回到 100% 上限。

佈建輸送量使用量的漏桶演算法圖示,顯示傳入要求如何增加使用量,而容量如何依已部署的 PTU 計數排出。

同時通話限制

部署中你能同時接到的通話數量取決於每個通話的形狀(提示大小、 max_tokens 參數及類似因素)。 服務會繼續接受呼叫,直到使用率達到 100%。 若要判斷並行呼叫的近似數目,您可以在容量計算機中,針對特定呼叫結構建立每分鐘最大要求數的模型。 如果系統產生小於為 max_tokens 參數設定的輸出語彙基元數目,則佈建的部署將會接受更多要求。

適用於由 Azure 直接銷售模型的佈建輸送量功能

本節列出支援布建輸送量功能的 Foundry 模型。 在表格所列模型之間使用您的 PTU 配額與 PTU 保留項目。

  • 此表格中未包含模型版本。 在 Foundry 入口網站選擇部署選項時,請檢查每個模型的支援版本。

  • 區域性配置的吞吐量部署選項因地區而異。

  • Azure 直接銷售的新模型會先啟用全球預配置吞吐量部署選項。 資料區域佈建的選項稍後推出。

  • PTU 會依區域與供應項目類型進行管理。 PTU 配額和任何保留都必須位於您想要使用的區域和圖形 (全域、資料區域、區域) 中。

  • 溢出是一項選擇性功能,可管理布建部署上的流量波動。 如需有關溢出的詳細資訊,請參閱 使用已配置的部署來管理流量的溢出

模型系列 模型名稱 全域佈建 資料區域佈建 區域佈建 溢出功能
Azure OpenAI Gpt 5.2
Gpt 5.1
Gpt 5.1 Codex
GPT-5
Gpt 5 迷你版
GPT 4.1
Gpt 4.1 mini
Gpt 4.1 納米
GPT 4o
Gpt 4o mini
Gpt 3.5 渦輪增壓
o1
o3
O3 迷你
O4 迷你
Azure DeepSeek DeepSeek-R1
DeepSeek-V3-0324
DeepSeek-R1-0528

佈建輸送量功能的區域可用性

全球配置吞吐量模型可用性

區域 GPT-5.2,2025-12-11 GPT-5.1,2025-11-13 GPT-5.1-Codex,2025-11-13 gpt-52025-08-07 gpt-5-mini2025-08-07 o32025-04-16 o4-mini2025-04-16 gpt-4.12025-04-14 gpt-4.1-nano2025-04-14 gpt-4.1-mini2025-04-14 o3-mini2025-01-31 o12024-12-17 gpt-4o2024-05-13 gpt-4o2024-08-06 gpt-4o2024-11-20 gpt-4o-mini2024-07-18
australiaeast -
brazilsouth(巴西南部) - -
canadacentral - -
canadaeast -
centralus -
eastus - -
eastus2
francecentral - -
德國西中部 - -
italynorth - -
japaneast -
koreacentral -
northcentralus - -
挪威東部 - -
波蘭中心 - -
southafricanorth - -
southcentralus - -
southeastasia - -
南印度 - -
spaincentral - -
瑞典central - -
switzerlandnorth -
switzerlandwest - -
uaenorth - -
uksouth
westeurope -
維斯特斯 - -
westus3 - -

備註

提供的gpt-4版本:turbo-2024-04-09 目前僅限於文字。