共用方式為


Foundry 模型的配置吞吐量是什麼?

備註

本文指的是 Microsoft Foundry(經典版) 入口網站。

🔄如果你正在使用新的入口網站,請切換至 Microsoft Foundry(新版)文件

備註

本文提及 Microsoft Foundry(新) 入口網站。

小提示

欲了解近期配置吞吐量服務的變更,請參閱 更新文章

Microsoft Foundry 的配置吞吐量是一種模型部署類型,允許你指定模型部署所需的吞吐量。 Foundry 接著會配置必要的模型處理容量,並確認可供您使用。 使用您要求的佈建輸送量,適用於由 Azure 直接銷售的各種模型組合。 這些模型包括 Azure OpenAI 模型,以及新推出的旗艦模型家族,如 Foundry Models 中的 Azure DeepSeek,隨著時間推移,越來越多模型家族陸續加入。

配置的吞吐量提供:

優點 Description
更廣泛的模型選擇 最新旗艦車型的使用權
彈性 使用既有的佈建輸送量配額切換模型與部署
顯著折扣 透過更靈活的預訂選擇提升您的預訂使用率
可預測的表現 穩定的最大延遲與吞吐量,適用於統一工作負載
分配的處理容量 吞吐量在部署後無論是否使用皆可用
節省成本 高輸送量工作負載相較於以 token 計費的耗用模式可能更具成本節省效益

小提示

先決條件

  • Azure 訂用帳戶。 免費創建一個
  • 一個 Microsoft Foundry 專案 ,其模型部署採用已配置的吞吐量部署類型。
  • 在你的目標區域,已配置分配給你的訂閱流量配額。
  • Azure CLI (如果你打算透過命令列建立部署)。

使用布建輸送量的時機

當您擁有明確且可預測的吞吐量與延遲需求時,考慮部署配置吞吐量,通常是針對具有已知流量模式的生產應用。 配置吞吐量對於即時或延遲敏感的應用也很有用。

了解PTU分配

配置吞吐量單元(PTU)與部署類型是配置吞吐量的基礎組件。 以下章節將說明它們的運作方式。

配置吞吐量單元(PTU)

配置吞吐量單元(PTU)是模型處理容量的通用單位,用來調整配置部署的規模,以達到處理提示和產生完成任務所需的吞吐量。 預配置的吞吐量單位以配額形式提供給訂閱,用於定義成本。 每個配額都專屬於某個區域,並定義可指派給該訂用帳戶和區域中部署的 PTU 數目上限。

共用 PTU 保留下的成本管理

使用 PTU 功能,在共用 PTU 保留項目下順暢地管理 Foundry 模型成本。 但部署與吞吐量所需的PTU單元會根據所選型號動態調整。 若要深入瞭解 PTU 成本和模型延遲點,請參閱 瞭解與 PTU 相關聯的成本

現有 PTU 保留專案會自動升級,讓客戶能夠更有效率地部署 Foundry 模型,同時節省成本。 例如,假設您有購買了 500 個 PTU 的現有 PTU 保留。 您針對 Azure OpenAI 模型使用 300 個單位,並選擇也使用 PTU 來部署 Azure DeepSeek、Azure Llama 或其他在 Foundry Models 上具有 PTU 功能的模型。

  • 如果您將剩餘的 200 PTU 用於 DeepSeek-R1,則這 200 PTU 會自動共享預訂折扣,讓預訂的總使用量達到 500 PTU。

  • 如果您在 DeepSeek-R1 上使用 300 PTU,則有 200 PTU 會自動享有預訂折扣,而超過預訂的 100 PTU 則按 DeepSeek-R1 的每小時費率計費。

想了解如何透過 PTU 預留節省成本,請參閱「 使用 Microsoft Foundry 預備吞吐量預留節省成本」。

部署類型

當你在 Foundry 中建立已配置部署時, 建立 部署對話框的部署類型可設定為全域配置吞吐量、資料區域配置吞吐量或區域配置吞吐量部署類型,視該工作負載的資料處理需求而定。

當你在 Foundry 透過 CLI 或 API 建立配置部署時, sku-name 可以根據特定工作負載的資料處理需求,設定為 GlobalProvisionedManagedDataZoneProvisionedManagedProvisionedManaged

部署類型 CLI 中的「sku-name」
全域預配置的吞吐量 GlobalProvisionedManaged
資料區域佈建的輸送量 DataZoneProvisionedManaged
區域預配置吞吐量 ProvisionedManaged

若要將下列 Azure CLI 範例命令調整為不同的部署類型,請更新 sku-name 參數以符合您想要部署的部署類型。

az cognitiveservices account deployment create \
--name <myResourceName> \
--resource-group  <myResourceGroupName> \
--deployment-name MyDeployment \
--model-name gpt-4o \
--model-version 2024-08-06  \
--model-format OpenAI \
--sku-capacity 15 \
--sku-name GlobalProvisionedManaged

管理容量與可用性

配置吞吐量的容量取決於區域可用性及即時需求。 接下來的章節將講解容量的運作方式及如何找到容量。

容量透明度

Azure 直接銷售的模型是備受追捧的服務,其中客戶需求可能超過服務 GPU 容量。 Microsoft 努力為所有需求區域和模型提供容量,但總是有可能在某個區域銷售一空。 此限制可能限制部分客戶在特定區域部署其期望型號、版本或 PTU 數量的能力——即使該區域已有配額。

這很重要

配額限制了在訂閱和區域內可部署的最大PTU數量,但並不保證容量的可用性。 容量於部署時分配。

一般而言:

  • 配額不保證容量。 配額限制了訂閱及區域內可部署的 PTU 數量上限。
  • 容量在部署時分配 ,並持續保留至部署期間。 如果服務容量無法使用,部署就會失敗。
  • 利用即時的配額與容量可用性資訊,選擇適合您情境的區域。
  • 縮減或刪除部署 會將容量釋放回區域。 如果部署規模擴大或重建,無法保證容量是否仍然可用。

區域容量指引

要查詢部署所需的容量,您可以使用容量 API 或 Foundry 部署工具,藉此提供即時的容量可用性資訊。

在 Foundry 中,部署經驗會識別區域何時缺乏部署該模型所需的容量。 這會查看所需的模型、版本和 PTU 數目。 如果容量無法使用,體驗會指示用戶選取替代區域。

關於部署體驗的詳細資訊,請參閱 Foundry Provisioned 入門指南

使用模型容量 API 程式化地識別指定模型的最大部署規模。 API 會考慮您在區域中的配額和服務容量。

如果可接受的區域無法支援所需的模型、版本和/或 PTU,客戶也可以嘗試下列步驟:

  • 嘗試用較少數量的PTU部署。
  • 嘗試在不同的時間部署。 容量可用性會根據客戶需求動態變化,未來可能會有更多容量可用。
  • 確定所有可接受的區域都有可用的配額。 模型容量 API 和 Foundry 體驗會在傳回替代區域以建立部署時考慮配額可用性。

監控利用率與效能

以下章節說明如何監控利用率及處理容量限制。

監視容量

Azure 監視器中的 Provisioned-Managed Utilization V2 計量 (部分機器翻譯) 會以 1 分鐘的增量來測量指定的部署使用率。 所有佈建的部署類型都已最佳化,確保接受的呼叫會以一致的模型處理時間進行處理 (實際的端對端延遲取決於呼叫的特性)。

利用率

佈建的部署為您提供已配置的模型處理容量,用於執行指定的模型。

在所有布建的部署類型中,超過容量時,API 會傳回 429 HTTP 狀態錯誤。 快速回應可讓用戶決定如何管理其流量。 用戶可以將要求重新導向至個別的部署、標準部署實例,或使用重試策略來管理指定的要求。 服務會持續傳回 429 HTTP 狀態代碼,直到使用率低於 100%。

處理 HTTP 429 回應

429 回應並非錯誤,而是設計的一部分,用來向使用者告知某個部署在某個時間點已被充分利用。 藉由提供快速失敗的回應,您可以透過最符合應用程式需求的方式,控制這些情況的處理方式。

回應包含 retry-after-msretry-after 標頭,用於告知接受下一個呼叫之前須等待的時間。 要如何處理此回應取決於您的應用程式需求。 以下是一些考量:

  • 請考慮將流量重新導向至其他模型、部署或體驗。 此選項是最低延遲解決方案,因為只要收到 429 訊號就可以採取此動作。 如需有效實作此模式的想法,請參閱這篇社群文章 (英文)。
  • 如果您能夠接受較長的每次呼叫延遲,請實作使用者端重試邏輯。 此選項可讓您達到每個 PTU 的最大輸送量。 Foundry 用戶端函式庫內建處理重試的功能。

基於利用率的請求評估

在所有配置部署類型中,每個請求都會根據其提示大小、預期生成規模及模型個別評估,以確定預期使用率。 此行為與標準部署形成對比,其具有根據估計流量負載的 自定義速率限制行為 。 對於標準部署,這種自訂速率限制行為可能會在流量未均勻分布時,導致 HTTP 429 錯誤,這發生在配額尚未超過之前。

針對佈建的部署,我們會使用流失值區演算法的變化來維持 100% 以下的使用率,同時允許流量中的某些高載。 高階邏輯如下所示:

  1. 每個客戶在部署時都有固定的容量可用。

  2. 提出要求時:

    一。 當目前利用率超過 100%時,服務會回傳一個 429 代碼,並將標頭 retry-after-ms 設定為直到利用率低於 100%為止的時間。

    b。 否則,服務會藉由結合提示權杖、減少任何快取的權杖和呼叫中指定的 max_tokens,估計為要求提供服務所需的增量變更。 客戶可以根據快取權杖的大小,在其提示權杖上收到最多 100% 的折扣。 max_tokens如果未指定 參數,服務會估計值。 當實際產生的權杖數目很小時,此估計可能會導致並行存取率低於預期。 若想達到最高的並行存取,請確保 max_tokens 值盡可能接近真正的產生大小。

  3. 當要求完成時,現在我們知道呼叫的實際計算成本。 為了確保準確的計量,我們會使用下列邏輯來更正使用率:

    一。 如果估計了實際值 >,則會將差異值新增至部署的使用率。

    b。 如果實際值 < 估計值,則會減去差異值。

  4. 根據部署的 PTU 數目,整體使用率會以連續速率遞減。

備註

在使用率達到 100% 之前會持續接受呼叫。 高載可能只會在短時間內允許超過 100%,但您的流量使用率會逐步回到 100% 上限。

佈建輸送量使用量的漏桶演算法圖示,顯示傳入要求如何增加使用量,而容量如何依已部署的 PTU 計數排出。

同時通話限制

部署中你能同時接到的通話數量取決於每個通話的形狀(提示大小、 max_tokens 參數及類似因素)。 服務會繼續接受呼叫,直到使用率達到 100%。 若要判斷並行呼叫的近似數目,您可以在容量計算機中,針對特定呼叫結構建立每分鐘最大要求數的模型。 如果系統產生小於為 max_tokens 參數設定的輸出語彙基元數目,則佈建的部署將會接受更多要求。

適用於由 Azure 直接銷售模型的佈建輸送量功能

本節列出支援布建輸送量功能的 Foundry 模型。 在表格所列模型之間使用您的 PTU 配額與 PTU 保留項目。

  • 此表格中未包含模型版本。 在 Foundry 入口網站選擇部署選項時,請檢查每個模型的支援版本。

  • 區域性配置的吞吐量部署選項因地區而異。

  • Azure 直接銷售的新模型會先啟用全球預配置吞吐量部署選項。 資料區域佈建的選項稍後推出。

  • PTU 會依區域與供應項目類型進行管理。 PTU 配額和任何保留都必須位於您想要使用的區域和圖形 (全域、資料區域、區域) 中。

  • 溢出是一項選擇性功能,可管理布建部署上的流量波動。 如需有關溢出的詳細資訊,請參閱 使用已配置的部署來管理流量的溢出

模型系列 模型名稱 全域佈建 資料區域佈建 區域佈建 溢出功能
Azure OpenAI Gpt 5.2
Gpt 5.1
Gpt 5.1 Codex
GPT-5
Gpt 5 迷你版
GPT 4.1
Gpt 4.1 迷你
Gpt 4.1 納米
GPT 4o
Gpt 4o 迷你
Gpt 3.5 渦輪增壓
o1
o3
O3 迷你
O4 迷你
Azure DeepSeek DeepSeek-R1
DeepSeek-V3-0324
DeepSeek-R1-0528

佈建輸送量功能的區域可用性

全球配置吞吐量模型可用性

區域 GPT-5.2,2025-12-11 GPT-5.1,2025-11-13 GPT-5.1-Codex,2025-11-13 gpt-52025-08-07 gpt-5-mini2025-08-07 o32025-04-16 o4-mini2025-04-16 gpt-4.12025-04-14 gpt-4.1-nano2025-04-14 gpt-4.1-mini2025-04-14 o3-mini2025-01-31 o12024-12-17 gpt-4o2024-05-13 gpt-4o2024-08-06 gpt-4o2024-11-20 gpt-4o-mini2024-07-18
australiaeast -
brazilsouth(巴西南部) - -
canadacentral - -
canadaeast -
centralus -
eastus - -
eastus2
francecentral - -
德國西中部 - -
italynorth - -
japaneast -
koreacentral -
northcentralus - -
挪威東部 - -
波蘭中心 - -
southafricanorth - -
southcentralus - -
southeastasia - -
南印度 - -
spaincentral - -
瑞典central - -
switzerlandnorth -
switzerlandwest - -
uaenorth - -
uksouth
westeurope -
維斯特斯 - -
westus3 - -

備註

提供的gpt-4版本:turbo-2024-04-09 目前僅限於文字。