共用方式為


什麼是佈建的輸送量?

注意

如需布建輸送量供應專案最近變更的詳細資訊,請參閱 更新文章 以取得詳細資訊。

Azure AI Foundry 布建的輸送量供應專案是模型部署類型,可讓您指定模型部署中所需的輸送量。 Azure AI Foundry 接著會配置必要的模型處理容量,並確定它已可供您使用。 您可以在 Azure 直接銷售的各種模型組合中使用您所要求的預配置吞吐量。 這些模型包括 Azure OpenAI 模型和新推出的旗艦模型家族,例如 Azure DeepSeek、Azure Grok、Azure Llama,以及 Azure AI Foundry Models 中的更多內容。

配置的吞吐量提供:

  • 最新旗艦車型的更廣泛選擇
  • 切換模型和部署的彈性,配合指定的吞吐量配額
  • 使用具有彈性的預訂選項可獲得大幅折扣,並提升預訂使用率的能力。
  • 可預測的效能,為統一工作負載提供穩定的最大延遲和輸送量。
  • 配置的處理容量: 部署會設定輸送量數量。 部署之後,不論是否使用,都會提供該輸送量。
  • 節省成本:高輸送量工作負載有機會節省成本 (相較於權杖型使用量)。

小提示

使用布建輸送量的時機

當您有妥善定義、可預測的輸送量和延遲需求時,您應該考慮從標準部署切換到布建的輸送量部署。 一般而言,當應用程式準備好用於生產環境或已部署在生產環境中,且了解預期的流量時,就會發生這種情況。 這可讓使用者準確地預測所需的容量,並避免非預期的計費。 設定的吞吐量部署也適用於具有即時或對延遲敏感需求的應用程式。

重要概念

下列各節說明在使用布建的輸送量供應項目時應該注意的重要概念。

佈建的輸送量單位 (PTU)

佈建的輸送量單位 (PTU) 是模型處理容量的一般單位,可用來調整佈建部署的大小,以達到處理提示和產生完成所需的輸送量。 布建的吞吐量單位會以配額形式授予訂閱,並用來定義成本。 每個配額都專屬於某個區域,並定義可指派給該訂用帳戶和區域中部署的 PTU 數目上限。

共用 PTU 保留下的成本管理

您可以使用 PTU 功能,在共用 PTU 保留下順暢地管理 Foundry 模型的成本。 不過,部署和輸送量效能所需的 PTU 單位會根據所選模型動態量身打造。 若要深入瞭解 PTU 成本和模型延遲點,請參閱 瞭解與 PTU 相關聯的成本

現有 PTU 保留專案會自動升級,讓客戶能夠更有效率地部署 Foundry 模型,同時節省成本。 例如,假設您有一個現有的 PTU 預約,並且已購買了 500 個 PTU。 您針對 Azure OpenAI 模型使用 300 個單位,並選擇也使用 PTU 來部署 Azure DeepSeek、Azure Llama 或其他在 Foundry Models 上具有 PTU 功能的模型。

  • 如果您將剩餘的 200 PTU 用於 DeepSeek-R1,則這 200 PTU 會自動共享預訂折扣,讓預訂的總使用量達到 500 PTU。

  • 如果您在 DeepSeek-R1 上使用 300 PTU,則有 200 PTU 會自動享有預訂折扣,而超過預訂的 100 PTU 則按 DeepSeek-R1 的每小時費率計費。

若要瞭解如何透過 PTU 保留來節省成本,請參閱 節省成本,使用 Microsoft Azure AI Foundry 布建輸送量預留方案

部署類型

當您在 Azure AI Foundry 中建立布建部署時,[建立部署] 對話方塊上的部署類型可以設定為 [全域布建輸送量]、[數據區布建輸送量] 或 [區域布建輸送量] 部署類型,視給定工作負載的數據處理需求而定。

當您透過 CLI 或 API 在 Azure AI Foundry 中建立預配置的部署時,sku-name 可以設為 GlobalProvisionedManagedDataZoneProvisionedManagedProvisionedManaged,這取決於指定工作負載的數據處理需求。

部署類型 CLI 中的「sku-name」
全域預配置的吞吐量 GlobalProvisionedManaged
資料區已配置的吞吐量 資料區域配置管理
區域預配置吞吐量 ProvisionedManaged

若要將下列 Azure CLI 範例命令調整為不同的部署類型,請更新 sku-name 參數以符合您想要部署的部署類型。

az cognitiveservices account deployment create \
--name <myResourceName> \
--resource-group  <myResourceGroupName> \
--deployment-name MyDeployment \
--model-name gpt-4o \
--model-version 2024-08-06  \
--model-format OpenAI \
--sku-capacity 15 \
--sku-name GlobalProvisionedManaged

容量透明度

Azure 直接銷售的模型是備受追捧的服務,其中客戶需求可能超過服務 GPU 容量。 Microsoft 努力為所有需求區域和模型提供容量,但總是有可能在某個區域銷售一空。 此條件約束可限制某些客戶在所需區域中建立所需模型、版本或 PTU 數目的部署能力,即使這些客戶在該區域中有可用的配額也一樣。 一般來說:

  • 配額會限制可在訂用帳戶和區域中部署的 PTU 數目上限,且不保證容量可用性。
  • 容量會在部署時配置,只要部署存在,就會保留容量。 如果服務容量無法使用,部署就會失敗。
  • 客戶使用配額/容量可用性的實時資訊,為具有必要模型容量的案例選擇適當的區域。
  • 縮小或刪除部署會將容量釋放回區域中。 如果稍後相應增加或重新建立部署,則無法保證容量可供使用。

區域容量指引

若要尋找其部署所需的容量,請使用容量 API 或 Azure AI Foundry 部署體驗來提供容量可用性的實時資訊。

在 Azure AI Foundry 中,部署體驗會識別區域何時缺少部署模型所需的容量。 這會查看所需的模型、版本和 PTU 數目。 如果容量無法使用,體驗會指示用戶選取替代區域。

如需部署體驗的詳細數據,請參閱 Azure AI Foundry 布建入門指南

模型容量 API 可用來以程式設計方式識別指定模型的大小上限部署。 API 會考慮您區域中的配額和服務容量。

如果可接受的區域無法支援所需的模型、版本和/或 PTU,客戶也可以嘗試下列步驟:

  • 嘗試以較小的 PTU 數目進行部署。
  • 嘗試在不同的時間部署。 容量可用性會根據客戶需求動態變更,之後可能會有更多容量可供使用。
  • 確定所有可接受的區域都有可用的配額。 模型容量 API 和 Azure AI Foundry 體驗會考慮在傳回替代區域以建立部署時的配額可用性。

如何監視容量?

Azure 監視器中的 Provisioned-Managed Utilization V2 計量 (部分機器翻譯) 會以 1 分鐘的增量來測量指定的部署使用率。 所有已布建的部署類型都經過優化,以確保接受的呼叫是以 consis 處理 帳篷模式 l 處理時間(實際的端對端延遲取決於呼叫的特性)。

使用率效能的運作方式

佈建的部署為您提供已配置的模型處理容量,用於執行指定的模型。

在所有布建的部署類型中,超過容量時,API 會傳回 429 HTTP 狀態錯誤。 快速回應可讓用戶決定如何管理其流量。 用戶可以將要求重新導向至個別的部署、標準部署實例,或使用重試策略來管理指定的要求。 服務會繼續傳回 429 HTTP 狀態代碼,直到使用率低於 100%。

當我收到 429 回應時,該怎麼辦?

429 狀態碼不是錯誤,而是設計的一部分,用來告知使用者指定的部署在某個時間點已全面使用。 藉由提供快速失敗的回應,您可以透過最符合應用程式需求的方式,控制這些情況的處理方式。

回應包含 retry-after-msretry-after 標頭,用於告知接受下一個呼叫之前須等待的時間。 要如何處理此回應取決於您的應用程式需求。 以下是一些考量:

  • 您可以考慮將流量重新導向至其他模型、部署或體驗。 此選項是最低延遲解決方案,因為只要收到 429 訊號就可以採取此動作。 如需有效實作此模式的想法,請參閱這篇社群文章 (英文)。
  • 如果您能夠接受較長的每次呼叫延遲,請實作使用者端重試邏輯。 此選項可讓您達到每個 PTU 的最大輸送量。 Azure AI Foundry 用戶端連結庫包含處理重試的內建功能。

服務如何決定傳送 429 的時機?

在所有布建的部署類型中,每個要求都會根據其提示大小、預期產生大小和模型個別評估,以判斷其預期的使用率。 此行為與標準部署形成對比,其具有根據估計流量負載的 自定義速率限制行為 。 針對標準部署,如果流量未平均散發,此自定義速率限制行為可能會導致在定義的配額值超過之前產生 HTTP 429 錯誤。

針對布建的部署,我們會使用流失值區演算法的變化來維持 100% 以下的使用率,同時允許流量中的某些高載。 高階邏輯如下所示:

  1. 每位客戶都有一組可在部署上使用的容量

  2. 提出要求時:

    一。 如果目前的使用率高於 100%,服務會傳回 429 代碼,retry-after-ms 標頭設定為使用率降至 100% 以下所需的時間

    b。 否則,服務會藉由結合提示令牌、減少任何快取的令牌,以及 max_tokens 呼叫中指定的 ,來估計為要求提供服務所需的累加變更。 客戶可以根據快取令牌的大小,在其提示令牌上收到最多 100% 折扣。 max_tokens如果未指定 參數,服務會估計值。 當實際產生的權杖數目很小時,此估計可能會導致並行存取率低於預期。 若想達到最高的並行存取,請確保 max_tokens 值盡可能接近真正的產生大小。

  3. 當要求完成時,現在我們知道呼叫的實際計算成本。 為了確保準確的計量,我們會使用下列邏輯來更正使用率:

    一。 如果實際 > 估計值,則會將差異新增至部署的使用率。

    b。 如果實際值 < 估計值,則會減去差異值。

  4. 根據部署的 PTU 數目,整體使用率會以連續速率遞減。

注意

在使用率達到 100% 之前會持續接受呼叫。 短時間內可能會允許略超過 100% 突增,但隨著時間推移,您的流量使用率上限為 100%。

圖表:顯示後續呼叫如何讓使用率上升。

我可以在部署上擁有多少個並行呼叫?

您可以達成的並行呼叫數目取決於每個呼叫的形狀(提示大小、 max_tokens 參數等)。 服務會繼續接受呼叫,直到使用率達到100%。 若要判斷並行呼叫的近似數目,您可以在容量計算機針對特定呼叫圖形,計算每分鐘要求數上限。 如果系統產生小於為 max_tokens 參數設定的輸出令牌數目,則布建的部署將接受更多要求。

Azure 直接銷售模型的預配置吞吐能力

本節列出支援布建輸送量功能的 Foundry 模型。 您可以在表中所列的模型之間使用 PTU 配額和 PTU 保留。

以下是表中一些重要的要點:

  • 此表格中未包含模型版本。 當您在 Azure AI Foundry 入口網站中選擇部署選項時,請檢查每個模型支援的版本。

  • 區域提供的預置吞吐量部署選項會因地區而異。

  • Azure 直接銷售的新模型會先使用全域布建的輸送量部署選項來上線。 稍後會提供 [資料區] 配置選項。

  • PTU 會依地區和方案類型管理。 PTU 配額和任何保留必須位於您想要使用的區域和格式(全局、資料區域、區域性)。

  • 溢出是一項選擇性功能,可管理布建部署上的流量波動。 如需溢出的詳細資訊,請參閱使用配置部署的溢出來管理流量(預覽版)。

模型系列 模型名稱 全域佈建 資料區域佈建 區域配置 溢出功能
Azure OpenAI Gpt4.1
Gpt 4.1 迷你
Gpt 4.1 nano
Gpt 4o
Gpt 4o 迷你
Gpt 3.5 Turbo
o1
O3 迷你
O4 迷你
Azure DeepSeek DeepSeek-R1
DeepSeek-V3-0324

布建輸送量功能的區域可用性

全域預置吞吐量模型可用性

區域 o3
2025-04-16
o4-mini
2025-04-16
gpt-4.1
2025-04-14
gpt-4.1-nano
2025-04-14
gpt-4.1-mini
2025-04-14
o3-mini
2025年01月31日
o1
2024年12月17日
gpt-4o
2024年05月13日
gpt-4o
2024-08-06
gpt-4o
2024年11月20日
gpt-4o-mini
2024年07月18日
DeepSeek-R1 DeepSeek-V3-0324
australiaeast
brazilsouth(巴西南部)
加拿大東部
eastus
eastus2
francecentral
德國西中部
義大利諾思
japaneast
koreacentral
northcentralus -
挪威東部
波蘭中心
southafricanorth
southcentralus
東南亞
南印度
西班牙中心
瑞典central
瑞士北部
瑞士西部
uaenorth
uksouth
westeurope
維斯特斯 -
westus3

注意

下列佈建版本 gpt-4版本:turbo-2024-04-09 目前僅限使用文字。