Foundry 模型的配置吞吐量是什麼? (經典)

目前正在觀看:Foundry(經典)入口版本 - 切換到新 Foundry 入口網站版本

提示

欲了解近期配置吞吐量服務的變更,請參閱 更新文章

Microsoft Foundry 的配置吞吐量是一種模型部署類型,允許你指定模型部署所需的吞吐量。 Foundry 接著會配置必要的模型處理容量,並確認可供您使用。 使用您要求的佈建輸送量,適用於由 Azure 直接銷售的各種模型組合。 這些模型包括 Azure OpenAI 模型,以及新推出的旗艦模型家族,如 Foundry Models 中的 Azure DeepSeek,隨著時間推移,更多模型家族陸續上線。

預設的吞吐量提供:

效益 描述
更廣泛的模型選擇 最新旗艦車型的使用權
彈性 使用既有的佈建輸送量配額切換模型與部署
顯著折扣 透過更靈活的預訂選擇提升您的預訂使用率
可預測的表現 穩定的最大延遲與吞吐量,適用於統一工作負載
分配的處理容量 吞吐量無論是否使用,部署後皆可取得
成本節省 相較於基於代幣的消耗,高吞吐量的工作負載可能帶來成本節省。

提示

先決條件

  • 一個 Azure 訂閱。 免費創建一個
  • 一個Microsoft Foundry 專案,其模型以配置式吞吐量部署類型部署。
  • 在目標區域中配置給您訂用帳戶的佈建輸送量配額。
  • Azure CLI(如果你打算透過命令列建立部署)。

何時使用配置吞吐量

當您擁有明確且可預測的吞吐量與延遲需求時,考慮部署配置吞吐量,通常是針對具有已知流量模式的生產應用。 配置吞吐量對於即時或延遲敏感的應用也很有用。

了解PTU分配

配置吞吐量單元(PTU)與部署類型是配置吞吐量的基礎組件。 以下章節將說明它們的運作方式。

配置吞吐量單元(PTU)

配置吞吐量單元(PTU)是模型處理容量的通用單位,用來調整配置部署的規模,以達到處理提示和產生完成任務所需的吞吐量。 已設定的吞吐量單位作為配額分配給訂閱,並用來計算成本。 每個配額針對特定區域,定義該訂閱及區域內可分配的最大 PTU 數量。

共用 PTU 保留項目下的成本管理

使用 PTU 功能,在共用 PTU 保留項目下順暢地管理 Foundry 模型成本。 但部署與吞吐量所需的PTU單元會根據所選型號動態調整。 欲了解更多PTU成本及延遲點模型,請參閱 理解PTU相關成本

現有的PTU預約將自動升級,使客戶在部署Foundry Models時具有更高的效率並節省成本。 例如,假設您現有一個已購買 500 PTU 的 PTU 保留項目。 你會使用 300 單位來管理 Azure OpenAI 模型,並且你也會選擇使用 PTU 來部署 Azure DeepSeek、Azure Llama 或其他具備 PTU 能力的模型到 Foundry 模型。

  • 如果您將剩餘的 200 PTU 用於 DeepSeek-R1,該 200 PTU 會自動共用保留項目折扣,而您的保留項目使用量總計為 500 PTU。

  • 如果您將 300 PTU 用於 DeepSeek-R1,則 200 PTU 會自動共用保留項目折扣,而 100 PTU 會超出保留項目,並依 DeepSeek-R1 的每小時費率計費。

欲了解如何透過 PTU 預約節省成本,請參閱 Save cost with Microsoft Foundry Provisioned Throughput Reservations

部署類型

當你在 Foundry 中建立已配置部署時, 建立 部署對話框的部署類型可設定為全域配置吞吐量、資料區域配置吞吐量或區域配置吞吐量部署類型,視該工作負載的資料處理需求而定。

當你在 Foundry 透過 CLI 或 API 建立配置部署時, sku-name 可以根據特定工作負載的資料處理需求,設定為 GlobalProvisionedManagedDataZoneProvisionedManagedProvisionedManaged

部署類型 CLI 中的 SKU 名稱
全域預配置吞吐量 GlobalProvisionedManaged
數據區預配置吞吐量 DataZoneProvisionedManaged
區域配置吞吐量 ProvisionedManaged

若要將以下Azure CLI範例指令調整至不同的部署類型,請更新 sku-name 參數,使其與你想部署的部署類型相符。

az cognitiveservices account deployment create \
--name <myResourceName> \
--resource-group  <myResourceGroupName> \
--deployment-name MyDeployment \
--model-name gpt-4o \
--model-version 2024-08-06  \
--model-format OpenAI \
--sku-capacity 15 \
--sku-name GlobalProvisionedManaged

管理容量與可用性

配置吞吐量的容量取決於區域可用性及即時需求。 以下章節將說明容量的運作原理及如何尋找其容量。

容量透明度

Azure 直接銷售的機型是極受追捧的服務,客戶需求可能超過服務 GPU 容量。 Microsoft 致力於為所有需求高的地區和型號提供容量,但賣出某個地區始終是可能的。 此限制可能限制部分客戶在特定區域部署其期望型號、版本或 PTU 數量的能力——即使該區域已有配額。

重要

配額限制了在訂閱和區域內可部署的最大PTU數量,但並不保證容量的可用性。 容量於部署時分配。

一般來說:

  • 配額並不保證產能。 配額限制了訂閱及區域內可部署的 PTU 數量上限。
  • 容量在部署時分配 ,並持續保留至部署期間。 若服務容量不足,部署即告失敗。
  • 利用即時的配額與容量可用性資訊,選擇適合您情境的區域。
  • 縮減或刪除部署 會將容量釋放回區域。 如果部署規模擴大或重建,無法保證容量是否仍然可用。

區域容量指南

若要尋找其部署所需的容量,請使用容量 API 或 Foundry 部署體驗,以提供容量可用性的即時資訊。

在 Foundry 中,部署經驗會識別區域何時缺乏部署該模型所需的容量。 這會查看所需的模型、版本及 PTU 數量。 若容量不足,體驗會引導使用者選擇替代區域。

關於部署體驗的詳細資訊,請參閱 Foundry Provisioned 入門指南

使用模型容量 API 程式化地識別指定模型的最大部署規模。 API 會同時考慮你在該區域的配額和服務容量。

若無法提供可接受的區域以支援所需型號、版本及/或 PTU,客戶也可嘗試以下步驟:

  • 嘗試用較少數量的PTU部署。
  • 嘗試在其他時間進行部署。 容量可用性會根據客戶需求動態變化,未來可能會有更多容量可用。
  • 確保配額在所有可接受的地區都能提供。 模型容量 API 和 Foundry 體驗會在傳回替代區域以建立部署時考慮配額可用性。

監測利用率與效能

以下章節說明如何監控利用率及處理容量限制。

監測容量

Azure 監視器中的 Provisioned-Managed 利用率 V2 指標以 1 分鐘為單位衡量特定部署的使用率。 所有配置的部署類型都經過優化,以確保所接收的通話能夠在一致的處理時間內完成(實際的端到端延遲取決於通話的特性)。

利用率

配置式部署會提供你分配的模型處理容量,用於執行特定模型。

在所有配置部署類型中,當容量超過時,API 會回傳 429 HTTP 狀態錯誤。 快速回應讓使用者能做出如何管理流量的決策。 使用者可以將請求導向到獨立部署、標準部署實例,或使用重試策略來管理特定請求。 服務會持續回傳 429 HTTP 狀態碼,直到利用率降至 100%以下。

處理 HTTP 429 回應

429 回應不是錯誤,而是系統設計的一部分,用來讓使用者知道某個特定部署在某個時間點已達到完全使用。 透過提供快速失敗回應,您可以掌控如何以最符合應用程式需求的方式處理這些情況。

retry-after-msretry-after標頭在回應中告訴你等待多久時間才能接受下一次請求。 你如何處理這個回應,取決於你的申請需求。 以下是一些考量:

  • 考慮將流量導向其他模型、部署或經驗。 這個選項是延遲最低的解決方案,因為只要收到 429 訊號就能立即執行。 關於如何有效實施此模式,請參閱這篇社群貼文
  • 如果你能接受較長的每次通話延遲,可以實作客戶端重試邏輯。 此選項可為您提供每個 PTU 的最高輸送量。 Foundry 用戶端函式庫內建處理重試的功能。

以使用率為基礎的要求評估

在所有配置部署類型中,每個請求都會根據其提示大小、預期生成規模及模型個別評估,以確定預期使用率。 此行為與標準部署形成對比,後者會根據估計的流量負載進行自訂速率限制。 對於標準部署,這種自訂速率限制行為可能導致在流量未均勻分布時未達到定義的配額值之前便引發 HTTP 429 錯誤。

針對佈建的部署,我們會使用漏桶演算法的變化形式,將使用率維持在 100% 以下,同時允許流量中出現一定程度的突增。 高階邏輯如下:

  1. 每個客戶在部署時都有固定的容量可用。

  2. 當提出請求時:

    a. 當目前利用率超過 100% 時,服務會回傳一個 429 代碼,標頭retry-after-ms設定為直到利用率降至 100% 以下的時間。

    b. 否則,服務會透過將提示令牌(減去快取令牌)與呼叫中指定的 max_tokens 標記合併,估算執行請求所需的增量利用率變化。 客戶可根據其快取權杖的大小,獲得最高 100% 的提示權杖折扣。 如果 max_tokens 參數未指定,服務會估計一個值。 當實際產生的代幣數量較少時,這種估計可能導致並發率低於預期。 為了達到最高並發性,請確保值 max_tokens 盡可能接近真實的世代大小。

  3. 當請求結束時,我們就知道通話的實際計算成本。 為確保會計準確,我們採用以下邏輯修正利用率:

    a. 如果實際值 > 估計值,則會將差額加到部署的使用率。

    b. 如果實際值 < 估計值,則會減去差額。

  4. 整體利用率會根據部署的PTU數量持續遞減。

通話持續接受,直到使用率達到100%。 短時間內可能允許超過 100% 的突發流量,但從長遠來看,您的流量使用已被限制在 100% 之內。

佈建輸送量使用量的漏桶演算法圖示,顯示傳入要求如何增加使用量,而容量如何依已部署的 PTU 計數排出。

同時通話限制

部署中你能同時接到的通話數量取決於每個通話的形狀(提示大小、 max_tokens 參數及類似因素)。 該服務持續接聽電話,直到使用率達到100%。 要估算大致的同時通話數量,可以在 容量計算器中模擬特定通話格式的每分鐘最大請求數。 如果系統產生的輸出權杖數少於 max_tokens 參數所設定的數量,則佈建的部署將接受更多要求。

適用於由 Azure 直接銷售模型的佈建輸送量功能

本節列出支援已分配吞吐量能力的 Foundry 模型。 在表格所列模型之間使用您的 PTU 配額與 PTU 保留項目。

  • 此表中未包含型號版本。 在 Foundry 入口網站選擇部署選項時,請檢查每個模型的支援版本。

  • 區域性配置的吞吐量部署選項因地區而異。

  • Azure 直接銷售的新模型會先使用全域佈建的輸送量部署選項加入。 資料區配置選項則是後面才出現的。

  • PTU 會依區域與供應項目類型進行管理。 PTU 配額和任何保留項目都必須位於您要使用的區域和形式 (全域、資料區域、區域)。

  • 溢出是一項可選功能,用於管理已配置部署中的流量波動。 欲了解更多關於溢出管理的資訊,請參閱「管理佈署流量溢出以處理已預配的部署」

模型系列 型號名稱 全域佈建 資料區域佈建 區域佈建 溢出功能
Azure OpenAI Gpt 5.5
Gpt 5.4
Gpt 5.3 codex
Gpt 5.2
Gpt 5.2 編碼
Gpt 5.1
Gpt 5.1 程式碼
GPT 5
Gpt 5 迷你版
Gpt 4.1
Gpt 4.1 迷你版
GPT 4.1 奈米
GPT-4.0
GPT 4o 迷你版
Gpt 3.5 渦輪增壓
o1
O3
O3 迷你
o4 mini
Azure 深搜 DeepSeek-R1
深尋-V3-0324
深度搜尋-R1-0528
Meta Llama Llama-3.3-70B-Instruct

區域可用性以提供已配置的吞吐量能力

全球配置吞吐量模型可用性

區域 GPT-5.5,2026-04-24 GPT-5.4,2026-03-05 GPT-5.3-codex,2026-02-24 GPT-5.2-Codex,2026-01-14 GPT-5.2,2025-12-11 GPT-5.1,2025-11-13 GPT-5.1-codex,2025-11-13 GPT-5,2025-08-07 GPT-5-MINI,2025年08月07日 O3, 2025-04-16 O4-mini, 2025-04-16 GPT-4.1,2025-04-14 GPT-4.1-MINI,2025-04-14 GPT-4.1-nano,2025-04-14 o3-mini, 2025-01-31 o1, 2024-12-17 GPT-4O, 2024-11-20 GPT-4O,2024-08-06 GPT-4O,2024-05-13 GPT-4O-MINI,2024-07-18
澳洲東部 -
巴西南部 -
加拿大中央 -
加拿大東部 -
centralus -
伊斯特斯
eastus2 -
francecentral -
德國-西中部 -
義大利北方 -
日本東部 -
koreacentral -
northcentralus
挪威東部 -
波蘭中央 -
southafricanorth -
美國中南部 -
東南亞 -
南印度 -
西班牙中心 -
swedencentral -
switzerlandnorth -
switzerlandwest -
uaenorth -
UKSOUTH -
西歐 -
westus -
westus3 -

gpt-4 佈建版本 Version: turbo-2024-04-09 目前僅限文字使用。