共用方式為


管理 Microsoft Foundry 模型中的 Azure OpenAI 配額(經典版)

僅適用於:Foundry(經典)入口。 本文尚未在新的 Foundry 入口網站提供。 了解更多關於新入口網站的資訊。

配額可讓您彈性管理訂用帳戶內跨部署的速率限制配置。 本文將介紹管理您的 Azure OpenAI 配額的流程。

先決條件

這很重要

對於需要檢視可用配額的任何工作,我們建議使用認知服務使用量讀者角色。 此職務提供最低限度的存取權限,以檢視 Azure 訂閱期間的配額使用情況。 想了解更多關於此角色及其他需要Azure OpenAI 存取的職務,請參閱我們的 Azure基於角色的存取控制指南

此角色可在 Azure 入口網站的 Subscriptions>存取控制(IAM)>新增角色指派> 中搜尋 Cognitive Services Usages Reader 找到。 此角色 必須套用在訂用帳戶層級,它不存在於資源層級。

如果您不想使用這個角色,訂閱中的閱覽者角色將提供相同的存取權限,但它也會授予超出檢視配額和模型部署所需限制的讀取權限。

配額簡介

Azure OpenAI 的配額功能可為您的部署設定速率上限,最高達到您所設定的 quota 全局限制。 配額會依區域、型號、部署類型,以每 分鐘代幣數(TPM)為單位分配給您的訂閱。 當你加入 Azure OpenAI 訂閱時,會獲得大多數可用模型的預設配額。 然後,您會在建立 TPM 時,將 TPM 指派給每個部署,而該模型的可用配額將會減少指派的數量。 您可以繼續建立部署並指派 TPM 給部署,直到達到配額限制為止。 一旦達到配額,您只能藉由減少指派給相同模型其他部署的 TPM (藉此釋放 TPM 以供使用) 來建立該模型的新部署,或要求並核准在所需區域中增加模型配額。

備註

在美國東部,GPT-4o 的配額為 240,000 TPM,客戶可以建立單次 240 K TPM 部署、兩次各 120 K TPM 部署,或在一個或多個 Azure OpenAI 資源中任意數量部署,只要該區域的 TPM 總和少於 240 K TPM。

建立部署時,指派的 TPM 會直接對應至在其推斷要求上強制執行的每分鐘權杖速率限制。 也會強制執行 每分鐘要求 (RPM) 速率限制,其值會依下列比例設定為 TPM 指派:

這很重要

配額中每分鐘請求(RPM)與每分鐘令牌(TPM)的比例可能會因模型而異。 當您以程序設計方式部署模型或 要求增加配額 時,不會以獨立值對 TPM 和 RPM 進行細微的控制。 配額會根據容量單位來配置,其具有對應數量的 RPM 和 TPM:

型號 容量 每分鐘請求次數 (RPM) 每分鐘權杖 (TPM)
較舊的聊天模型: 1 個單位 6 個 RPM 1,000 每分鐘
o1 和 o1-preview: 1 個單位 1 個 RPM 6,000 個 TPM
o3 1 個單位 1 個 RPM 1,000 每分鐘
o4-mini 1 個單位 1 個 RPM 1,000 每分鐘
o3-mini: 1 個單位 1 個 RPM 10,000 個 TPM
o1-mini: 1 個單位 1 個 RPM 10,000 個 TPM
o3-pro: 1 個單位 1 個 RPM 10,000 個 TPM

這對於程式化模型部署來說特別重要,因為 RPM/TPM 比率的變更可能會導致配額的誤分配。

TPM 能在全球訂閱與區域內廣泛分發的彈性,讓 Azure OpenAI 放寬了其他限制:

  • 每個區域的資源上限會增加到 30。
  • 已移除在資源中建立不超過一個相同模型部署的限制。

指派配額

當您建立模型部署時,您可以選擇將每分鐘權杖 (TPM) 指派給該部署。 TPM 可以以 1,000 遞增進行修改,並對應至在部署上強制執行的 TPM 和 RPM 速率限制,如上所述。

要在 Microsoft Foundry 入口網站內建立新部署,請選擇部署、>部署>模型、部署基底模型>、選擇模型>、確認

部署後,你可以從 Foundry 入口網站部署頁面選擇並編輯模型,調整你的 TPM 分配。 您也可以從 [管理]> [模型配額] 頁面修改此設定。

這很重要

配額和限制可能會變更,如需最新資訊,請參閱我們的配額和限制一文

要求更多配額

提交配額增加申請表,以申請Azure直接銷售的Foundry模型、Azure OpenAI模型及Anthropic模型的配額增加。 除了人類模型外, 合作夥伴和社群模型 不支持配額增加。

配額增加請求依接收順序處理,優先權會給予積極使用現有配額的客戶。 不符合此條件的請求可能會被拒絕。

模型特定設定

不同的模型部署也稱為模型類別有唯一 TPM 值上限,而您現在可以控制它。 這代表可配置給指定區域中該類型模型部署的 TPM 數量上限。

所有其他模型類別都有通用的最大 TPM 值。

備註

配額令牌Per-Minute(TPM)的配置與模型的最大輸入令牌限制無關。 模型輸入語彙基元限制是在模型資料表中定義,而且不會受 TPM 變更的影響。

檢視和要求配額

若要全面查看特定區域內各部署的配額分配,請在 Foundry 入口網站選擇>配額

  • 部署:模型部署除以模型類別。
  • 配額類型:每個模型類型的每個區域都有一個配額值。 配額涵蓋該模型的所有版本。
  • 配額配置:針對配額名稱,這會顯示部署所使用的配額,以及針對此訂用帳戶和區域核准的總配額。 使用的配額數量也會在橫條圖中表示。
  • 要求配額:圖示會瀏覽至此表單,可在其中提交增加配額的要求。

正在移轉現有的部署

作為轉型至新配額系統及基於 TPM 分配的一部分,所有現有的 Azure OpenAI 模型部署已自動遷移至配額。 如果現有的 TPM/RPM 配置因為先前的自訂速率限制增加而超過預設值,則相等的 TPM 會指派給受影響的部署。

了解速率限制

將 TPM 指派給部署,會為部署設定每分鐘權杖 (TPM) 和每分鐘要求 (RPM) 速率限制,如上所述。 TPM 速率限制是根據收到要求時,要求預估要處理的權杖數目上限。 它與用於計費的權杖計數不同,那會在完成所有處理之後計算。

每當收到一個請求時,Azure OpenAI 會計算出估計的最大處理令牌數,內容包括以下:

  • 提示文字和計數
  • max_tokens 參數設定
  • best_of 參數設定

當要求進入部署端點時,估計的最大處理權杖計數會新增至每個分鐘重設之所有要求的執行中權杖計數。 如果在該分鐘期間達到了 TPM 速率限制值,則進一步的要求將會收到 429 回應碼,直到計數器重設為止。

這很重要

速率限制計算中使用的權杖計數是以 API 要求的字元計數部分為基礎的估計值。 速率限制權杖估計值與用於計費/判斷要求低於模型輸入權杖限制的權杖計算不同。 由於速率限制權杖計算的近似本質,相較於每個要求的確切權杖計數測量,其為可以在預期之前觸發速率限制的預期行為。

RPM 速率限制是以一段時間收到的要求數目為基礎。 速率限制預期要求在一分鐘的期間內平均分散。 如果未維護此平均流程,則要求可能會收到 429 回應,即使在一分鐘內測量時未符合限制也一樣。 為了實現此行為,Azure OpenAI 會評估在短時間內(通常為 1 秒至 10 秒)內的輸入請求速率。 如果在該時間期間收到的要求數目超過設定 RPM 限制的預期數目,則新的要求將會收到 429 回應碼,直到下一個評估期間為止。 例如,若 Azure OpenAI 以 1 秒為間隔監控請求速率,則若 600 RPM 部署在每個 1 秒內收到超過 10 個請求(每分鐘 600 個請求 = 每秒 10 個請求),則會實施速率限制。

速率限制最佳做法

若要盡量減少與速率限制相關的問題,最好使用下列技術:

  • 將 max_tokens 和 best_of 設定為符合您案例需求的最小值。 例如,如果您預期回應很小,請勿設定大型 max-token 值。
  • 使用配額管理在具有高流量的部署上增加 TPM,並在具有有限需求的部署上減少 TPM。
  • 在您的應用程式中實作重試邏輯。
  • 避免工作負載急遽變化。 逐漸增加工作負載。
  • 測試不同的負載增加模式。

了解 429 節流錯誤及如何處理

為什麼您可能會看到 429 錯誤

當您的使用量超過允許的限制或系統遇到高需求時,您可能會遇到 429 錯誤(“請求過多”)。 我們最近改進了錯誤訊息,使這些情況更加透明和可操作。

常見的 429 場景和處理方法

  1. 已超出速率限制。 這是您收到 429 個回覆時最常見的情況。 這表示您的請求超出了目前配額的速率限制。 在此情況下,您可以使用錯誤訊息中提供的連結來要求增加配額。
  2. 系統需求量很大,無法處理您的要求。 系統的需求很高,由於容量或延遲限制而無法處理您的請求。 在此情況下,您可以在建議的時間之後重試。 請注意,標準供應專案沒有延遲 SLA,如果您超過 使用量層級,可能會遇到可變延遲。 如果您要改善可靠性或降低延遲,請考慮升級至進階供應專案 (佈建輸送量) ,以獲得更好的可預測性。

自動化部署

本章節包含簡短的範例範本,可協助您開始以程式設計方式建立使用配額來設定 TPM 速率限制的部署。 引進配額後,您必須針對資源管理相關活動使用 API 版本 2023-05-01。 此 API 版本僅適用於管理您的資源,且不會影響用來推斷呼叫的 API 版本,例如完成、聊天完成、內嵌、影像產生等。

部署

PUT https://management.azure.com/subscriptions/{subscriptionId}/resourceGroups/{resourceGroupName}/providers/Microsoft.CognitiveServices/accounts/{accountName}/deployments/{deploymentName}?api-version=2023-05-01

路徑參數

參數 類型 是必要的嗎? Description
accountName 字串 為必填項目 你的 Azure OpenAI 資源名稱。
deploymentName 字串 為必填項目 部署現有模型時所選擇的部署名稱,或您為新模型部署使用的名稱。
resourceGroupName 字串 為必填項目 此模型部署的相關聯資源群組的名稱。
subscriptionId 字串 為必填項目 相關聯的訂用帳戶的訂用帳戶識別碼。
api-version 字串 為必填項目 用於此作業的 API 版本。 這會遵循 YYYY-MM-DD 格式。

支援的版本

請求主體

這只是可用要求主體參數的子集。 如需參數的完整清單,您可以參考 REST API 參考文件

參數 類型 Description
sku Sku 代表 SKU 的資源模型定義。
容量 整數 這代表您要指派給此部署的 配額 數量。 值為 1 等於每分鐘 1,000 個權杖 (TPM)。 值為 10 等於每分鐘 10,000 個權杖 (TPM)。

範例要求

curl -X PUT https://management.azure.com/subscriptions/00000000-0000-0000-0000-000000000000/resourceGroups/resource-group-temp/providers/Microsoft.CognitiveServices/accounts/docs-openai-test-001/deployments/gpt-4o-test-deployment?api-version=2023-05-01 \
  -H "Content-Type: application/json" \
  -H 'Authorization: Bearer YOUR_AUTH_TOKEN' \
  -d '{"sku":{"name":"Standard","capacity":10},"properties": {"model": {"format": "OpenAI","name": "gpt-4o","version": "2024-11-20"}}}'

備註

有多種方式可以產生授權令牌。 最簡單的初步測試方法是從 Azure 入口啟動Cloud Shell。 接著,執行 az account get-access-token。 您可以使用此權杖作為 API 測試的暫時授權權杖。

如需詳細資訊,請參閱 REST API 參考文件以取得 使用方式部署

Usage

若要針對特定訂用帳戶查詢指定區域中的配額使用量

GET https://management.azure.com/subscriptions/{subscriptionId}/providers/Microsoft.CognitiveServices/locations/{location}/usages?api-version=2023-05-01

路徑參數

參數 類型 是必要的嗎? Description
subscriptionId 字串 為必填項目 相關聯的訂用帳戶的訂用帳戶識別碼。
location 字串 為必填項目 檢視使用量的位置,例如:eastus
api-version 字串 為必填項目 用於此作業的 API 版本。 這會遵循 YYYY-MM-DD 格式。

支援的版本

範例要求

curl -X GET https://management.azure.com/subscriptions/00000000-0000-0000-0000-000000000000/providers/Microsoft.CognitiveServices/locations/eastus/usages?api-version=2023-05-01 \
  -H "Content-Type: application/json" \
  -H 'Authorization: Bearer YOUR_AUTH_TOKEN' 

資源刪除

當嘗試從 Azure 入口網站刪除 Azure OpenAI 資源時,若仍有部署存在,刪除會被阻擋,直到相關部署被刪除。 刪除部署會先允許適當釋放配額配置,以便在新的部署上使用。

不過,如果您使用 REST API 或其他程式設計方法刪除資源,這會略過先刪除部署的需求。 發生這種情況時,在 48 小時内,相關聯的配額配置將無法指派給新的部署,直到清除資源為止。 若要觸發已刪除資源的立即清除以釋出配額,請遵循 清除已刪除的資源指示

後續步驟

  • 欲檢視 Azure OpenAI 配額預設,請參閱 quotas & limits 文章