Azure OpenAI 動態配額 (預覽)
動態配額是一種 Azure OpenAI 功能,可在有額外的可用容量時啟用標準 (隨用隨付) 部署,讓您可以找機會使用更多配額。 動態配額設定為關閉時,您的部署將能處理每分鐘權杖數 (TPM) 設定所建立的最大輸送量。 超過預設的 TPM 時,要求會傳回 HTTP 429 回應。 啟用動態配額時,部署能夠在傳回 429 回應之前存取更高的輸送量,讓您可以更早執行更多呼叫。 額外的要求仍會按一般定價費率計費。
動態配額只能暫時增加可用的配額:永遠不會降低到您所設定的值以下。
使用動態配額的時機
動態配額在大部分案例中都很有用,特別是當您的應用程式能夠抓住機會使用額外的容量,或應用程式本身正在提升 Azure OpenAI API 呼叫的速率時。
一般而言,在下列情況下,您可能會偏好避免使用動態配額:如果配額變動或增加會造成應用程式提供不良體驗。
使用動態配額時,請考慮一些情況,例如:
- 大量處理、
- 建立擷取擴增生成 (RAG) 的摘要或內嵌、
- 針對計量和評估的產生記錄進行離線分析、
- 低優先順序研究、
- 配置少量配額的應用程式。
動態配額何時生效?
Azure OpenAI 後端可決定在不同部署中新增或移除額外動態配額的條件、時機和數量。 不會事先預測或宣告,且無法預測。 若要利用動態配額,您的應用程式程式碼必須能夠在 HTTP 429 回應變得不頻繁時發出更多要求。 Azure OpenAI 可讓您的應用程式藉由回應 HTTP 429 而知道何時達到配額上限,不讓更多 API 呼叫通過。
動態配額如何變更成本?
執行的呼叫數若超過基本配額,則成本與一般呼叫相同。
在部署中啟用動態配額不會產生額外成本,不過增加的輸送量最終可能還是會導致成本增加 (視部署收到的流量而定)。
注意
使用動態配額,呼叫就不需要強制執行「向上取整」配額或輸送量。 Azure OpenAI 會處理超過基準配額的所有要求。 如果即便在配額限制較少的情況下,您依然需要控制支出率,則應用程式程式碼也必須據以限制要求數。
如何使用動態配額
若要使用動態配額,您必須:
- 在您的 Azure OpenAI 部署中啟用動態配額屬性。
- 確定您的應用程式可以使用動態配額。
啟用動態配額
若要在部署中啟用動態配額,您可以前往資源設定中的進階屬性,然後開啟此設定:
或者,您也可以使用 Azure CLI 的 az rest
,以程式設計方式啟用此設定:
將 {subscriptionId}
、{resourceGroupName}
、{accountName}
和 {deploymentName}
取代為您資源的相關值。 在此情況下,accountName
等於 Azure OpenAI 資源名稱。
az rest --method patch --url "https://management.azure.com/subscriptions/{subscriptionId}/resourceGroups/{resourceGroupName}/providers/Microsoft.CognitiveServices/accounts/{accountName}/deployments/{deploymentName}?2023-10-01-preview" --body '{"properties": {"dynamicThrottlingEnabled": true} }'
如何知道要在我的應用程式中增加多少輸送量動態配額?
若要監視其運作方式,您可以在 Azure 監視器中追蹤應用程式的輸送量。 在動態配額預覽期間,沒有任何特定計量或記錄指出配額是否已動態增加或減少。 如果是在大量使用區域中執行部署,且正逢這些區域的尖峰使用時段,則較不太可能使用動態配額。
下一步
- 深入了解配額的運作方式。
- 深入了解如何監視 Azure OpenAI。