動態配額是 Azure OpenAI 功能,可讓標準部署在有額外的容量可用時,以機會利用更多配額。 動態配額設定為關閉時,您的部署將能處理每分鐘權杖數 (TPM) 設定所建立的最大輸送量。 超過預設的 TPM 時,要求會傳回 HTTP 429 回應。 啟用動態配額時,部署能夠在傳回 429 回應之前存取更高的輸送量,讓您可以更早執行更多呼叫。 額外的要求仍會按一般定價費率計費。
動態配額只能暫時增加可用的配額:永遠不會降低到您所設定的值以下。
使用動態配額的時機
動態配額在大部分案例中都很有用,特別是當您的應用程式能夠抓住機會使用額外的容量,或應用程式本身正在提升 Azure OpenAI API 呼叫的速率時。
一般而言,在下列情況下,您可能會偏好避免使用動態配額:如果配額變動或增加會造成應用程式提供不良體驗。
使用動態配額時,請考慮一些情況,例如:
- 大量處理、
- 建立擷取擴增生成 (RAG) 的摘要或內嵌、
- 針對計量和評估的產生記錄進行離線分析、
- 低優先順序研究、
- 配置少量配額的應用程式。
動態配額何時生效?
Azure OpenAI 後端可決定在不同部署中新增或移除額外動態配額的條件、時機和數量。 不會事先預測或宣告,且無法預測。 若要利用動態配額,您的應用程式程式碼必須能夠在 HTTP 429 回應變得不頻繁時發出更多要求。 Azure OpenAI 可讓您的應用程式藉由回應 HTTP 429 而知道何時達到配額上限,不讓更多 API 呼叫通過。
動態配額如何變更成本?
執行的呼叫數若超過基本配額,則成本與一般呼叫相同。
在部署中啟用動態配額不會產生額外成本,不過增加的輸送量最終可能還是會導致成本增加 (視部署收到的流量而定)。
備註
使用動態配額,呼叫就不需要強制執行「向上取整」配額或輸送量。 Azure OpenAI 會處理超過基準配額的所有要求。 如果即便在配額限制較少的情況下,您依然需要控制支出率,則應用程式程式碼也必須據以限制要求數。
如何使用動態配額
若要使用動態配額,您必須:
- 在您的 Azure OpenAI 部署中啟用動態配額屬性。
- 確定您的應用程式可以使用動態配額。
啟用動態配額
若要為您的部署啟用動態配額,您可以前往資源設定中的進階屬性,然後將其開啟。
或者,您也可以使用 Azure CLI 的 az rest,以程式設計方式啟用此設定:
將 {subscriptionId}、{resourceGroupName}、{accountName} 和 {deploymentName} 取代為您資源的相關值。 在此情況下,accountName 等於 Azure OpenAI 資源名稱。
az rest --method patch --url "https://management.azure.com/subscriptions/{subscriptionId}/resourceGroups/{resourceGroupName}/providers/Microsoft.CognitiveServices/accounts/{accountName}/deployments/{deploymentName}?api-version=2023-10-01-preview" --body '{"properties": {"dynamicThrottlingEnabled": true} }'
如何知道要在我的應用程式中增加多少輸送量動態配額?
若要監視其運作方式,您可以在 Azure 監視器中追蹤應用程式的輸送量。 在動態配額預覽期間,沒有任何特定計量或記錄指出配額是否已動態增加或減少。 如果是在大量使用區域中執行部署,且正逢這些區域的尖峰使用時段,則較不太可能使用動態配額。
後續步驟
- 深入了解配額的運作方式。
- 深入了解如何監視 Azure OpenAI。