Dynamisk kvot för Azure OpenAI (förhandsversion)

Dynamisk kvot är en Azure OpenAI-funktion som gör det möjligt för en standarddistribution (betala per användning) att opportunistiskt dra nytta av mer kvot när extra kapacitet är tillgänglig. När den dynamiska kvoten är avstängd kan distributionen bearbeta ett maximalt dataflöde som har upprättats av inställningen Token per minut (TPM). När du överskrider din förinställda TPM returnerar begäranden HTTP 429-svar. När dynamisk kvot är aktiverad har distributionen möjlighet att komma åt högre dataflöde innan du returnerar 429 svar, så att du kan utföra fler anrop tidigare. De extra begärandena faktureras fortfarande enligt de vanliga prissättningspriserna.

Dynamisk kvot kan bara tillfälligt öka din tillgängliga kvot: den kommer aldrig att minska under det konfigurerade värdet.

När du ska använda dynamisk kvot

Dynamisk kvot är användbar i de flesta scenarier, särskilt när ditt program kan använda extra kapacitet opportunistiskt eller själva programmet driver den hastighet med vilken Azure OpenAI-API:et anropas.

Vanligtvis är den situation där du kanske föredrar att undvika dynamisk kvot när ditt program skulle ge en negativ upplevelse om kvoten är instabil eller ökad.

För dynamisk kvot bör du överväga scenarier som:

  • Massbearbetning,
  • Skapa sammanfattningar eller inbäddningar för RAG (Retrieval Augmented Generation),
  • Offlineanalys av loggar för generering av mått och utvärderingar,
  • Lågprioriterad forskning,
  • Appar som har en liten mängd allokerade kvoter.

När träder dynamisk kvot i kraft?

Azure OpenAI-serverdelen avgör om, när och hur mycket extra dynamisk kvot som läggs till eller tas bort från olika distributioner. Den är inte prognostiserad eller meddelad i förväg och är inte förutsägbar. Azure OpenAI låter ditt program veta att det finns mer kvot tillgänglig genom att svara med en HTTP 429 och inte låta fler API-anrop gå igenom. Om du vill dra nytta av dynamisk kvot måste programkoden kunna utfärda fler begäranden eftersom HTTP 429-svar blir ovanliga.

Hur ändrar dynamisk kvot kostnader?

  • Anrop som görs över baskvoten har samma kostnader som vanliga anrop.

  • Det finns ingen extra kostnad för att aktivera dynamisk kvot för en distribution, även om det ökade dataflödet i slutändan kan leda till ökade kostnader beroende på hur mycket trafik distributionen tar emot.

Kommentar

Med dynamisk kvot finns det ingen anropstvingande av en "takkvot" eller dataflöde. Azure OpenAI bearbetar så många begäranden som möjligt över baslinjekvoten. Om du behöver kontrollera utgiftstakten även när kvoten är mindre begränsad måste programkoden hålla tillbaka begäranden i enlighet med detta.

Så här använder du dynamisk kvot

Om du vill använda dynamisk kvot måste du:

  • Aktivera egenskapen för dynamisk kvot i Azure OpenAI-distributionen.
  • Kontrollera att programmet kan dra nytta av dynamisk kvot.

Aktivera dynamisk kvot

Om du vill aktivera dynamisk kvot för distributionen kan du gå till de avancerade egenskaperna i resurskonfigurationen och aktivera den:

Screenshot of advanced configuration UI for deployments.

Du kan också aktivera det programmatiskt med Azure CLI:s az rest:

{subscriptionId}Ersätt , {resourceGroupName}, {accountName}och {deploymentName} med relevanta värden för din resurs. I det här fallet accountName är lika med Azure OpenAI-resursnamnet.

az rest --method patch --url "https://management.azure.com/subscriptions/{subscriptionId}/resourceGroups/{resourceGroupName}/providers/Microsoft.CognitiveServices/accounts/{accountName}/deployments/{deploymentName}?2023-10-01-preview" --body '{"properties": {"dynamicThrottlingEnabled": true} }'

Hur gör jag för att vet du hur mycket dynamisk dataflödeskvot som läggs till i min app?

Om du vill övervaka hur det fungerar kan du spåra programmets dataflöde i Azure Monitor. Under förhandsversionen av dynamisk kvot finns det inget specifikt mått eller logg som anger om kvoten har ökats eller minskat dynamiskt. dynamisk kvot är mindre sannolikt att användas för din distribution om den körs i kraftigt använda regioner och under hög belastning för användning för dessa regioner.

Nästa steg