Delen via


Dynamisch quotum voor Azure OpenAI (preview)

Dynamisch quotum is een Azure OpenAI-functie waarmee een standaardimplementatie (betalen per gebruik) opportunistisch kan profiteren van meer quota wanneer er extra capaciteit beschikbaar is. Wanneer dynamisch quotum is ingesteld op uit, kan uw implementatie een maximale doorvoer verwerken die is ingesteld door de TPM-instelling (Tokens Per Minuut). Wanneer u de vooraf ingestelde TPM overschrijdt, retourneren aanvragen HTTP 429-antwoorden. Wanneer dynamisch quotum is ingeschakeld, heeft de implementatie de mogelijkheid om toegang te krijgen tot hogere doorvoer voordat er 429 antwoorden worden geretourneerd, zodat u eerder meer aanroepen kunt uitvoeren. De extra aanvragen worden nog steeds gefactureerd tegen de normale prijstarieven.

Dynamisch quotum kan uw beschikbare quotum alleen tijdelijk verhogen : deze wordt nooit lager dan de geconfigureerde waarde.

Wanneer gebruikt u dynamisch quotum

Dynamisch quotum is handig in de meeste scenario's, met name wanneer uw toepassing opportunistisch extra capaciteit kan gebruiken of de toepassing zelf de snelheid aangeeft waarmee de Azure OpenAI-API wordt aangeroepen.

Normaal gesproken is de situatie waarin u liever dynamische quota vermijdt wanneer uw toepassing een negatieve ervaring zou bieden als het quotum vluchtig of verhoogd is.

Voor dynamisch quotum kunt u scenario's overwegen, zoals:

  • Bulkverwerking,
  • Samenvattingen of insluitingen maken voor Het ophalen van Augmented Generation (RAG),
  • Offlineanalyse van logboeken voor het genereren van metrische gegevens en evaluaties,
  • Onderzoek met lage prioriteit,
  • Apps waarvoor een kleine hoeveelheid quotum is toegewezen.

Wanneer wordt dynamisch quotum van kracht?

De Azure OpenAI-back-end bepaalt of, wanneer en hoeveel extra dynamisch quotum wordt toegevoegd of verwijderd uit verschillende implementaties. Het wordt niet vooraf voorspeld of aangekondigd en is niet voorspelbaar. Azure OpenAI laat uw toepassing weten dat er meer quota beschikbaar zijn door te reageren met een HTTP 429 en geen API-aanroepen meer te laten uitvoeren. Als u wilt profiteren van dynamisch quotum, moet uw toepassingscode meer aanvragen kunnen uitgeven, omdat HTTP 429-antwoorden niet vaak worden gebruikt.

Hoe worden de kosten voor dynamische quota gewijzigd?

  • Oproepen die boven uw basisquotum worden uitgevoerd, hebben dezelfde kosten als gewone oproepen.

  • Er zijn geen extra kosten verbonden aan het inschakelen van dynamisch quotum voor een implementatie, hoewel de verhoogde doorvoer uiteindelijk kan leiden tot hogere kosten, afhankelijk van de hoeveelheid verkeer dat uw implementatie ontvangt.

Notitie

Met dynamisch quotum is er geen aanroep voor het afdwingen van een 'plafond'-quotum of doorvoer. Azure OpenAI verwerkt zo veel aanvragen als deze boven uw basislijnquotum kunnen komen. Als u de mate van uitgaven wilt beheren, zelfs wanneer het quotum minder beperkt is, moet uw toepassingscode aanvragen dienovereenkomstig tegenhouden.

Dynamisch quotum gebruiken

Als u dynamisch quotum wilt gebruiken, moet u het volgende doen:

  • Schakel de dynamische quotumeigenschap in uw Azure OpenAI-implementatie in.
  • Zorg ervoor dat uw toepassing kan profiteren van dynamisch quotum.

Dynamisch quotum inschakelen

Als u dynamisch quotum voor uw implementatie wilt activeren, gaat u naar de geavanceerde eigenschappen in de resourceconfiguratie en schakelt u dit in:

Screenshot of advanced configuration UI for deployments.

U kunt deze ook programmatisch inschakelen met azure CLI's az rest:

Vervang de {subscriptionId}, {resourceGroupName}en {accountName}{deploymentName} door de relevante waarden voor uw resource. In dit geval accountName is deze gelijk aan de resourcenaam van Azure OpenAI.

az rest --method patch --url "https://management.azure.com/subscriptions/{subscriptionId}/resourceGroups/{resourceGroupName}/providers/Microsoft.CognitiveServices/accounts/{accountName}/deployments/{deploymentName}?2023-10-01-preview" --body '{"properties": {"dynamicThrottlingEnabled": true} }'

Hoe kan ik weten hoeveel dynamische doorvoerquota aan mijn app worden toegevoegd?

Als u wilt controleren hoe deze werkt, kunt u de doorvoer van uw toepassing bijhouden in Azure Monitor. Tijdens de preview van dynamisch quotum is er geen specifieke metrische waarde of logboek om aan te geven of het quotum dynamisch is verhoogd of verlaagd. dynamisch quotum is minder waarschijnlijk ingeschakeld voor uw implementatie als het wordt uitgevoerd in intensief gebruikte regio's en tijdens piekuren voor deze regio's.

Volgende stappen