Dynamisch quotum voor Azure OpenAI (preview)
Dynamisch quotum is een Azure OpenAI-functie waarmee een standaardimplementatie (betalen per gebruik) opportunistisch kan profiteren van meer quota wanneer er extra capaciteit beschikbaar is. Wanneer dynamisch quotum is ingesteld op uit, kan uw implementatie een maximale doorvoer verwerken die is ingesteld door de TPM-instelling (Tokens Per Minuut). Wanneer u de vooraf ingestelde TPM overschrijdt, retourneren aanvragen HTTP 429-antwoorden. Wanneer dynamisch quotum is ingeschakeld, heeft de implementatie de mogelijkheid om toegang te krijgen tot hogere doorvoer voordat er 429 antwoorden worden geretourneerd, zodat u eerder meer aanroepen kunt uitvoeren. De extra aanvragen worden nog steeds gefactureerd tegen de normale prijstarieven.
Dynamisch quotum kan uw beschikbare quotum alleen tijdelijk verhogen : deze wordt nooit lager dan de geconfigureerde waarde.
Wanneer gebruikt u dynamisch quotum
Dynamisch quotum is handig in de meeste scenario's, met name wanneer uw toepassing opportunistisch extra capaciteit kan gebruiken of de toepassing zelf de snelheid aangeeft waarmee de Azure OpenAI-API wordt aangeroepen.
Normaal gesproken is de situatie waarin u liever dynamische quota vermijdt wanneer uw toepassing een negatieve ervaring zou bieden als het quotum vluchtig of verhoogd is.
Voor dynamisch quotum kunt u scenario's overwegen, zoals:
- Bulkverwerking,
- Samenvattingen of insluitingen maken voor Het ophalen van Augmented Generation (RAG),
- Offlineanalyse van logboeken voor het genereren van metrische gegevens en evaluaties,
- Onderzoek met lage prioriteit,
- Apps waarvoor een kleine hoeveelheid quotum is toegewezen.
Wanneer wordt dynamisch quotum van kracht?
De Azure OpenAI-back-end bepaalt of, wanneer en hoeveel extra dynamisch quotum wordt toegevoegd of verwijderd uit verschillende implementaties. Het wordt niet vooraf voorspeld of aangekondigd en is niet voorspelbaar. Als u wilt profiteren van dynamisch quotum, moet uw toepassingscode meer aanvragen kunnen uitgeven, omdat HTTP 429-antwoorden niet vaak worden gebruikt. Azure OpenAI laat uw toepassing weten wanneer u uw quotumlimiet hebt bereikt door te reageren met een HTTP 429 en geen API-aanroepen meer toe te laten.
Hoe worden de kosten voor dynamische quota gewijzigd?
Oproepen die boven uw basisquotum worden uitgevoerd, hebben dezelfde kosten als gewone oproepen.
Er zijn geen extra kosten verbonden aan het inschakelen van dynamisch quotum voor een implementatie, hoewel de verhoogde doorvoer uiteindelijk kan leiden tot hogere kosten, afhankelijk van de hoeveelheid verkeer dat uw implementatie ontvangt.
Notitie
Met dynamisch quotum is er geen aanroep voor het afdwingen van een 'plafond'-quotum of doorvoer. Azure OpenAI verwerkt zo veel aanvragen als deze boven uw basislijnquotum kunnen komen. Als u de mate van uitgaven wilt beheren, zelfs wanneer het quotum minder beperkt is, moet uw toepassingscode aanvragen dienovereenkomstig tegenhouden.
Dynamisch quotum gebruiken
Als u dynamisch quotum wilt gebruiken, moet u het volgende doen:
- Schakel de dynamische quotumeigenschap in uw Azure OpenAI-implementatie in.
- Zorg ervoor dat uw toepassing kan profiteren van dynamisch quotum.
Dynamisch quotum inschakelen
Als u dynamisch quotum voor uw implementatie wilt activeren, gaat u naar de geavanceerde eigenschappen in de resourceconfiguratie en schakelt u dit in:
U kunt deze ook programmatisch inschakelen met azure CLI's az rest
:
Vervang de {subscriptionId}
, {resourceGroupName}
en {accountName}
{deploymentName}
door de relevante waarden voor uw resource. In dit geval accountName
is deze gelijk aan de resourcenaam van Azure OpenAI.
az rest --method patch --url "https://management.azure.com/subscriptions/{subscriptionId}/resourceGroups/{resourceGroupName}/providers/Microsoft.CognitiveServices/accounts/{accountName}/deployments/{deploymentName}?2023-10-01-preview" --body '{"properties": {"dynamicThrottlingEnabled": true} }'
Hoe kan ik weten hoeveel dynamische doorvoerquota aan mijn app worden toegevoegd?
Als u wilt controleren hoe deze werkt, kunt u de doorvoer van uw toepassing bijhouden in Azure Monitor. Tijdens de preview van dynamisch quotum is er geen specifieke metrische waarde of logboek om aan te geven of het quotum dynamisch is verhoogd of verlaagd. dynamisch quotum is minder waarschijnlijk ingeschakeld voor uw implementatie als het wordt uitgevoerd in intensief gebruikte regio's en tijdens piekuren voor deze regio's.
Volgende stappen
- Meer informatie over hoe quota werkt.
- Meer informatie over het bewaken van Azure OpenAI.