Quota en limieten voor Azure OpenAI-service
Dit artikel bevat een beknopt overzicht en een gedetailleerde beschrijving van de quota en limieten voor Azure OpenAI in Azure AI-services.
Referentie voor quota en limieten
In de volgende secties vindt u een beknopt overzicht van de standaardquota en limieten die van toepassing zijn op Azure OpenAI:
Naam van limiet | Limietwaarde |
---|---|
OpenAI-resources per regio per Azure-abonnement | 30 |
Standaardlimieten voor DALL-E 2-quotum | 2 gelijktijdige aanvragen |
Standaardlimieten voor DALL-E 3-quotum | 2 capaciteitseenheden (6 aanvragen per minuut) |
Standaardlimieten voor Whisper-quotum | 3 aanvragen per minuut |
Maximum aantal prompttokens per aanvraag | Verschilt per model. Zie Azure OpenAI Service-modellen voor meer informatie |
Maximaal afgestemde modelimplementaties | 5 |
Totaal aantal trainingstaken per resource | 100 |
Maximaal aantal gelijktijdige actieve trainingstaken per resource | 1 |
Maximale trainingstaken in de wachtrij | 20 |
Maximum aantal bestanden per resource (afstemmen) | 50 |
Totale grootte van alle bestanden per resource (fine-tuning) | 1 GB |
Maximale trainingstaaktijd (taak mislukt indien overschreden) | 720 uur |
Maximale grootte van trainingstaken (tokens in trainingsbestand) x (aantal tijdvakken) | 2 miljard |
Maximale grootte van alle bestanden per upload (Azure OpenAI op uw gegevens) | 16 MB |
Maximum aantal of invoer in matrix met /embeddings |
2048 |
Maximum aantal /chat/completions berichten |
2048 |
Maximum aantal /chat/completions functies |
128 |
Maximum aantal /chat completions hulpprogramma's |
128 |
Maximum aantal ingerichte doorvoereenheden per implementatie | 100.000 |
Maximum aantal bestanden per assistent/thread | 10.000 bij gebruik van de API of AI Studio. 20 wanneer u Azure OpenAI Studio gebruikt. |
Maximale bestandsgrootte voor assistenten en afstemming | 512 MB |
Tokenlimiet voor assistenten | Limiet van 2.000.000 token |
GPT-4o maximaal aantal afbeeldingen per aanvraag (# van afbeeldingen in de berichtenmatrix/gespreksgeschiedenis) | 10 |
GPT-4 vision-preview & GPT-4 turbo-2024-04-09 standaard maximumtokens |
16 Verhoog de max_tokens parameterwaarde om afgekapte antwoorden te voorkomen. GPT-4o maximumtokens zijn standaard ingesteld op 4096. |
Regionale quotumlimieten
Regio | GPT-4 | GPT-4-32K | GPT-4-Turbo | GPT-4-Turbo-V | gpt-4o | gpt-4o - GlobalStandard | GPT-35-Turbo | GPT-35-Turbo-Instruct | Tekst-insluiten-Ada-002 | tekst-insluiten-3-klein | tekst-insluiten-3-groot | Babbage-002 | Babbage-002 - finetune | Davinci-002 | Davinci-002 - finetune | GPT-35-Turbo - finetune | GPT-35-Turbo-1106 - finetune | GPT-4 - finetune | GPT-35-Turbo-0125 - finetune |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
australiaeast | 40 K | 80 K | 80 K | 30 K | - | 450 K 10 M |
300 K | - | 350 K | - | - | - | - | - | - | - | - | - | - |
brazilsouth | - | - | - | - | - | 450 K 10 M |
- | - | 350 K | - | - | - | - | - | - | - | - | - | - |
canadaeast | 40 K | 80 K | 80 K | - | - | 450 K 10 M |
300 K | - | 350 K | 350 K | 350 K | - | - | - | - | - | - | - | - |
eastus | - | - | 80 K | - | 150 K 1 M |
450 K 10 M |
240 K | 240 K | 240 K | 350 K | 350 K | - | - | - | - | - | - | - | - |
eastus2 | - | - | 80 K | - | 150 K 1 M |
450 K 10 M |
300 K | - | 350 K | 350 K | 350 K | - | - | - | - | 250 K | 250 K | - | 250 K |
francecentral | 20 K | 60 K | 80 K | - | - | 450 K 10 M |
240 K | - | 240 K | - | 350 K | - | - | - | - | - | - | - | - |
germanywestcentral | - | - | - | - | - | 450 K 10 M |
- | - | - | - | - | - | - | - | - | - | - | - | - |
japaneast | - | - | - | 30 K | - | 450 K 10 M |
300 K | - | 350 K | - | 350 K | - | - | - | - | - | - | - | - |
koreacentral | - | - | - | - | - | 450 K 10 M |
- | - | - | - | - | - | - | - | - | - | - | - | - |
northcentralus | - | - | 80 K | - | 150 K 1 M |
450 K 10 M |
300 K | - | 350 K | - | - | 240 K | 250 K | 240 K | 250 K | 250 K | 250 K | 100k | 250 K |
norwayeast | - | - | 150 K | - | - | 450 K 10 M |
- | - | 350 K | - | - | - | - | - | - | - | - | - | - |
Polencentral | - | - | - | - | - | 450 K 10 M |
- | - | - | - | - | - | - | - | - | - | - | - | - |
southafricanorth | - | - | - | - | - | 450 K 10 M |
- | - | 350 K | - | - | - | - | - | - | - | - | - | - |
US - zuid-centraal | - | - | 80 K | - | 150 K 1 M |
450 K 10 M |
240 K | - | 240 K | - | - | - | - | - | - | - | - | - | - |
southindia | - | - | 150 K | - | - | 450 K 10 M |
300 K | - | 350 K | - | 350 K | - | - | - | - | - | - | - | - |
swedencentral | 40 K | 80 K | 150 K | 30 K | 150 K 1 M |
450 K 10 M |
300 K | 240 K | 350 K | - | 350 K | 240 K | 250 K | 240 K | 250 K | 250 K | 250 K | 100k | 250 K |
switzerlandnorth | 40 K | 80 K | - | 30 K | - | 450 K 10 M |
300 K | - | 350 K | - | - | - | - | - | - | - | - | - | - |
zwitserlandwest | - | - | - | - | - | - | - | - | - | - | - | - | 250 K | - | 250 K | 250 K | 250 K | - | 250 K |
uksouth | - | - | 80 K | - | - | 450 K 10 M |
240 K | - | 350 K | - | 350 K | - | - | - | - | - | - | - | - |
westeurope | - | - | - | - | - | 450 K 10 M |
240 K | - | 240 K | - | - | - | - | - | - | - | - | - | - |
westus | - | - | 80 K | 30 K | 150 K 1 M |
450 K 10 M |
300 K | - | 350 K | - | - | - | - | - | - | - | - | - | - |
westus3 | - | - | 80 K | - | 150 K 1 M |
450 K 10 M |
- | - | 350 K | - | 350 K | - | - | - | - | - | - | - | - |
gpt-4o frequentielimieten
gpt-4o
introduceert snelheidslimietlagen met hogere limieten voor bepaalde klanttypen.
gpt-4o globale standaard
Laag | Quotumlimiet in tokens per minuut (TPM) | Aanvragen per minuut |
---|---|---|
Enterprise Agreement | 10 M | 60 K |
Standaardinstelling | 450 K | 2,7 K |
M = miljoen | K = duizend
gpt-4o standaard
Laag | Quotumlimiet in tokens per minuut (TPM) | Aanvragen per minuut |
---|---|---|
Enterprise Agreement | 1 M | 6 K |
Standaardinstelling | 150 K | 900 |
M = miljoen | K = duizend
Gebruikslagen
Global Standard-implementaties maken gebruik van de wereldwijde infrastructuur van Azure, waarbij klantverkeer dynamisch naar het datacenter wordt gerouteerd met de beste beschikbaarheid voor de deductieaanvragen van de klant. Dit maakt consistentere latentie mogelijk voor klanten met een laag tot gemiddeld verkeersniveau. Klanten met een hoog blijvend gebruiksniveau zien mogelijk meer variabiliteit in reactielatentie.
De gebruikslimiet bepaalt het gebruiksniveau waarboven klanten grotere variabiliteit in reactielatentie kunnen zien. Het gebruik van een klant wordt per model gedefinieerd en is het totale aantal tokens dat wordt gebruikt voor alle implementaties in alle abonnementen in alle regio's voor een bepaalde tenant.
GPT-4o globale standaard & standaard
Modelleren | Gebruikslagen per maand |
---|---|
GPT-4o |
1,5 miljard tokens |
Andere aanbiedingstypen
Als uw Azure-abonnement is gekoppeld aan bepaalde aanbiedingstypen , zijn uw maximumquotumwaarden lager dan de waarden die in de bovenstaande tabellen worden aangegeven.
Laag | Quotumlimiet in tokens per minuut (TPM) |
---|---|
Azure for Students, gratis proefversies | 1 K (alle modellen) |
MSDN-abonnementen | GPT 3.5 Turbo Serie: 30 K GPT-4 serie: 8 K |
Maandelijkse creditcardabonnementen 1 | GPT 3.5 Turbo Serie: 30 K GPT-4 serie: 8 K |
1 Dit is momenteel van toepassing op aanbiedingstype 0003P
In De Azure-portal kunt u bekijken welk aanbiedingstype aan uw abonnement is gekoppeld door naar uw abonnement te navigeren en het deelvenster Abonnementenoverzicht te controleren. Het aanbiedingstype komt overeen met het abonnementsveld in het abonnementsoverzicht.
Algemene aanbevolen procedures om binnen frequentielimieten te blijven
Als u problemen met betrekking tot frequentielimieten wilt minimaliseren, is het een goed idee om de volgende technieken te gebruiken:
- Implementeert logica voor opnieuw proberen in uw toepassing.
- Vermijd grote wijzigingen in de workload. Verhoog de workload geleidelijk.
- Test verschillende patronen voor belastingverhoging.
- Verhoog het quotum dat is toegewezen aan uw implementatie. Het quotum verplaatsen van een andere implementatie, indien nodig.
Verhogingen aanvragen voor de standaardquota en limieten
Aanvragen voor quotumverhoging kunnen worden ingediend op de pagina Quota van Azure OpenAI Studio. Houd er rekening mee dat vanwege overweldigende vraag aanvragen voor quotumverhoging worden geaccepteerd en worden ingevuld in de volgorde waarin ze worden ontvangen. Er wordt prioriteit gegeven aan klanten die verkeer genereren dat gebruikmaakt van de bestaande quotumtoewijzing en uw aanvraag kan worden geweigerd als niet aan deze voorwaarde wordt voldaan.
Voor andere frequentielimieten dient u een serviceaanvraag in.
Volgende stappen
Ontdek hoe u quota voor uw Azure OpenAI-implementaties beheert. Meer informatie over de onderliggende modellen die Azure OpenAI mogelijk maken.
Feedback
https://aka.ms/ContentUserFeedback.
Binnenkort beschikbaar: In de loop van 2024 zullen we GitHub-problemen geleidelijk uitfaseren als het feedbackmechanisme voor inhoud en deze vervangen door een nieuw feedbacksysteem. Zie voor meer informatie:Feedback verzenden en weergeven voor