Delen via


Quota en limieten voor Azure OpenAI-service

Dit artikel bevat een beknopt overzicht en een gedetailleerde beschrijving van de quota en limieten voor Azure OpenAI in Azure AI-services.

Referentie voor quota en limieten

In de volgende secties vindt u een beknopt overzicht van de standaardquota en limieten die van toepassing zijn op Azure OpenAI:

Naam van limiet Limietwaarde
OpenAI-resources per regio per Azure-abonnement 30
Standaardlimieten voor DALL-E 2-quotum 2 gelijktijdige aanvragen
Standaardlimieten voor DALL-E 3-quotum 2 capaciteitseenheden (6 aanvragen per minuut)
Standaardlimieten voor Whisper-quotum 3 aanvragen per minuut
Maximum aantal prompttokens per aanvraag Verschilt per model. Zie Azure OpenAI Service-modellen voor meer informatie
Maximaal afgestemde modelimplementaties 5
Totaal aantal trainingstaken per resource 100
Maximaal aantal gelijktijdige actieve trainingstaken per resource 1
Maximale trainingstaken in de wachtrij 20
Maximum aantal bestanden per resource (afstemmen) 50
Totale grootte van alle bestanden per resource (fine-tuning) 1 GB
Maximale trainingstaaktijd (taak mislukt indien overschreden) 720 uur
Maximale grootte van trainingstaken (tokens in trainingsbestand) x (aantal tijdvakken) 2 miljard
Maximale grootte van alle bestanden per upload (Azure OpenAI op uw gegevens) 16 MB
Maximum aantal of invoer in matrix met /embeddings 2048
Maximum aantal /chat/completions berichten 2048
Maximum aantal /chat/completions functies 128
Maximum aantal /chat completions hulpprogramma's 128
Maximum aantal ingerichte doorvoereenheden per implementatie 100.000
Maximum aantal bestanden per assistent/thread 20
Maximale bestandsgrootte voor assistenten en afstemming 512 MB
Tokenlimiet voor assistenten Limiet van 2.000.000 token
GPT-4o maximaal aantal afbeeldingen per aanvraag (# van afbeeldingen in de berichtenmatrix/gespreksgeschiedenis) 10
GPT-4 vision-preview & GPT-4 turbo-2024-04-09 standaard maximumtokens 16

Verhoog de max_tokens parameterwaarde om afgekapte antwoorden te voorkomen. GPT-4o maximumtokens zijn standaard ingesteld op 4096.

Regionale quotumlimieten

Regio GPT-4 GPT-4-32K GPT-4-Turbo GPT-4-Turbo-V gpt-4o gpt-4o - GlobalStandard GPT-35-Turbo GPT-35-Turbo-Instruct Tekst-insluiten-Ada-002 tekst-insluiten-3-klein tekst-insluiten-3-groot Babbage-002 Babbage-002 - finetune Davinci-002 Davinci-002 - finetune GPT-35-Turbo - finetune GPT-35-Turbo-1106 - finetune GPT-35-Turbo-0125 - finetune GPT-4 - finetune
australiaeast 40 K 80 K 80 K 30 K - - 300 K - 350 K - - - - - - - - - -
brazilsouth - - - - - - - - 350 K - - - - - - - - - -
canadaeast 40 K 80 K 80 K - - - 300 K - 350 K 350 K 350 K - - - - - - - -
eastus - - 80 K - 150 K
1 M
450 K
10 M
240 K 240 K 240 K 350 K 350 K - - - - - - - -
eastus2 - - 80 K - 150 K
1 M
450 K
10 M
300 K - 350 K 350 K 350 K - - - - 250 K 250 K 250 K -
francecentral 20 K 60 K 80 K - - - 240 K - 240 K - 350 K - - - - - - - -
japaneast - - - 30 K - - 300 K - 350 K - 350 K - - - - - - - -
northcentralus - - 80 K - 150 K
1 M
450 K
10 M
300 K - 350 K - - 240 K 250 K 240 K 250 K 250 K 250 K 250 K 100k
norwayeast - - 150 K - - - - - 350 K - - - - - - - - - -
southafricanorth - - - - - - - - 350 K - - - - - - - - - -
US - zuid-centraal - - 80 K - 150 K
1 M
450 K
10 M
240 K - 240 K - - - - - - - - - -
southindia - - 150 K - - - 300 K - 350 K - 350 K - - - - - - - -
swedencentral 40 K 80 K 150 K 30 K 150 K
1 M
- 300 K 240 K 350 K - 350 K 240 K 250 K 240 K 250 K 250 K 250 K 250 K 100k
switzerlandnorth 40 K 80 K - 30 K - - 300 K - 350 K - - - - - - - - - -
zwitserlandwest - - - - - - - - - - - - 250 K - 250 K 250 K 250 K 250 K -
uksouth - - 80 K - - - 240 K - 350 K - 350 K - - - - - - - -
westeurope - - - - - - 240 K - 240 K - - - - - - - - - -
westus - - 80 K 30 K 150 K
1 M
450 K
10 M
300 K - 350 K - - - - - - - - - -
westus3 - - 80 K - 150 K
1 M
450 K
10 M
- - 350 K - 350 K - - - - - - - -

gpt-4o frequentielimieten

gpt-4o introduceert snelheidslimietlagen met hogere limieten voor bepaalde klanttypen.

gpt-4o globale standaard

Laag Quotumlimiet in tokens per minuut (TPM) Aanvragen per minuut
Enterprise Agreement 10 M 60 K
Standaardinstelling 450 K 2,7 K

M = miljoen | K = duizend

gpt-4o standaard

Laag Quotumlimiet in tokens per minuut (TPM) Aanvragen per minuut
Enterprise Agreement 1 M 6 K
Standaardinstelling 150 K 900

M = miljoen | K = duizend

Gebruikslagen

Global Standard-implementaties maken gebruik van de wereldwijde infrastructuur van Azure, waarbij klantverkeer dynamisch naar het datacenter wordt gerouteerd met de beste beschikbaarheid voor de deductieaanvragen van de klant. Dit maakt consistentere latentie mogelijk voor klanten met een laag tot gemiddeld verkeersniveau. Klanten met een hoog blijvend gebruiksniveau zien mogelijk meer variabiliteit in reactielatentie.

De gebruikslimiet bepaalt het gebruiksniveau waarboven klanten grotere variabiliteit in reactielatentie kunnen zien. Het gebruik van een klant wordt per model gedefinieerd en is het totale aantal tokens dat wordt gebruikt voor alle implementaties in alle abonnementen in alle regio's voor een bepaalde tenant.

GPT-4o globale standaard & standaard

Modelleren Gebruikslagen per maand
GPT-4o 1,5 miljard tokens

Andere aanbiedingstypen

Als uw Azure-abonnement is gekoppeld aan bepaalde aanbiedingstypen , zijn uw maximumquotumwaarden lager dan de waarden die in de bovenstaande tabellen worden aangegeven.

Laag Quotumlimiet in tokens per minuut (TPM)
Azure for Students, gratis proefversies 1 K (alle modellen)
MSDN-abonnementen GPT 3.5 Turbo Serie: 30 K
GPT-4 serie: 8 K
Maandelijkse creditcardabonnementen 1 GPT 3.5 Turbo Serie: 30 K
GPT-4 serie: 8 K

1 Dit is momenteel van toepassing op aanbiedingstype 0003P

In De Azure-portal kunt u bekijken welk aanbiedingstype aan uw abonnement is gekoppeld door naar uw abonnement te navigeren en het deelvenster Abonnementenoverzicht te controleren. Het aanbiedingstype komt overeen met het abonnementsveld in het abonnementsoverzicht.

Algemene aanbevolen procedures om binnen frequentielimieten te blijven

Als u problemen met betrekking tot frequentielimieten wilt minimaliseren, is het een goed idee om de volgende technieken te gebruiken:

  • Implementeert logica voor opnieuw proberen in uw toepassing.
  • Vermijd grote wijzigingen in de workload. Verhoog de workload geleidelijk.
  • Test verschillende patronen voor belastingverhoging.
  • Verhoog het quotum dat is toegewezen aan uw implementatie. Het quotum verplaatsen van een andere implementatie, indien nodig.

Verhogingen aanvragen voor de standaardquota en limieten

Aanvragen voor quotumverhoging kunnen worden ingediend op de pagina Quota van Azure OpenAI Studio. Houd er rekening mee dat vanwege overweldigende vraag aanvragen voor quotumverhoging worden geaccepteerd en worden ingevuld in de volgorde waarin ze worden ontvangen. Er wordt prioriteit gegeven aan klanten die verkeer genereren dat gebruikmaakt van de bestaande quotumtoewijzing en uw aanvraag kan worden geweigerd als niet aan deze voorwaarde wordt voldaan.

Voor andere frequentielimieten dient u een serviceaanvraag in.

Volgende stappen

Ontdek hoe u quota voor uw Azure OpenAI-implementaties beheert. Meer informatie over de onderliggende modellen die Azure OpenAI mogelijk maken.