Share via


Quota en limieten voor Azure OpenAI-service

Dit artikel bevat een beknopt overzicht en een gedetailleerde beschrijving van de quota en limieten voor Azure OpenAI in Azure AI-services.

Referentie voor quota en limieten

In de volgende secties vindt u een beknopt overzicht van de standaardquota en limieten die van toepassing zijn op Azure OpenAI:

Naam van limiet Limietwaarde
OpenAI-resources per regio per Azure-abonnement 30
Standaardlimieten voor DALL-E 2-quotum 2 gelijktijdige aanvragen
Standaardlimieten voor DALL-E 3-quotum 2 capaciteitseenheden (6 aanvragen per minuut)
Standaardlimieten voor Whisper-quotum 3 aanvragen per minuut
Maximum aantal prompttokens per aanvraag Verschilt per model. Zie Azure OpenAI Service-modellen voor meer informatie
Maximum aantal standaardimplementaties per resource 32
Maximaal afgestemde modelimplementaties 5
Totaal aantal trainingstaken per resource 100
Maximaal aantal gelijktijdige actieve trainingstaken per resource 1
Maximale trainingstaken in de wachtrij 20
Maximum aantal bestanden per resource (afstemmen) 50
Totale grootte van alle bestanden per resource (fine-tuning) 1 GB
Maximale trainingstaaktijd (taak mislukt indien overschreden) 720 uur
Maximale grootte van trainingstaken (tokens in trainingsbestand) x (aantal tijdvakken) 2 miljard
Maximale grootte van alle bestanden per upload (Azure OpenAI op uw gegevens) 16 MB
Maximum aantal of invoer in matrix met /embeddings 2048
Maximum aantal /chat/completions berichten 2048
Maximum aantal /chat/completions functies 128
Maximum aantal /chat completions hulpprogramma's 128
Maximum aantal ingerichte doorvoereenheden per implementatie 100.000
Maximum aantal bestanden per assistent/thread 10.000 bij gebruik van de API of AI Studio. 20 wanneer u Azure OpenAI Studio gebruikt.
Maximale bestandsgrootte voor assistenten en afstemming 512 MB
Maximale grootte voor alle geüploade bestanden voor assistenten 100 GB
Tokenlimiet voor assistenten Limiet van 2.000.000 token
GPT-4o maximaal aantal afbeeldingen per aanvraag (# van afbeeldingen in de berichtenmatrix/gespreksgeschiedenis) 10
GPT-4 vision-preview & GPT-4 turbo-2024-04-09 standaard maximumtokens 16

Verhoog de max_tokens parameterwaarde om afgekapte antwoorden te voorkomen. GPT-4o maximumtokens zijn standaard ingesteld op 4096.
Maximum aantal aangepaste headers in API-aanvragen1 10

1 Onze huidige API's staan maximaal 10 aangepaste headers toe, die via de pijplijn worden doorgegeven en geretourneerd. We hebben gemerkt dat sommige klanten dit aantal headers nu overschrijden, wat resulteert in HTTP 431-fouten. Er is geen oplossing voor deze fout, behalve om het volume van de header te verminderen. In toekomstige API-versies worden geen aangepaste headers meer doorgegeven. Klanten worden aangeraden niet afhankelijk te zijn van aangepaste headers in toekomstige systeemarchitecturen.

Regionale quotumlimieten

Regio o1-mini o1 GPT-4 GPT-4-32K GPT-4-Turbo GPT-4-Turbo-V gpt-4o gpt-4o-mini GPT-35-Turbo GPT-35-Turbo-Instruct o1-mini - GlobalStandard o1 - GlobalStandard gpt-4o - GlobalStandard gpt-4o-mini - GlobalStandard GPT-4-Turbo - GlobalStandard GPT-4o - Global-Batch GPT-4o-mini - Global-Batch GPT-4 - Global-Batch GPT-4-Turbo - Global-Batch gpt-35-turbo - Global-Batch Tekst-insluiten-Ada-002 tekst-insluiten-3-klein tekst-insluiten-3-groot GPT-4o - finetune GPT-4o-mini - finetune GPT-4 - finetune Babbage-002 Babbage-002 - finetune Davinci-002 Davinci-002 - finetune GPT-35-Turbo - finetune GPT-35-Turbo-1106 - finetune GPT-35-Turbo-0125 - finetune
australiaeast - - 40 K 80 K 80 K 30 K - - 300 K - - - 30 M 50 M 2 M - - - - - 350 K - - - - - - - - - - - -
brazilsouth - - - - - - - - - - - - 30 M 50 M 2 M - - - - - 350 K - - - - - - - - - - - -
canadaeast - - 40 K 80 K 80 K - - - 300 K - - - 30 M 50 M 2 M - - - - - 350 K 350 K 350 K - - - - - - - - - -
eastus 1 M 600 K - - 80 K - 1 M 2 M 240 K 240 K 50 M 30 M 30 M 50 M 2 M 5 B 15 B 150 M 300 M 10 B 240 K 350 K 350 K - - - - - - - - - -
eastus2 1 M 600 K - - 80 K - 1 M 2 M 300 K - 50 M 30 M 30 M 50 M 2 M - - - - - 350 K 350 K 350 K 250 K - - - - - - 250 K 250 K 250 K
francecentral - - 20 K 60 K 80 K - - - 240 K - - - 30 M 50 M 2 M - - - - - 240 K - 350 K - - - - - - - - - -
germanywestcentral - - - - - - - - - - - - 30 M 50 M 2 M - - - - - - - - - - - - - - - - - -
japaneast - - - - - 30 K - - 300 K - - - 30 M 50 M 2 M - - - - - 350 K 350 K 350 K - - - - - - - - - -
koreacentral - - - - - - - - - - - - 30 M 50 M 2 M - - - - - - - - - - - - - - - - - -
northcentralus 1 M 600 K - - 80 K - 1 M 2 M 300 K - 50 M 30 M 30 M 50 M 2 M - - - - - 350 K - - 250 K 500 K 100k 240 K 250 K 240 K 250 K 250 K 250 K 250 K
norwayeast - - - - 150 K - - - - - - - 30 M 50 M 2 M - - - - - 350 K - 350 K - - - - - - - - - -
Polencentral - - - - - - - - - - - - 30 M 50 M 2 M - - - - - - - - - - - - - - - - - -
southafricanorth - - - - - - - - - - - - 30 M 50 M 2 M - - - - - 350 K - - - - - - - - - - - -
US - zuid-centraal 1 M 600 K - - 80 K - 1 M 2 M 240 K - 50 M 30 M 30 M 50 M 2 M - - - - - 240 K - - - - - - - - - - - -
southindia - - - - 150 K - - - 300 K - - - 30 M 50 M 2 M - - - - - 350 K - 350 K - - - - - - - - - -
spaincentral - - - - - - - - - - - - 30 M 50 M 2 M - - - - - - - - - - - - - - - - - -
swedencentral 1 M 600 K 40 K 80 K 150 K 30 K 1 M 2 M 300 K 240 K 50 M 30 M 30 M 50 M 2 M 5 B 15 B 150 M 300 M 10 B 350 K - 350 K 250 K 500 K 100k 240 K 250 K 240 K 250 K 250 K 250 K 250 K
switzerlandnorth - - 40 K 80 K - 30 K - - 300 K - - - 30 M 50 M 2 M - - - - - 350 K - - - - - - - - - - - -
zwitserlandwest - - - - - - - - - - - - - - - - - - - - - - - - - - - 250 K - 250 K 250 K 250 K 250 K
uksouth - - - - 80 K - - - 240 K - - - 30 M 50 M 2 M - - - - - 350 K - 350 K - - - - - - - - - -
westeurope - - - - - - - - 240 K - - - 30 M 50 M 2 M - - - - - 240 K - - - - - - - - - - - -
westus 1 M 600 K - - 80 K 30 K 1 M 2 M 300 K - 50 M 30 M 30 M 50 M 2 M 5 B 15 B 150 M 300 M 10 B 350 K - - - - - - - - - - - -
westus3 1 M 600 K - - 80 K - 1 M 2 M 300 K - 50 M 30 M 30 M 50 M 2 M - - - - - 350 K - 350 K - - - - - - - - - -

Globale batchlimieten

Naam van limiet Limietwaarde
Maximum aantal bestanden per resource 500
Maximale grootte van invoerbestand 200 MB
Maximum aantal aanvragen per bestand 100.000

Globaal batchquotum

In de tabel wordt de limiet voor batchquota weergegeven. Quotumwaarden voor globale batch worden weergegeven in termen van enqueued tokens. Wanneer u een bestand verzendt voor batchverwerking, wordt het aantal tokens in het bestand geteld. Totdat de batchtaak een terminalstatus heeft bereikt, worden deze tokens meegeteld voor de totale limiet voor het enquêtetoken.

Modelleren Enterprise Agreement Standaardinstelling Maandelijkse abonnementen op basis van creditcards MSDN-abonnementen Azure for Students, gratis proefversies
gpt-4o 5 B 200 M 50 M 90 K N.v.t.
gpt-4o-mini 15 B 1 B 50 M 90 K N.v.t.
gpt-4-turbo 300 M 80 M 40 M 90 K N.v.t.
gpt-4 150 M 30 M 5 M 100k N.v.t.
gpt-35-turbo 10 B 1 B 100 M 2 M 50 K

B = miljard | M = miljoen | K = duizend

o1-preview en o1-minifrequentielimieten

Belangrijk

De verhouding van RPM/TPM voor quota met modellen uit de o1-serie werkt anders dan oudere modellen voor chatten:

  • Oudere chatmodellen: 1 capaciteitseenheid = 6 RPM en 1000 TPM.
  • o1-preview: 1 capaciteitseenheid = 1 RPM en 6.000 TPM.
  • o1-mini: 1 capaciteitseenheid = 1 RPM per 10.000 TPM.

Dit is met name belangrijk voor programmatische modelimplementatie, omdat deze wijziging in RPM/TPM-verhouding kan leiden tot onbedoelde toewijzing van quota als men nog steeds de verhouding 1:1000 volgt, gevolgd door oudere modellen voor chatvoltooiing.

Er is een bekend probleem met de API voor quotum/gebruik, waarbij wordt ervan uitgegaan dat de oude verhouding van toepassing is op de nieuwe o1-seriemodellen. De API retourneert het juiste basiscapaciteitsnummer, maar past niet de juiste verhouding toe voor de nauwkeurige berekening van TPM.

o1-preview & o1-mini globale standaard

Modelleren Laag Quotumlimiet in tokens per minuut (TPM) Aanvragen per minuut
o1-preview Enterprise Agreement 30 M 5 K
o1-mini Enterprise Agreement 50 M 5 K
o1-preview Standaardinstelling 3 M 500
o1-mini Standaardinstelling 5 M 500

o1-preview & o1-ministandaard

Modelleren Laag Quotumlimiet in tokens per minuut (TPM) Aanvragen per minuut
o1-preview Enterprise Agreement 600 K 100
o1-mini Enterprise Agreement 1 M 100
o1-preview Standaardinstelling 300 K 50
o1-mini Standaardinstelling 500 K 50

gpt-4o & GPT-4 Turbo frequentielimieten

gpt-4oen gpt-4o-minigpt-4 en (turbo-2024-04-09) hebben frequentielimietlagen met hogere limieten voor bepaalde typen klanten.

gpt-4o & GPT-4 Turbo global standard

Modelleren Laag Quotumlimiet in tokens per minuut (TPM) Aanvragen per minuut
gpt-4o Enterprise Agreement 30 M 180 K
gpt-4o-mini Enterprise Agreement 50 M 300 K
gpt-4 (turbo-2024-04-09) Enterprise Agreement 2 M 12 K
gpt-4o Standaardinstelling 450 K 2,7 K
gpt-4o-mini Standaardinstelling 2 M 12 K
gpt-4 (turbo-2024-04-09) Standaardinstelling 450 K 2,7 K

M = miljoen | K = duizend

gpt-4o-gegevenszonestandaard

Modelleren Laag Quotumlimiet in tokens per minuut (TPM) Aanvragen per minuut
gpt-4o Enterprise Agreement 10 M 60 K
gpt-4o-mini Enterprise Agreement 20 miljoen 120 K
gpt-4o Standaardinstelling 300 K 1,8 K
gpt-4o-mini Standaardinstelling 1 M 6 K

M = miljoen | K = duizend

gpt-4o standaard

Modelleren Laag Quotumlimiet in tokens per minuut (TPM) Aanvragen per minuut
gpt-4o Enterprise Agreement 1 M 6 K
gpt-4o-mini Enterprise Agreement 2 M 12 K
gpt-4o Standaardinstelling 150 K 900
gpt-4o-mini Standaardinstelling 450 K 2,7 K

M = miljoen | K = duizend

Gebruikslagen

Globale standaardimplementaties maken gebruik van de wereldwijde infrastructuur van Azure, waarbij klantverkeer dynamisch naar het datacenter wordt gerouteerd met de beste beschikbaarheid voor de deductieaanvragen van de klant. Op dezelfde manier kunt u met standaardimplementaties voor de gegevenszone gebruikmaken van de globale Infrastructuur van Azure om verkeer dynamisch te routeren naar het datacenter binnen de door Microsoft gedefinieerde gegevenszone met de beste beschikbaarheid voor elke aanvraag. Dit maakt consistentere latentie mogelijk voor klanten met een laag tot gemiddeld verkeersniveau. Klanten met een hoog blijvend gebruiksniveau zien mogelijk meer variabiliteit in reactielatentie.

De gebruikslimiet bepaalt het gebruiksniveau waarboven klanten grotere variabiliteit in reactielatentie kunnen zien. Het gebruik van een klant wordt per model gedefinieerd en is het totale aantal tokens dat wordt gebruikt voor alle implementaties in alle abonnementen in alle regio's voor een bepaalde tenant.

Notitie

Gebruikslagen zijn alleen van toepassing op standaard- en gegevenszonestandaard en algemene standaardimplementatietypen. Gebruikslagen zijn niet van toepassing op wereldwijde batch- en ingerichte doorvoerimplementaties.

GPT-4o globale standaard, gegevenszonestandaard, & standaard

Modelleren Gebruikslagen per maand
gpt-4o 12 Miljard tokens
gpt-4o-mini 85 miljard tokens

GPT-4 standaard

Modelleren Gebruikslagen per maand
gpt-4 + gpt-4-32k (alle versies) 6 miljard

Andere aanbiedingstypen

Als uw Azure-abonnement is gekoppeld aan bepaalde aanbiedingstypen , zijn uw maximumquotumwaarden lager dan de waarden die in de bovenstaande tabellen worden aangegeven.

Laag Quotumlimiet in tokens per minuut (TPM)
Azure for Students, gratis proefversies 1 K (alle modellen)
MSDN-abonnementen GPT 3.5 Turbo Serie: 30 K
GPT-4 serie: 8 K
Maandelijkse creditcardabonnementen 1 GPT 3.5 Turbo Serie: 30 K
GPT-4 serie: 8 K

1 Dit is momenteel van toepassing op aanbiedingstype 0003P

In De Azure-portal kunt u bekijken welk aanbiedingstype aan uw abonnement is gekoppeld door naar uw abonnement te navigeren en het deelvenster Abonnementenoverzicht te controleren. Het aanbiedingstype komt overeen met het abonnementsveld in het abonnementsoverzicht.

Algemene aanbevolen procedures om binnen frequentielimieten te blijven

Als u problemen met betrekking tot frequentielimieten wilt minimaliseren, is het een goed idee om de volgende technieken te gebruiken:

  • Implementeert logica voor opnieuw proberen in uw toepassing.
  • Vermijd grote wijzigingen in de workload. Verhoog de workload geleidelijk.
  • Test verschillende patronen voor belastingverhoging.
  • Verhoog het quotum dat is toegewezen aan uw implementatie. Het quotum verplaatsen van een andere implementatie, indien nodig.

Verhogingen aanvragen voor de standaardquota en limieten

Aanvragen voor quotumverhoging kunnen worden ingediend via de pagina Quota van Azure AI Studio. Houd er rekening mee dat vanwege overweldigende vraag aanvragen voor quotumverhoging worden geaccepteerd en worden ingevuld in de volgorde waarin ze worden ontvangen. Er wordt prioriteit gegeven aan klanten die verkeer genereren dat gebruikmaakt van de bestaande quotumtoewijzing en uw aanvraag kan worden geweigerd als niet aan deze voorwaarde wordt voldaan.

Voor andere frequentielimieten dient u een serviceaanvraag in.

Volgende stappen

Ontdek hoe u quota voor uw Azure OpenAI-implementaties beheert. Meer informatie over de onderliggende modellen die Azure OpenAI mogelijk maken.