Quota en limieten voor Azure OpenAI-service

Artikel
10/23/2024

Dit artikel bevat een beknopt overzicht en een gedetailleerde beschrijving van de quota en limieten voor Azure OpenAI in Azure AI-services.

Referentie voor quota en limieten

In de volgende secties vindt u een beknopt overzicht van de standaardquota en limieten die van toepassing zijn op Azure OpenAI:

Naam van limiet	Limietwaarde
OpenAI-resources per regio per Azure-abonnement	30
Standaardlimieten voor DALL-E 2-quotum	2 gelijktijdige aanvragen
Standaardlimieten voor DALL-E 3-quotum	2 capaciteitseenheden (6 aanvragen per minuut)
Standaardlimieten voor Whisper-quotum	3 aanvragen per minuut
Maximum aantal prompttokens per aanvraag	Verschilt per model. Zie Azure OpenAI Service-modellen voor meer informatie
Maximum aantal standaardimplementaties per resource	32
Maximaal afgestemde modelimplementaties	5
Totaal aantal trainingstaken per resource	100
Maximaal aantal gelijktijdige actieve trainingstaken per resource	1
Maximale trainingstaken in de wachtrij	20
Maximum aantal bestanden per resource (afstemmen)	50
Totale grootte van alle bestanden per resource (fine-tuning)	1 GB
Maximale trainingstaaktijd (taak mislukt indien overschreden)	720 uur
Maximale grootte van trainingstaken (tokens in trainingsbestand) x (aantal tijdvakken)	2 miljard
Maximale grootte van alle bestanden per upload (Azure OpenAI op uw gegevens)	16 MB
Maximum aantal of invoer in matrix met `/embeddings`	2048
Maximum aantal `/chat/completions` berichten	2048
Maximum aantal `/chat/completions` functies	128
Maximum aantal `/chat completions` hulpprogramma's	128
Maximum aantal ingerichte doorvoereenheden per implementatie	100.000
Maximum aantal bestanden per assistent/thread	10.000 bij gebruik van de API of AI Studio. 20 wanneer u Azure OpenAI Studio gebruikt.
Maximale bestandsgrootte voor assistenten en afstemming	512 MB
Maximale grootte voor alle geüploade bestanden voor assistenten	100 GB
Tokenlimiet voor assistenten	Limiet van 2.000.000 token
GPT-4o maximaal aantal afbeeldingen per aanvraag (# van afbeeldingen in de berichtenmatrix/gespreksgeschiedenis)	10
GPT-4 `vision-preview` & GPT-4 `turbo-2024-04-09` standaard maximumtokens	16 Verhoog de `max_tokens` parameterwaarde om afgekapte antwoorden te voorkomen. GPT-4o maximumtokens zijn standaard ingesteld op 4096.
Maximum aantal aangepaste headers in API-aanvragen¹	10

¹ Onze huidige API's staan maximaal 10 aangepaste headers toe, die via de pijplijn worden doorgegeven en geretourneerd. We hebben gemerkt dat sommige klanten dit aantal headers nu overschrijden, wat resulteert in HTTP 431-fouten. Er is geen oplossing voor deze fout, behalve om het volume van de header te verminderen. In toekomstige API-versies worden geen aangepaste headers meer doorgegeven. Klanten worden aangeraden niet afhankelijk te zijn van aangepaste headers in toekomstige systeemarchitecturen.

Regionale quotumlimieten

Regio	o1-mini	o1	GPT-4	GPT-4-32K	GPT-4-Turbo	GPT-4-Turbo-V	gpt-4o	gpt-4o-mini	GPT-35-Turbo	GPT-35-Turbo-Instruct	o1-mini - GlobalStandard	o1 - GlobalStandard	gpt-4o - GlobalStandard	gpt-4o-mini - GlobalStandard	GPT-4-Turbo - GlobalStandard	GPT-4o - Global-Batch	GPT-4o-mini - Global-Batch	GPT-4 - Global-Batch	GPT-4-Turbo - Global-Batch	gpt-35-turbo - Global-Batch	Tekst-insluiten-Ada-002	tekst-insluiten-3-klein	tekst-insluiten-3-groot	GPT-4o - finetune	GPT-4o-mini - finetune	GPT-4 - finetune	Babbage-002	Babbage-002 - finetune	Davinci-002	Davinci-002 - finetune	GPT-35-Turbo - finetune	GPT-35-Turbo-1106 - finetune	GPT-35-Turbo-0125 - finetune
australiaeast	-	-	40 K	80 K	80 K	30 K	-	-	300 K	-	-	-	30 M	50 M	2 M	-	-	-	-	-	350 K	-	-	-	-	-	-	-	-	-	-	-	-
brazilsouth	-	-	-	-	-	-	-	-	-	-	-	-	30 M	50 M	2 M	-	-	-	-	-	350 K	-	-	-	-	-	-	-	-	-	-	-	-
canadaeast	-	-	40 K	80 K	80 K	-	-	-	300 K	-	-	-	30 M	50 M	2 M	-	-	-	-	-	350 K	350 K	350 K	-	-	-	-	-	-	-	-	-	-
eastus	1 M	600 K	-	-	80 K	-	1 M	2 M	240 K	240 K	50 M	30 M	30 M	50 M	2 M	5 B	15 B	150 M	300 M	10 B	240 K	350 K	350 K	-	-	-	-	-	-	-	-	-	-
eastus2	1 M	600 K	-	-	80 K	-	1 M	2 M	300 K	-	50 M	30 M	30 M	50 M	2 M	-	-	-	-	-	350 K	350 K	350 K	250 K	-	-	-	-	-	-	250 K	250 K	250 K
francecentral	-	-	20 K	60 K	80 K	-	-	-	240 K	-	-	-	30 M	50 M	2 M	-	-	-	-	-	240 K	-	350 K	-	-	-	-	-	-	-	-	-	-
germanywestcentral	-	-	-	-	-	-	-	-	-	-	-	-	30 M	50 M	2 M	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-
japaneast	-	-	-	-	-	30 K	-	-	300 K	-	-	-	30 M	50 M	2 M	-	-	-	-	-	350 K	350 K	350 K	-	-	-	-	-	-	-	-	-	-
koreacentral	-	-	-	-	-	-	-	-	-	-	-	-	30 M	50 M	2 M	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-
northcentralus	1 M	600 K	-	-	80 K	-	1 M	2 M	300 K	-	50 M	30 M	30 M	50 M	2 M	-	-	-	-	-	350 K	-	-	250 K	500 K	100k	240 K	250 K	240 K	250 K	250 K	250 K	250 K
norwayeast	-	-	-	-	150 K	-	-	-	-	-	-	-	30 M	50 M	2 M	-	-	-	-	-	350 K	-	350 K	-	-	-	-	-	-	-	-	-	-
Polencentral	-	-	-	-	-	-	-	-	-	-	-	-	30 M	50 M	2 M	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-
southafricanorth	-	-	-	-	-	-	-	-	-	-	-	-	30 M	50 M	2 M	-	-	-	-	-	350 K	-	-	-	-	-	-	-	-	-	-	-	-
US - zuid-centraal	1 M	600 K	-	-	80 K	-	1 M	2 M	240 K	-	50 M	30 M	30 M	50 M	2 M	-	-	-	-	-	240 K	-	-	-	-	-	-	-	-	-	-	-	-
southindia	-	-	-	-	150 K	-	-	-	300 K	-	-	-	30 M	50 M	2 M	-	-	-	-	-	350 K	-	350 K	-	-	-	-	-	-	-	-	-	-
spaincentral	-	-	-	-	-	-	-	-	-	-	-	-	30 M	50 M	2 M	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-
swedencentral	1 M	600 K	40 K	80 K	150 K	30 K	1 M	2 M	300 K	240 K	50 M	30 M	30 M	50 M	2 M	5 B	15 B	150 M	300 M	10 B	350 K	-	350 K	250 K	500 K	100k	240 K	250 K	240 K	250 K	250 K	250 K	250 K
switzerlandnorth	-	-	40 K	80 K	-	30 K	-	-	300 K	-	-	-	30 M	50 M	2 M	-	-	-	-	-	350 K	-	-	-	-	-	-	-	-	-	-	-	-
zwitserlandwest	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	250 K	-	250 K	250 K	250 K	250 K
uksouth	-	-	-	-	80 K	-	-	-	240 K	-	-	-	30 M	50 M	2 M	-	-	-	-	-	350 K	-	350 K	-	-	-	-	-	-	-	-	-	-
westeurope	-	-	-	-	-	-	-	-	240 K	-	-	-	30 M	50 M	2 M	-	-	-	-	-	240 K	-	-	-	-	-	-	-	-	-	-	-	-
westus	1 M	600 K	-	-	80 K	30 K	1 M	2 M	300 K	-	50 M	30 M	30 M	50 M	2 M	5 B	15 B	150 M	300 M	10 B	350 K	-	-	-	-	-	-	-	-	-	-	-	-
westus3	1 M	600 K	-	-	80 K	-	1 M	2 M	300 K	-	50 M	30 M	30 M	50 M	2 M	-	-	-	-	-	350 K	-	350 K	-	-	-	-	-	-	-	-	-	-

Globale batchlimieten

Naam van limiet	Limietwaarde
Maximum aantal bestanden per resource	500
Maximale grootte van invoerbestand	200 MB
Maximum aantal aanvragen per bestand	100.000

Globaal batchquotum

In de tabel wordt de limiet voor batchquota weergegeven. Quotumwaarden voor globale batch worden weergegeven in termen van enqueued tokens. Wanneer u een bestand verzendt voor batchverwerking, wordt het aantal tokens in het bestand geteld. Totdat de batchtaak een terminalstatus heeft bereikt, worden deze tokens meegeteld voor de totale limiet voor het enquêtetoken.

Modelleren	Enterprise Agreement	Standaardinstelling	Maandelijkse abonnementen op basis van creditcards	MSDN-abonnementen	Azure for Students, gratis proefversies
`gpt-4o`	5 B	200 M	50 M	90 K	N.v.t.
`gpt-4o-mini`	15 B	1 B	50 M	90 K	N.v.t.
`gpt-4-turbo`	300 M	80 M	40 M	90 K	N.v.t.
`gpt-4`	150 M	30 M	5 M	100k	N.v.t.
`gpt-35-turbo`	10 B	1 B	100 M	2 M	50 K

B = miljard | M = miljoen | K = duizend

o1-preview en o1-minifrequentielimieten

Belangrijk

De verhouding van RPM/TPM voor quota met modellen uit de o1-serie werkt anders dan oudere modellen voor chatten:

Oudere chatmodellen: 1 capaciteitseenheid = 6 RPM en 1000 TPM.
o1-preview: 1 capaciteitseenheid = 1 RPM en 6.000 TPM.
o1-mini: 1 capaciteitseenheid = 1 RPM per 10.000 TPM.

Dit is met name belangrijk voor programmatische modelimplementatie, omdat deze wijziging in RPM/TPM-verhouding kan leiden tot onbedoelde toewijzing van quota als men nog steeds de verhouding 1:1000 volgt, gevolgd door oudere modellen voor chatvoltooiing.

Er is een bekend probleem met de API voor quotum/gebruik, waarbij wordt ervan uitgegaan dat de oude verhouding van toepassing is op de nieuwe o1-seriemodellen. De API retourneert het juiste basiscapaciteitsnummer, maar past niet de juiste verhouding toe voor de nauwkeurige berekening van TPM.

o1-preview & o1-mini globale standaard

Modelleren	Laag	Quotumlimiet in tokens per minuut (TPM)	Aanvragen per minuut
`o1-preview`	Enterprise Agreement	30 M	5 K
`o1-mini`	Enterprise Agreement	50 M	5 K
`o1-preview`	Standaardinstelling	3 M	500
`o1-mini`	Standaardinstelling	5 M	500

o1-preview & o1-ministandaard

Modelleren	Laag	Quotumlimiet in tokens per minuut (TPM)	Aanvragen per minuut
`o1-preview`	Enterprise Agreement	600 K	100
`o1-mini`	Enterprise Agreement	1 M	100
`o1-preview`	Standaardinstelling	300 K	50
`o1-mini`	Standaardinstelling	500 K	50

gpt-4o & GPT-4 Turbo frequentielimieten

gpt-4oen gpt-4o-minigpt-4 en (turbo-2024-04-09) hebben frequentielimietlagen met hogere limieten voor bepaalde typen klanten.

gpt-4o & GPT-4 Turbo global standard

Modelleren	Laag	Quotumlimiet in tokens per minuut (TPM)	Aanvragen per minuut
`gpt-4o`	Enterprise Agreement	30 M	180 K
`gpt-4o-mini`	Enterprise Agreement	50 M	300 K
`gpt-4` (turbo-2024-04-09)	Enterprise Agreement	2 M	12 K
`gpt-4o`	Standaardinstelling	450 K	2,7 K
`gpt-4o-mini`	Standaardinstelling	2 M	12 K
`gpt-4` (turbo-2024-04-09)	Standaardinstelling	450 K	2,7 K

M = miljoen | K = duizend

gpt-4o-gegevenszonestandaard

Modelleren	Laag	Quotumlimiet in tokens per minuut (TPM)	Aanvragen per minuut
`gpt-4o`	Enterprise Agreement	10 M	60 K
`gpt-4o-mini`	Enterprise Agreement	20 miljoen	120 K
`gpt-4o`	Standaardinstelling	300 K	1,8 K
`gpt-4o-mini`	Standaardinstelling	1 M	6 K

M = miljoen | K = duizend

gpt-4o standaard

Modelleren	Laag	Quotumlimiet in tokens per minuut (TPM)	Aanvragen per minuut
`gpt-4o`	Enterprise Agreement	1 M	6 K
`gpt-4o-mini`	Enterprise Agreement	2 M	12 K
`gpt-4o`	Standaardinstelling	150 K	900
`gpt-4o-mini`	Standaardinstelling	450 K	2,7 K

M = miljoen | K = duizend

Gebruikslagen

Globale standaardimplementaties maken gebruik van de wereldwijde infrastructuur van Azure, waarbij klantverkeer dynamisch naar het datacenter wordt gerouteerd met de beste beschikbaarheid voor de deductieaanvragen van de klant. Op dezelfde manier kunt u met standaardimplementaties voor de gegevenszone gebruikmaken van de globale Infrastructuur van Azure om verkeer dynamisch te routeren naar het datacenter binnen de door Microsoft gedefinieerde gegevenszone met de beste beschikbaarheid voor elke aanvraag. Dit maakt consistentere latentie mogelijk voor klanten met een laag tot gemiddeld verkeersniveau. Klanten met een hoog blijvend gebruiksniveau zien mogelijk meer variabiliteit in reactielatentie.

De gebruikslimiet bepaalt het gebruiksniveau waarboven klanten grotere variabiliteit in reactielatentie kunnen zien. Het gebruik van een klant wordt per model gedefinieerd en is het totale aantal tokens dat wordt gebruikt voor alle implementaties in alle abonnementen in alle regio's voor een bepaalde tenant.

Notitie

Gebruikslagen zijn alleen van toepassing op standaard- en gegevenszonestandaard en algemene standaardimplementatietypen. Gebruikslagen zijn niet van toepassing op wereldwijde batch- en ingerichte doorvoerimplementaties.

GPT-4o globale standaard, gegevenszonestandaard, & standaard

Modelleren	Gebruikslagen per maand
`gpt-4o`	12 Miljard tokens
`gpt-4o-mini`	85 miljard tokens

GPT-4 standaard

Modelleren	Gebruikslagen per maand
`gpt-4` + `gpt-4-32k` (alle versies)	6 miljard

Andere aanbiedingstypen

Als uw Azure-abonnement is gekoppeld aan bepaalde aanbiedingstypen , zijn uw maximumquotumwaarden lager dan de waarden die in de bovenstaande tabellen worden aangegeven.

Laag	Quotumlimiet in tokens per minuut (TPM)
Azure for Students, gratis proefversies	1 K (alle modellen)
MSDN-abonnementen	GPT 3.5 Turbo Serie: 30 K GPT-4 serie: 8 K
Maandelijkse creditcardabonnementen ¹	GPT 3.5 Turbo Serie: 30 K GPT-4 serie: 8 K

¹ Dit is momenteel van toepassing op aanbiedingstype 0003P

In De Azure-portal kunt u bekijken welk aanbiedingstype aan uw abonnement is gekoppeld door naar uw abonnement te navigeren en het deelvenster Abonnementenoverzicht te controleren. Het aanbiedingstype komt overeen met het abonnementsveld in het abonnementsoverzicht.

Algemene aanbevolen procedures om binnen frequentielimieten te blijven

Als u problemen met betrekking tot frequentielimieten wilt minimaliseren, is het een goed idee om de volgende technieken te gebruiken:

Implementeert logica voor opnieuw proberen in uw toepassing.
Vermijd grote wijzigingen in de workload. Verhoog de workload geleidelijk.
Test verschillende patronen voor belastingverhoging.
Verhoog het quotum dat is toegewezen aan uw implementatie. Het quotum verplaatsen van een andere implementatie, indien nodig.

Verhogingen aanvragen voor de standaardquota en limieten

Aanvragen voor quotumverhoging kunnen worden ingediend via de pagina Quota van Azure AI Studio. Houd er rekening mee dat vanwege overweldigende vraag aanvragen voor quotumverhoging worden geaccepteerd en worden ingevuld in de volgorde waarin ze worden ontvangen. Er wordt prioriteit gegeven aan klanten die verkeer genereren dat gebruikmaakt van de bestaande quotumtoewijzing en uw aanvraag kan worden geweigerd als niet aan deze voorwaarde wordt voldaan.

Voor andere frequentielimieten dient u een serviceaanvraag in.

Volgende stappen

Ontdek hoe u quota voor uw Azure OpenAI-implementaties beheert. Meer informatie over de onderliggende modellen die Azure OpenAI mogelijk maken.

Share via

Quota en limieten voor Azure OpenAI-service

Referentie voor quota en limieten

Regionale quotumlimieten

Globale batchlimieten

Globaal batchquotum

o1-preview en o1-minifrequentielimieten

o1-preview & o1-mini globale standaard

o1-preview & o1-ministandaard

gpt-4o & GPT-4 Turbo frequentielimieten

gpt-4o & GPT-4 Turbo global standard

gpt-4o-gegevenszonestandaard

gpt-4o standaard

Gebruikslagen

GPT-4o globale standaard, gegevenszonestandaard, & standaard

GPT-4 standaard

Andere aanbiedingstypen

Algemene aanbevolen procedures om binnen frequentielimieten te blijven

Verhogingen aanvragen voor de standaardquota en limieten

Volgende stappen

Feedback

Aanvullende resources