Quota en limieten voor Azure OpenAI in Azure AI Foundry-modellen

2025-07-03

Dit artikel bevat een beknopt overzicht en een gedetailleerde beschrijving van de quota en limieten voor Azure OpenAI.

Referentie voor quota en limieten

In de volgende secties vindt u een beknopt overzicht van de standaardquota en limieten die van toepassing zijn op Azure OpenAI:

Naam van limiet	Limietwaarde
Azure OpenAI-resources per regio, per Azure-abonnement	30
Standaard DALL-E 2-quotumlimieten	2 gelijktijdige aanvragen
Standaardlimieten voor DALL-E 3-quota	2 capaciteitseenheden (6 aanvragen per minuut)
Standaardlimieten voor GPT-image-1	2 capaciteitseenheden (6 aanvragen per minuut)
Standaardlimieten voor Sora quota	60 aanvragen per minuut
Standaardlimieten voor spraak-naar-tekst-API-quota	3 aanvragen per minuut
Maximum aantal prompttokens per aanvraag	Verschilt afhankelijk van het model. Zie Azure OpenAI-modellen voor meer informatie
Maximum aantal standaardimplementaties per resource	32
Maximaal geoptimaliseerde modelinzettingen	5
Totaal aantal trainingstaken per resource	100
Maximaal aantal gelijktijdige actieve trainingstaken per bron	1
Maximale trainingsopdrachten in de wachtrij	20
Maximum aantal bestanden per resource (afstemmen)	50
Totale grootte van alle bestanden per bron (fine-tuning)	1 GB
Maximale trainingstaaktijd (taak mislukt indien overschreden)	720 uur
Maximale grootte van de trainingstaak (tokens in trainingsbestand) x (aantal epochs)	2 miljard
Maximale grootte van alle bestanden per upload (Azure OpenAI op uw gegevens)	16 MB
Maximum aantal ingangen in een array met `/embeddings`	2048
Maximum aantal `/chat/completions` berichten	2048
Maximum aantal `/chat/completions` functies	128
Maximum aantal `/chat completions` hulpprogramma's	128
Maximum aantal ingerichte doorvoereenheden per implementatie	100,000
Maximum aantal bestanden per assistent/thread	10.000 wanneer u de API of Azure AI Foundry Portal gebruikt.
Maximale bestandsgrootte voor assistenten en fijnstelling	512 MB 200 MB via Azure AI Foundry Portal
Maximale grootte voor alle geüploade bestanden voor assistenten	200 GB
Tokenlimiet voor assistenten	Limiet van 2.000.000 token
GPT-4o en GPT-4.1 max afbeeldingen per aanvraag (# van afbeeldingen in de berichtenmatrix/gespreksgeschiedenis)	50
GPT-4 `vision-preview` & GPT-4 `turbo-2024-04-09` standaard maximumtokens	16 Verhoog de waarde van de `max_tokens` parameter om afgekapte antwoorden te voorkomen. GPT-4o maximumtokens zijn standaard ingesteld op 4096.
Maximum aantal aangepaste headers in API-aanvragen¹	10
Limiet voor berichttekens	1048576
Berichtgrootte voor audiobestanden	20 MB

¹ Onze huidige API's staan maximaal 10 aangepaste headers toe, die via de pijplijn worden doorgegeven en geretourneerd. Sommige klanten overschrijden nu het aantal headers, wat resulteert in HTTP 431-fouten. Er is geen oplossing voor deze fout, behalve om het volume van de header te verminderen. In toekomstige API-versies worden geen aangepaste headers meer doorgegeven. Klanten worden aangeraden niet afhankelijk te zijn van aangepaste headers in toekomstige systeemarchitecturen.

Opmerking

Quotumlimieten kunnen worden gewijzigd.

Batchlimieten

Naam van limiet	Limietwaarde
Maximum aantal bestanden per hulpbron	500
Maximale grootte van invoerbestand	200 MB
Maximum aantal aanvragen per bestand	100,000

Partijquotum

In de tabel wordt de limiet voor batchquota weergegeven. Quotumwaarden voor globale batches worden weergegeven in termen van wachtrijtokens. Wanneer u een bestand verzendt voor batchverwerking, wordt het aantal tokens in het bestand geteld. Totdat de batchtaak een terminalstatus heeft bereikt, worden deze tokens meegerekend binnen de totale limiet voor wachtrijtokens.

Wereldwijde batch

Modelleren	Ondernemingsovereenkomst	Verstek	Maandelijkse abonnementen op basis van creditcards	MSDN-abonnementen	Azure for Students, gratis proefversies
`gpt-4.1`	5 B	200 miljoen	50 miljoen	90 K	Niet van toepassing.
`gpt-4.1 mini`	15B	1B	50 miljoen	90k	Niet van toepassing.
`gpt-4.1-nano`	15 B	1 B	50 miljoen	90 K	Niet van toepassing.
`gpt-4o`	5 B	200 miljoen	50 miljoen	90 K	Niet van toepassing.
`gpt-4o-mini`	15 B	1 B	50 miljoen	90 K	Niet van toepassing.
`gpt-4-turbo`	300 miljoen	80 miljoen	40 M	90 K	Niet van toepassing.
`gpt-4`	150 M	30 M	5 miljoen	100 k	Niet van toepassing.
`gpt-35-turbo`	10 B	1 B	100 M	2 miljoen	50 K
`o3-mini`	15 B	1 B	50 miljoen	90 K	Niet van toepassing.
`o4-mini`	15 B	1 B	50 miljoen	90 K	Niet van toepassing.

B = miljard | M = miljoen | K = duizend

Gegevenszoneverzameling

Modelleren	Ondernemingsovereenkomst	Verstek	Maandelijkse abonnementen op basis van creditcards	MSDN-abonnementen	Azure for Students, gratis proefversies
`gpt-4.1`	500 miljoen	30 M	30 M	90 K	Niet van toepassing.
`gpt-4.1-mini`	1,5 B	100 M	50 miljoen	90 K	Niet van toepassing.
`gpt-4o`	500 miljoen	30 M	30 M	90 K	Niet van toepassing.
`gpt-4o-mini`	1,5 B	100 M	50 miljoen	90 K	Niet van toepassing.
`o3-mini`	1,5 B	100 M	50 miljoen	90 K	Niet van toepassing.

GPT-4 frequentielimieten

GPT-4.5 preview globale standaard

Modelleren	Rang	Quotumlimiet in tokens per minuut (TPM)	Aanvragen per minuut
`gpt-4.5`	Enterprise-laag	200 K	200
`gpt-4.5`	Verstek	150 K	150

GPT-4.1 serie globale standaard

Modelleren	Rang	Quotumlimiet in tokens per minuut (TPM)	Aanvragen per minuut
`gpt-4.1` (2025-04-14)	Enterprise-laag	5 miljoen	5 K
`gpt-4.1` (2025-04-14)	Verstek	1 miljoen	1 Kelvin
`gpt-4.1-nano` (2025-04-14)	Enterprise-laag	150 M	150 K
`gpt-4.1-nano` (2025-04-14)	Verstek	5 miljoen	5 K
`gpt-4.1-mini` (2025-04-14)	Enterprise-laag	150 M	150 K
`gpt-4.1-mini` (2025-04-14)	Verstek	5 miljoen	5 K

GPT-4.1-serie gegevenszonestandaard

Modelleren	Rang	Quotumlimiet in tokens per minuut (TPM)	Aanvragen per minuut
`gpt-4.1` (2025-04-14)	Enterprise-laag	2 miljoen	2 K
`gpt-4.1` (2025-04-14)	Verstek	300 Kelvin	300
`gpt-4.1-nano` (2025-04-14)	Enterprise-laag	50 miljoen	50 K
`gpt-4.1-nano` (2025-04-14)	Verstek	2 miljoen	2 K
`gpt-4.1-mini` (2025-04-14)	Enterprise-laag	50 miljoen	50 K
`gpt-4.1-mini` (2025-04-14)	Verstek	2 miljoen	2 K

GPT-4 Turbo

gpt-4 (turbo-2024-04-09) heeft frequentielimietlagen met hogere limieten voor bepaalde typen klanten.

Modelleren	Rang	Quotumlimiet in tokens per minuut (TPM)	Aanvragen per minuut
`gpt-4` (turbo-2024-04-09)	Ondernemingsovereenkomst	2 miljoen	12 K
`gpt-4` (turbo-2024-04-09)	Verstek	450 K	2,7 K

snelheidslimieten voor modelrouter

Modelleren	Rang	Quotumlimiet in tokens per minuut (TPM)	Aanvragen per minuut
`model-router` (2025-05-19)	Enterprise-laag	10 M	10 K
`model-router` (2025-05-19)	Verstek	1 miljoen	1 Kelvin

algemene standaardfrequentielimieten voor computer-use-preview

Modelleren	Rang	Quotumlimiet in tokens per minuut (TPM)	Aanvragen per minuut
`computer-use-preview`	Enterprise-laag	30 M	300 Kelvin
`computer-use-preview`	Verstek	450 K	4,5 K

frequentielimieten voor O-serie

Belangrijk

De verhouding van aanvragen per minuut (RPM) tot tokens per minuut (TPM) voor quotum kan per model variëren. Wanneer u een model programmatisch implementeert of een quotumverhoging aanvraagt , hebt u geen gedetailleerde controle over TPM en RPM als onafhankelijke waarden. Het quotum wordt toegewezen in termen van capaciteitseenheden met overeenkomstige hoeveelheden RPM en TPM:

Modelleren	Capaciteit	Aanvragen per minuut (RPM)	Tokens per minuut (TPM)
Oudere chatmodellen:	1 eenheid	6 tpm	1.000 TPM
o1 & o1-preview:	1 eenheid	1 tpm	6.000 TPM
o3	1 eenheid	1 tpm	1.000 TPM
o4-mini	1 eenheid	1 tpm	1.000 TPM
o3-mini:	1 eenheid	1 tpm	10 000 TPM
o1-mini:	1 eenheid	1 tpm	10 000 TPM
o3-pro:	1 eenheid	1 tpm	10 000 TPM

Dit is met name belangrijk voor programmatische modelimplementatie, omdat wijzigingen in de RPM-/TPM-verhouding kunnen leiden tot een onbedoelde onjuiste toewijzing van het quotum.

o-series wereldwijde standaard

Modelleren	Rang	Quotumlimiet in tokens per minuut (TPM)	Aanvragen per minuut
`codex-mini`	Ondernemingsovereenkomst	10 M	10 K
`o3-pro`	Ondernemingsovereenkomst	16 M	1,6 K
`o4-mini`	Ondernemingsovereenkomst	10 M	10 K
`o3`	Ondernemingsovereenkomst	10 M	10 K
`o3-mini`	Ondernemingsovereenkomst	50 miljoen	5 K
`o1` & `o1-preview`	Ondernemingsovereenkomst	30 M	5 K
`o1-mini`	Ondernemingsovereenkomst	50 miljoen	5 K
`codex-mini`	Verstek	1 miljoen	1 Kelvin
`o3-pro`	Verstek	1,6 M	160
`o4-mini`	Verstek	1 miljoen	1 Kelvin
`o3`	Verstek	1 miljoen	1 Kelvin
`o3-mini`	Verstek	5 miljoen	500
`o1` & `o1-preview`	Verstek	3 miljoen	500
`o1-mini`	Verstek	5 miljoen	500

standaard voor gegevenszone van de o-serie

Modelleren	Rang	Quotumlimiet in tokens per minuut (TPM)	Aanvragen per minuut
`o3-mini`	Ondernemingsovereenkomst	20 miljoen	2 K
`o3-mini`	Verstek	2 miljoen	200
`o1`	Ondernemingsovereenkomst	6 miljoen	1 Kelvin
`o1`	Verstek	600 K	100

o1-preview & o1-mini standaard

Modelleren	Rang	Quotumlimiet in tokens per minuut (TPM)	Aanvragen per minuut
`o1-preview`	Ondernemingsovereenkomst	600 K	100
`o1-mini`	Ondernemingsovereenkomst	1 miljoen	100
`o1-preview`	Verstek	300 Kelvin	50
`o1-mini`	Verstek	500 K	50

gpt-4o frequentielimieten

gpt-4o en gpt-4o-mini hebben frequentielimietlagen met hogere limieten voor bepaalde typen klanten.

gpt-4o globale standaard

Modelleren	Rang	Quotumlimiet in tokens per minuut (TPM)	Aanvragen per minuut
`gpt-4o`	Ondernemingsovereenkomst	30 M	180 Kelvin
`gpt-4o-mini`	Ondernemingsovereenkomst	50 miljoen	300 Kelvin
`gpt-4o`	Verstek	450 K	2,7 K
`gpt-4o-mini`	Verstek	2 miljoen	12 K

M = miljoen | K = duizend

gpt-4o-gegevenszonestandaard

Modelleren	Rang	Quotumlimiet in tokens per minuut (TPM)	Aanvragen per minuut
`gpt-4o`	Ondernemingsovereenkomst	10 M	60 duizend
`gpt-4o-mini`	Ondernemingsovereenkomst	20 miljoen	120 Kelvin
`gpt-4o`	Verstek	300 Kelvin	1,8 K
`gpt-4o-mini`	Verstek	1 miljoen	6 K

M = miljoen | K = duizend

gpt-4o standaard

Modelleren	Rang	Quotumlimiet in tokens per minuut (TPM)	Aanvragen per minuut
`gpt-4o`	Ondernemingsovereenkomst	1 miljoen	6 K
`gpt-4o-mini`	Ondernemingsovereenkomst	2 miljoen	12 K
`gpt-4o`	Verstek	150 K	900
`gpt-4o-mini`	Verstek	450 K	2,7 K

M = miljoen | K = duizend

gpt-4o audio

De frequentielimieten voor elke implementatie van het gpt-4o audiomodel zijn 100 K TPM en 1 K RPM. Tijdens de preview kunnen azure AI Foundry Portal en API's verschillende frequentielimieten onjuist weergeven. Zelfs als u een andere frequentielimiet probeert in te stellen, is de werkelijke frequentielimiet 100 K TPM en 1 K RPM.

Modelleren	Rang	Quotumlimiet in tokens per minuut (TPM)	Aanvragen per minuut
`gpt-4o-audio-preview`	Verstek	450 K	1 Kelvin
`gpt-4o-realtime-preview`	Verstek	800 Kelvin	1 Kelvin
`gpt-4o-mini-audio-preview`	Verstek	2 miljoen	1 Kelvin
`gpt-4o-mini-realtime-preview`	Verstek	800 Kelvin	1 Kelvin

M = miljoen | K = duizend

GPT-image-1-frequentielimieten

GPT0-image-1 globale standaard

Modelleren	Rang	Quotumlimiet in tokens per minuut (TPM)	Aanvragen per minuut
`gpt-image-1`	Ondernemingsovereenkomst	Niet van toepassing.	20
`gpt-image-1`	Verstek	Niet van toepassing.	6

Gebruiksniveaus

Globale standaardimplementaties maken gebruik van de wereldwijde infrastructuur van Azure, waarbij het klantverkeer dynamisch naar het datacenter met de beste beschikbaarheid voor de inferentieverzoeken van de klant wordt gerouteerd. Op dezelfde manier kunt u met standaardimplementaties voor gegevenszones de wereldwijde Azure-infrastructuur gebruiken om het verkeer dynamisch te routeren naar het datacenter binnen de gegevenszone die door Microsoft is gedefinieerd, met de beste beschikbaarheid voor elke aanvraag. Dit maakt consistentere latentie mogelijk voor klanten met een laag tot gemiddeld verkeersniveau. Klanten met een hoog blijvend gebruiksniveau kunnen meer variabiliteit in reactielatentie zien.

De gebruikslimiet bepaalt het gebruiksniveau waarboven klanten grotere variabiliteit in reactielatentie kunnen zien. Het gebruik van een klant wordt per model gedefinieerd en is het totale aantal tokens dat wordt gebruikt voor alle implementaties in alle abonnementen in alle regio's voor een bepaalde tenant.

Opmerking

Gebruikslagen zijn alleen van toepassing op standaard-, gegevenszone standaard en wereldwijde standaardimplementatietypen. Gebruikersniveaus zijn niet van toepassing op wereldwijde batch- en geconfigureerde doorvoerimplementaties.

Algemene standaard, gegevenszonestandaard, & standaard

Modelleren	Gebruiksniveaus per maand
`gpt-4` + `gpt-4-32k` (alle versies)	6 Miljard tokens
`gpt-4o`	12 Miljard tokens
`gpt-4o-mini`	85 miljard tokens
`o3-mini`	50 Miljard tokens
`o1`	4 miljard tokens
`o4-mini`	50 Miljard tokens
`o3`	5 miljard tokens
`gpt-4.1`	30 Miljard tokens
`gpt-4.1-mini`	150 miljard tokens
`gpt-4.1-nano`	550 Miljard tokens

Andere aanbiedingstypen

Als uw Azure-abonnement is gekoppeld aan bepaalde aanbiedingstypen, zijn uw maximale quotumwaarden lager dan de waarden in de bovenstaande tabellen.

Rang	Quotumlimiet in tokens per minuut (TPM)
`Azure for Students`	1 K (alle modellen) Uitzondering o-serie en GPT-4.1 en GPT 4.5 Preview: 0
`MSDN`	GPT-4o-mini: 200 K GPT 3.5 Turbo Serie: 200 K GPT-4 serie: 50 K computergebruik voorbeeld: 8 K gpt-4o-realtime-preview: 1K O-serie: 0 GPT 4.5 Voorvertoning: 0 GPT-4.1: 50 K GPT-4.1-nano: 200 K
`Standard`	GPT-4o-mini: 200 K GPT 3.5 Turbo Serie: 200 K GPT-4 serie: 50 K computergebruik-voorbeeld: 30 K O-serie: 0 GPT 4.5 Voorvertoning: 0 GPT-4.1: 50 K GPT-4.1-nano: 200 K
`Azure_MS-AZR-0111P` `Azure_MS-AZR-0035P` `Azure_MS-AZR-0025P` `Azure_MS-AZR-0052P`	GPT-4o-mini: 200 K GPT 3.5 Turbo Serie: 200 K GPT-4 serie: 50 K
`CSP Integration Sandbox` ^*	Alle modellen: 0
`Lightweight trial` `Free Trials` `Azure Pass`	Alle modellen: 0

^*Dit geldt alleen voor een klein aantal verouderde CSP-sandboxabonnementen. Gebruik de onderstaande query om te bepalen wat quotaId is gekoppeld aan uw abonnement.

Als u wilt bepalen welk type aanbieding aan uw abonnement is gekoppeld, kunt u uw quotaId. Als uw quotaId abonnement niet wordt vermeld in deze tabel, komt uw abonnement in aanmerking voor het standaardquotum.

REST
CLI

API-referentie

az login
access_token=$(az account get-access-token --query accessToken -o tsv)

curl -X GET "https://management.azure.com/subscriptions/{subscriptionId}?api-version=2020-01-01" \
  -H "Authorization: Bearer $access_token" \
  -H "Content-Type: application/json"

az rest --method GET --uri "https://management.azure.com/subscriptions/{sub-id}?api-version=2020-01-01"

Uitvoer

{
  "authorizationSource": "Legacy",
  "displayName": "Pay-As-You-Go",
  "id": "/subscriptions/aaaaaa-bbbbb-cccc-ddddd-eeeeee",
  "state": "Enabled",
  "subscriptionId": "aaaaaa-bbbbb-cccc-ddddd-eeeeee",
  "subscriptionPolicies": {
    "locationPlacementId": "Public_2014-09-01",
    "quotaId": "PayAsYouGo_2014-09-01",
    "spendingLimit": "Off"
  }
}

Quotumtoewijzing/aanbiedingstype	Quotum-id van abonnement
Onderneming	`EnterpriseAgreement_2014-09-01`
Betaal naar verbruik	`PayAsYouGo_2014-09-01`
MSDN	`MSDN_2014-09-01`
CSP Integration Sandbox	`CSPDEVTEST_2018-05-01`
Azure for Students	`AzureForStudents_2018-01-01`
Gratis proefversie	`FreeTrial_2014-09-01`
Azure Pass	`AzurePass_2014-09-01`
Azure_MS-AZR-0111P	`AzureInOpen_2014-09-01`
Azure_MS-AZR-0150P	`LightweightTrial_2016-09-01`
Azure_MS-AZR-0035P Azure_MS-AZR-0025P Azure_MS-AZR-0052P	`MPN_2014-09-01`
Azure_MS-AZR-0023P Azure_MS-AZR-0060P Azure_MS-AZR-0148P Azure_MS-AZR-0148G	`MSDNDevTest_2014-09-01`
Verstek	Een quotum-id die niet in deze tabel wordt vermeld

Algemene aanbevolen praktijken om binnen de limieten te blijven

Als u problemen met betrekking tot frequentielimieten wilt minimaliseren, is het een goed idee om de volgende technieken te gebruiken:

Implementeert logica voor opnieuw proberen in uw toepassing.
Vermijd grote wijzigingen in de workload. Verhoog de workload geleidelijk.
Test verschillende patronen voor belastingverhoging.
Verhoog het quotum dat is toegewezen aan uw implementatie. Verplaats het quotum van een andere implementatie, indien nodig.

Quotumverhogingen aanvragen

Aanvragen voor quotumverhoging kunnen worden ingediend via het aanvraagformulier voor quotumverhoging. Vanwege een hoge vraag worden aanvragen voor quotumverhoging geaccepteerd en worden ze ingevuld in de volgorde waarin ze worden ontvangen. Er wordt prioriteit gegeven aan klanten die verkeer genereren dat gebruikmaakt van de bestaande quotumtoewijzing en uw aanvraag kan worden geweigerd als niet aan deze voorwaarde wordt voldaan.

Voor andere frequentielimieten dient u een serviceaanvraag in.

Regionale quotumcapaciteitslimieten

U kunt de beschikbaarheid van quota per regio voor uw abonnement bekijken in de Azure AI Foundry-portal.

Als u de quotumcapaciteit per regio wilt weergeven voor een specifiek model/een specifieke versie, kunt u ook een query uitvoeren op de capaciteits-API voor uw abonnement. Geef een subscriptionId, model_nameen model_version en de API retourneert de beschikbare capaciteit voor dat model in alle regio's en implementatietypen voor uw abonnement.

Opmerking

Momenteel retourneren zowel de Azure AI Foundry-portal als de capaciteits-API quotum-/capaciteitsgegevens voor modellen die buiten gebruik worden gesteld en niet meer beschikbaar zijn.

API-referentie

import requests
import json
from azure.identity import DefaultAzureCredential

subscriptionId = "Replace with your subscription ID" #replace with your subscription ID
model_name = "gpt-4o"     # Example value, replace with model name
model_version = "2024-08-06"   # Example value, replace with model version

token_credential = DefaultAzureCredential()
token = token_credential.get_token('https://management.azure.com/.default')
headers = {'Authorization': 'Bearer ' + token.token}

url = f"https://management.azure.com/subscriptions/{subscriptionId}/providers/Microsoft.CognitiveServices/modelCapacities"
params = {
    "api-version": "2024-06-01-preview",
    "modelFormat": "OpenAI",
    "modelName": model_name,
    "modelVersion": model_version
}

response = requests.get(url, params=params, headers=headers)
model_capacity = response.json()

print(json.dumps(model_capacity, indent=2))

Volgende stappen

Ontdek hoe u quota voor uw Azure OpenAI-implementaties beheert. Meer informatie over de onderliggende modellen die Azure OpenAI mogelijk maken.

Delen via

Quota en limieten voor Azure OpenAI in Azure AI Foundry-modellen

Referentie voor quota en limieten

Batchlimieten

Partijquotum

Wereldwijde batch

Gegevenszoneverzameling

GPT-4 frequentielimieten

GPT-4.5 preview globale standaard

GPT-4.1 serie globale standaard

GPT-4.1-serie gegevenszonestandaard

GPT-4 Turbo

snelheidslimieten voor modelrouter

algemene standaardfrequentielimieten voor computer-use-preview

frequentielimieten voor O-serie

o-series wereldwijde standaard

standaard voor gegevenszone van de o-serie

o1-preview & o1-mini standaard

gpt-4o frequentielimieten

gpt-4o globale standaard

gpt-4o-gegevenszonestandaard

gpt-4o standaard

gpt-4o audio

GPT-image-1-frequentielimieten

GPT0-image-1 globale standaard

Gebruiksniveaus

Algemene standaard, gegevenszonestandaard, & standaard

Andere aanbiedingstypen

Uitvoer

Algemene aanbevolen praktijken om binnen de limieten te blijven

Quotumverhogingen aanvragen

Regionale quotumcapaciteitslimieten

Volgende stappen

Feedback

Aanvullende resources