Delen via


Quota en limieten voor Azure OpenAI in Azure AI Foundry-modellen

Dit artikel bevat een beknopt overzicht en een gedetailleerde beschrijving van de quota en limieten voor Azure OpenAI.

Referentie voor quota en limieten

In de volgende secties vindt u een beknopt overzicht van de standaardquota en limieten die van toepassing zijn op Azure OpenAI:

Naam van limiet Limietwaarde
Azure OpenAI-resources per regio, per Azure-abonnement 30
Standaard DALL-E 2-quotumlimieten 2 gelijktijdige aanvragen
Standaardlimieten voor DALL-E 3-quota 2 capaciteitseenheden (6 aanvragen per minuut)
Standaardlimieten voor GPT-image-1 2 capaciteitseenheden (6 aanvragen per minuut)
Standaardlimieten voor Sora quota 60 aanvragen per minuut
Standaardlimieten voor spraak-naar-tekst-API-quota 3 aanvragen per minuut
Maximum aantal prompttokens per aanvraag Verschilt afhankelijk van het model. Zie Azure OpenAI-modellen voor meer informatie
Maximum aantal standaardimplementaties per resource 32
Maximaal geoptimaliseerde modelinzettingen 5
Totaal aantal trainingstaken per resource 100
Maximaal aantal gelijktijdige actieve trainingstaken per bron 1
Maximale trainingsopdrachten in de wachtrij 20
Maximum aantal bestanden per resource (afstemmen) 50
Totale grootte van alle bestanden per bron (fine-tuning) 1 GB
Maximale trainingstaaktijd (taak mislukt indien overschreden) 720 uur
Maximale grootte van de trainingstaak (tokens in trainingsbestand) x (aantal epochs) 2 miljard
Maximale grootte van alle bestanden per upload (Azure OpenAI op uw gegevens) 16 MB
Maximum aantal ingangen in een array met /embeddings 2048
Maximum aantal /chat/completions berichten 2048
Maximum aantal /chat/completions functies 128
Maximum aantal /chat completions hulpprogramma's 128
Maximum aantal ingerichte doorvoereenheden per implementatie 100,000
Maximum aantal bestanden per assistent/thread 10.000 wanneer u de API of Azure AI Foundry Portal gebruikt.
Maximale bestandsgrootte voor assistenten en fijnstelling 512 MB

200 MB via Azure AI Foundry Portal
Maximale grootte voor alle geüploade bestanden voor assistenten 200 GB
Tokenlimiet voor assistenten Limiet van 2.000.000 token
GPT-4o en GPT-4.1 max afbeeldingen per aanvraag (# van afbeeldingen in de berichtenmatrix/gespreksgeschiedenis) 50
GPT-4 vision-preview & GPT-4 turbo-2024-04-09 standaard maximumtokens 16

Verhoog de waarde van de max_tokens parameter om afgekapte antwoorden te voorkomen. GPT-4o maximumtokens zijn standaard ingesteld op 4096.
Maximum aantal aangepaste headers in API-aanvragen1 10
Limiet voor berichttekens 1048576
Berichtgrootte voor audiobestanden 20 MB

1 Onze huidige API's staan maximaal 10 aangepaste headers toe, die via de pijplijn worden doorgegeven en geretourneerd. Sommige klanten overschrijden nu het aantal headers, wat resulteert in HTTP 431-fouten. Er is geen oplossing voor deze fout, behalve om het volume van de header te verminderen. In toekomstige API-versies worden geen aangepaste headers meer doorgegeven. Klanten worden aangeraden niet afhankelijk te zijn van aangepaste headers in toekomstige systeemarchitecturen.

Opmerking

Quotumlimieten kunnen worden gewijzigd.

Batchlimieten

Naam van limiet Limietwaarde
Maximum aantal bestanden per hulpbron 500
Maximale grootte van invoerbestand 200 MB
Maximum aantal aanvragen per bestand 100,000

Partijquotum

In de tabel wordt de limiet voor batchquota weergegeven. Quotumwaarden voor globale batches worden weergegeven in termen van wachtrijtokens. Wanneer u een bestand verzendt voor batchverwerking, wordt het aantal tokens in het bestand geteld. Totdat de batchtaak een terminalstatus heeft bereikt, worden deze tokens meegerekend binnen de totale limiet voor wachtrijtokens.

Wereldwijde batch

Modelleren Ondernemingsovereenkomst Verstek Maandelijkse abonnementen op basis van creditcards MSDN-abonnementen Azure for Students, gratis proefversies
gpt-4.1 5 B 200 miljoen 50 miljoen 90 K Niet van toepassing.
gpt-4.1 mini 15B 1B 50 miljoen 90k Niet van toepassing.
gpt-4.1-nano 15 B 1 B 50 miljoen 90 K Niet van toepassing.
gpt-4o 5 B 200 miljoen 50 miljoen 90 K Niet van toepassing.
gpt-4o-mini 15 B 1 B 50 miljoen 90 K Niet van toepassing.
gpt-4-turbo 300 miljoen 80 miljoen 40 M 90 K Niet van toepassing.
gpt-4 150 M 30 M 5 miljoen 100 k Niet van toepassing.
gpt-35-turbo 10 B 1 B 100 M 2 miljoen 50 K
o3-mini 15 B 1 B 50 miljoen 90 K Niet van toepassing.
o4-mini 15 B 1 B 50 miljoen 90 K Niet van toepassing.

B = miljard | M = miljoen | K = duizend

Gegevenszoneverzameling

Modelleren Ondernemingsovereenkomst Verstek Maandelijkse abonnementen op basis van creditcards MSDN-abonnementen Azure for Students, gratis proefversies
gpt-4.1 500 miljoen 30 M 30 M 90 K Niet van toepassing.
gpt-4.1-mini 1,5 B 100 M 50 miljoen 90 K Niet van toepassing.
gpt-4o 500 miljoen 30 M 30 M 90 K Niet van toepassing.
gpt-4o-mini 1,5 B 100 M 50 miljoen 90 K Niet van toepassing.
o3-mini 1,5 B 100 M 50 miljoen 90 K Niet van toepassing.

GPT-4 frequentielimieten

GPT-4.5 preview globale standaard

Modelleren Rang Quotumlimiet in tokens per minuut (TPM) Aanvragen per minuut
gpt-4.5 Enterprise-laag 200 K 200
gpt-4.5 Verstek 150 K 150

GPT-4.1 serie globale standaard

Modelleren Rang Quotumlimiet in tokens per minuut (TPM) Aanvragen per minuut
gpt-4.1 (2025-04-14) Enterprise-laag 5 miljoen 5 K
gpt-4.1 (2025-04-14) Verstek 1 miljoen 1 Kelvin
gpt-4.1-nano (2025-04-14) Enterprise-laag 150 M 150 K
gpt-4.1-nano (2025-04-14) Verstek 5 miljoen 5 K
gpt-4.1-mini (2025-04-14) Enterprise-laag 150 M 150 K
gpt-4.1-mini (2025-04-14) Verstek 5 miljoen 5 K

GPT-4.1-serie gegevenszonestandaard

Modelleren Rang Quotumlimiet in tokens per minuut (TPM) Aanvragen per minuut
gpt-4.1 (2025-04-14) Enterprise-laag 2 miljoen 2 K
gpt-4.1 (2025-04-14) Verstek 300 Kelvin 300
gpt-4.1-nano (2025-04-14) Enterprise-laag 50 miljoen 50 K
gpt-4.1-nano (2025-04-14) Verstek 2 miljoen 2 K
gpt-4.1-mini (2025-04-14) Enterprise-laag 50 miljoen 50 K
gpt-4.1-mini (2025-04-14) Verstek 2 miljoen 2 K

GPT-4 Turbo

gpt-4 (turbo-2024-04-09) heeft frequentielimietlagen met hogere limieten voor bepaalde typen klanten.

Modelleren Rang Quotumlimiet in tokens per minuut (TPM) Aanvragen per minuut
gpt-4 (turbo-2024-04-09) Ondernemingsovereenkomst 2 miljoen 12 K
gpt-4 (turbo-2024-04-09) Verstek 450 K 2,7 K

snelheidslimieten voor modelrouter

Modelleren Rang Quotumlimiet in tokens per minuut (TPM) Aanvragen per minuut
model-router (2025-05-19) Enterprise-laag 10 M 10 K
model-router (2025-05-19) Verstek 1 miljoen 1 Kelvin

algemene standaardfrequentielimieten voor computer-use-preview

Modelleren Rang Quotumlimiet in tokens per minuut (TPM) Aanvragen per minuut
computer-use-preview Enterprise-laag 30 M 300 Kelvin
computer-use-preview Verstek 450 K 4,5 K

frequentielimieten voor O-serie

Belangrijk

De verhouding van aanvragen per minuut (RPM) tot tokens per minuut (TPM) voor quotum kan per model variƫren. Wanneer u een model programmatisch implementeert of een quotumverhoging aanvraagt , hebt u geen gedetailleerde controle over TPM en RPM als onafhankelijke waarden. Het quotum wordt toegewezen in termen van capaciteitseenheden met overeenkomstige hoeveelheden RPM en TPM:

Modelleren Capaciteit Aanvragen per minuut (RPM) Tokens per minuut (TPM)
Oudere chatmodellen: 1 eenheid 6 tpm 1.000 TPM
o1 & o1-preview: 1 eenheid 1 tpm 6.000 TPM
o3 1 eenheid 1 tpm 1.000 TPM
o4-mini 1 eenheid 1 tpm 1.000 TPM
o3-mini: 1 eenheid 1 tpm 10 000 TPM
o1-mini: 1 eenheid 1 tpm 10 000 TPM
o3-pro: 1 eenheid 1 tpm 10 000 TPM

Dit is met name belangrijk voor programmatische modelimplementatie, omdat wijzigingen in de RPM-/TPM-verhouding kunnen leiden tot een onbedoelde onjuiste toewijzing van het quotum.

o-series wereldwijde standaard

Modelleren Rang Quotumlimiet in tokens per minuut (TPM) Aanvragen per minuut
codex-mini Ondernemingsovereenkomst 10 M 10 K
o3-pro Ondernemingsovereenkomst 16 M 1,6 K
o4-mini Ondernemingsovereenkomst 10 M 10 K
o3 Ondernemingsovereenkomst 10 M 10 K
o3-mini Ondernemingsovereenkomst 50 miljoen 5 K
o1 & o1-preview Ondernemingsovereenkomst 30 M 5 K
o1-mini Ondernemingsovereenkomst 50 miljoen 5 K
codex-mini Verstek 1 miljoen 1 Kelvin
o3-pro Verstek 1,6 M 160
o4-mini Verstek 1 miljoen 1 Kelvin
o3 Verstek 1 miljoen 1 Kelvin
o3-mini Verstek 5 miljoen 500
o1 & o1-preview Verstek 3 miljoen 500
o1-mini Verstek 5 miljoen 500

standaard voor gegevenszone van de o-serie

Modelleren Rang Quotumlimiet in tokens per minuut (TPM) Aanvragen per minuut
o3-mini Ondernemingsovereenkomst 20 miljoen 2 K
o3-mini Verstek 2 miljoen 200
o1 Ondernemingsovereenkomst 6 miljoen 1 Kelvin
o1 Verstek 600 K 100

o1-preview & o1-mini standaard

Modelleren Rang Quotumlimiet in tokens per minuut (TPM) Aanvragen per minuut
o1-preview Ondernemingsovereenkomst 600 K 100
o1-mini Ondernemingsovereenkomst 1 miljoen 100
o1-preview Verstek 300 Kelvin 50
o1-mini Verstek 500 K 50

gpt-4o frequentielimieten

gpt-4o en gpt-4o-mini hebben frequentielimietlagen met hogere limieten voor bepaalde typen klanten.

gpt-4o globale standaard

Modelleren Rang Quotumlimiet in tokens per minuut (TPM) Aanvragen per minuut
gpt-4o Ondernemingsovereenkomst 30 M 180 Kelvin
gpt-4o-mini Ondernemingsovereenkomst 50 miljoen 300 Kelvin
gpt-4o Verstek 450 K 2,7 K
gpt-4o-mini Verstek 2 miljoen 12 K

M = miljoen | K = duizend

gpt-4o-gegevenszonestandaard

Modelleren Rang Quotumlimiet in tokens per minuut (TPM) Aanvragen per minuut
gpt-4o Ondernemingsovereenkomst 10 M 60 duizend
gpt-4o-mini Ondernemingsovereenkomst 20 miljoen 120 Kelvin
gpt-4o Verstek 300 Kelvin 1,8 K
gpt-4o-mini Verstek 1 miljoen 6 K

M = miljoen | K = duizend

gpt-4o standaard

Modelleren Rang Quotumlimiet in tokens per minuut (TPM) Aanvragen per minuut
gpt-4o Ondernemingsovereenkomst 1 miljoen 6 K
gpt-4o-mini Ondernemingsovereenkomst 2 miljoen 12 K
gpt-4o Verstek 150 K 900
gpt-4o-mini Verstek 450 K 2,7 K

M = miljoen | K = duizend

gpt-4o audio

De frequentielimieten voor elke implementatie van het gpt-4o audiomodel zijn 100 K TPM en 1 K RPM. Tijdens de preview kunnen azure AI Foundry Portal en API's verschillende frequentielimieten onjuist weergeven. Zelfs als u een andere frequentielimiet probeert in te stellen, is de werkelijke frequentielimiet 100 K TPM en 1 K RPM.

Modelleren Rang Quotumlimiet in tokens per minuut (TPM) Aanvragen per minuut
gpt-4o-audio-preview Verstek 450 K 1 Kelvin
gpt-4o-realtime-preview Verstek 800 Kelvin 1 Kelvin
gpt-4o-mini-audio-preview Verstek 2 miljoen 1 Kelvin
gpt-4o-mini-realtime-preview Verstek 800 Kelvin 1 Kelvin

M = miljoen | K = duizend

GPT-image-1-frequentielimieten

GPT0-image-1 globale standaard

Modelleren Rang Quotumlimiet in tokens per minuut (TPM) Aanvragen per minuut
gpt-image-1 Ondernemingsovereenkomst Niet van toepassing. 20
gpt-image-1 Verstek Niet van toepassing. 6

Gebruiksniveaus

Globale standaardimplementaties maken gebruik van de wereldwijde infrastructuur van Azure, waarbij het klantverkeer dynamisch naar het datacenter met de beste beschikbaarheid voor de inferentieverzoeken van de klant wordt gerouteerd. Op dezelfde manier kunt u met standaardimplementaties voor gegevenszones de wereldwijde Azure-infrastructuur gebruiken om het verkeer dynamisch te routeren naar het datacenter binnen de gegevenszone die door Microsoft is gedefinieerd, met de beste beschikbaarheid voor elke aanvraag. Dit maakt consistentere latentie mogelijk voor klanten met een laag tot gemiddeld verkeersniveau. Klanten met een hoog blijvend gebruiksniveau kunnen meer variabiliteit in reactielatentie zien.

De gebruikslimiet bepaalt het gebruiksniveau waarboven klanten grotere variabiliteit in reactielatentie kunnen zien. Het gebruik van een klant wordt per model gedefinieerd en is het totale aantal tokens dat wordt gebruikt voor alle implementaties in alle abonnementen in alle regio's voor een bepaalde tenant.

Opmerking

Gebruikslagen zijn alleen van toepassing op standaard-, gegevenszone standaard en wereldwijde standaardimplementatietypen. Gebruikersniveaus zijn niet van toepassing op wereldwijde batch- en geconfigureerde doorvoerimplementaties.

Algemene standaard, gegevenszonestandaard, & standaard

Modelleren Gebruiksniveaus per maand
gpt-4 + gpt-4-32k (alle versies) 6 Miljard tokens
gpt-4o 12 Miljard tokens
gpt-4o-mini 85 miljard tokens
o3-mini 50 Miljard tokens
o1 4 miljard tokens
o4-mini 50 Miljard tokens
o3 5 miljard tokens
gpt-4.1 30 Miljard tokens
gpt-4.1-mini 150 miljard tokens
gpt-4.1-nano 550 Miljard tokens

Andere aanbiedingstypen

Als uw Azure-abonnement is gekoppeld aan bepaalde aanbiedingstypen, zijn uw maximale quotumwaarden lager dan de waarden in de bovenstaande tabellen.

Rang Quotumlimiet in tokens per minuut (TPM)
Azure for Students 1 K (alle modellen)
Uitzondering o-serie en GPT-4.1 en GPT 4.5 Preview: 0
MSDN GPT-4o-mini: 200 K
GPT 3.5 Turbo Serie: 200 K
GPT-4 serie: 50 K
computergebruik voorbeeld: 8 K
gpt-4o-realtime-preview: 1K
O-serie: 0
GPT 4.5 Voorvertoning: 0
GPT-4.1: 50 K
GPT-4.1-nano: 200 K
Standard GPT-4o-mini: 200 K
GPT 3.5 Turbo Serie: 200 K
GPT-4 serie: 50 K
computergebruik-voorbeeld: 30 K
O-serie: 0
GPT 4.5 Voorvertoning: 0
GPT-4.1: 50 K
GPT-4.1-nano: 200 K
Azure_MS-AZR-0111P
Azure_MS-AZR-0035P
Azure_MS-AZR-0025P
Azure_MS-AZR-0052P
GPT-4o-mini: 200 K
GPT 3.5 Turbo Serie: 200 K
GPT-4 serie: 50 K
CSP Integration Sandbox * Alle modellen: 0
Lightweight trial
Free Trials
Azure Pass
Alle modellen: 0

*Dit geldt alleen voor een klein aantal verouderde CSP-sandboxabonnementen. Gebruik de onderstaande query om te bepalen wat quotaId is gekoppeld aan uw abonnement.

Als u wilt bepalen welk type aanbieding aan uw abonnement is gekoppeld, kunt u uw quotaId. Als uw quotaId abonnement niet wordt vermeld in deze tabel, komt uw abonnement in aanmerking voor het standaardquotum.

API-referentie

az login
access_token=$(az account get-access-token --query accessToken -o tsv)
curl -X GET "https://management.azure.com/subscriptions/{subscriptionId}?api-version=2020-01-01" \
  -H "Authorization: Bearer $access_token" \
  -H "Content-Type: application/json"

Uitvoer

{
  "authorizationSource": "Legacy",
  "displayName": "Pay-As-You-Go",
  "id": "/subscriptions/aaaaaa-bbbbb-cccc-ddddd-eeeeee",
  "state": "Enabled",
  "subscriptionId": "aaaaaa-bbbbb-cccc-ddddd-eeeeee",
  "subscriptionPolicies": {
    "locationPlacementId": "Public_2014-09-01",
    "quotaId": "PayAsYouGo_2014-09-01",
    "spendingLimit": "Off"
  }
}
Quotumtoewijzing/aanbiedingstype Quotum-id van abonnement
Onderneming EnterpriseAgreement_2014-09-01
Betaal naar verbruik PayAsYouGo_2014-09-01
MSDN MSDN_2014-09-01
CSP Integration Sandbox CSPDEVTEST_2018-05-01
Azure for Students AzureForStudents_2018-01-01
Gratis proefversie FreeTrial_2014-09-01
Azure Pass AzurePass_2014-09-01
Azure_MS-AZR-0111P AzureInOpen_2014-09-01
Azure_MS-AZR-0150P LightweightTrial_2016-09-01
Azure_MS-AZR-0035P
Azure_MS-AZR-0025P
Azure_MS-AZR-0052P
MPN_2014-09-01
Azure_MS-AZR-0023P
Azure_MS-AZR-0060P
Azure_MS-AZR-0148P
Azure_MS-AZR-0148G
MSDNDevTest_2014-09-01
Verstek Een quotum-id die niet in deze tabel wordt vermeld

Algemene aanbevolen praktijken om binnen de limieten te blijven

Als u problemen met betrekking tot frequentielimieten wilt minimaliseren, is het een goed idee om de volgende technieken te gebruiken:

  • Implementeert logica voor opnieuw proberen in uw toepassing.
  • Vermijd grote wijzigingen in de workload. Verhoog de workload geleidelijk.
  • Test verschillende patronen voor belastingverhoging.
  • Verhoog het quotum dat is toegewezen aan uw implementatie. Verplaats het quotum van een andere implementatie, indien nodig.

Quotumverhogingen aanvragen

Aanvragen voor quotumverhoging kunnen worden ingediend via het aanvraagformulier voor quotumverhoging. Vanwege een hoge vraag worden aanvragen voor quotumverhoging geaccepteerd en worden ze ingevuld in de volgorde waarin ze worden ontvangen. Er wordt prioriteit gegeven aan klanten die verkeer genereren dat gebruikmaakt van de bestaande quotumtoewijzing en uw aanvraag kan worden geweigerd als niet aan deze voorwaarde wordt voldaan.

Voor andere frequentielimieten dient u een serviceaanvraag in.

Regionale quotumcapaciteitslimieten

U kunt de beschikbaarheid van quota per regio voor uw abonnement bekijken in de Azure AI Foundry-portal.

Als u de quotumcapaciteit per regio wilt weergeven voor een specifiek model/een specifieke versie, kunt u ook een query uitvoeren op de capaciteits-API voor uw abonnement. Geef een subscriptionId, model_nameen model_version en de API retourneert de beschikbare capaciteit voor dat model in alle regio's en implementatietypen voor uw abonnement.

Opmerking

Momenteel retourneren zowel de Azure AI Foundry-portal als de capaciteits-API quotum-/capaciteitsgegevens voor modellen die buiten gebruik worden gesteld en niet meer beschikbaar zijn.

API-referentie

import requests
import json
from azure.identity import DefaultAzureCredential

subscriptionId = "Replace with your subscription ID" #replace with your subscription ID
model_name = "gpt-4o"     # Example value, replace with model name
model_version = "2024-08-06"   # Example value, replace with model version

token_credential = DefaultAzureCredential()
token = token_credential.get_token('https://management.azure.com/.default')
headers = {'Authorization': 'Bearer ' + token.token}

url = f"https://management.azure.com/subscriptions/{subscriptionId}/providers/Microsoft.CognitiveServices/modelCapacities"
params = {
    "api-version": "2024-06-01-preview",
    "modelFormat": "OpenAI",
    "modelName": model_name,
    "modelVersion": model_version
}

response = requests.get(url, params=params, headers=headers)
model_capacity = response.json()

print(json.dumps(model_capacity, indent=2))

Volgende stappen

Ontdek hoe u quota voor uw Azure OpenAI-implementaties beheert. Meer informatie over de onderliggende modellen die Azure OpenAI mogelijk maken.