Notitie
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen u aan te melden of de directory te wijzigen.
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen de mappen te wijzigen.
Dit artikel bevat een beknopt overzicht en een gedetailleerde beschrijving van de quota en limieten voor Azure OpenAI.
Referentie voor quota en limieten
In de volgende secties vindt u een beknopt overzicht van de standaardquota en limieten die van toepassing zijn op Azure OpenAI:
Naam van limiet | Limietwaarde |
---|---|
Azure OpenAI-resources per regio, per Azure-abonnement | 30 |
Standaard DALL-E 2-quotumlimieten | 2 gelijktijdige aanvragen |
Standaardlimieten voor DALL-E 3-quota | 2 capaciteitseenheden (6 aanvragen per minuut) |
Standaardlimieten voor GPT-image-1 | 2 capaciteitseenheden (6 aanvragen per minuut) |
Standaardlimieten voor Sora quota | 60 aanvragen per minuut |
Standaardlimieten voor spraak-naar-tekst-API-quota | 3 aanvragen per minuut |
Maximum aantal prompttokens per aanvraag | Verschilt afhankelijk van het model. Zie Azure OpenAI-modellen voor meer informatie |
Maximum aantal standaardimplementaties per resource | 32 |
Maximaal geoptimaliseerde modelinzettingen | 5 |
Totaal aantal trainingstaken per resource | 100 |
Maximaal aantal gelijktijdige actieve trainingstaken per bron | 1 |
Maximale trainingsopdrachten in de wachtrij | 20 |
Maximum aantal bestanden per resource (afstemmen) | 50 |
Totale grootte van alle bestanden per bron (fine-tuning) | 1 GB |
Maximale trainingstaaktijd (taak mislukt indien overschreden) | 720 uur |
Maximale grootte van de trainingstaak (tokens in trainingsbestand) x (aantal epochs) | 2 miljard |
Maximale grootte van alle bestanden per upload (Azure OpenAI op uw gegevens) | 16 MB |
Maximum aantal ingangen in een array met /embeddings |
2048 |
Maximum aantal /chat/completions berichten |
2048 |
Maximum aantal /chat/completions functies |
128 |
Maximum aantal /chat completions hulpprogramma's |
128 |
Maximum aantal ingerichte doorvoereenheden per implementatie | 100,000 |
Maximum aantal bestanden per assistent/thread | 10.000 wanneer u de API of Azure AI Foundry Portal gebruikt. |
Maximale bestandsgrootte voor assistenten en fijnstelling | 512 MB 200 MB via Azure AI Foundry Portal |
Maximale grootte voor alle geüploade bestanden voor assistenten | 200 GB |
Tokenlimiet voor assistenten | Limiet van 2.000.000 token |
GPT-4o en GPT-4.1 max afbeeldingen per aanvraag (# van afbeeldingen in de berichtenmatrix/gespreksgeschiedenis) | 50 |
GPT-4 vision-preview & GPT-4 turbo-2024-04-09 standaard maximumtokens |
16 Verhoog de waarde van de max_tokens parameter om afgekapte antwoorden te voorkomen. GPT-4o maximumtokens zijn standaard ingesteld op 4096. |
Maximum aantal aangepaste headers in API-aanvragen1 | 10 |
Limiet voor berichttekens | 1048576 |
Berichtgrootte voor audiobestanden | 20 MB |
1 Onze huidige API's staan maximaal 10 aangepaste headers toe, die via de pijplijn worden doorgegeven en geretourneerd. Sommige klanten overschrijden nu het aantal headers, wat resulteert in HTTP 431-fouten. Er is geen oplossing voor deze fout, behalve om het volume van de header te verminderen. In toekomstige API-versies worden geen aangepaste headers meer doorgegeven. Klanten worden aangeraden niet afhankelijk te zijn van aangepaste headers in toekomstige systeemarchitecturen.
Opmerking
Quotumlimieten kunnen worden gewijzigd.
Batchlimieten
Naam van limiet | Limietwaarde |
---|---|
Maximum aantal bestanden per hulpbron | 500 |
Maximale grootte van invoerbestand | 200 MB |
Maximum aantal aanvragen per bestand | 100,000 |
Partijquotum
In de tabel wordt de limiet voor batchquota weergegeven. Quotumwaarden voor globale batches worden weergegeven in termen van wachtrijtokens. Wanneer u een bestand verzendt voor batchverwerking, wordt het aantal tokens in het bestand geteld. Totdat de batchtaak een terminalstatus heeft bereikt, worden deze tokens meegerekend binnen de totale limiet voor wachtrijtokens.
Wereldwijde batch
Modelleren | Ondernemingsovereenkomst | Verstek | Maandelijkse abonnementen op basis van creditcards | MSDN-abonnementen | Azure for Students, gratis proefversies |
---|---|---|---|---|---|
gpt-4.1 |
5 B | 200 miljoen | 50 miljoen | 90 K | Niet van toepassing. |
gpt-4.1 mini |
15B | 1B | 50 miljoen | 90k | Niet van toepassing. |
gpt-4.1-nano |
15 B | 1 B | 50 miljoen | 90 K | Niet van toepassing. |
gpt-4o |
5 B | 200 miljoen | 50 miljoen | 90 K | Niet van toepassing. |
gpt-4o-mini |
15 B | 1 B | 50 miljoen | 90 K | Niet van toepassing. |
gpt-4-turbo |
300 miljoen | 80 miljoen | 40 M | 90 K | Niet van toepassing. |
gpt-4 |
150 M | 30 M | 5 miljoen | 100 k | Niet van toepassing. |
gpt-35-turbo |
10 B | 1 B | 100 M | 2 miljoen | 50 K |
o3-mini |
15 B | 1 B | 50 miljoen | 90 K | Niet van toepassing. |
o4-mini |
15 B | 1 B | 50 miljoen | 90 K | Niet van toepassing. |
B = miljard | M = miljoen | K = duizend
Gegevenszoneverzameling
Modelleren | Ondernemingsovereenkomst | Verstek | Maandelijkse abonnementen op basis van creditcards | MSDN-abonnementen | Azure for Students, gratis proefversies |
---|---|---|---|---|---|
gpt-4.1 |
500 miljoen | 30 M | 30 M | 90 K | Niet van toepassing. |
gpt-4.1-mini |
1,5 B | 100 M | 50 miljoen | 90 K | Niet van toepassing. |
gpt-4o |
500 miljoen | 30 M | 30 M | 90 K | Niet van toepassing. |
gpt-4o-mini |
1,5 B | 100 M | 50 miljoen | 90 K | Niet van toepassing. |
o3-mini |
1,5 B | 100 M | 50 miljoen | 90 K | Niet van toepassing. |
GPT-4 frequentielimieten
GPT-4.5 preview globale standaard
Modelleren | Rang | Quotumlimiet in tokens per minuut (TPM) | Aanvragen per minuut |
---|---|---|---|
gpt-4.5 |
Enterprise-laag | 200 K | 200 |
gpt-4.5 |
Verstek | 150 K | 150 |
GPT-4.1 serie globale standaard
Modelleren | Rang | Quotumlimiet in tokens per minuut (TPM) | Aanvragen per minuut |
---|---|---|---|
gpt-4.1 (2025-04-14) |
Enterprise-laag | 5 miljoen | 5 K |
gpt-4.1 (2025-04-14) |
Verstek | 1 miljoen | 1 Kelvin |
gpt-4.1-nano (2025-04-14) |
Enterprise-laag | 150 M | 150 K |
gpt-4.1-nano (2025-04-14) |
Verstek | 5 miljoen | 5 K |
gpt-4.1-mini (2025-04-14) |
Enterprise-laag | 150 M | 150 K |
gpt-4.1-mini (2025-04-14) |
Verstek | 5 miljoen | 5 K |
GPT-4.1-serie gegevenszonestandaard
Modelleren | Rang | Quotumlimiet in tokens per minuut (TPM) | Aanvragen per minuut |
---|---|---|---|
gpt-4.1 (2025-04-14) |
Enterprise-laag | 2 miljoen | 2 K |
gpt-4.1 (2025-04-14) |
Verstek | 300 Kelvin | 300 |
gpt-4.1-nano (2025-04-14) |
Enterprise-laag | 50 miljoen | 50 K |
gpt-4.1-nano (2025-04-14) |
Verstek | 2 miljoen | 2 K |
gpt-4.1-mini (2025-04-14) |
Enterprise-laag | 50 miljoen | 50 K |
gpt-4.1-mini (2025-04-14) |
Verstek | 2 miljoen | 2 K |
GPT-4 Turbo
gpt-4
(turbo-2024-04-09
) heeft frequentielimietlagen met hogere limieten voor bepaalde typen klanten.
Modelleren | Rang | Quotumlimiet in tokens per minuut (TPM) | Aanvragen per minuut |
---|---|---|---|
gpt-4 (turbo-2024-04-09) |
Ondernemingsovereenkomst | 2 miljoen | 12 K |
gpt-4 (turbo-2024-04-09) |
Verstek | 450 K | 2,7 K |
snelheidslimieten voor modelrouter
Modelleren | Rang | Quotumlimiet in tokens per minuut (TPM) | Aanvragen per minuut |
---|---|---|---|
model-router (2025-05-19) |
Enterprise-laag | 10 M | 10 K |
model-router (2025-05-19) |
Verstek | 1 miljoen | 1 Kelvin |
algemene standaardfrequentielimieten voor computer-use-preview
Modelleren | Rang | Quotumlimiet in tokens per minuut (TPM) | Aanvragen per minuut |
---|---|---|---|
computer-use-preview |
Enterprise-laag | 30 M | 300 Kelvin |
computer-use-preview |
Verstek | 450 K | 4,5 K |
frequentielimieten voor O-serie
Belangrijk
De verhouding van aanvragen per minuut (RPM) tot tokens per minuut (TPM) voor quotum kan per model variƫren. Wanneer u een model programmatisch implementeert of een quotumverhoging aanvraagt , hebt u geen gedetailleerde controle over TPM en RPM als onafhankelijke waarden. Het quotum wordt toegewezen in termen van capaciteitseenheden met overeenkomstige hoeveelheden RPM en TPM:
Modelleren | Capaciteit | Aanvragen per minuut (RPM) | Tokens per minuut (TPM) |
---|---|---|---|
Oudere chatmodellen: | 1 eenheid | 6 tpm | 1.000 TPM |
o1 & o1-preview: | 1 eenheid | 1 tpm | 6.000 TPM |
o3 | 1 eenheid | 1 tpm | 1.000 TPM |
o4-mini | 1 eenheid | 1 tpm | 1.000 TPM |
o3-mini: | 1 eenheid | 1 tpm | 10 000 TPM |
o1-mini: | 1 eenheid | 1 tpm | 10 000 TPM |
o3-pro: | 1 eenheid | 1 tpm | 10 000 TPM |
Dit is met name belangrijk voor programmatische modelimplementatie, omdat wijzigingen in de RPM-/TPM-verhouding kunnen leiden tot een onbedoelde onjuiste toewijzing van het quotum.
o-series wereldwijde standaard
Modelleren | Rang | Quotumlimiet in tokens per minuut (TPM) | Aanvragen per minuut |
---|---|---|---|
codex-mini |
Ondernemingsovereenkomst | 10 M | 10 K |
o3-pro |
Ondernemingsovereenkomst | 16 M | 1,6 K |
o4-mini |
Ondernemingsovereenkomst | 10 M | 10 K |
o3 |
Ondernemingsovereenkomst | 10 M | 10 K |
o3-mini |
Ondernemingsovereenkomst | 50 miljoen | 5 K |
o1 & o1-preview |
Ondernemingsovereenkomst | 30 M | 5 K |
o1-mini |
Ondernemingsovereenkomst | 50 miljoen | 5 K |
codex-mini |
Verstek | 1 miljoen | 1 Kelvin |
o3-pro |
Verstek | 1,6 M | 160 |
o4-mini |
Verstek | 1 miljoen | 1 Kelvin |
o3 |
Verstek | 1 miljoen | 1 Kelvin |
o3-mini |
Verstek | 5 miljoen | 500 |
o1 & o1-preview |
Verstek | 3 miljoen | 500 |
o1-mini |
Verstek | 5 miljoen | 500 |
standaard voor gegevenszone van de o-serie
Modelleren | Rang | Quotumlimiet in tokens per minuut (TPM) | Aanvragen per minuut |
---|---|---|---|
o3-mini |
Ondernemingsovereenkomst | 20 miljoen | 2 K |
o3-mini |
Verstek | 2 miljoen | 200 |
o1 |
Ondernemingsovereenkomst | 6 miljoen | 1 Kelvin |
o1 |
Verstek | 600 K | 100 |
o1-preview & o1-mini standaard
Modelleren | Rang | Quotumlimiet in tokens per minuut (TPM) | Aanvragen per minuut |
---|---|---|---|
o1-preview |
Ondernemingsovereenkomst | 600 K | 100 |
o1-mini |
Ondernemingsovereenkomst | 1 miljoen | 100 |
o1-preview |
Verstek | 300 Kelvin | 50 |
o1-mini |
Verstek | 500 K | 50 |
gpt-4o frequentielimieten
gpt-4o
en gpt-4o-mini
hebben frequentielimietlagen met hogere limieten voor bepaalde typen klanten.
gpt-4o globale standaard
Modelleren | Rang | Quotumlimiet in tokens per minuut (TPM) | Aanvragen per minuut |
---|---|---|---|
gpt-4o |
Ondernemingsovereenkomst | 30 M | 180 Kelvin |
gpt-4o-mini |
Ondernemingsovereenkomst | 50 miljoen | 300 Kelvin |
gpt-4o |
Verstek | 450 K | 2,7 K |
gpt-4o-mini |
Verstek | 2 miljoen | 12 K |
M = miljoen | K = duizend
gpt-4o-gegevenszonestandaard
Modelleren | Rang | Quotumlimiet in tokens per minuut (TPM) | Aanvragen per minuut |
---|---|---|---|
gpt-4o |
Ondernemingsovereenkomst | 10 M | 60 duizend |
gpt-4o-mini |
Ondernemingsovereenkomst | 20 miljoen | 120 Kelvin |
gpt-4o |
Verstek | 300 Kelvin | 1,8 K |
gpt-4o-mini |
Verstek | 1 miljoen | 6 K |
M = miljoen | K = duizend
gpt-4o standaard
Modelleren | Rang | Quotumlimiet in tokens per minuut (TPM) | Aanvragen per minuut |
---|---|---|---|
gpt-4o |
Ondernemingsovereenkomst | 1 miljoen | 6 K |
gpt-4o-mini |
Ondernemingsovereenkomst | 2 miljoen | 12 K |
gpt-4o |
Verstek | 150 K | 900 |
gpt-4o-mini |
Verstek | 450 K | 2,7 K |
M = miljoen | K = duizend
gpt-4o audio
De frequentielimieten voor elke implementatie van het gpt-4o
audiomodel zijn 100 K TPM en 1 K RPM. Tijdens de preview kunnen azure AI Foundry Portal en API's verschillende frequentielimieten onjuist weergeven. Zelfs als u een andere frequentielimiet probeert in te stellen, is de werkelijke frequentielimiet 100 K TPM en 1 K RPM.
Modelleren | Rang | Quotumlimiet in tokens per minuut (TPM) | Aanvragen per minuut |
---|---|---|---|
gpt-4o-audio-preview |
Verstek | 450 K | 1 Kelvin |
gpt-4o-realtime-preview |
Verstek | 800 Kelvin | 1 Kelvin |
gpt-4o-mini-audio-preview |
Verstek | 2 miljoen | 1 Kelvin |
gpt-4o-mini-realtime-preview |
Verstek | 800 Kelvin | 1 Kelvin |
M = miljoen | K = duizend
GPT-image-1-frequentielimieten
GPT0-image-1 globale standaard
Modelleren | Rang | Quotumlimiet in tokens per minuut (TPM) | Aanvragen per minuut |
---|---|---|---|
gpt-image-1 |
Ondernemingsovereenkomst | Niet van toepassing. | 20 |
gpt-image-1 |
Verstek | Niet van toepassing. | 6 |
Gebruiksniveaus
Globale standaardimplementaties maken gebruik van de wereldwijde infrastructuur van Azure, waarbij het klantverkeer dynamisch naar het datacenter met de beste beschikbaarheid voor de inferentieverzoeken van de klant wordt gerouteerd. Op dezelfde manier kunt u met standaardimplementaties voor gegevenszones de wereldwijde Azure-infrastructuur gebruiken om het verkeer dynamisch te routeren naar het datacenter binnen de gegevenszone die door Microsoft is gedefinieerd, met de beste beschikbaarheid voor elke aanvraag. Dit maakt consistentere latentie mogelijk voor klanten met een laag tot gemiddeld verkeersniveau. Klanten met een hoog blijvend gebruiksniveau kunnen meer variabiliteit in reactielatentie zien.
De gebruikslimiet bepaalt het gebruiksniveau waarboven klanten grotere variabiliteit in reactielatentie kunnen zien. Het gebruik van een klant wordt per model gedefinieerd en is het totale aantal tokens dat wordt gebruikt voor alle implementaties in alle abonnementen in alle regio's voor een bepaalde tenant.
Opmerking
Gebruikslagen zijn alleen van toepassing op standaard-, gegevenszone standaard en wereldwijde standaardimplementatietypen. Gebruikersniveaus zijn niet van toepassing op wereldwijde batch- en geconfigureerde doorvoerimplementaties.
Algemene standaard, gegevenszonestandaard, & standaard
Modelleren | Gebruiksniveaus per maand |
---|---|
gpt-4
+
gpt-4-32k (alle versies) |
6 Miljard tokens |
gpt-4o |
12 Miljard tokens |
gpt-4o-mini |
85 miljard tokens |
o3-mini |
50 Miljard tokens |
o1 |
4 miljard tokens |
o4-mini |
50 Miljard tokens |
o3 |
5 miljard tokens |
gpt-4.1 |
30 Miljard tokens |
gpt-4.1-mini |
150 miljard tokens |
gpt-4.1-nano |
550 Miljard tokens |
Andere aanbiedingstypen
Als uw Azure-abonnement is gekoppeld aan bepaalde aanbiedingstypen, zijn uw maximale quotumwaarden lager dan de waarden in de bovenstaande tabellen.
Rang | Quotumlimiet in tokens per minuut (TPM) |
---|---|
Azure for Students |
1 K (alle modellen) Uitzondering o-serie en GPT-4.1 en GPT 4.5 Preview: 0 |
MSDN |
GPT-4o-mini: 200 K GPT 3.5 Turbo Serie: 200 K GPT-4 serie: 50 K computergebruik voorbeeld: 8 K gpt-4o-realtime-preview: 1K O-serie: 0 GPT 4.5 Voorvertoning: 0 GPT-4.1: 50 K GPT-4.1-nano: 200 K |
Standard |
GPT-4o-mini: 200 K GPT 3.5 Turbo Serie: 200 K GPT-4 serie: 50 K computergebruik-voorbeeld: 30 K O-serie: 0 GPT 4.5 Voorvertoning: 0 GPT-4.1: 50 K GPT-4.1-nano: 200 K |
Azure_MS-AZR-0111P Azure_MS-AZR-0035P Azure_MS-AZR-0025P Azure_MS-AZR-0052P |
GPT-4o-mini: 200 K GPT 3.5 Turbo Serie: 200 K GPT-4 serie: 50 K |
CSP Integration Sandbox
*
|
Alle modellen: 0 |
Lightweight trial Free Trials Azure Pass |
Alle modellen: 0 |
*Dit geldt alleen voor een klein aantal verouderde CSP-sandboxabonnementen. Gebruik de onderstaande query om te bepalen wat quotaId
is gekoppeld aan uw abonnement.
Als u wilt bepalen welk type aanbieding aan uw abonnement is gekoppeld, kunt u uw quotaId
. Als uw quotaId
abonnement niet wordt vermeld in deze tabel, komt uw abonnement in aanmerking voor het standaardquotum.
az login
access_token=$(az account get-access-token --query accessToken -o tsv)
curl -X GET "https://management.azure.com/subscriptions/{subscriptionId}?api-version=2020-01-01" \
-H "Authorization: Bearer $access_token" \
-H "Content-Type: application/json"
Uitvoer
{
"authorizationSource": "Legacy",
"displayName": "Pay-As-You-Go",
"id": "/subscriptions/aaaaaa-bbbbb-cccc-ddddd-eeeeee",
"state": "Enabled",
"subscriptionId": "aaaaaa-bbbbb-cccc-ddddd-eeeeee",
"subscriptionPolicies": {
"locationPlacementId": "Public_2014-09-01",
"quotaId": "PayAsYouGo_2014-09-01",
"spendingLimit": "Off"
}
}
Quotumtoewijzing/aanbiedingstype | Quotum-id van abonnement |
---|---|
Onderneming | EnterpriseAgreement_2014-09-01 |
Betaal naar verbruik | PayAsYouGo_2014-09-01 |
MSDN | MSDN_2014-09-01 |
CSP Integration Sandbox | CSPDEVTEST_2018-05-01 |
Azure for Students | AzureForStudents_2018-01-01 |
Gratis proefversie | FreeTrial_2014-09-01 |
Azure Pass | AzurePass_2014-09-01 |
Azure_MS-AZR-0111P | AzureInOpen_2014-09-01 |
Azure_MS-AZR-0150P | LightweightTrial_2016-09-01 |
Azure_MS-AZR-0035P Azure_MS-AZR-0025P Azure_MS-AZR-0052P |
MPN_2014-09-01 |
Azure_MS-AZR-0023P Azure_MS-AZR-0060P Azure_MS-AZR-0148P Azure_MS-AZR-0148G |
MSDNDevTest_2014-09-01 |
Verstek | Een quotum-id die niet in deze tabel wordt vermeld |
Algemene aanbevolen praktijken om binnen de limieten te blijven
Als u problemen met betrekking tot frequentielimieten wilt minimaliseren, is het een goed idee om de volgende technieken te gebruiken:
- Implementeert logica voor opnieuw proberen in uw toepassing.
- Vermijd grote wijzigingen in de workload. Verhoog de workload geleidelijk.
- Test verschillende patronen voor belastingverhoging.
- Verhoog het quotum dat is toegewezen aan uw implementatie. Verplaats het quotum van een andere implementatie, indien nodig.
Quotumverhogingen aanvragen
Aanvragen voor quotumverhoging kunnen worden ingediend via het aanvraagformulier voor quotumverhoging. Vanwege een hoge vraag worden aanvragen voor quotumverhoging geaccepteerd en worden ze ingevuld in de volgorde waarin ze worden ontvangen. Er wordt prioriteit gegeven aan klanten die verkeer genereren dat gebruikmaakt van de bestaande quotumtoewijzing en uw aanvraag kan worden geweigerd als niet aan deze voorwaarde wordt voldaan.
Voor andere frequentielimieten dient u een serviceaanvraag in.
Regionale quotumcapaciteitslimieten
U kunt de beschikbaarheid van quota per regio voor uw abonnement bekijken in de Azure AI Foundry-portal.
Als u de quotumcapaciteit per regio wilt weergeven voor een specifiek model/een specifieke versie, kunt u ook een query uitvoeren op de capaciteits-API voor uw abonnement. Geef een subscriptionId
, model_name
en model_version
en de API retourneert de beschikbare capaciteit voor dat model in alle regio's en implementatietypen voor uw abonnement.
Opmerking
Momenteel retourneren zowel de Azure AI Foundry-portal als de capaciteits-API quotum-/capaciteitsgegevens voor modellen die buiten gebruik worden gesteld en niet meer beschikbaar zijn.
import requests
import json
from azure.identity import DefaultAzureCredential
subscriptionId = "Replace with your subscription ID" #replace with your subscription ID
model_name = "gpt-4o" # Example value, replace with model name
model_version = "2024-08-06" # Example value, replace with model version
token_credential = DefaultAzureCredential()
token = token_credential.get_token('https://management.azure.com/.default')
headers = {'Authorization': 'Bearer ' + token.token}
url = f"https://management.azure.com/subscriptions/{subscriptionId}/providers/Microsoft.CognitiveServices/modelCapacities"
params = {
"api-version": "2024-06-01-preview",
"modelFormat": "OpenAI",
"modelName": model_name,
"modelVersion": model_version
}
response = requests.get(url, params=params, headers=headers)
model_capacity = response.json()
print(json.dumps(model_capacity, indent=2))
Volgende stappen
Ontdek hoe u quota voor uw Azure OpenAI-implementaties beheert. Meer informatie over de onderliggende modellen die Azure OpenAI mogelijk maken.