Anteckning
Åtkomst till den här sidan kräver auktorisering. Du kan prova att logga in eller ändra kataloger.
Åtkomst till den här sidan kräver auktorisering. Du kan prova att ändra kataloger.
Den här artikeln innehåller en snabbreferens och en detaljerad beskrivning av kvoter och gränser för Azure OpenAI.
Referens för kvoter och gränser
I följande avsnitt får du en snabbguide till de standardkvoter och gränser som gäller för Azure OpenAI:
Gränsnamn | Gränsvärde |
---|---|
Azure OpenAI-resurser per region per Azure-abonnemang | 30 |
Standardgränser för DALL-E 2-kvoter | 2 samtidiga begäranden |
Standardgränser för DALL-E 3-kvoter | 2 kapacitetsenheter (6 begäranden per minut) |
Standardkvotgränser för GPT-image-1 | 2 kapacitetsenheter (6 begäranden per minut) |
Standardgränser för Sora-kvoter | 60 begäranden per minut |
Standardkvotgränser för API för tal-till-text | 3 begäranden per minut |
Maximalt antal prompttoken per begäran | Varierar per modell. Mer information finns i Azure OpenAI-modeller |
Maximalt antal standarddistributioner per resurs | 32 |
Maximalt antal finjusterade modellutplaceringar | 5 |
Totalt antal träningsjobb per resurs | 100 |
Maximalt antal samtidigt körande träningsjobb per resurs | 1 |
Maximalt antal träningsjobb i kö | 20 |
Maximalt antal filer för varje resurs (finjustering) | 50 |
Total storlek för alla filer per resurs (finjustering) | 1 GB |
Maximal tid för träningsjobb (jobbet misslyckas om det överskrids) | 720 timmar |
Maximal storlek på träningsjobb (token i träningsfilen) x (antal epoker) | 2 miljarder |
Maximal storlek på alla filer per uppladdning (Azure OpenAI på dina data) | 16 MB |
Maximalt antal indata i matrisen med /embeddings |
2048 |
Maximalt antal /chat/completions meddelanden |
2048 |
Maximalt antal /chat/completions funktioner |
128 |
Maximalt antal /chat completions verktyg |
128 |
Maximalt antal tilldelade genomströmningsenheter per distribution | 100 000 |
Maximalt antal filer per assistent/tråd | 10 000 när du använder API:et eller Azure AI Foundry-portalen. |
Maximal filstorlek för assistenter och finjustering | 512 MB 200 MB genom Azure AI Foundry-portalen |
Maximal storlek för alla uppladdade filer för assistenter | 200 GB |
Tokengräns för assistenter | 2 000 000 tokengräns |
GPT-4o och GPT-4.1 max bilder per begäran (antal bilder i meddelandematrisen/konversationshistoriken) | 50 |
GPT-4 vision-preview & GPT-4 turbo-2024-04-09 standardinställning maxantal token |
16 max_tokens Öka parametervärdet för att undvika trunkerade svar. GPT-4o maxtoken är som standard 4 096. |
Maximalt antal anpassade rubriker i API-begäranden1 | 10 |
Meddelandeteckengräns | 1048576 |
Meddelandestorlek för ljudfiler | 20 MB |
1 Våra aktuella API:er tillåter upp till 10 anpassade huvuden som skickas via pipelinen och returneras. Vissa kunder överskrider nu det här antalet headerfält, vilket resulterar i HTTP 431-fel. Det finns ingen lösning på det här felet, förutom att minska rubrikvolymen. I framtida API-versioner passerar vi inte längre anpassade rubriker. Vi rekommenderar att kunderna inte är beroende av anpassade rubriker i framtida systemarkitekturer.
Anmärkning
Kvotgränser kan komma att ändras.
Batchgränser
Gränsnamn | Gränsvärde |
---|---|
Maximalt antal filer per resurs | 500 |
Maximal filstorlek för indata | 200 MB |
Maximalt antal begäranden per fil | 100 000 |
Batchkvot
Tabellen visar batchkvotgränsen. Kvotvärden för global batch representeras i termer av köade token. När du skickar en fil för batchbearbetning räknas antalet token som finns i filen. Tills batchprocessen når ett endpunktstillstånd kommer dessa token att räknas mot din totala tillåtna tokengräns.
Global omgång
Modell | Enterprise-avtal | Förinställning | Månatliga kreditkortsbaserade prenumerationer | MSDN-prenumerationer | Azure for Students, kostnadsfria utvärderingsversioner |
---|---|---|---|---|---|
gpt-4.1 |
5 B | 200 miljoner | 50 miljoner | 90 K | Inte tillgänglig |
gpt-4.1 mini |
15B | 1B | 50 M | 90k | Inte tillgänglig |
gpt-4.1-nano |
15 B | 1 B | 50 miljoner | 90 K | Inte tillgänglig |
gpt-4o |
5 B | 200 miljoner | 50 miljoner | 90 K | Inte tillgänglig |
gpt-4o-mini |
15 B | 1 B | 50 miljoner | 90 K | Inte tillgänglig |
gpt-4-turbo |
300 miljoner | 80 miljoner | 40 M | 90 K | Inte tillgänglig |
gpt-4 |
150 M | 30 M | 5 miljoner | 100 000 | Inte tillgänglig |
gpt-35-turbo |
10 B | 1 B | 100 M | 2 miljoner | 50 000 kronor |
o3-mini |
15 B | 1 B | 50 miljoner | 90 K | Inte tillgänglig |
o4-mini |
15 B | 1 B | 50 miljoner | 90 K | Inte tillgänglig |
B = miljarder | M = miljoner | K = tusen
Datazonsgrupp
Modell | Enterprise-avtal | Förinställning | Månatliga kreditkortsbaserade prenumerationer | MSDN-prenumerationer | Azure for Students, kostnadsfria utvärderingsversioner |
---|---|---|---|---|---|
gpt-4.1 |
500 miljoner | 30 M | 30 M | 90 K | Inte tillgänglig |
gpt-4.1-mini |
1,5 B | 100 M | 50 miljoner | 90 K | Inte tillgänglig |
gpt-4o |
500 miljoner | 30 M | 30 M | 90 K | Inte tillgänglig |
gpt-4o-mini |
1,5 B | 100 M | 50 miljoner | 90 K | Inte tillgänglig |
o3-mini |
1,5 B | 100 M | 50 miljoner | 90 K | Inte tillgänglig |
GPT-4-hastighetsgränser
GPT-4.5 förhandsversion av global standard
Modell | Nivå | Kvotgräns i token per minut (TPM) | Antal begäranden per minut |
---|---|---|---|
gpt-4.5 |
Företagsnivå | 200 K | 200 |
gpt-4.5 |
Förinställning | 150 K | 150 |
Global standard i GPT-4.1-serien
Modell | Nivå | Kvotgräns i token per minut (TPM) | Antal begäranden per minut |
---|---|---|---|
gpt-4.1 (2025-04-14) |
Företagsnivå | 5 miljoner | 5 K |
gpt-4.1 (2025-04-14) |
Förinställning | 1 miljon | 1 Kelvin |
gpt-4.1-nano (2025-04-14) |
Företagsnivå | 150 M | 150 K |
gpt-4.1-nano (2025-04-14) |
Förinställning | 5 miljoner | 5 K |
gpt-4.1-mini (2025-04-14) |
Företagsnivå | 150 M | 150 K |
gpt-4.1-mini (2025-04-14) |
Förinställning | 5 miljoner | 5 K |
GPT-4.1-seriens datazonstandard
Modell | Nivå | Kvotgräns i token per minut (TPM) | Antal begäranden per minut |
---|---|---|---|
gpt-4.1 (2025-04-14) |
Företagsnivå | 2 miljoner | 2 K |
gpt-4.1 (2025-04-14) |
Förinställning | 300 K | 300 |
gpt-4.1-nano (2025-04-14) |
Företagsnivå | 50 miljoner | 50 000 kronor |
gpt-4.1-nano (2025-04-14) |
Förinställning | 2 miljoner | 2 K |
gpt-4.1-mini (2025-04-14) |
Företagsnivå | 50 miljoner | 50 000 kronor |
gpt-4.1-mini (2025-04-14) |
Förinställning | 2 miljoner | 2 K |
GPT-4 Turbo
gpt-4
(turbo-2024-04-09
) har frekvensgränsnivåer med högre gränser för vissa kundtyper.
Modell | Nivå | Kvotgräns i token per minut (TPM) | Antal begäranden per minut |
---|---|---|---|
gpt-4 (turbo-2024-04-09) |
Enterprise-avtal | 2 miljoner | 12 K |
gpt-4 (turbo-2024-04-09) |
Förinställning | 450 K | 2,7 K |
hastighetsgränser för modellrouter
Modell | Nivå | Kvotgräns i token per minut (TPM) | Antal begäranden per minut |
---|---|---|---|
model-router (2025-05-19) |
Företagsnivå | 10 M | 10 Kelvin |
model-router (2025-05-19) |
Förinställning | 1 miljon | 1 Kelvin |
globala standardfrekvensgränser för datoranvändningsförhandsgranskning
Modell | Nivå | Kvotgräns i token per minut (TPM) | Antal begäranden per minut |
---|---|---|---|
computer-use-preview |
Företagsnivå | 30 M | 300 K |
computer-use-preview |
Förinställning | 450 K | 4,5 K |
Hastighetsbegränsningar för O-serien
Viktigt!
Förhållandet mellan begäranden per minut (RPM) och token per minut (TPM) för kvot kan variera beroende på modell. När du distribuerar en modell programmatiskt eller begär en kvotökning har du inte detaljerad kontroll över TPM och RPM som oberoende värden. Kvoten allokeras när det gäller kapacitetsenheter som har motsvarande mängder RPM och TPM:
Modell | Kapacitet | Begäranden per minut (RPM) | Token per minut (TPM) |
---|---|---|---|
Äldre chattmodeller: | 1 enhet | 6 varv per minut (rpm) | 1 000 TPM |
o1 &o1-preview: | 1 enhet | 1 varv per minut | 6 000 TPM |
o3 | 1 enhet | 1 varv per minut | 1 000 TPM |
o4-mini | 1 enhet | 1 varv per minut | 1 000 TPM |
o3-mini: | 1 enhet | 1 varv per minut | 10 000 TPM |
o1-mini: | 1 enhet | 1 varv per minut | 10 000 TPM |
o3-pro: | 1 enhet | 1 varv per minut | 10 000 TPM |
Detta är särskilt viktigt för programmatisk modelldistribution eftersom ändringar i RPM/TPM-förhållandet kan leda till oavsiktlig felallokering av kvoten.
global standard för o-seriens
Modell | Nivå | Kvotgräns i token per minut (TPM) | Antal begäranden per minut |
---|---|---|---|
codex-mini |
Enterprise-avtal | 10 M | 10 Kelvin |
o3-pro |
Enterprise-avtal | 16 M | 1,6 K |
o4-mini |
Enterprise-avtal | 10 M | 10 Kelvin |
o3 |
Enterprise-avtal | 10 M | 10 Kelvin |
o3-mini |
Enterprise-avtal | 50 miljoner | 5 K |
o1 & o1-preview |
Enterprise-avtal | 30 M | 5 K |
o1-mini |
Enterprise-avtal | 50 miljoner | 5 K |
codex-mini |
Förinställning | 1 miljon | 1 Kelvin |
o3-pro |
Förinställning | 1,6 miljoner | 160 |
o4-mini |
Förinställning | 1 miljon | 1 Kelvin |
o3 |
Förinställning | 1 miljon | 1 Kelvin |
o3-mini |
Förinställning | 5 miljoner | 500 |
o1 & o1-preview |
Förinställning | 3 miljoner | 500 |
o1-mini |
Förinställning | 5 miljoner | 500 |
o-seriens standard för datazon
Modell | Nivå | Kvotgräns i token per minut (TPM) | Antal begäranden per minut |
---|---|---|---|
o3-mini |
Enterprise-avtal | 20 M | 2 K |
o3-mini |
Förinställning | 2 miljoner | 200 |
o1 |
Enterprise-avtal | 6 miljoner | 1 Kelvin |
o1 |
Förinställning | 600 K | 100 |
o1-preview och o1-mini standard
Modell | Nivå | Kvotgräns i token per minut (TPM) | Antal begäranden per minut |
---|---|---|---|
o1-preview |
Enterprise-avtal | 600 K | 100 |
o1-mini |
Enterprise-avtal | 1 miljon | 100 |
o1-preview |
Förinställning | 300 K | 50 |
o1-mini |
Förinställning | 500 K | 50 |
gpt-4o-hastighetsgränser
gpt-4o
och gpt-4o-mini
har frekvensgränsnivåer med högre gränser för vissa kundtyper.
gpt-4o global standard
Modell | Nivå | Kvotgräns i token per minut (TPM) | Antal begäranden per minut |
---|---|---|---|
gpt-4o |
Enterprise-avtal | 30 M | 180 Kelvin |
gpt-4o-mini |
Enterprise-avtal | 50 miljoner | 300 K |
gpt-4o |
Förinställning | 450 K | 2,7 K |
gpt-4o-mini |
Förinställning | 2 miljoner | 12 K |
M = miljoner | K = tusen
gpt-4o datazonsstandard
Modell | Nivå | Kvotgräns i token per minut (TPM) | Antal begäranden per minut |
---|---|---|---|
gpt-4o |
Enterprise-avtal | 10 M | 60 K |
gpt-4o-mini |
Enterprise-avtal | 20 M | 120 K |
gpt-4o |
Förinställning | 300 K | 1,8 K |
gpt-4o-mini |
Förinställning | 1 miljon | 6 K |
M = miljoner | K = tusen
gpt-4o standard
Modell | Nivå | Kvotgräns i token per minut (TPM) | Antal begäranden per minut |
---|---|---|---|
gpt-4o |
Enterprise-avtal | 1 miljon | 6 K |
gpt-4o-mini |
Enterprise-avtal | 2 miljoner | 12 K |
gpt-4o |
Förinställning | 150 K | 900 |
gpt-4o-mini |
Förinställning | 450 K | 2,7 K |
M = miljoner | K = tusen
GPT-4o-ljud
Hastighetsgränserna för varje gpt-4o
distribution av ljudmodeller är 100 K TPM och 1 K RPM. Under förhandsversionen kan Azure AI Foundry-portalen och API:er felaktigt visa olika hastighetsgränser. Även om du försöker ange en annan hastighetsgräns är den faktiska hastighetsgränsen 100 K TPM och 1 K RPM.
Modell | Nivå | Kvotgräns i token per minut (TPM) | Antal begäranden per minut |
---|---|---|---|
gpt-4o-audio-preview |
Förinställning | 450 K | 1 Kelvin |
gpt-4o-realtime-preview |
Förinställning | 800 kelvin | 1 Kelvin |
gpt-4o-mini-audio-preview |
Förinställning | 2 miljoner | 1 Kelvin |
gpt-4o-mini-realtime-preview |
Förinställning | 800 kelvin | 1 Kelvin |
M = miljoner | K = tusen
GPT-image-1-hastighetsgränser
GLOBAL STANDARD FÖR GPT0-image-1
Modell | Nivå | Kvotgräns i token per minut (TPM) | Antal begäranden per minut |
---|---|---|---|
gpt-image-1 |
Enterprise-avtal | Inte tillgänglig | 20 |
gpt-image-1 |
Förinställning | Inte tillgänglig | 6 |
Användningsnivåer
Globala standarddistributioner använder Azures globala infrastruktur och dirigerar dynamiskt kundtrafik till datacentret med bästa tillgänglighet för kundens slutsatsdragningsbegäranden. På samma sätt tillåter datazons standardinstallationer dig att använda Azure global infrastruktur för att dynamiskt dirigera trafik till datacentret inom den Microsoft-definierade datazonen med bäst tillgänglighet för varje förfrågan. Detta möjliggör mer konsekvent svarstid för kunder med låg till medelhög trafiknivå. Kunder med hög ihållande användningsnivå kan se större variabilitet i svarsfördröjningen.
Användningsgränsen avgör vid vilken användningsnivå kunderna kan uppleva större variabilitet i svarsfördröjningen. En kunds användning definieras per modelltyp och är det totala antalet tokens som används i alla distributioner i alla prenumerationer i alla regioner för en viss hyresgäst.
Anmärkning
Användningsnivåer gäller endast för standard-, datazonstandard- och globala standarddistributionstyper. Användningsnivåer gäller inte för distributioner av global batch och tilldelad genomströmning.
Global standard, datazonstandard, &standard
Modell | Användningsnivåer per månad |
---|---|
gpt-4
+
gpt-4-32k (alla versioner) |
6 miljarder token |
gpt-4o |
12 miljarder token |
gpt-4o-mini |
85 miljarder token |
o3-mini |
50 miljarder token |
o1 |
4 miljarder token |
o4-mini |
50 miljarder token |
o3 |
5 miljarder token |
gpt-4.1 |
30 miljarder token |
gpt-4.1-mini |
150 miljarder token |
gpt-4.1-nano |
550 miljarder token |
Andra erbjudandetyper
Om din Azure-prenumeration är länkad till vissa erbjudandetyper är dina högsta kvotvärden lägre än de värden som anges i tabellerna ovan.
Nivå | Kvotgräns i token per minut (TPM) |
---|---|
Azure for Students |
1 K (alla modeller) Exception o-serien & GPT-4.1 & GPT 4.5 Förhandsvisning: 0 |
MSDN |
GPT-4o-mini: 200 K GPT 3.5 Turbo Serie: 200 K GPT-4-serien: 50 K Förhandsvisning av datoranvändning: 8 K gpt-4o-realtime-preview: 1 kB o-serien: 0 GPT 4.5 Förhandsvisning: 0 GPT-4.1: 50 K GPT-4.1-nano: 200 K |
Standard |
GPT-4o-mini: 200 K GPT 3.5 Turbo Serie: 200 K GPT-4-serien: 50 K datoranvändningsförhandsgranskning: 30 K o-serien: 0 GPT 4.5 Förhandsvisning: 0 GPT-4.1: 50 K GPT-4.1-nano: 200 K |
Azure_MS-AZR-0111P Azure_MS-AZR-0035P Azure_MS-AZR-0025P Azure_MS-AZR-0052P |
GPT-4o-mini: 200 K GPT 3.5 Turbo Serie: 200 K GPT-4-serien: 50 K |
CSP Integration Sandbox
*
|
Alla modeller: 0 |
Lightweight trial Free Trials Azure Pass |
Alla modeller: 0 |
*Detta gäller endast ett litet antal äldre CSP sandbox-abonnemang. Använd frågan nedan för att avgöra vad quotaId
som är associerat med din prenumeration.
Om du vill fastställa vilken erbjudandetyp som är associerad med din prenumeration kan du kontrollera din quotaId
. Om din quotaId
inte visas i den här tabellen är din prenumeration berättigad till standardkvot.
az login
access_token=$(az account get-access-token --query accessToken -o tsv)
curl -X GET "https://management.azure.com/subscriptions/{subscriptionId}?api-version=2020-01-01" \
-H "Authorization: Bearer $access_token" \
-H "Content-Type: application/json"
Utgång
{
"authorizationSource": "Legacy",
"displayName": "Pay-As-You-Go",
"id": "/subscriptions/aaaaaa-bbbbb-cccc-ddddd-eeeeee",
"state": "Enabled",
"subscriptionId": "aaaaaa-bbbbb-cccc-ddddd-eeeeee",
"subscriptionPolicies": {
"locationPlacementId": "Public_2014-09-01",
"quotaId": "PayAsYouGo_2014-09-01",
"spendingLimit": "Off"
}
}
Kvottilldelning/Erbjudandetyp | Prenumerationskvot-ID |
---|---|
Företag | EnterpriseAgreement_2014-09-01 |
Betala efter hand | PayAsYouGo_2014-09-01 |
MSDN | MSDN_2014-09-01 |
Sandbox-miljö för CSP-integrering | CSPDEVTEST_2018-05-01 |
Azure for Students | AzureForStudents_2018-01-01 |
Kostnadsfri utvärdering | FreeTrial_2014-09-01 |
Azure Pass | AzurePass_2014-09-01 |
Azure_MS-AZR-0111P | AzureInOpen_2014-09-01 |
Azure_MS-AZR-0150P | LightweightTrial_2016-09-01 |
Azure_MS-AZR-0035P Azure_MS-AZR-0025P Azure_MS-AZR-0052P |
MPN_2014-09-01 |
Azure_MS-AZR-0023P Azure_MS-AZR-0060P Azure_MS-AZR-0148P Azure_MS-AZR-0148G |
MSDNDevTest_2014-09-01 |
Förinställning | Någon kvot-ID som inte finns med i den här tabellen |
Allmänna metodtips för att hålla sig inom hastighetsgränser
För att minimera problem som rör hastighetsbegränsningar är det en bra idé att använda följande tekniker:
- Implementera logik för omprövning i ditt program.
- Undvik stora plötsliga ändringar i arbetsbelastningen. Öka arbetsbelastningen gradvis.
- Testa olika mönster för att öka belastningen.
- Öka kvoten som tilldelats din distribution. Flytta kvoten från en annan utplacering vid behov.
Så här begär du kvotökningar
Begäranden om kvotökning kan skickas via formuläret för begäran om kvotökning. På grund av hög efterfrågan godkänns begäranden om kvotökning och fylls i i den ordning de tas emot. Prioritet ges till kunder som genererar trafik som förbrukar den befintliga kvotallokeringen och din begäran kan nekas om det här villkoret inte uppfylls.
Skicka en tjänstbegäran för andra hastighetsgränser.
Regionala kvotkapacitetsgränser
Du kan visa kvottillgänglighet per region för din prenumeration i Azure AI Foundry-portalen.
Alternativt, för att se kvotkapacitet per region för en specifik modell/version, kan du fråga kapacitets-API:n för ditt abonnemang. Ange en subscriptionId
, model_name
och model_version
och API:et returnerar den tillgängliga kapaciteten för den modellen i alla regioner och distributionstyper för din prenumeration.
Anmärkning
För närvarande returnerar både Azure AI Foundry-portalen och kapacitets-API:et kvot-/kapacitetsinformation för modeller som har dragits tillbaka och inte längre är tillgängliga.
import requests
import json
from azure.identity import DefaultAzureCredential
subscriptionId = "Replace with your subscription ID" #replace with your subscription ID
model_name = "gpt-4o" # Example value, replace with model name
model_version = "2024-08-06" # Example value, replace with model version
token_credential = DefaultAzureCredential()
token = token_credential.get_token('https://management.azure.com/.default')
headers = {'Authorization': 'Bearer ' + token.token}
url = f"https://management.azure.com/subscriptions/{subscriptionId}/providers/Microsoft.CognitiveServices/modelCapacities"
params = {
"api-version": "2024-06-01-preview",
"modelFormat": "OpenAI",
"modelName": model_name,
"modelVersion": model_version
}
response = requests.get(url, params=params, headers=headers)
model_capacity = response.json()
print(json.dumps(model_capacity, indent=2))
Nästa steg
Utforska hur du hanterar kvoter för dina Azure OpenAI-distributioner. Läs mer om de underliggande modeller som driver Azure OpenAI.