Kvoter och gränser för Azure OpenAI i Azure AI Foundry Models

2025-07-03

Den här artikeln innehåller en snabbreferens och en detaljerad beskrivning av kvoter och gränser för Azure OpenAI.

Referens för kvoter och gränser

I följande avsnitt får du en snabbguide till de standardkvoter och gränser som gäller för Azure OpenAI:

Gränsnamn	Gränsvärde
Azure OpenAI-resurser per region per Azure-abonnemang	30
Standardgränser för DALL-E 2-kvoter	2 samtidiga begäranden
Standardgränser för DALL-E 3-kvoter	2 kapacitetsenheter (6 begäranden per minut)
Standardkvotgränser för GPT-image-1	2 kapacitetsenheter (6 begäranden per minut)
Standardgränser för Sora-kvoter	60 begäranden per minut
Standardkvotgränser för API för tal-till-text	3 begäranden per minut
Maximalt antal prompttoken per begäran	Varierar per modell. Mer information finns i Azure OpenAI-modeller
Maximalt antal standarddistributioner per resurs	32
Maximalt antal finjusterade modellutplaceringar	5
Totalt antal träningsjobb per resurs	100
Maximalt antal samtidigt körande träningsjobb per resurs	1
Maximalt antal träningsjobb i kö	20
Maximalt antal filer för varje resurs (finjustering)	50
Total storlek för alla filer per resurs (finjustering)	1 GB
Maximal tid för träningsjobb (jobbet misslyckas om det överskrids)	720 timmar
Maximal storlek på träningsjobb (token i träningsfilen) x (antal epoker)	2 miljarder
Maximal storlek på alla filer per uppladdning (Azure OpenAI på dina data)	16 MB
Maximalt antal indata i matrisen med `/embeddings`	2048
Maximalt antal `/chat/completions` meddelanden	2048
Maximalt antal `/chat/completions` funktioner	128
Maximalt antal `/chat completions` verktyg	128
Maximalt antal tilldelade genomströmningsenheter per distribution	100 000
Maximalt antal filer per assistent/tråd	10 000 när du använder API:et eller Azure AI Foundry-portalen.
Maximal filstorlek för assistenter och finjustering	512 MB 200 MB genom Azure AI Foundry-portalen
Maximal storlek för alla uppladdade filer för assistenter	200 GB
Tokengräns för assistenter	2 000 000 tokengräns
GPT-4o och GPT-4.1 max bilder per begäran (antal bilder i meddelandematrisen/konversationshistoriken)	50
GPT-4 `vision-preview` & GPT-4 `turbo-2024-04-09` standardinställning maxantal token	16 `max_tokens` Öka parametervärdet för att undvika trunkerade svar. GPT-4o maxtoken är som standard 4 096.
Maximalt antal anpassade rubriker i API-begäranden¹	10
Meddelandeteckengräns	1048576
Meddelandestorlek för ljudfiler	20 MB

¹ Våra aktuella API:er tillåter upp till 10 anpassade huvuden som skickas via pipelinen och returneras. Vissa kunder överskrider nu det här antalet headerfält, vilket resulterar i HTTP 431-fel. Det finns ingen lösning på det här felet, förutom att minska rubrikvolymen. I framtida API-versioner passerar vi inte längre anpassade rubriker. Vi rekommenderar att kunderna inte är beroende av anpassade rubriker i framtida systemarkitekturer.

Anmärkning

Kvotgränser kan komma att ändras.

Batchgränser

Gränsnamn	Gränsvärde
Maximalt antal filer per resurs	500
Maximal filstorlek för indata	200 MB
Maximalt antal begäranden per fil	100 000

Batchkvot

Tabellen visar batchkvotgränsen. Kvotvärden för global batch representeras i termer av köade token. När du skickar en fil för batchbearbetning räknas antalet token som finns i filen. Tills batchprocessen når ett endpunktstillstånd kommer dessa token att räknas mot din totala tillåtna tokengräns.

Global omgång

Modell	Enterprise-avtal	Förinställning	Månatliga kreditkortsbaserade prenumerationer	MSDN-prenumerationer	Azure for Students, kostnadsfria utvärderingsversioner
`gpt-4.1`	5 B	200 miljoner	50 miljoner	90 K	Inte tillgänglig
`gpt-4.1 mini`	15B	1B	50 M	90k	Inte tillgänglig
`gpt-4.1-nano`	15 B	1 B	50 miljoner	90 K	Inte tillgänglig
`gpt-4o`	5 B	200 miljoner	50 miljoner	90 K	Inte tillgänglig
`gpt-4o-mini`	15 B	1 B	50 miljoner	90 K	Inte tillgänglig
`gpt-4-turbo`	300 miljoner	80 miljoner	40 M	90 K	Inte tillgänglig
`gpt-4`	150 M	30 M	5 miljoner	100 000	Inte tillgänglig
`gpt-35-turbo`	10 B	1 B	100 M	2 miljoner	50 000 kronor
`o3-mini`	15 B	1 B	50 miljoner	90 K	Inte tillgänglig
`o4-mini`	15 B	1 B	50 miljoner	90 K	Inte tillgänglig

B = miljarder | M = miljoner | K = tusen

Datazonsgrupp

Modell	Enterprise-avtal	Förinställning	Månatliga kreditkortsbaserade prenumerationer	MSDN-prenumerationer	Azure for Students, kostnadsfria utvärderingsversioner
`gpt-4.1`	500 miljoner	30 M	30 M	90 K	Inte tillgänglig
`gpt-4.1-mini`	1,5 B	100 M	50 miljoner	90 K	Inte tillgänglig
`gpt-4o`	500 miljoner	30 M	30 M	90 K	Inte tillgänglig
`gpt-4o-mini`	1,5 B	100 M	50 miljoner	90 K	Inte tillgänglig
`o3-mini`	1,5 B	100 M	50 miljoner	90 K	Inte tillgänglig

GPT-4-hastighetsgränser

GPT-4.5 förhandsversion av global standard

Modell	Nivå	Kvotgräns i token per minut (TPM)	Antal begäranden per minut
`gpt-4.5`	Företagsnivå	200 K	200
`gpt-4.5`	Förinställning	150 K	150

Global standard i GPT-4.1-serien

Modell	Nivå	Kvotgräns i token per minut (TPM)	Antal begäranden per minut
`gpt-4.1` (2025-04-14)	Företagsnivå	5 miljoner	5 K
`gpt-4.1` (2025-04-14)	Förinställning	1 miljon	1 Kelvin
`gpt-4.1-nano` (2025-04-14)	Företagsnivå	150 M	150 K
`gpt-4.1-nano` (2025-04-14)	Förinställning	5 miljoner	5 K
`gpt-4.1-mini` (2025-04-14)	Företagsnivå	150 M	150 K
`gpt-4.1-mini` (2025-04-14)	Förinställning	5 miljoner	5 K

GPT-4.1-seriens datazonstandard

Modell	Nivå	Kvotgräns i token per minut (TPM)	Antal begäranden per minut
`gpt-4.1` (2025-04-14)	Företagsnivå	2 miljoner	2 K
`gpt-4.1` (2025-04-14)	Förinställning	300 K	300
`gpt-4.1-nano` (2025-04-14)	Företagsnivå	50 miljoner	50 000 kronor
`gpt-4.1-nano` (2025-04-14)	Förinställning	2 miljoner	2 K
`gpt-4.1-mini` (2025-04-14)	Företagsnivå	50 miljoner	50 000 kronor
`gpt-4.1-mini` (2025-04-14)	Förinställning	2 miljoner	2 K

GPT-4 Turbo

gpt-4 (turbo-2024-04-09) har frekvensgränsnivåer med högre gränser för vissa kundtyper.

Modell	Nivå	Kvotgräns i token per minut (TPM)	Antal begäranden per minut
`gpt-4` (turbo-2024-04-09)	Enterprise-avtal	2 miljoner	12 K
`gpt-4` (turbo-2024-04-09)	Förinställning	450 K	2,7 K

hastighetsgränser för modellrouter

Modell	Nivå	Kvotgräns i token per minut (TPM)	Antal begäranden per minut
`model-router` (2025-05-19)	Företagsnivå	10 M	10 Kelvin
`model-router` (2025-05-19)	Förinställning	1 miljon	1 Kelvin

globala standardfrekvensgränser för datoranvändningsförhandsgranskning

Modell	Nivå	Kvotgräns i token per minut (TPM)	Antal begäranden per minut
`computer-use-preview`	Företagsnivå	30 M	300 K
`computer-use-preview`	Förinställning	450 K	4,5 K

Hastighetsbegränsningar för O-serien

Viktigt!

Förhållandet mellan begäranden per minut (RPM) och token per minut (TPM) för kvot kan variera beroende på modell. När du distribuerar en modell programmatiskt eller begär en kvotökning har du inte detaljerad kontroll över TPM och RPM som oberoende värden. Kvoten allokeras när det gäller kapacitetsenheter som har motsvarande mängder RPM och TPM:

Modell	Kapacitet	Begäranden per minut (RPM)	Token per minut (TPM)
Äldre chattmodeller:	1 enhet	6 varv per minut (rpm)	1 000 TPM
o1 &o1-preview:	1 enhet	1 varv per minut	6 000 TPM
o3	1 enhet	1 varv per minut	1 000 TPM
o4-mini	1 enhet	1 varv per minut	1 000 TPM
o3-mini:	1 enhet	1 varv per minut	10 000 TPM
o1-mini:	1 enhet	1 varv per minut	10 000 TPM
o3-pro:	1 enhet	1 varv per minut	10 000 TPM

Detta är särskilt viktigt för programmatisk modelldistribution eftersom ändringar i RPM/TPM-förhållandet kan leda till oavsiktlig felallokering av kvoten.

global standard för o-seriens

Modell	Nivå	Kvotgräns i token per minut (TPM)	Antal begäranden per minut
`codex-mini`	Enterprise-avtal	10 M	10 Kelvin
`o3-pro`	Enterprise-avtal	16 M	1,6 K
`o4-mini`	Enterprise-avtal	10 M	10 Kelvin
`o3`	Enterprise-avtal	10 M	10 Kelvin
`o3-mini`	Enterprise-avtal	50 miljoner	5 K
`o1` & `o1-preview`	Enterprise-avtal	30 M	5 K
`o1-mini`	Enterprise-avtal	50 miljoner	5 K
`codex-mini`	Förinställning	1 miljon	1 Kelvin
`o3-pro`	Förinställning	1,6 miljoner	160
`o4-mini`	Förinställning	1 miljon	1 Kelvin
`o3`	Förinställning	1 miljon	1 Kelvin
`o3-mini`	Förinställning	5 miljoner	500
`o1` & `o1-preview`	Förinställning	3 miljoner	500
`o1-mini`	Förinställning	5 miljoner	500

o-seriens standard för datazon

Modell	Nivå	Kvotgräns i token per minut (TPM)	Antal begäranden per minut
`o3-mini`	Enterprise-avtal	20 M	2 K
`o3-mini`	Förinställning	2 miljoner	200
`o1`	Enterprise-avtal	6 miljoner	1 Kelvin
`o1`	Förinställning	600 K	100

o1-preview och o1-mini standard

Modell	Nivå	Kvotgräns i token per minut (TPM)	Antal begäranden per minut
`o1-preview`	Enterprise-avtal	600 K	100
`o1-mini`	Enterprise-avtal	1 miljon	100
`o1-preview`	Förinställning	300 K	50
`o1-mini`	Förinställning	500 K	50

gpt-4o-hastighetsgränser

gpt-4o och gpt-4o-mini har frekvensgränsnivåer med högre gränser för vissa kundtyper.

gpt-4o global standard

Modell	Nivå	Kvotgräns i token per minut (TPM)	Antal begäranden per minut
`gpt-4o`	Enterprise-avtal	30 M	180 Kelvin
`gpt-4o-mini`	Enterprise-avtal	50 miljoner	300 K
`gpt-4o`	Förinställning	450 K	2,7 K
`gpt-4o-mini`	Förinställning	2 miljoner	12 K

M = miljoner | K = tusen

gpt-4o datazonsstandard

Modell	Nivå	Kvotgräns i token per minut (TPM)	Antal begäranden per minut
`gpt-4o`	Enterprise-avtal	10 M	60 K
`gpt-4o-mini`	Enterprise-avtal	20 M	120 K
`gpt-4o`	Förinställning	300 K	1,8 K
`gpt-4o-mini`	Förinställning	1 miljon	6 K

M = miljoner | K = tusen

gpt-4o standard

Modell	Nivå	Kvotgräns i token per minut (TPM)	Antal begäranden per minut
`gpt-4o`	Enterprise-avtal	1 miljon	6 K
`gpt-4o-mini`	Enterprise-avtal	2 miljoner	12 K
`gpt-4o`	Förinställning	150 K	900
`gpt-4o-mini`	Förinställning	450 K	2,7 K

M = miljoner | K = tusen

GPT-4o-ljud

Hastighetsgränserna för varje gpt-4o distribution av ljudmodeller är 100 K TPM och 1 K RPM. Under förhandsversionen kan Azure AI Foundry-portalen och API:er felaktigt visa olika hastighetsgränser. Även om du försöker ange en annan hastighetsgräns är den faktiska hastighetsgränsen 100 K TPM och 1 K RPM.

Modell	Nivå	Kvotgräns i token per minut (TPM)	Antal begäranden per minut
`gpt-4o-audio-preview`	Förinställning	450 K	1 Kelvin
`gpt-4o-realtime-preview`	Förinställning	800 kelvin	1 Kelvin
`gpt-4o-mini-audio-preview`	Förinställning	2 miljoner	1 Kelvin
`gpt-4o-mini-realtime-preview`	Förinställning	800 kelvin	1 Kelvin

M = miljoner | K = tusen

GPT-image-1-hastighetsgränser

GLOBAL STANDARD FÖR GPT0-image-1

Modell	Nivå	Kvotgräns i token per minut (TPM)	Antal begäranden per minut
`gpt-image-1`	Enterprise-avtal	Inte tillgänglig	20
`gpt-image-1`	Förinställning	Inte tillgänglig	6

Användningsnivåer

Globala standarddistributioner använder Azures globala infrastruktur och dirigerar dynamiskt kundtrafik till datacentret med bästa tillgänglighet för kundens slutsatsdragningsbegäranden. På samma sätt tillåter datazons standardinstallationer dig att använda Azure global infrastruktur för att dynamiskt dirigera trafik till datacentret inom den Microsoft-definierade datazonen med bäst tillgänglighet för varje förfrågan. Detta möjliggör mer konsekvent svarstid för kunder med låg till medelhög trafiknivå. Kunder med hög ihållande användningsnivå kan se större variabilitet i svarsfördröjningen.

Användningsgränsen avgör vid vilken användningsnivå kunderna kan uppleva större variabilitet i svarsfördröjningen. En kunds användning definieras per modelltyp och är det totala antalet tokens som används i alla distributioner i alla prenumerationer i alla regioner för en viss hyresgäst.

Anmärkning

Användningsnivåer gäller endast för standard-, datazonstandard- och globala standarddistributionstyper. Användningsnivåer gäller inte för distributioner av global batch och tilldelad genomströmning.

Global standard, datazonstandard, &standard

Modell	Användningsnivåer per månad
`gpt-4` + `gpt-4-32k` (alla versioner)	6 miljarder token
`gpt-4o`	12 miljarder token
`gpt-4o-mini`	85 miljarder token
`o3-mini`	50 miljarder token
`o1`	4 miljarder token
`o4-mini`	50 miljarder token
`o3`	5 miljarder token
`gpt-4.1`	30 miljarder token
`gpt-4.1-mini`	150 miljarder token
`gpt-4.1-nano`	550 miljarder token

Andra erbjudandetyper

Om din Azure-prenumeration är länkad till vissa erbjudandetyper är dina högsta kvotvärden lägre än de värden som anges i tabellerna ovan.

Nivå	Kvotgräns i token per minut (TPM)
`Azure for Students`	1 K (alla modeller) Exception o-serien & GPT-4.1 & GPT 4.5 Förhandsvisning: 0
`MSDN`	GPT-4o-mini: 200 K GPT 3.5 Turbo Serie: 200 K GPT-4-serien: 50 K Förhandsvisning av datoranvändning: 8 K gpt-4o-realtime-preview: 1 kB o-serien: 0 GPT 4.5 Förhandsvisning: 0 GPT-4.1: 50 K GPT-4.1-nano: 200 K
`Standard`	GPT-4o-mini: 200 K GPT 3.5 Turbo Serie: 200 K GPT-4-serien: 50 K datoranvändningsförhandsgranskning: 30 K o-serien: 0 GPT 4.5 Förhandsvisning: 0 GPT-4.1: 50 K GPT-4.1-nano: 200 K
`Azure_MS-AZR-0111P` `Azure_MS-AZR-0035P` `Azure_MS-AZR-0025P` `Azure_MS-AZR-0052P`	GPT-4o-mini: 200 K GPT 3.5 Turbo Serie: 200 K GPT-4-serien: 50 K
`CSP Integration Sandbox` ^*	Alla modeller: 0
`Lightweight trial` `Free Trials` `Azure Pass`	Alla modeller: 0

^*Detta gäller endast ett litet antal äldre CSP sandbox-abonnemang. Använd frågan nedan för att avgöra vad quotaId som är associerat med din prenumeration.

Om du vill fastställa vilken erbjudandetyp som är associerad med din prenumeration kan du kontrollera din quotaId. Om din quotaId inte visas i den här tabellen är din prenumeration berättigad till standardkvot.

REST
CLI

API-referens

az login
access_token=$(az account get-access-token --query accessToken -o tsv)

curl -X GET "https://management.azure.com/subscriptions/{subscriptionId}?api-version=2020-01-01" \
  -H "Authorization: Bearer $access_token" \
  -H "Content-Type: application/json"

az rest --method GET --uri "https://management.azure.com/subscriptions/{sub-id}?api-version=2020-01-01"

Utgång

{
  "authorizationSource": "Legacy",
  "displayName": "Pay-As-You-Go",
  "id": "/subscriptions/aaaaaa-bbbbb-cccc-ddddd-eeeeee",
  "state": "Enabled",
  "subscriptionId": "aaaaaa-bbbbb-cccc-ddddd-eeeeee",
  "subscriptionPolicies": {
    "locationPlacementId": "Public_2014-09-01",
    "quotaId": "PayAsYouGo_2014-09-01",
    "spendingLimit": "Off"
  }
}

Kvottilldelning/Erbjudandetyp	Prenumerationskvot-ID
Företag	`EnterpriseAgreement_2014-09-01`
Betala efter hand	`PayAsYouGo_2014-09-01`
MSDN	`MSDN_2014-09-01`
Sandbox-miljö för CSP-integrering	`CSPDEVTEST_2018-05-01`
Azure for Students	`AzureForStudents_2018-01-01`
Kostnadsfri utvärdering	`FreeTrial_2014-09-01`
Azure Pass	`AzurePass_2014-09-01`
Azure_MS-AZR-0111P	`AzureInOpen_2014-09-01`
Azure_MS-AZR-0150P	`LightweightTrial_2016-09-01`
Azure_MS-AZR-0035P Azure_MS-AZR-0025P Azure_MS-AZR-0052P	`MPN_2014-09-01`
Azure_MS-AZR-0023P Azure_MS-AZR-0060P Azure_MS-AZR-0148P Azure_MS-AZR-0148G	`MSDNDevTest_2014-09-01`
Förinställning	Någon kvot-ID som inte finns med i den här tabellen

Allmänna metodtips för att hålla sig inom hastighetsgränser

För att minimera problem som rör hastighetsbegränsningar är det en bra idé att använda följande tekniker:

Implementera logik för omprövning i ditt program.
Undvik stora plötsliga ändringar i arbetsbelastningen. Öka arbetsbelastningen gradvis.
Testa olika mönster för att öka belastningen.
Öka kvoten som tilldelats din distribution. Flytta kvoten från en annan utplacering vid behov.

Så här begär du kvotökningar

Begäranden om kvotökning kan skickas via formuläret för begäran om kvotökning. På grund av hög efterfrågan godkänns begäranden om kvotökning och fylls i i den ordning de tas emot. Prioritet ges till kunder som genererar trafik som förbrukar den befintliga kvotallokeringen och din begäran kan nekas om det här villkoret inte uppfylls.

Skicka en tjänstbegäran för andra hastighetsgränser.

Regionala kvotkapacitetsgränser

Du kan visa kvottillgänglighet per region för din prenumeration i Azure AI Foundry-portalen.

Alternativt, för att se kvotkapacitet per region för en specifik modell/version, kan du fråga kapacitets-API:n för ditt abonnemang. Ange en subscriptionId, model_nameoch model_version och API:et returnerar den tillgängliga kapaciteten för den modellen i alla regioner och distributionstyper för din prenumeration.

Anmärkning

För närvarande returnerar både Azure AI Foundry-portalen och kapacitets-API:et kvot-/kapacitetsinformation för modeller som har dragits tillbaka och inte längre är tillgängliga.

API-referens

import requests
import json
from azure.identity import DefaultAzureCredential

subscriptionId = "Replace with your subscription ID" #replace with your subscription ID
model_name = "gpt-4o"     # Example value, replace with model name
model_version = "2024-08-06"   # Example value, replace with model version

token_credential = DefaultAzureCredential()
token = token_credential.get_token('https://management.azure.com/.default')
headers = {'Authorization': 'Bearer ' + token.token}

url = f"https://management.azure.com/subscriptions/{subscriptionId}/providers/Microsoft.CognitiveServices/modelCapacities"
params = {
    "api-version": "2024-06-01-preview",
    "modelFormat": "OpenAI",
    "modelName": model_name,
    "modelVersion": model_version
}

response = requests.get(url, params=params, headers=headers)
model_capacity = response.json()

print(json.dumps(model_capacity, indent=2))

Nästa steg

Utforska hur du hanterar kvoter för dina Azure OpenAI-distributioner. Läs mer om de underliggande modeller som driver Azure OpenAI.

Dela via

Kvoter och gränser för Azure OpenAI i Azure AI Foundry Models

Referens för kvoter och gränser

Batchgränser

Batchkvot

Global omgång

Datazonsgrupp

GPT-4-hastighetsgränser

GPT-4.5 förhandsversion av global standard

Global standard i GPT-4.1-serien

GPT-4.1-seriens datazonstandard

GPT-4 Turbo

hastighetsgränser för modellrouter

globala standardfrekvensgränser för datoranvändningsförhandsgranskning

Hastighetsbegränsningar för O-serien

global standard för o-seriens

o-seriens standard för datazon

o1-preview och o1-mini standard

gpt-4o-hastighetsgränser

gpt-4o global standard

gpt-4o datazonsstandard

gpt-4o standard

GPT-4o-ljud

GPT-image-1-hastighetsgränser

GLOBAL STANDARD FÖR GPT0-image-1

Användningsnivåer

Global standard, datazonstandard, &standard

Andra erbjudandetyper

Utgång

Allmänna metodtips för att hålla sig inom hastighetsgränser

Så här begär du kvotökningar

Regionala kvotkapacitetsgränser

Nästa steg

Feedback

Ytterligare resurser