Dela via


Kvoter och gränser för Azure OpenAI i Azure AI Foundry Models

Den här artikeln innehåller en snabbreferens och en detaljerad beskrivning av kvoter och gränser för Azure OpenAI.

Referens för kvoter och gränser

I följande avsnitt får du en snabbguide till de standardkvoter och gränser som gäller för Azure OpenAI:

Gränsnamn Gränsvärde
Azure OpenAI-resurser per region per Azure-abonnemang 30
Standardgränser för DALL-E 2-kvoter 2 samtidiga begäranden
Standardgränser för DALL-E 3-kvoter 2 kapacitetsenheter (6 begäranden per minut)
Standardkvotgränser för GPT-image-1 2 kapacitetsenheter (6 begäranden per minut)
Standardgränser för Sora-kvoter 60 begäranden per minut
Standardkvotgränser för API för tal-till-text 3 begäranden per minut
Maximalt antal prompttoken per begäran Varierar per modell. Mer information finns i Azure OpenAI-modeller
Maximalt antal standarddistributioner per resurs 32
Maximalt antal finjusterade modellutplaceringar 5
Totalt antal träningsjobb per resurs 100
Maximalt antal samtidigt körande träningsjobb per resurs 1
Maximalt antal träningsjobb i kö 20
Maximalt antal filer för varje resurs (finjustering) 50
Total storlek för alla filer per resurs (finjustering) 1 GB
Maximal tid för träningsjobb (jobbet misslyckas om det överskrids) 720 timmar
Maximal storlek på träningsjobb (token i träningsfilen) x (antal epoker) 2 miljarder
Maximal storlek på alla filer per uppladdning (Azure OpenAI på dina data) 16 MB
Maximalt antal indata i matrisen med /embeddings 2048
Maximalt antal /chat/completions meddelanden 2048
Maximalt antal /chat/completions funktioner 128
Maximalt antal /chat completions verktyg 128
Maximalt antal tilldelade genomströmningsenheter per distribution 100 000
Maximalt antal filer per assistent/tråd 10 000 när du använder API:et eller Azure AI Foundry-portalen.
Maximal filstorlek för assistenter och finjustering 512 MB

200 MB genom Azure AI Foundry-portalen
Maximal storlek för alla uppladdade filer för assistenter 200 GB
Tokengräns för assistenter 2 000 000 tokengräns
GPT-4o och GPT-4.1 max bilder per begäran (antal bilder i meddelandematrisen/konversationshistoriken) 50
GPT-4 vision-preview & GPT-4 turbo-2024-04-09 standardinställning maxantal token 16

max_tokens Öka parametervärdet för att undvika trunkerade svar. GPT-4o maxtoken är som standard 4 096.
Maximalt antal anpassade rubriker i API-begäranden1 10
Meddelandeteckengräns 1048576
Meddelandestorlek för ljudfiler 20 MB

1 Våra aktuella API:er tillåter upp till 10 anpassade huvuden som skickas via pipelinen och returneras. Vissa kunder överskrider nu det här antalet headerfält, vilket resulterar i HTTP 431-fel. Det finns ingen lösning på det här felet, förutom att minska rubrikvolymen. I framtida API-versioner passerar vi inte längre anpassade rubriker. Vi rekommenderar att kunderna inte är beroende av anpassade rubriker i framtida systemarkitekturer.

Anmärkning

Kvotgränser kan komma att ändras.

Batchgränser

Gränsnamn Gränsvärde
Maximalt antal filer per resurs 500
Maximal filstorlek för indata 200 MB
Maximalt antal begäranden per fil 100 000

Batchkvot

Tabellen visar batchkvotgränsen. Kvotvärden för global batch representeras i termer av köade token. När du skickar en fil för batchbearbetning räknas antalet token som finns i filen. Tills batchprocessen når ett endpunktstillstånd kommer dessa token att räknas mot din totala tillåtna tokengräns.

Global omgång

Modell Enterprise-avtal Förinställning Månatliga kreditkortsbaserade prenumerationer MSDN-prenumerationer Azure for Students, kostnadsfria utvärderingsversioner
gpt-4.1 5 B 200 miljoner 50 miljoner 90 K Inte tillgänglig
gpt-4.1 mini 15B 1B 50 M 90k Inte tillgänglig
gpt-4.1-nano 15 B 1 B 50 miljoner 90 K Inte tillgänglig
gpt-4o 5 B 200 miljoner 50 miljoner 90 K Inte tillgänglig
gpt-4o-mini 15 B 1 B 50 miljoner 90 K Inte tillgänglig
gpt-4-turbo 300 miljoner 80 miljoner 40 M 90 K Inte tillgänglig
gpt-4 150 M 30 M 5 miljoner 100 000 Inte tillgänglig
gpt-35-turbo 10 B 1 B 100 M 2 miljoner 50 000 kronor
o3-mini 15 B 1 B 50 miljoner 90 K Inte tillgänglig
o4-mini 15 B 1 B 50 miljoner 90 K Inte tillgänglig

B = miljarder | M = miljoner | K = tusen

Datazonsgrupp

Modell Enterprise-avtal Förinställning Månatliga kreditkortsbaserade prenumerationer MSDN-prenumerationer Azure for Students, kostnadsfria utvärderingsversioner
gpt-4.1 500 miljoner 30 M 30 M 90 K Inte tillgänglig
gpt-4.1-mini 1,5 B 100 M 50 miljoner 90 K Inte tillgänglig
gpt-4o 500 miljoner 30 M 30 M 90 K Inte tillgänglig
gpt-4o-mini 1,5 B 100 M 50 miljoner 90 K Inte tillgänglig
o3-mini 1,5 B 100 M 50 miljoner 90 K Inte tillgänglig

GPT-4-hastighetsgränser

GPT-4.5 förhandsversion av global standard

Modell Nivå Kvotgräns i token per minut (TPM) Antal begäranden per minut
gpt-4.5 Företagsnivå 200 K 200
gpt-4.5 Förinställning 150 K 150

Global standard i GPT-4.1-serien

Modell Nivå Kvotgräns i token per minut (TPM) Antal begäranden per minut
gpt-4.1 (2025-04-14) Företagsnivå 5 miljoner 5 K
gpt-4.1 (2025-04-14) Förinställning 1 miljon 1 Kelvin
gpt-4.1-nano (2025-04-14) Företagsnivå 150 M 150 K
gpt-4.1-nano (2025-04-14) Förinställning 5 miljoner 5 K
gpt-4.1-mini (2025-04-14) Företagsnivå 150 M 150 K
gpt-4.1-mini (2025-04-14) Förinställning 5 miljoner 5 K

GPT-4.1-seriens datazonstandard

Modell Nivå Kvotgräns i token per minut (TPM) Antal begäranden per minut
gpt-4.1 (2025-04-14) Företagsnivå 2 miljoner 2 K
gpt-4.1 (2025-04-14) Förinställning 300 K 300
gpt-4.1-nano (2025-04-14) Företagsnivå 50 miljoner 50 000 kronor
gpt-4.1-nano (2025-04-14) Förinställning 2 miljoner 2 K
gpt-4.1-mini (2025-04-14) Företagsnivå 50 miljoner 50 000 kronor
gpt-4.1-mini (2025-04-14) Förinställning 2 miljoner 2 K

GPT-4 Turbo

gpt-4 (turbo-2024-04-09) har frekvensgränsnivåer med högre gränser för vissa kundtyper.

Modell Nivå Kvotgräns i token per minut (TPM) Antal begäranden per minut
gpt-4 (turbo-2024-04-09) Enterprise-avtal 2 miljoner 12 K
gpt-4 (turbo-2024-04-09) Förinställning 450 K 2,7 K

hastighetsgränser för modellrouter

Modell Nivå Kvotgräns i token per minut (TPM) Antal begäranden per minut
model-router (2025-05-19) Företagsnivå 10 M 10 Kelvin
model-router (2025-05-19) Förinställning 1 miljon 1 Kelvin

globala standardfrekvensgränser för datoranvändningsförhandsgranskning

Modell Nivå Kvotgräns i token per minut (TPM) Antal begäranden per minut
computer-use-preview Företagsnivå 30 M 300 K
computer-use-preview Förinställning 450 K 4,5 K

Hastighetsbegränsningar för O-serien

Viktigt!

Förhållandet mellan begäranden per minut (RPM) och token per minut (TPM) för kvot kan variera beroende på modell. När du distribuerar en modell programmatiskt eller begär en kvotökning har du inte detaljerad kontroll över TPM och RPM som oberoende värden. Kvoten allokeras när det gäller kapacitetsenheter som har motsvarande mängder RPM och TPM:

Modell Kapacitet Begäranden per minut (RPM) Token per minut (TPM)
Äldre chattmodeller: 1 enhet 6 varv per minut (rpm) 1 000 TPM
o1 &o1-preview: 1 enhet 1 varv per minut 6 000 TPM
o3 1 enhet 1 varv per minut 1 000 TPM
o4-mini 1 enhet 1 varv per minut 1 000 TPM
o3-mini: 1 enhet 1 varv per minut 10 000 TPM
o1-mini: 1 enhet 1 varv per minut 10 000 TPM
o3-pro: 1 enhet 1 varv per minut 10 000 TPM

Detta är särskilt viktigt för programmatisk modelldistribution eftersom ändringar i RPM/TPM-förhållandet kan leda till oavsiktlig felallokering av kvoten.

global standard för o-seriens

Modell Nivå Kvotgräns i token per minut (TPM) Antal begäranden per minut
codex-mini Enterprise-avtal 10 M 10 Kelvin
o3-pro Enterprise-avtal 16 M 1,6 K
o4-mini Enterprise-avtal 10 M 10 Kelvin
o3 Enterprise-avtal 10 M 10 Kelvin
o3-mini Enterprise-avtal 50 miljoner 5 K
o1 & o1-preview Enterprise-avtal 30 M 5 K
o1-mini Enterprise-avtal 50 miljoner 5 K
codex-mini Förinställning 1 miljon 1 Kelvin
o3-pro Förinställning 1,6 miljoner 160
o4-mini Förinställning 1 miljon 1 Kelvin
o3 Förinställning 1 miljon 1 Kelvin
o3-mini Förinställning 5 miljoner 500
o1 & o1-preview Förinställning 3 miljoner 500
o1-mini Förinställning 5 miljoner 500

o-seriens standard för datazon

Modell Nivå Kvotgräns i token per minut (TPM) Antal begäranden per minut
o3-mini Enterprise-avtal 20 M 2 K
o3-mini Förinställning 2 miljoner 200
o1 Enterprise-avtal 6 miljoner 1 Kelvin
o1 Förinställning 600 K 100

o1-preview och o1-mini standard

Modell Nivå Kvotgräns i token per minut (TPM) Antal begäranden per minut
o1-preview Enterprise-avtal 600 K 100
o1-mini Enterprise-avtal 1 miljon 100
o1-preview Förinställning 300 K 50
o1-mini Förinställning 500 K 50

gpt-4o-hastighetsgränser

gpt-4o och gpt-4o-mini har frekvensgränsnivåer med högre gränser för vissa kundtyper.

gpt-4o global standard

Modell Nivå Kvotgräns i token per minut (TPM) Antal begäranden per minut
gpt-4o Enterprise-avtal 30 M 180 Kelvin
gpt-4o-mini Enterprise-avtal 50 miljoner 300 K
gpt-4o Förinställning 450 K 2,7 K
gpt-4o-mini Förinställning 2 miljoner 12 K

M = miljoner | K = tusen

gpt-4o datazonsstandard

Modell Nivå Kvotgräns i token per minut (TPM) Antal begäranden per minut
gpt-4o Enterprise-avtal 10 M 60 K
gpt-4o-mini Enterprise-avtal 20 M 120 K
gpt-4o Förinställning 300 K 1,8 K
gpt-4o-mini Förinställning 1 miljon 6 K

M = miljoner | K = tusen

gpt-4o standard

Modell Nivå Kvotgräns i token per minut (TPM) Antal begäranden per minut
gpt-4o Enterprise-avtal 1 miljon 6 K
gpt-4o-mini Enterprise-avtal 2 miljoner 12 K
gpt-4o Förinställning 150 K 900
gpt-4o-mini Förinställning 450 K 2,7 K

M = miljoner | K = tusen

GPT-4o-ljud

Hastighetsgränserna för varje gpt-4o distribution av ljudmodeller är 100 K TPM och 1 K RPM. Under förhandsversionen kan Azure AI Foundry-portalen och API:er felaktigt visa olika hastighetsgränser. Även om du försöker ange en annan hastighetsgräns är den faktiska hastighetsgränsen 100 K TPM och 1 K RPM.

Modell Nivå Kvotgräns i token per minut (TPM) Antal begäranden per minut
gpt-4o-audio-preview Förinställning 450 K 1 Kelvin
gpt-4o-realtime-preview Förinställning 800 kelvin 1 Kelvin
gpt-4o-mini-audio-preview Förinställning 2 miljoner 1 Kelvin
gpt-4o-mini-realtime-preview Förinställning 800 kelvin 1 Kelvin

M = miljoner | K = tusen

GPT-image-1-hastighetsgränser

GLOBAL STANDARD FÖR GPT0-image-1

Modell Nivå Kvotgräns i token per minut (TPM) Antal begäranden per minut
gpt-image-1 Enterprise-avtal Inte tillgänglig 20
gpt-image-1 Förinställning Inte tillgänglig 6

Användningsnivåer

Globala standarddistributioner använder Azures globala infrastruktur och dirigerar dynamiskt kundtrafik till datacentret med bästa tillgänglighet för kundens slutsatsdragningsbegäranden. På samma sätt tillåter datazons standardinstallationer dig att använda Azure global infrastruktur för att dynamiskt dirigera trafik till datacentret inom den Microsoft-definierade datazonen med bäst tillgänglighet för varje förfrågan. Detta möjliggör mer konsekvent svarstid för kunder med låg till medelhög trafiknivå. Kunder med hög ihållande användningsnivå kan se större variabilitet i svarsfördröjningen.

Användningsgränsen avgör vid vilken användningsnivå kunderna kan uppleva större variabilitet i svarsfördröjningen. En kunds användning definieras per modelltyp och är det totala antalet tokens som används i alla distributioner i alla prenumerationer i alla regioner för en viss hyresgäst.

Anmärkning

Användningsnivåer gäller endast för standard-, datazonstandard- och globala standarddistributionstyper. Användningsnivåer gäller inte för distributioner av global batch och tilldelad genomströmning.

Global standard, datazonstandard, &standard

Modell Användningsnivåer per månad
gpt-4 + gpt-4-32k (alla versioner) 6 miljarder token
gpt-4o 12 miljarder token
gpt-4o-mini 85 miljarder token
o3-mini 50 miljarder token
o1 4 miljarder token
o4-mini 50 miljarder token
o3 5 miljarder token
gpt-4.1 30 miljarder token
gpt-4.1-mini 150 miljarder token
gpt-4.1-nano 550 miljarder token

Andra erbjudandetyper

Om din Azure-prenumeration är länkad till vissa erbjudandetyper är dina högsta kvotvärden lägre än de värden som anges i tabellerna ovan.

Nivå Kvotgräns i token per minut (TPM)
Azure for Students 1 K (alla modeller)
Exception o-serien & GPT-4.1 & GPT 4.5 Förhandsvisning: 0
MSDN GPT-4o-mini: 200 K
GPT 3.5 Turbo Serie: 200 K
GPT-4-serien: 50 K
Förhandsvisning av datoranvändning: 8 K
gpt-4o-realtime-preview: 1 kB
o-serien: 0
GPT 4.5 Förhandsvisning: 0
GPT-4.1: 50 K
GPT-4.1-nano: 200 K
Standard GPT-4o-mini: 200 K
GPT 3.5 Turbo Serie: 200 K
GPT-4-serien: 50 K
datoranvändningsförhandsgranskning: 30 K
o-serien: 0
GPT 4.5 Förhandsvisning: 0
GPT-4.1: 50 K
GPT-4.1-nano: 200 K
Azure_MS-AZR-0111P
Azure_MS-AZR-0035P
Azure_MS-AZR-0025P
Azure_MS-AZR-0052P
GPT-4o-mini: 200 K
GPT 3.5 Turbo Serie: 200 K
GPT-4-serien: 50 K
CSP Integration Sandbox * Alla modeller: 0
Lightweight trial
Free Trials
Azure Pass
Alla modeller: 0

*Detta gäller endast ett litet antal äldre CSP sandbox-abonnemang. Använd frågan nedan för att avgöra vad quotaId som är associerat med din prenumeration.

Om du vill fastställa vilken erbjudandetyp som är associerad med din prenumeration kan du kontrollera din quotaId. Om din quotaId inte visas i den här tabellen är din prenumeration berättigad till standardkvot.

API-referens

az login
access_token=$(az account get-access-token --query accessToken -o tsv)
curl -X GET "https://management.azure.com/subscriptions/{subscriptionId}?api-version=2020-01-01" \
  -H "Authorization: Bearer $access_token" \
  -H "Content-Type: application/json"

Utgång

{
  "authorizationSource": "Legacy",
  "displayName": "Pay-As-You-Go",
  "id": "/subscriptions/aaaaaa-bbbbb-cccc-ddddd-eeeeee",
  "state": "Enabled",
  "subscriptionId": "aaaaaa-bbbbb-cccc-ddddd-eeeeee",
  "subscriptionPolicies": {
    "locationPlacementId": "Public_2014-09-01",
    "quotaId": "PayAsYouGo_2014-09-01",
    "spendingLimit": "Off"
  }
}
Kvottilldelning/Erbjudandetyp Prenumerationskvot-ID
Företag EnterpriseAgreement_2014-09-01
Betala efter hand PayAsYouGo_2014-09-01
MSDN MSDN_2014-09-01
Sandbox-miljö för CSP-integrering CSPDEVTEST_2018-05-01
Azure for Students AzureForStudents_2018-01-01
Kostnadsfri utvärdering FreeTrial_2014-09-01
Azure Pass AzurePass_2014-09-01
Azure_MS-AZR-0111P AzureInOpen_2014-09-01
Azure_MS-AZR-0150P LightweightTrial_2016-09-01
Azure_MS-AZR-0035P
Azure_MS-AZR-0025P
Azure_MS-AZR-0052P
MPN_2014-09-01
Azure_MS-AZR-0023P
Azure_MS-AZR-0060P
Azure_MS-AZR-0148P
Azure_MS-AZR-0148G
MSDNDevTest_2014-09-01
Förinställning Någon kvot-ID som inte finns med i den här tabellen

Allmänna metodtips för att hålla sig inom hastighetsgränser

För att minimera problem som rör hastighetsbegränsningar är det en bra idé att använda följande tekniker:

  • Implementera logik för omprövning i ditt program.
  • Undvik stora plötsliga ändringar i arbetsbelastningen. Öka arbetsbelastningen gradvis.
  • Testa olika mönster för att öka belastningen.
  • Öka kvoten som tilldelats din distribution. Flytta kvoten från en annan utplacering vid behov.

Så här begär du kvotökningar

Begäranden om kvotökning kan skickas via formuläret för begäran om kvotökning. På grund av hög efterfrågan godkänns begäranden om kvotökning och fylls i i den ordning de tas emot. Prioritet ges till kunder som genererar trafik som förbrukar den befintliga kvotallokeringen och din begäran kan nekas om det här villkoret inte uppfylls.

Skicka en tjänstbegäran för andra hastighetsgränser.

Regionala kvotkapacitetsgränser

Du kan visa kvottillgänglighet per region för din prenumeration i Azure AI Foundry-portalen.

Alternativt, för att se kvotkapacitet per region för en specifik modell/version, kan du fråga kapacitets-API:n för ditt abonnemang. Ange en subscriptionId, model_nameoch model_version och API:et returnerar den tillgängliga kapaciteten för den modellen i alla regioner och distributionstyper för din prenumeration.

Anmärkning

För närvarande returnerar både Azure AI Foundry-portalen och kapacitets-API:et kvot-/kapacitetsinformation för modeller som har dragits tillbaka och inte längre är tillgängliga.

API-referens

import requests
import json
from azure.identity import DefaultAzureCredential

subscriptionId = "Replace with your subscription ID" #replace with your subscription ID
model_name = "gpt-4o"     # Example value, replace with model name
model_version = "2024-08-06"   # Example value, replace with model version

token_credential = DefaultAzureCredential()
token = token_credential.get_token('https://management.azure.com/.default')
headers = {'Authorization': 'Bearer ' + token.token}

url = f"https://management.azure.com/subscriptions/{subscriptionId}/providers/Microsoft.CognitiveServices/modelCapacities"
params = {
    "api-version": "2024-06-01-preview",
    "modelFormat": "OpenAI",
    "modelName": model_name,
    "modelVersion": model_version
}

response = requests.get(url, params=params, headers=headers)
model_capacity = response.json()

print(json.dumps(model_capacity, indent=2))

Nästa steg

Utforska hur du hanterar kvoter för dina Azure OpenAI-distributioner. Läs mer om de underliggande modeller som driver Azure OpenAI.