Dela via


Kvoter och gränser för Azure OpenAI i Microsoft Foundry Models

Den här artikeln innehåller en snabbreferens och en detaljerad beskrivning av kvoter och gränser för Azure OpenAI.

Omfång för kvot

Kvoter och gränser tillämpas inte på klientorganisationsnivå. I stället begränsas den högsta nivån av kvotbegränsningar på Azure-prenumerationsnivå.

Regional kvotallokering

Gränser för token per minut (TPM) och begäranden per minut (RPM) definieras per region, per prenumeration och per modell eller distributionstyp.

Om till exempel den gpt-4.1 globala standardmodellen visas med en kvot på 5 miljoner TPM och 5 000 RPM, har varje region där modellen eller distributionstypen är tillgänglig en egen dedikerad kvotpool med det beloppet för var och en av dina Azure-prenumerationer. I en enda Azure-prenumeration är det möjligt att använda en större mängd av den totala TPM- och RPM-kvoten för en viss modell och distributionstyp, så länge du har resurser och modelldistributioner spridda över flera regioner.

Referens för kvoter och gränser

I följande avsnitt får du en snabbguide till de standardkvoter och gränser som gäller för Azure OpenAI:

Gränsnamn Gränsvärde
Azure OpenAI-resurser per region, per Azure-prenumeration 30.
Standardgränser för DALL-E 2-kvoter 2 samtidiga begäranden.
Standardgränser för DALL-E 3-kvoter 6 begäranden per minut
Standardkvotgränser för GPT-image-1 9 begäranden per minut
Standardgränser för GPT-image-1-mini-kvot 12 begäranden per minut
Standardgränser för GPT-image-1.5-kvoter 9 begäranden per minut
Standardgränser för Sora-kvoter 60 begäranden per minut.
Standardgränser för Sora 2-kvoter 2 jobbbegäranden1 per minut
Standardgränser för api-kvoter för tal-till-text-ljud 3 begäranden per minut.
Maximalt antal prompttoken per begäran Varierar per modell. Mer information finns i Azure OpenAI-modeller.
Maximalt antal standarddistributioner per resurs 32.
Maximalt antal finjusterade modelldistributioner 10.
Totalt antal träningsjobb per resurs 100.
Maximalt antal träningsjobb som körs samtidigt per resurs Standard och global utbildning: 3;
Utvecklarutbildning: 5
Maximalt antal träningsjobb i kö 20.
Maximalt antal filer per resurs (finjustering) 100.
Total storlek för alla filer per resurs (finjustering) 1 GB.
Maximal tid för träningsjobb (jobbet misslyckas om det överskrids) 720 timmar.
Maximal storlek på träningsjobb (tokens in training file) x (# of epochs) 2 miljarder.
Maximal storlek på alla filer per uppladdning (Azure OpenAI för dina data) 16 MB.
Maximalt antal eller indata i matrisen med /embeddings 2,048.
Maximalt antal /chat/completions meddelanden 2,048.
Maximalt antal /chat/completions funktioner 128.
Maximalt antal /chat completions verktyg 128.
Maximalt antal etablerade dataflödesenheter per distribution 100,000.
Maximalt antal filer per assistent eller tråd 10 000 när du använder API:et eller Microsoft Foundry-portalen.
Maximal filstorlek för assistenter och finjustering 512 MB via API:et

200 MB genom Foundry-portalen.
Maximalt antal begäranden om filuppladdning per resurs 30 begäranden per sekund.
Maximal storlek för alla uppladdade filer för assistenter 200 GB.
Tokengräns för assistenter 2 000 000 tokengräns.
GPT-4o och GPT-4.1 maximalt antal bilder per begäran (antal bilder i meddelandematrisen eller konversationshistoriken) 50.
GPT-4 vision-preview och GPT-4 turbo-2024-04-09 maximala standardtoken 16.

max_tokens Öka parametervärdet för att undvika trunkerade svar. GPT-4o maximalt antal token är som standard 4 096.
Maximalt antal anpassade rubriker i API-begäranden2 10.
Meddelandeteckengräns 1,048,576.
Meddelandestorlek för ljudfiler 20 MB.

1 Sora 2 RPM-kvoten räknar endast videojobb­begäranden. Andra typer av begäranden är inte hastighetsbegränsade.

2 Våra aktuella API:er tillåter upp till 10 anpassade huvuden som skickas via pipelinen och returneras. Vissa kunder överskrider nu det här antalet huvuden, vilket resulterar i HTTP 431-fel. Det finns ingen lösning på det här felet, förutom att minska rubrikvolymen. I framtida API-versioner går vi inte igenom anpassade rubriker. Vi rekommenderar att kunderna inte är beroende av anpassade rubriker i framtida systemarkitekturer.

Anmärkning

Kvotgränser kan komma att ändras.

GPT-5.2-serien

Modell Distributionstyp Standard-RPM Standardinställning-TPM RPM för företagslösningar och MCA-E Enterprise och MCA-E TPM
gpt-5.2 DataZoneStandard 3,000 300,000 30,000 3,000,000
gpt-5.2 GlobalStandard 10 000 1,000,000 100 000 10 000 000
gpt-5.2-chat GlobalStandard 10 000 1,000,000 50,000 5,000,000
gpt-5.2-codex GlobalStandard 1,000 1,000,000 10 000 10 000 000

GPT-5.1-serien

Modell Distributionstyp Standard-RPM Standardinställning-TPM RPM för företagslösningar och MCA-E Enterprise och MCA-E TPM
gpt-5.1 DataZoneStandard 3,000 300,000 30,000 3,000,000
gpt-5.1 GlobalStandard 10 000 1,000,000 100 000 10 000 000
gpt-5.1-chat GlobalStandard 10 000 1,000,000 50,000 5,000,000
gpt-5.1-codex GlobalStandard 1,000 1,000,000 10 000 10 000 000
gpt-5.1-codex-mini GlobalStandard 1,000 1,000,000 10 000 10 000 000
gpt-5.1-codex-max GlobalStandard 10 000 1,000,000 100 000 10 000 000

GPT-5-serien

Modell Distributionstyp Standard-RPM Standardinställning-TPM RPM för företagslösningar och MCA-E Enterprise och MCA-E TPM
gpt-5 DataZoneStandard 3,000 300,000 30,000 3,000,000
gpt-5 GlobalStandard 10 000 1,000,000 100 000 10 000 000
gpt-5-chat GlobalStandard 1,000 1,000,000 5,000 5,000,000
gpt-5-mini DataZoneStandard 300 300,000 3,000 3,000,000
gpt-5-mini GlobalStandard 1,000 1,000,000 10 000 10 000 000
gpt-5-nano DataZoneStandard 2 000 2,000,000 50,000 50,000,000
gpt-5-nano GlobalStandard 5,000 5,000,000 150,000 150,000,000
gpt-5-codex GlobalStandard 1,000 1,000,000 10 000 10 000 000
gpt-5-pro GlobalStandard 1,600 160,000 16,000 1,600,000

hastighetsgränser för modellrouter

Modell Distributionstyp Standard-RPM Standardinställning-TPM RPM för företagslösningar och MCA-E Enterprise och MCA-E TPM
model-router
(2025-11-18)
DataZoneStandard 150 150,000 300 300,000
model-router
(2025-11-18)
GlobalStandard 250 250 000 400 400,000

Batchgränser

Gränsnamn Gränsvärde
Maximalt antal Batch-indatafiler – (inget förfallodatum) 500
Maximalt antal batchinmatningsfiler – (förfallodatum satt) 10 000
Maximal indatafilstorlek 200 MB
Maximal indatafilstorlek – Byos (Bring Your Own Storage) 1 GB
Maximalt antal begäranden per fil 100 000

Anmärkning

Batchfilgränser gäller inte för utdatafiler (till exempel result.jsonl, och error.jsonl). Om du vill ta bort filbegränsningar för batchindata använder du Batch med Azure Blob Storage.

Batchkvot

Tabellen visar batchkvotgränsen. Kvotvärden för global batch representeras i termer av köade token. När du skickar en fil för batchbearbetning räknas antalet token i filen. Tills batchjobbet når ett terminaltillstånd räknas dessa token mot den totala tillåtna tokengränsen.

Global omgång

Modell Enterprise och MCA-E Förinställning Månatliga kreditkortsbaserade prenumerationer MSDN-prenumerationer Azure for Students, kostnadsfria utvärderingsversioner
gpt-4.1 5B 200M 50 M 90 000 Inte tillgänglig
gpt-4.1 mini 15B 1B 50 M 90 000 Inte tillgänglig
gpt-4.1-nano 15B 1B 50 M 90 000 Inte tillgänglig
gpt-4o 5B 200M 50 M 90 000 Inte tillgänglig
gpt-4o-mini 15B 1B 50 M 90 000 Inte tillgänglig
gpt-4-turbo 300M 80M 40M 90 000 Inte tillgänglig
gpt-4 150 M 30 M 5 M 100 000 Inte tillgänglig
o3-mini 15B 1B 50 M 90 000 Inte tillgänglig
o4-mini 15B 1B 50 M 90 000 Inte tillgänglig
gpt-5 5B 200M 50 M 90 000 Inte tillgänglig
gpt-5.1 5B 200M 50 M 90 000 Inte tillgänglig

B = miljarder | M = miljoner | K = tusen

Datazonsgrupp

Modell Enterprise och MCA-E Förinställning Månatliga kreditkortsbaserade prenumerationer MSDN-prenumerationer Azure for Students, kostnadsfria utvärderingsversioner
gpt-4.1 500M 30 M 30 M 90 000 Inte tillgänglig
gpt-4.1-mini 1,5B 100 M 50 M 90 000 Inte tillgänglig
gpt-4o 500M 30 M 30 M 90 000 Inte tillgänglig
gpt-4o-mini 1,5B 100 M 50 M 90 000 Inte tillgänglig
o3-mini 1,5B 100 M 50 M 90 000 Inte tillgänglig
gpt-5 5B 200M 50 M 90 000 Inte tillgänglig
gpt-5.1 5B 200M 50 M 90 000 Inte tillgänglig

gpt-oss

Modell Token per minut (TPM) Begäranden per minut (RPM)
gpt-oss-120b 5 miljoner 5 K

GPT-4-hastighetsgränser

GPT-4.5 förhandsversion global standard

Modell Nivå Kvotgräns i token per minut Antal begäranden per minut
gpt-4.5 Enterprise och MCA-E 200 000 200
gpt-4.5 Förinställning 150 000 150

GPT-4.1-serien Global Standard

Modell Nivå Kvotgräns i token per minut (TPM) Antal begäranden per minut
gpt-4.1 (2025-04-14) Enterprise och MCA-E 5 M 5K
gpt-4.1 (2025-04-14) Förinställning 1 milj. 1K
gpt-4.1-nano (2025-04-14) Enterprise och MCA-E 150 M 150 000
gpt-4.1-nano (2025-04-14) Förinställning 5 M 5K
gpt-4.1-mini (2025-04-14) Enterprise och MCA-E 150 M 150 000
gpt-4.1-mini (2025-04-14) Förinställning 5 M 5K

GPT-4.1-serien Data Zone Standard

Modell Nivå Kvotgräns i token per minut (TPM) Antal begäranden per minut
gpt-4.1 (2025-04-14) Enterprise och MCA-E 2M 2K
gpt-4.1 (2025-04-14) Förinställning 300 000 300
gpt-4.1-nano (2025-04-14) Enterprise och MCA-E 50 M 50 000
gpt-4.1-nano (2025-04-14) Förinställning 2M 2K
gpt-4.1-mini (2025-04-14) Enterprise och MCA-E 50 M 50 000
gpt-4.1-mini (2025-04-14) Förinställning 2M 2K

GPT-4 Turbo

gpt-4 (turbo-2024-04-09) har frekvensgränsnivåer med högre gränser för vissa kundtyper.

Modell Nivå Kvotgräns i token per minut Antal begäranden per minut
gpt-4 (turbo-2024-04-09) Enterprise och MCA-E 2M 12 K
gpt-4 (turbo-2024-04-09) Förinställning 450 000 2,7 000

hastighetsgränser för datoranvändning och förhandsversion av Global Standard

Modell Nivå Kvotgräns i token per minut Antal begäranden per minut
computer-use-preview Enterprise och MCA-E 30 M 300 000
computer-use-preview Förinställning 450 000 4,5 000

Hastighetsbegränsningar för O-serien

Viktigt!

Förhållandet mellan begäranden per minut och token per minut för kvot kan variera beroende på modell. När du distribuerar en modell programmatiskt eller begär en kvotökning har du inte detaljerad kontroll över token per minut och begäranden per minut som oberoende värden. Kvoten allokeras när det gäller kapacitetsenheter, som har motsvarande mängder begäranden per minut och token per minut.

Modell Kapacitet Begäranden per minut (RPM) Token per minut (TPM)
Äldre chattmodeller 1 enhet 6 varv per minut (rpm) 1 000 TPM
o1 och o1-preview 1 enhet 1 varv per minut 6 000 TPM
o3 1 enhet 1 varv per minut 1 000 TPM
o4-mini 1 enhet 1 varv per minut 1 000 TPM
o3-mini 1 enhet 1 varv per minut 10 000 TPM
o1-mini 1 enhet 1 varv per minut 10 000 TPM
o3-pro 1 enhet 1 varv per minut 10 000 TPM

Det här konceptet är viktigt för distribution av programmatiska modeller, eftersom ändringar i förhållandet mellan RPM och TPM kan leda till oavsiktlig felallokering av kvoten.

o-serien Global Standard

Modell Nivå Kvotgräns i token per minut Antal begäranden per minut
codex-mini Enterprise och MCA-E 10M 10 000
o3-pro Enterprise och MCA-E 16 M 1,6 000
o4-mini Enterprise och MCA-E 10M 10 000
o3 Enterprise och MCA-E 10M 10 000
o3-mini Enterprise och MCA-E 50 M 5K
o1 och o1-preview Enterprise och MCA-E 30 M 5K
o1-mini Enterprise och MCA-E 50 M 5K
codex-mini Förinställning 1 milj. 1K
o3-pro Förinställning 1,6 M 160
o4-mini Förinställning 1 milj. 1K
o3 Förinställning 1 milj. 1K
o3-mini Förinställning 5 M 500
o1 och o1-preview Förinställning 3M 500
o1-mini Förinställning 5 M 500

o-serien Data Zone Standard

Modell Nivå Kvotgräns i token per minut Antal begäranden per minut
o3 Förinställning 10M 10 000
o4-mini Förinställning 10M 10 000
o3-mini Enterprise och MCA-E 20M 2K
o3-mini Förinställning 2M 200
o1 Enterprise och MCA-E 6 miljoner 1K
o1 Förinställning 600 000 100

o1-preview och o1-mini Standard

Modell Nivå Kvotgräns i token per minut Antal begäranden per minut
o1-preview Enterprise och MCA-E 600 000 100
o1-mini Enterprise och MCA-E 1 milj. 100
o1-preview Förinställning 300 000 50
o1-mini Förinställning 500 000 50

gpt-4o-hastighetsgränser

gpt-4o och gpt-4o-mini har frekvensgränsnivåer med högre gränser för vissa kundtyper.

gpt-4o Global Standard

Modell Nivå Kvotgräns i token per minut Antal begäranden per minut
gpt-4o Enterprise och MCA-E 30 M 180 000
gpt-4o-mini Enterprise och MCA-E 150 M 1,5 M
gpt-4o Förinställning 450 000 2,7 000
gpt-4o-mini Förinställning 2M 12 K

GPT-4o Datazonstandard

Modell Nivå Kvotgräns i token per minut Antal begäranden per minut
gpt-4o Enterprise och MCA-E 10M 60 000
gpt-4o-mini Enterprise och MCA-E 20M 120 000
gpt-4o Förinställning 300 000 1,8 000
gpt-4o-mini Förinställning 1 milj. 6K

gpt-4o Standard

Modell Nivå Kvotgräns i token per minut Antal begäranden per minut
gpt-4o Enterprise och MCA-E 1 milj. 6K
gpt-4o-mini Enterprise och MCA-E 2M 12 K
gpt-4o Förinställning 150 000 900
gpt-4o-mini Förinställning 450 000 2,7 000

GPT-4o-ljud

Modell Nivå Kvotgräns i token per minut Antal begäranden per minut
gpt-4o-audio-preview Förinställning 450 000 1K
gpt-4o-realtime-preview Förinställning 800 000 1K
gpt-4o-mini-audio-preview Förinställning 2M 1K
gpt-4o-mini-realtime-preview Förinställning 800 000 1K
gpt-audio Förinställning 100 000 30
gpt-audio-mini Förinställning 100 000 30
gpt-realtime Förinställning 100 000 100
gpt-realtime-mini Förinställning 100 000 100
gpt-realtime-mini-2025-12-15 Förinställning 100 000 100

Hastighetsgränser för GPT-image-1-serien

GPT-image-1 Global Standard

Modell Nivå Kvotgräns i token per minut Antal begäranden per minut
gpt-image-1 Enterprise och MCA-E Inte tillgänglig 60
gpt-image-1 Medel Inte tillgänglig 36
gpt-image-1 Low Inte tillgänglig 9
gpt-image-1-mini Low Inte tillgänglig 12
gpt-image-1-mini Medel Inte tillgänglig 36
gpt-image-1-mini High Inte tillgänglig 120
gpt-image-1 Low Inte tillgänglig 9
gpt-image-1 Medel Inte tillgänglig 18
gpt-image-1 High Inte tillgänglig 60

Användningsnivåer

Global Standard-distributioner använder den globala infrastrukturen i Azure. De dirigerar dynamiskt kundtrafik till datacentret med bästa tillgänglighet för kundens slutsatsdragningsbegäranden. På samma sätt kan du med Data Zone Standard-distributioner använda den globala infrastrukturen i Azure för att dynamiskt dirigera trafik till datacentret i den Microsoft-definierade datazonen med bästa tillgänglighet för varje begäran. Den här metoden möjliggör mer konsekvent svarstid för kunder med låg till medelhög trafiknivå. Kunder med hög ihållande användningsnivå kan se större variabilitet i svarsfördröjningen.

Azure OpenAI-användningsnivåer är utformade för att ge konsekventa prestanda för de flesta kunder med låg till medelhög trafiknivå. Varje användningsnivå definierar det maximala dataflöde (token per minut) som du kan förvänta dig med förutsägbar svarstid. När din användning ligger kvar på den tilldelade nivån förblir svarstiden stabil och svarstiderna är konsekventa.

Vad händer om du överskrider din användningsnivå?

  • Om ditt dataflöde för begäran överskrider din användningsnivå , särskilt under perioder med hög efterfrågan, kan svarsfördröjningen öka avsevärt.
  • Svarstiden kan variera och kan i vissa fall vara mer än två gånger högre än när du arbetar på din användningsnivå.
  • Den här variabiliteten är mest märkbar för kunder med hög ihållande användning eller brustna trafikmönster.

Om du får 429 fel eller märker ökad svarstidsvariation bör du göra följande:

  • Begär en kvotökning: Besök Azure-portalen för att begära en högre kvot för din prenumeration.
  • Överväg att uppgradera till ett premiumerbjudande (PTU): uppgradera till Provisionerade Genomströmningseheter (PTU) för latenskritiska eller högvolymsarbetsbelastningar. PTU tillhandahåller dedikerade resurser, garanterad kapacitet och förutsägbar svarstid – även i stor skala. Det här är det bästa valet för verksamhetskritiska program som kräver konsekventa prestanda.
  • Övervaka din användning: Granska regelbundet dina användningsstatistik i Azure-portalen för att säkerställa att du arbetar inom dina nivågränser. Justera din arbetsbelastnings- eller distributionsstrategi efter behov.

Användningsgränsen avgör vilken användningsnivå som kunderna kan se större variabilitet i svarsfördröjningen. En kunds användning definieras per modell. Det är det totala antalet token som förbrukas i alla distributioner i alla prenumerationer i alla regioner för en viss klientorganisation.

Anmärkning

Användningsnivåer gäller endast för distributionstyperna Standard, Data Zone Standard och Global Standard. Användningsnivåer gäller inte för distributioner av global batch och tilldelad genomströmning.

Global Standard, Data Zone Standard och Standard

Modell Användningsnivåer per månad
gpt-5 32 miljarder token
gpt-5-mini 160 miljarder token
gpt-5-nano 800 miljarder token
gpt-5-chat 32 miljarder token
gpt-4 + gpt-4-32k (alla versioner) 6 miljarder token
gpt-4o 12 miljarder token
gpt-4o-mini 85 miljarder token
o3-mini 50 miljarder token
o1 4 miljarder token
o4-mini 50 miljarder token
o3 5 miljarder token
gpt-4.1 30 miljarder token
gpt-4.1-mini 150 miljarder token
gpt-4.1-nano 550 miljarder token

Andra erbjudandetyper

Om din Azure-prenumeration är länkad till vissa erbjudandetyper är dina högsta kvotvärden lägre än de värden som anges i föregående tabeller.

  • GPT-5-pro-kvoten är endast tillgänglig för MCA-E- och standardkvotprenumerationer. Alla andra erbjudandetyper har noll kvot för den här modellen som standard.

  • Kvoten för GPT-5-resonemangsmodellen är 20 000 TPM och 200 RPM för alla erbjudandetyper som inte har åtkomst till MCA-E eller standardkvot. GPT-5-chat är 50K och 50 RPM.

  • Vissa erbjudandetyper är begränsade till endast Global Standard-distributioner i regionerna USA, östra 2 och Sverige, centrala.

Nivå Kvotgräns i token per minut
Azure for Students 1K (alla modeller)
Undantag o-serie, GPT-4.1 och GPT 4.5 Förhandsversion: 0
MSDN GPT-4o-mini: 200K
datoranvändning-förhandsvisning: 8K
gpt-4o-realtime-förhandsgranskning: 1K
o-serien: 0
GPT 4.5 Förhandsvisning: 0
GPT-4.1: 50K
GPT-4.1-nano: 200K
Standard& Pay-as-you-go GPT-4o-mini: 200K
dator-användningsförhandsvisning: 30K
o-serien: 0
GPT 4.5 Förhandsvisning: 0
GPT-4.1: 50K
GPT-4.1-nano: 200K
Azure_MS-AZR-0111P
Azure_MS-AZR-0035P
Azure_MS-AZR-0025P
Azure_MS-AZR-0052P
GPT-4o-mini: 200K
CSP Integration Sandbox * Alla modeller: 0
Lightweight trial
Free trials
Azure Pass
Alla modeller: 0

*Den här gränsen gäller endast för ett litet antal äldre CSP-sandbox-prenumerationer. Använd följande fråga för att avgöra vilket värde som quotaId är associerat med din prenumeration.

Om du vill fastställa vilken erbjudandetyp som är associerad med din prenumeration kan du kontrollera ditt quotaId värde. Om ditt quotaId värde inte visas i den här tabellen kvalificerar din prenumeration för standardkvoten.

Se API-referensen.

az login
access_token=$(az account get-access-token --query accessToken -o tsv)
curl -X GET "https://management.azure.com/subscriptions/{subscriptionId}?api-version=2020-01-01" \
  -H "Authorization: Bearer $access_token" \
  -H "Content-Type: application/json"

Utgång

{
  "authorizationSource": "Legacy",
  "displayName": "Pay-As-You-Go",
  "id": "/subscriptions/aaaaaa-bbbbb-cccc-ddddd-eeeeee",
  "state": "Enabled",
  "subscriptionId": "aaaaaa-bbbbb-cccc-ddddd-eeeeee",
  "subscriptionPolicies": {
    "locationPlacementId": "Public_2014-09-01",
    "quotaId": "PayAsYouGo_2014-09-01",
    "spendingLimit": "Off"
  }
}
Kvottilldelning/Erbjudandetyp Prenumerationskvot-ID
Enterprise och MCA-E EnterpriseAgreement_2014-09-01
Betala efter hand PayAsYouGo_2014-09-01
MSDN MSDN_2014-09-01
Sandbox-miljö för CSP-integrering CSPDEVTEST_2018-05-01
Azure for Students AzureForStudents_2018-01-01
Kostnadsfri utvärderingsversion FreeTrial_2014-09-01
Azure Pass AzurePass_2014-09-01
Azure_MS-AZR-0111P AzureInOpen_2014-09-01
Azure_MS-AZR-0150P LightweightTrial_2016-09-01
Azure_MS-AZR-0035P
Azure_MS-AZR-0025P
Azure_MS-AZR-0052P
MPN_2014-09-01
Azure_MS-AZR-0023P
Azure_MS-AZR-0060P
Azure_MS-AZR-0148P
Azure_MS-AZR-0148G
MSDNDevTest_2014-09-01
Förinställning Någon kvot-ID som inte finns med i den här tabellen

Allmänna metodtips för att hålla sig inom hastighetsgränser

För att minimera problem som rör hastighetsbegränsningar är det en bra idé att använda följande tekniker:

  • Implementera logik för omprövning i ditt program.
  • Undvik stora plötsliga ändringar i arbetsbelastningen. Öka arbetsbelastningen gradvis.
  • Testa olika mönster för att öka belastningen.
  • Öka kvoten som tilldelats din distribution. Flytta kvoten från en annan utplacering vid behov.

Begär kvotökningar

Du kan begära kvotökningar för Foundry-modeller som säljs direkt av Azure, inklusive Azure OpenAI-modeller. Kvotökningar är inte allmänt tillgängliga för modeller från partner och community. Antropiska modeller är ett undantag.

Skicka formuläret för begäran om kvotökning för att begära en kvotökning. Begäranden bearbetas i den order som tas emot. Prioriteten går till kunder som aktivt använder sin befintliga kvotallokering. Begäranden som inte uppfyller det här villkoret kan nekas.

Skicka en tjänstbegäran för andra ökningar av hastighetsgränsen.

Regionala kvotkapacitetsgränser

Du kan visa kvottillgänglighet per region för din prenumeration i Foundry-portalen.

Om du vill visa kvotkapacitet per region för en viss modell eller version kan du fråga kapacitets-API: et för din prenumeration. Ange en subscriptionId, model_nameoch model_version och API:et returnerar den tillgängliga kapaciteten för modellen i alla regioner och distributionstyper för din prenumeration.

Anmärkning

För närvarande returnerar både Foundry-portalen och kapacitets-API:et kvot-/kapacitetsinformation för modeller som har dragits tillbaka och inte längre är tillgängliga.

Se API-referensen.

import requests
import json
from azure.identity import DefaultAzureCredential

subscriptionId = "Replace with your subscription ID" #replace with your subscription ID
model_name = "gpt-4o"     # Example value, replace with model name
model_version = "2024-08-06"   # Example value, replace with model version

token_credential = DefaultAzureCredential()
token = token_credential.get_token('https://management.azure.com/.default')
headers = {'Authorization': 'Bearer ' + token.token}

url = f"https://management.azure.com/subscriptions/{subscriptionId}/providers/Microsoft.CognitiveServices/modelCapacities"
params = {
    "api-version": "2024-06-01-preview",
    "modelFormat": "OpenAI",
    "modelName": model_name,
    "modelVersion": model_version
}

response = requests.get(url, params=params, headers=headers)
model_capacity = response.json()

print(json.dumps(model_capacity, indent=2))