Not
Åtkomst till denna sida kräver auktorisation. Du kan prova att logga in eller byta katalog.
Åtkomst till denna sida kräver auktorisation. Du kan prova att byta katalog.
Den här artikeln innehåller en snabbreferens och en detaljerad beskrivning av kvoter och gränser för Azure OpenAI.
Omfång för kvot
Kvoter och gränser tillämpas inte på klientorganisationsnivå. I stället begränsas den högsta nivån av kvotbegränsningar på Azure-prenumerationsnivå.
Regional kvotallokering
Gränser för token per minut (TPM) och begäranden per minut (RPM) definieras per region, per prenumeration och per modell eller distributionstyp.
Om till exempel den gpt-4.1 globala standardmodellen visas med en kvot på 5 miljoner TPM och 5 000 RPM, har varje region där modellen eller distributionstypen är tillgänglig en egen dedikerad kvotpool med det beloppet för var och en av dina Azure-prenumerationer. I en enda Azure-prenumeration är det möjligt att använda en större mängd av den totala TPM- och RPM-kvoten för en viss modell och distributionstyp, så länge du har resurser och modelldistributioner spridda över flera regioner.
Referens för kvoter och gränser
I följande avsnitt får du en snabbguide till de standardkvoter och gränser som gäller för Azure OpenAI:
| Gränsnamn | Gränsvärde |
|---|---|
| Azure OpenAI-resurser per region, per Azure-prenumeration | 30. |
| Standardgränser för DALL-E 2-kvoter | 2 samtidiga begäranden. |
| Standardgränser för DALL-E 3-kvoter | 6 begäranden per minut |
| Standardkvotgränser för GPT-image-1 | 9 begäranden per minut |
| Standardgränser för GPT-image-1-mini-kvot | 12 begäranden per minut |
| Standardgränser för GPT-image-1.5-kvoter | 9 begäranden per minut |
| Standardgränser för Sora-kvoter | 60 begäranden per minut. |
| Standardgränser för Sora 2-kvoter | 2 jobbbegäranden1 per minut |
| Standardgränser för api-kvoter för tal-till-text-ljud | 3 begäranden per minut. |
| Maximalt antal prompttoken per begäran | Varierar per modell. Mer information finns i Azure OpenAI-modeller. |
| Maximalt antal standarddistributioner per resurs | 32. |
| Maximalt antal finjusterade modelldistributioner | 10. |
| Totalt antal träningsjobb per resurs | 100. |
| Maximalt antal träningsjobb som körs samtidigt per resurs | Standard och global utbildning: 3; Utvecklarutbildning: 5 |
| Maximalt antal träningsjobb i kö | 20. |
| Maximalt antal filer per resurs (finjustering) | 100. |
| Total storlek för alla filer per resurs (finjustering) | 1 GB. |
| Maximal tid för träningsjobb (jobbet misslyckas om det överskrids) | 720 timmar. |
Maximal storlek på träningsjobb (tokens in training file) x (# of epochs) |
2 miljarder. |
| Maximal storlek på alla filer per uppladdning (Azure OpenAI för dina data) | 16 MB. |
Maximalt antal eller indata i matrisen med /embeddings |
2,048. |
Maximalt antal /chat/completions meddelanden |
2,048. |
Maximalt antal /chat/completions funktioner |
128. |
Maximalt antal /chat completions verktyg |
128. |
| Maximalt antal etablerade dataflödesenheter per distribution | 100,000. |
| Maximalt antal filer per assistent eller tråd | 10 000 när du använder API:et eller Microsoft Foundry-portalen. |
| Maximal filstorlek för assistenter och finjustering | 512 MB via API:et 200 MB genom Foundry-portalen. |
| Maximalt antal begäranden om filuppladdning per resurs | 30 begäranden per sekund. |
| Maximal storlek för alla uppladdade filer för assistenter | 200 GB. |
| Tokengräns för assistenter | 2 000 000 tokengräns. |
GPT-4o och GPT-4.1 maximalt antal bilder per begäran (antal bilder i meddelandematrisen eller konversationshistoriken) |
50. |
GPT-4 vision-preview och GPT-4 turbo-2024-04-09 maximala standardtoken |
16. max_tokens Öka parametervärdet för att undvika trunkerade svar.
GPT-4o maximalt antal token är som standard 4 096. |
| Maximalt antal anpassade rubriker i API-begäranden2 | 10. |
| Meddelandeteckengräns | 1,048,576. |
| Meddelandestorlek för ljudfiler | 20 MB. |
1 Sora 2 RPM-kvoten räknar endast videojobbbegäranden. Andra typer av begäranden är inte hastighetsbegränsade.
2 Våra aktuella API:er tillåter upp till 10 anpassade huvuden som skickas via pipelinen och returneras. Vissa kunder överskrider nu det här antalet huvuden, vilket resulterar i HTTP 431-fel. Det finns ingen lösning på det här felet, förutom att minska rubrikvolymen. I framtida API-versioner går vi inte igenom anpassade rubriker. Vi rekommenderar att kunderna inte är beroende av anpassade rubriker i framtida systemarkitekturer.
Anmärkning
Kvotgränser kan komma att ändras.
GPT-5.2-serien
| Modell | Distributionstyp | Standard-RPM | Standardinställning-TPM | RPM för företagslösningar och MCA-E | Enterprise och MCA-E TPM |
|---|---|---|---|---|---|
gpt-5.2 |
DataZoneStandard | 3,000 | 300,000 | 30,000 | 3,000,000 |
gpt-5.2 |
GlobalStandard | 10 000 | 1,000,000 | 100 000 | 10 000 000 |
gpt-5.2-chat |
GlobalStandard | 10 000 | 1,000,000 | 50,000 | 5,000,000 |
gpt-5.2-codex |
GlobalStandard | 1,000 | 1,000,000 | 10 000 | 10 000 000 |
GPT-5.1-serien
| Modell | Distributionstyp | Standard-RPM | Standardinställning-TPM | RPM för företagslösningar och MCA-E | Enterprise och MCA-E TPM |
|---|---|---|---|---|---|
gpt-5.1 |
DataZoneStandard | 3,000 | 300,000 | 30,000 | 3,000,000 |
gpt-5.1 |
GlobalStandard | 10 000 | 1,000,000 | 100 000 | 10 000 000 |
gpt-5.1-chat |
GlobalStandard | 10 000 | 1,000,000 | 50,000 | 5,000,000 |
gpt-5.1-codex |
GlobalStandard | 1,000 | 1,000,000 | 10 000 | 10 000 000 |
gpt-5.1-codex-mini |
GlobalStandard | 1,000 | 1,000,000 | 10 000 | 10 000 000 |
gpt-5.1-codex-max |
GlobalStandard | 10 000 | 1,000,000 | 100 000 | 10 000 000 |
GPT-5-serien
| Modell | Distributionstyp | Standard-RPM | Standardinställning-TPM | RPM för företagslösningar och MCA-E | Enterprise och MCA-E TPM |
|---|---|---|---|---|---|
gpt-5 |
DataZoneStandard | 3,000 | 300,000 | 30,000 | 3,000,000 |
gpt-5 |
GlobalStandard | 10 000 | 1,000,000 | 100 000 | 10 000 000 |
gpt-5-chat |
GlobalStandard | 1,000 | 1,000,000 | 5,000 | 5,000,000 |
gpt-5-mini |
DataZoneStandard | 300 | 300,000 | 3,000 | 3,000,000 |
gpt-5-mini |
GlobalStandard | 1,000 | 1,000,000 | 10 000 | 10 000 000 |
gpt-5-nano |
DataZoneStandard | 2 000 | 2,000,000 | 50,000 | 50,000,000 |
gpt-5-nano |
GlobalStandard | 5,000 | 5,000,000 | 150,000 | 150,000,000 |
gpt-5-codex |
GlobalStandard | 1,000 | 1,000,000 | 10 000 | 10 000 000 |
gpt-5-pro |
GlobalStandard | 1,600 | 160,000 | 16,000 | 1,600,000 |
hastighetsgränser för modellrouter
| Modell | Distributionstyp | Standard-RPM | Standardinställning-TPM | RPM för företagslösningar och MCA-E | Enterprise och MCA-E TPM |
|---|---|---|---|---|---|
model-router (2025-11-18) |
DataZoneStandard | 150 | 150,000 | 300 | 300,000 |
model-router (2025-11-18) |
GlobalStandard | 250 | 250 000 | 400 | 400,000 |
Batchgränser
| Gränsnamn | Gränsvärde |
|---|---|
| Maximalt antal Batch-indatafiler – (inget förfallodatum) | 500 |
| Maximalt antal batchinmatningsfiler – (förfallodatum satt) | 10 000 |
| Maximal indatafilstorlek | 200 MB |
| Maximal indatafilstorlek – Byos (Bring Your Own Storage) | 1 GB |
| Maximalt antal begäranden per fil | 100 000 |
Anmärkning
Batchfilgränser gäller inte för utdatafiler (till exempel result.jsonl, och error.jsonl). Om du vill ta bort filbegränsningar för batchindata använder du Batch med Azure Blob Storage.
Batchkvot
Tabellen visar batchkvotgränsen. Kvotvärden för global batch representeras i termer av köade token. När du skickar en fil för batchbearbetning räknas antalet token i filen. Tills batchjobbet når ett terminaltillstånd räknas dessa token mot den totala tillåtna tokengränsen.
Global omgång
| Modell | Enterprise och MCA-E | Förinställning | Månatliga kreditkortsbaserade prenumerationer | MSDN-prenumerationer | Azure for Students, kostnadsfria utvärderingsversioner |
|---|---|---|---|---|---|
gpt-4.1 |
5B | 200M | 50 M | 90 000 | Inte tillgänglig |
gpt-4.1 mini |
15B | 1B | 50 M | 90 000 | Inte tillgänglig |
gpt-4.1-nano |
15B | 1B | 50 M | 90 000 | Inte tillgänglig |
gpt-4o |
5B | 200M | 50 M | 90 000 | Inte tillgänglig |
gpt-4o-mini |
15B | 1B | 50 M | 90 000 | Inte tillgänglig |
gpt-4-turbo |
300M | 80M | 40M | 90 000 | Inte tillgänglig |
gpt-4 |
150 M | 30 M | 5 M | 100 000 | Inte tillgänglig |
o3-mini |
15B | 1B | 50 M | 90 000 | Inte tillgänglig |
o4-mini |
15B | 1B | 50 M | 90 000 | Inte tillgänglig |
gpt-5 |
5B | 200M | 50 M | 90 000 | Inte tillgänglig |
gpt-5.1 |
5B | 200M | 50 M | 90 000 | Inte tillgänglig |
B = miljarder | M = miljoner | K = tusen
Datazonsgrupp
| Modell | Enterprise och MCA-E | Förinställning | Månatliga kreditkortsbaserade prenumerationer | MSDN-prenumerationer | Azure for Students, kostnadsfria utvärderingsversioner |
|---|---|---|---|---|---|
gpt-4.1 |
500M | 30 M | 30 M | 90 000 | Inte tillgänglig |
gpt-4.1-mini |
1,5B | 100 M | 50 M | 90 000 | Inte tillgänglig |
gpt-4o |
500M | 30 M | 30 M | 90 000 | Inte tillgänglig |
gpt-4o-mini |
1,5B | 100 M | 50 M | 90 000 | Inte tillgänglig |
o3-mini |
1,5B | 100 M | 50 M | 90 000 | Inte tillgänglig |
gpt-5 |
5B | 200M | 50 M | 90 000 | Inte tillgänglig |
gpt-5.1 |
5B | 200M | 50 M | 90 000 | Inte tillgänglig |
gpt-oss
| Modell | Token per minut (TPM) | Begäranden per minut (RPM) |
|---|---|---|
gpt-oss-120b |
5 miljoner | 5 K |
GPT-4-hastighetsgränser
GPT-4.5 förhandsversion global standard
| Modell | Nivå | Kvotgräns i token per minut | Antal begäranden per minut |
|---|---|---|---|
gpt-4.5 |
Enterprise och MCA-E | 200 000 | 200 |
gpt-4.5 |
Förinställning | 150 000 | 150 |
GPT-4.1-serien Global Standard
| Modell | Nivå | Kvotgräns i token per minut (TPM) | Antal begäranden per minut |
|---|---|---|---|
gpt-4.1 (2025-04-14) |
Enterprise och MCA-E | 5 M | 5K |
gpt-4.1 (2025-04-14) |
Förinställning | 1 milj. | 1K |
gpt-4.1-nano (2025-04-14) |
Enterprise och MCA-E | 150 M | 150 000 |
gpt-4.1-nano (2025-04-14) |
Förinställning | 5 M | 5K |
gpt-4.1-mini (2025-04-14) |
Enterprise och MCA-E | 150 M | 150 000 |
gpt-4.1-mini (2025-04-14) |
Förinställning | 5 M | 5K |
GPT-4.1-serien Data Zone Standard
| Modell | Nivå | Kvotgräns i token per minut (TPM) | Antal begäranden per minut |
|---|---|---|---|
gpt-4.1 (2025-04-14) |
Enterprise och MCA-E | 2M | 2K |
gpt-4.1 (2025-04-14) |
Förinställning | 300 000 | 300 |
gpt-4.1-nano (2025-04-14) |
Enterprise och MCA-E | 50 M | 50 000 |
gpt-4.1-nano (2025-04-14) |
Förinställning | 2M | 2K |
gpt-4.1-mini (2025-04-14) |
Enterprise och MCA-E | 50 M | 50 000 |
gpt-4.1-mini (2025-04-14) |
Förinställning | 2M | 2K |
GPT-4 Turbo
gpt-4 (turbo-2024-04-09) har frekvensgränsnivåer med högre gränser för vissa kundtyper.
| Modell | Nivå | Kvotgräns i token per minut | Antal begäranden per minut |
|---|---|---|---|
gpt-4 (turbo-2024-04-09) |
Enterprise och MCA-E | 2M | 12 K |
gpt-4 (turbo-2024-04-09) |
Förinställning | 450 000 | 2,7 000 |
hastighetsgränser för datoranvändning och förhandsversion av Global Standard
| Modell | Nivå | Kvotgräns i token per minut | Antal begäranden per minut |
|---|---|---|---|
computer-use-preview |
Enterprise och MCA-E | 30 M | 300 000 |
computer-use-preview |
Förinställning | 450 000 | 4,5 000 |
Hastighetsbegränsningar för O-serien
Viktigt!
Förhållandet mellan begäranden per minut och token per minut för kvot kan variera beroende på modell. När du distribuerar en modell programmatiskt eller begär en kvotökning har du inte detaljerad kontroll över token per minut och begäranden per minut som oberoende värden. Kvoten allokeras när det gäller kapacitetsenheter, som har motsvarande mängder begäranden per minut och token per minut.
| Modell | Kapacitet | Begäranden per minut (RPM) | Token per minut (TPM) |
|---|---|---|---|
| Äldre chattmodeller | 1 enhet | 6 varv per minut (rpm) | 1 000 TPM |
o1 och o1-preview |
1 enhet | 1 varv per minut | 6 000 TPM |
o3 |
1 enhet | 1 varv per minut | 1 000 TPM |
o4-mini |
1 enhet | 1 varv per minut | 1 000 TPM |
o3-mini |
1 enhet | 1 varv per minut | 10 000 TPM |
o1-mini |
1 enhet | 1 varv per minut | 10 000 TPM |
o3-pro |
1 enhet | 1 varv per minut | 10 000 TPM |
Det här konceptet är viktigt för distribution av programmatiska modeller, eftersom ändringar i förhållandet mellan RPM och TPM kan leda till oavsiktlig felallokering av kvoten.
o-serien Global Standard
| Modell | Nivå | Kvotgräns i token per minut | Antal begäranden per minut |
|---|---|---|---|
codex-mini |
Enterprise och MCA-E | 10M | 10 000 |
o3-pro |
Enterprise och MCA-E | 16 M | 1,6 000 |
o4-mini |
Enterprise och MCA-E | 10M | 10 000 |
o3 |
Enterprise och MCA-E | 10M | 10 000 |
o3-mini |
Enterprise och MCA-E | 50 M | 5K |
o1 och o1-preview |
Enterprise och MCA-E | 30 M | 5K |
o1-mini |
Enterprise och MCA-E | 50 M | 5K |
codex-mini |
Förinställning | 1 milj. | 1K |
o3-pro |
Förinställning | 1,6 M | 160 |
o4-mini |
Förinställning | 1 milj. | 1K |
o3 |
Förinställning | 1 milj. | 1K |
o3-mini |
Förinställning | 5 M | 500 |
o1 och o1-preview |
Förinställning | 3M | 500 |
o1-mini |
Förinställning | 5 M | 500 |
o-serien Data Zone Standard
| Modell | Nivå | Kvotgräns i token per minut | Antal begäranden per minut |
|---|---|---|---|
o3 |
Förinställning | 10M | 10 000 |
o4-mini |
Förinställning | 10M | 10 000 |
o3-mini |
Enterprise och MCA-E | 20M | 2K |
o3-mini |
Förinställning | 2M | 200 |
o1 |
Enterprise och MCA-E | 6 miljoner | 1K |
o1 |
Förinställning | 600 000 | 100 |
o1-preview och o1-mini Standard
| Modell | Nivå | Kvotgräns i token per minut | Antal begäranden per minut |
|---|---|---|---|
o1-preview |
Enterprise och MCA-E | 600 000 | 100 |
o1-mini |
Enterprise och MCA-E | 1 milj. | 100 |
o1-preview |
Förinställning | 300 000 | 50 |
o1-mini |
Förinställning | 500 000 | 50 |
gpt-4o-hastighetsgränser
gpt-4o och gpt-4o-mini har frekvensgränsnivåer med högre gränser för vissa kundtyper.
gpt-4o Global Standard
| Modell | Nivå | Kvotgräns i token per minut | Antal begäranden per minut |
|---|---|---|---|
gpt-4o |
Enterprise och MCA-E | 30 M | 180 000 |
gpt-4o-mini |
Enterprise och MCA-E | 150 M | 1,5 M |
gpt-4o |
Förinställning | 450 000 | 2,7 000 |
gpt-4o-mini |
Förinställning | 2M | 12 K |
GPT-4o Datazonstandard
| Modell | Nivå | Kvotgräns i token per minut | Antal begäranden per minut |
|---|---|---|---|
gpt-4o |
Enterprise och MCA-E | 10M | 60 000 |
gpt-4o-mini |
Enterprise och MCA-E | 20M | 120 000 |
gpt-4o |
Förinställning | 300 000 | 1,8 000 |
gpt-4o-mini |
Förinställning | 1 milj. | 6K |
gpt-4o Standard
| Modell | Nivå | Kvotgräns i token per minut | Antal begäranden per minut |
|---|---|---|---|
gpt-4o |
Enterprise och MCA-E | 1 milj. | 6K |
gpt-4o-mini |
Enterprise och MCA-E | 2M | 12 K |
gpt-4o |
Förinställning | 150 000 | 900 |
gpt-4o-mini |
Förinställning | 450 000 | 2,7 000 |
GPT-4o-ljud
| Modell | Nivå | Kvotgräns i token per minut | Antal begäranden per minut |
|---|---|---|---|
gpt-4o-audio-preview |
Förinställning | 450 000 | 1K |
gpt-4o-realtime-preview |
Förinställning | 800 000 | 1K |
gpt-4o-mini-audio-preview |
Förinställning | 2M | 1K |
gpt-4o-mini-realtime-preview |
Förinställning | 800 000 | 1K |
gpt-audio |
Förinställning | 100 000 | 30 |
gpt-audio-mini |
Förinställning | 100 000 | 30 |
gpt-realtime |
Förinställning | 100 000 | 100 |
gpt-realtime-mini |
Förinställning | 100 000 | 100 |
gpt-realtime-mini-2025-12-15 |
Förinställning | 100 000 | 100 |
Hastighetsgränser för GPT-image-1-serien
GPT-image-1 Global Standard
| Modell | Nivå | Kvotgräns i token per minut | Antal begäranden per minut |
|---|---|---|---|
gpt-image-1 |
Enterprise och MCA-E | Inte tillgänglig | 60 |
gpt-image-1 |
Medel | Inte tillgänglig | 36 |
gpt-image-1 |
Low | Inte tillgänglig | 9 |
gpt-image-1-mini |
Low | Inte tillgänglig | 12 |
gpt-image-1-mini |
Medel | Inte tillgänglig | 36 |
gpt-image-1-mini |
High | Inte tillgänglig | 120 |
gpt-image-1 |
Low | Inte tillgänglig | 9 |
gpt-image-1 |
Medel | Inte tillgänglig | 18 |
gpt-image-1 |
High | Inte tillgänglig | 60 |
Användningsnivåer
Global Standard-distributioner använder den globala infrastrukturen i Azure. De dirigerar dynamiskt kundtrafik till datacentret med bästa tillgänglighet för kundens slutsatsdragningsbegäranden. På samma sätt kan du med Data Zone Standard-distributioner använda den globala infrastrukturen i Azure för att dynamiskt dirigera trafik till datacentret i den Microsoft-definierade datazonen med bästa tillgänglighet för varje begäran. Den här metoden möjliggör mer konsekvent svarstid för kunder med låg till medelhög trafiknivå. Kunder med hög ihållande användningsnivå kan se större variabilitet i svarsfördröjningen.
Azure OpenAI-användningsnivåer är utformade för att ge konsekventa prestanda för de flesta kunder med låg till medelhög trafiknivå. Varje användningsnivå definierar det maximala dataflöde (token per minut) som du kan förvänta dig med förutsägbar svarstid. När din användning ligger kvar på den tilldelade nivån förblir svarstiden stabil och svarstiderna är konsekventa.
Vad händer om du överskrider din användningsnivå?
- Om ditt dataflöde för begäran överskrider din användningsnivå , särskilt under perioder med hög efterfrågan, kan svarsfördröjningen öka avsevärt.
- Svarstiden kan variera och kan i vissa fall vara mer än två gånger högre än när du arbetar på din användningsnivå.
- Den här variabiliteten är mest märkbar för kunder med hög ihållande användning eller brustna trafikmönster.
Rekommenderade åtgärder Om du överskrider din användningsnivå
Om du får 429 fel eller märker ökad svarstidsvariation bör du göra följande:
- Begär en kvotökning: Besök Azure-portalen för att begära en högre kvot för din prenumeration.
- Överväg att uppgradera till ett premiumerbjudande (PTU): uppgradera till Provisionerade Genomströmningseheter (PTU) för latenskritiska eller högvolymsarbetsbelastningar. PTU tillhandahåller dedikerade resurser, garanterad kapacitet och förutsägbar svarstid – även i stor skala. Det här är det bästa valet för verksamhetskritiska program som kräver konsekventa prestanda.
- Övervaka din användning: Granska regelbundet dina användningsstatistik i Azure-portalen för att säkerställa att du arbetar inom dina nivågränser. Justera din arbetsbelastnings- eller distributionsstrategi efter behov.
Användningsgränsen avgör vilken användningsnivå som kunderna kan se större variabilitet i svarsfördröjningen. En kunds användning definieras per modell. Det är det totala antalet token som förbrukas i alla distributioner i alla prenumerationer i alla regioner för en viss klientorganisation.
Anmärkning
Användningsnivåer gäller endast för distributionstyperna Standard, Data Zone Standard och Global Standard. Användningsnivåer gäller inte för distributioner av global batch och tilldelad genomströmning.
Global Standard, Data Zone Standard och Standard
| Modell | Användningsnivåer per månad |
|---|---|
gpt-5 |
32 miljarder token |
gpt-5-mini |
160 miljarder token |
gpt-5-nano |
800 miljarder token |
gpt-5-chat |
32 miljarder token |
gpt-4
+
gpt-4-32k (alla versioner) |
6 miljarder token |
gpt-4o |
12 miljarder token |
gpt-4o-mini |
85 miljarder token |
o3-mini |
50 miljarder token |
o1 |
4 miljarder token |
o4-mini |
50 miljarder token |
o3 |
5 miljarder token |
gpt-4.1 |
30 miljarder token |
gpt-4.1-mini |
150 miljarder token |
gpt-4.1-nano |
550 miljarder token |
Andra erbjudandetyper
Om din Azure-prenumeration är länkad till vissa erbjudandetyper är dina högsta kvotvärden lägre än de värden som anges i föregående tabeller.
GPT-5-pro-kvoten är endast tillgänglig för MCA-E- och standardkvotprenumerationer. Alla andra erbjudandetyper har noll kvot för den här modellen som standard.
Kvoten för GPT-5-resonemangsmodellen är 20 000 TPM och 200 RPM för alla erbjudandetyper som inte har åtkomst till MCA-E eller standardkvot. GPT-5-chat är 50K och 50 RPM.
Vissa erbjudandetyper är begränsade till endast Global Standard-distributioner i regionerna USA, östra 2 och Sverige, centrala.
| Nivå | Kvotgräns i token per minut |
|---|---|
Azure for Students |
1K (alla modeller) Undantag o-serie, GPT-4.1 och GPT 4.5 Förhandsversion: 0 |
MSDN |
GPT-4o-mini: 200K datoranvändning-förhandsvisning: 8K gpt-4o-realtime-förhandsgranskning: 1K o-serien: 0 GPT 4.5 Förhandsvisning: 0 GPT-4.1: 50K GPT-4.1-nano: 200K |
Standard& Pay-as-you-go |
GPT-4o-mini: 200K dator-användningsförhandsvisning: 30K o-serien: 0 GPT 4.5 Förhandsvisning: 0 GPT-4.1: 50K GPT-4.1-nano: 200K |
Azure_MS-AZR-0111P Azure_MS-AZR-0035P Azure_MS-AZR-0025P Azure_MS-AZR-0052P |
GPT-4o-mini: 200K |
CSP Integration Sandbox
*
|
Alla modeller: 0 |
Lightweight trialFree trialsAzure Pass |
Alla modeller: 0 |
*Den här gränsen gäller endast för ett litet antal äldre CSP-sandbox-prenumerationer. Använd följande fråga för att avgöra vilket värde som quotaId är associerat med din prenumeration.
Om du vill fastställa vilken erbjudandetyp som är associerad med din prenumeration kan du kontrollera ditt quotaId värde. Om ditt quotaId värde inte visas i den här tabellen kvalificerar din prenumeration för standardkvoten.
Se API-referensen.
az login
access_token=$(az account get-access-token --query accessToken -o tsv)
curl -X GET "https://management.azure.com/subscriptions/{subscriptionId}?api-version=2020-01-01" \
-H "Authorization: Bearer $access_token" \
-H "Content-Type: application/json"
Utgång
{
"authorizationSource": "Legacy",
"displayName": "Pay-As-You-Go",
"id": "/subscriptions/aaaaaa-bbbbb-cccc-ddddd-eeeeee",
"state": "Enabled",
"subscriptionId": "aaaaaa-bbbbb-cccc-ddddd-eeeeee",
"subscriptionPolicies": {
"locationPlacementId": "Public_2014-09-01",
"quotaId": "PayAsYouGo_2014-09-01",
"spendingLimit": "Off"
}
}
| Kvottilldelning/Erbjudandetyp | Prenumerationskvot-ID |
|---|---|
| Enterprise och MCA-E | EnterpriseAgreement_2014-09-01 |
| Betala efter hand | PayAsYouGo_2014-09-01 |
| MSDN | MSDN_2014-09-01 |
| Sandbox-miljö för CSP-integrering | CSPDEVTEST_2018-05-01 |
| Azure for Students | AzureForStudents_2018-01-01 |
| Kostnadsfri utvärderingsversion | FreeTrial_2014-09-01 |
| Azure Pass | AzurePass_2014-09-01 |
| Azure_MS-AZR-0111P | AzureInOpen_2014-09-01 |
| Azure_MS-AZR-0150P | LightweightTrial_2016-09-01 |
| Azure_MS-AZR-0035P Azure_MS-AZR-0025P Azure_MS-AZR-0052P |
MPN_2014-09-01 |
| Azure_MS-AZR-0023P Azure_MS-AZR-0060P Azure_MS-AZR-0148P Azure_MS-AZR-0148G |
MSDNDevTest_2014-09-01 |
| Förinställning | Någon kvot-ID som inte finns med i den här tabellen |
Allmänna metodtips för att hålla sig inom hastighetsgränser
För att minimera problem som rör hastighetsbegränsningar är det en bra idé att använda följande tekniker:
- Implementera logik för omprövning i ditt program.
- Undvik stora plötsliga ändringar i arbetsbelastningen. Öka arbetsbelastningen gradvis.
- Testa olika mönster för att öka belastningen.
- Öka kvoten som tilldelats din distribution. Flytta kvoten från en annan utplacering vid behov.
Begär kvotökningar
Du kan begära kvotökningar för Foundry-modeller som säljs direkt av Azure, inklusive Azure OpenAI-modeller. Kvotökningar är inte allmänt tillgängliga för modeller från partner och community. Antropiska modeller är ett undantag.
Skicka formuläret för begäran om kvotökning för att begära en kvotökning. Begäranden bearbetas i den order som tas emot. Prioriteten går till kunder som aktivt använder sin befintliga kvotallokering. Begäranden som inte uppfyller det här villkoret kan nekas.
Skicka en tjänstbegäran för andra ökningar av hastighetsgränsen.
Regionala kvotkapacitetsgränser
Du kan visa kvottillgänglighet per region för din prenumeration i Foundry-portalen.
Om du vill visa kvotkapacitet per region för en viss modell eller version kan du fråga kapacitets-API: et för din prenumeration. Ange en subscriptionId, model_nameoch model_version och API:et returnerar den tillgängliga kapaciteten för modellen i alla regioner och distributionstyper för din prenumeration.
Anmärkning
För närvarande returnerar både Foundry-portalen och kapacitets-API:et kvot-/kapacitetsinformation för modeller som har dragits tillbaka och inte längre är tillgängliga.
Se API-referensen.
import requests
import json
from azure.identity import DefaultAzureCredential
subscriptionId = "Replace with your subscription ID" #replace with your subscription ID
model_name = "gpt-4o" # Example value, replace with model name
model_version = "2024-08-06" # Example value, replace with model version
token_credential = DefaultAzureCredential()
token = token_credential.get_token('https://management.azure.com/.default')
headers = {'Authorization': 'Bearer ' + token.token}
url = f"https://management.azure.com/subscriptions/{subscriptionId}/providers/Microsoft.CognitiveServices/modelCapacities"
params = {
"api-version": "2024-06-01-preview",
"modelFormat": "OpenAI",
"modelName": model_name,
"modelVersion": model_version
}
response = requests.get(url, params=params, headers=headers)
model_capacity = response.json()
print(json.dumps(model_capacity, indent=2))
Relaterat innehåll
- Utforska hur du hanterar kvoter för dina Azure OpenAI-distributioner.
- Läs mer om de underliggande modeller som driver Azure OpenAI.