Händelser
17 mars 21 - 21 mars 10
Gå med i mötesserien för att skapa skalbara AI-lösningar baserat på verkliga användningsfall med andra utvecklare och experter.
Registrera dig nuDen här webbläsaren stöds inte längre.
Uppgradera till Microsoft Edge och dra nytta av de senaste funktionerna och säkerhetsuppdateringarna, samt teknisk support.
Den här artikeln innehåller en snabbreferens och en detaljerad beskrivning av kvoter och gränser för Azure OpenAI i Azure AI-tjänster.
I följande avsnitt får du en snabbguide till de standardkvoter och gränser som gäller för Azure OpenAI:
Gränsnamn | Gränsvärde |
---|---|
Azure OpenAI-resurser per region per Azure-prenumeration | 30 |
Standardgränser för DALL-E 2-kvoter | 2 samtidiga begäranden |
Standardgränser för DALL-E 3-kvoter | 2 kapacitetsenheter (6 begäranden per minut) |
Standardgränser för Whisper-kvoter | 3 begäranden per minut |
Maximalt antal prompttoken per begäran | Varierar per modell. Mer information finns i Azure OpenAI Service-modeller |
Maximalt antal standarddistributioner per resurs | 32 |
Maximalt antal finjusterade modelldistributioner | 5 |
Totalt antal träningsjobb per resurs | 100 |
Maximalt antal träningsjobb som körs samtidigt per resurs | 1 |
Maximalt antal träningsjobb i kö | 20 |
Maximalt antal filer per resurs (finjustering) | 50 |
Total storlek för alla filer per resurs (finjustering) | 1 GB |
Maximal tid för träningsjobb (jobbet misslyckas om det överskrids) | 720 timmar |
Maximal storlek på träningsjobb (token i träningsfilen) x (antal epoker) | 2 miljarder |
Maximal storlek på alla filer per uppladdning (Azure OpenAI på dina data) | 16 MB |
Maximalt antal eller indata i matrisen med /embeddings |
2048 |
Maximalt antal /chat/completions meddelanden |
2048 |
Maximalt antal /chat/completions funktioner |
128 |
Maximalt antal /chat completions verktyg |
128 |
Maximalt antal etablerade dataflödesenheter per distribution | 100,000 |
Maximalt antal filer per assistent/tråd | 10 000 när du använder API:et eller Azure AI Foundry-portalen. I Azure OpenAI Studio var gränsen 20. |
Maximal filstorlek för assistenter och finjustering | 512 MB 200 MB via Azure AI Foundry-portalen |
Maximal storlek för alla uppladdade filer för assistenter | 100 GB |
Tokengräns för assistenter | 2 000 000 tokengräns |
GPT-4o max bilder per begäran (antal bilder i meddelandematrisen/konversationshistoriken) | 50 |
GPT-4 vision-preview & GPT-4 turbo-2024-04-09 standard maxtoken |
16 max_tokens Öka parametervärdet för att undvika trunkerade svar. GPT-4o maxtoken är som standard 4 096. |
Maximalt antal anpassade rubriker i API-begäranden1 | 10 |
Meddelandeteckengräns | 1048576 |
Meddelandestorlek för ljudfiler | 20 MB |
1 Våra aktuella API:er tillåter upp till 10 anpassade huvuden som skickas via pipelinen och returneras. Vissa kunder överskrider nu det här antalet huvuden, vilket resulterar i HTTP 431-fel. Det finns ingen lösning på det här felet, förutom att minska rubrikvolymen. I framtida API-versioner passerar vi inte längre anpassade rubriker. Vi rekommenderar att kunderna inte är beroende av anpassade rubriker i framtida systemarkitekturer.
Region | o1-mini | o1 | GPT-4 | GPT-4-32K | GPT-4-Turbo | GPT-4-Turbo-V | gpt-4o | gpt-4o-mini | GPT-35-Turbo | GPT-35-Turbo-Instruct | o1-mini - GlobalStandard | o1 – GlobalStandard | gpt-4o – GlobalStandard | gpt-4o-mini – GlobalStandard | GPT-4-Turbo – GlobalStandard | GPT-4o – Global-Batch | GPT-4o-mini – Global-Batch | GPT-4 – Global-Batch | GPT-4-Turbo – Global-Batch | gpt-35-turbo – Global-Batch | Text-Inbäddning-Ada-002 | text-embedding-3-small | text-embedding-3-large | GPT-4o - finetune | GPT-4o-mini - finetune | GPT-4 – finetune | Babbage-002 | Babbage-002 - finetune | Davinci-002 | Davinci-002 - finetune | GPT-35-Turbo - finetune | GPT-35-Turbo-1106 - finetune | GPT-35-Turbo-0125 - finetune |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
australiaeast | - | - | 40 K | 80 K | 80 K | 30 K | - | - | 300 K | - | - | - | 30 M | 50 M | 2 M | - | - | - | - | - | 350 K | - | - | - | - | - | - | - | - | - | - | - | - |
Brasilien, södra | - | - | - | - | - | - | - | - | - | - | - | - | 30 M | 50 M | 2 M | - | - | - | - | - | 350 K | - | - | - | - | - | - | - | - | - | - | - | - |
canadaeast | - | - | 40 K | 80 K | 80 K | - | - | - | 300 K | - | - | - | 30 M | 50 M | 2 M | - | - | - | - | - | 350 K | 350 K | 350 K | - | - | - | - | - | - | - | - | - | - |
eastus | 1 M | 600 K | - | - | 80 K | - | 1 M | 2 M | 240 K | 240 K | 50 M | 30 M | 30 M | 50 M | 2 M | 5 B | 15 B | 150 M | 300 M | 10 B | 240 K | 350 K | 350 K | - | - | - | - | - | - | - | - | - | - |
eastus2 | 1 M | 600 K | - | - | 80 K | - | 1 M | 2 M | 300 K | - | 50 M | 30 M | 30 M | 50 M | 2 M | - | - | - | - | - | 350 K | 350 K | 350 K | 250 K | - | - | - | - | - | - | 250 K | 250 K | 250 K |
francecentral | - | - | 20 K | 60 K | 80 K | - | - | - | 240 K | - | - | - | 30 M | 50 M | 2 M | - | - | - | - | - | 240 K | - | 350 K | - | - | - | - | - | - | - | - | - | - |
germanywestcentral | - | - | - | - | - | - | - | - | - | - | - | - | 30 M | 50 M | 2 M | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - |
Japan, östra | - | - | - | - | - | 30 K | - | - | 300 K | - | - | - | 30 M | 50 M | 2 M | - | - | - | - | - | 350 K | 350 K | 350 K | - | - | - | - | - | - | - | - | - | - |
koreacentral | - | - | - | - | - | - | - | - | - | - | - | - | 30 M | 50 M | 2 M | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - |
northcentralus | 1 M | 600 K | - | - | 80 K | - | 1 M | 2 M | 300 K | - | 50 M | 30 M | 30 M | 50 M | 2 M | - | - | - | - | - | 350 K | - | - | 250 K | 500 K | 100 K | 240 K | 250 K | 240 K | 250 K | 250 K | 250 K | 250 K |
norwayeast | - | - | - | - | 150 K | - | - | - | - | - | - | - | 30 M | 50 M | 2 M | - | - | - | - | - | 350 K | - | 350 K | - | - | - | - | - | - | - | - | - | - |
polencentral | - | - | - | - | - | - | - | - | - | - | - | - | 30 M | 50 M | 2 M | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - |
southafricanorth | - | - | - | - | - | - | - | - | - | - | - | - | 30 M | 50 M | 2 M | - | - | - | - | - | 350 K | - | - | - | - | - | - | - | - | - | - | - | - |
USA, södra centrala | 1 M | 600 K | - | - | 80 K | - | 1 M | 2 M | 240 K | - | 50 M | 30 M | 30 M | 50 M | 2 M | - | - | - | - | - | 240 K | - | - | - | - | - | - | - | - | - | - | - | - |
southindia | - | - | - | - | 150 K | - | - | - | 300 K | - | - | - | 30 M | 50 M | 2 M | - | - | - | - | - | 350 K | - | 350 K | - | - | - | - | - | - | - | - | - | - |
spaincentral | - | - | - | - | - | - | - | - | - | - | - | - | 30 M | 50 M | 2 M | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - |
swedencentral | 1 M | 600 K | 40 K | 80 K | 150 K | 30 K | 1 M | 2 M | 300 K | 240 K | 50 M | 30 M | 30 M | 50 M | 2 M | 5 B | 15 B | 150 M | 300 M | 10 B | 350 K | - | 350 K | 250 K | 500 K | 100 K | 240 K | 250 K | 240 K | 250 K | 250 K | 250 K | 250 K |
switzerlandnorth | - | - | 40 K | 80 K | - | 30 K | - | - | 300 K | - | - | - | 30 M | 50 M | 2 M | - | - | - | - | - | 350 K | - | - | - | - | - | - | - | - | - | - | - | - |
switzerlandwest | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | 250 K | - | 250 K | 250 K | 250 K | 250 K |
uksouth | - | - | - | - | 80 K | - | - | - | 240 K | - | - | - | 30 M | 50 M | 2 M | - | - | - | - | - | 350 K | - | 350 K | - | - | - | - | - | - | - | - | - | - |
Europa, västra | - | - | - | - | - | - | - | - | 240 K | - | - | - | 30 M | 50 M | 2 M | - | - | - | - | - | 240 K | - | - | - | - | - | - | - | - | - | - | - | - |
westus | 1 M | 600 K | - | - | 80 K | 30 K | 1 M | 2 M | 300 K | - | 50 M | 30 M | 30 M | 50 M | 2 M | 5 B | 15 B | 150 M | 300 M | 10 B | 350 K | - | - | - | - | - | - | - | - | - | - | - | - |
westus3 | 1 M | 600 K | - | - | 80 K | - | 1 M | 2 M | 300 K | - | 50 M | 30 M | 30 M | 50 M | 2 M | - | - | - | - | - | 350 K | - | 350 K | - | - | - | - | - | - | - | - | - | - |
Gränsnamn | Gränsvärde |
---|---|
Maximalt antal filer per resurs | 500 |
Maximal filstorlek för indata | 200 MB |
Maximalt antal begäranden per fil | 100,000 |
Tabellen visar batchkvotgränsen. Kvotvärden för global batch representeras när det gäller kodade token. När du skickar en fil för batchbearbetning räknas antalet token som finns i filen. Tills batchjobbet når ett terminaltillstånd räknas dessa token mot den totala tillåtna tokengränsen.
Modell | Enterprise-avtal | Standardvärde | Månatliga kreditkortsbaserade prenumerationer | MSDN-prenumerationer | Azure for Students, kostnadsfria utvärderingsversioner |
---|---|---|---|---|---|
gpt-4o |
5 B | 200 M | 50 M | 90 K | Ej tillämpligt |
gpt-4o-mini |
15 B | 1 B | 50 M | 90 K | Ej tillämpligt |
gpt-4-turbo |
300 M | 80 M | 40 M | 90 K | Ej tillämpligt |
gpt-4 |
150 M | 30 M | 5 M | 100 K | Ej tillämpligt |
gpt-35-turbo |
10 B | 1 B | 100 M | 2 M | 50 K |
o3-mini |
15 B | 1 B | 50 M | 90 K | Ej tillämpligt |
B = miljarder | M = miljoner | K = tusen
Modell | Enterprise-avtal | Standardvärde | Månatliga kreditkortsbaserade prenumerationer | MSDN-prenumerationer | Azure for Students, kostnadsfria utvärderingsversioner |
---|---|---|---|---|---|
gpt-4o |
500 M | 30 M | 30 M | 90 K | Ej tillämpligt |
gpt-4o-mini |
1,5 B | 100 M | 50 M | 90 K | Ej tillämpligt |
Viktigt
Förhållandet mellan RPM/TPM för kvot med modeller i o1-serien fungerar annorlunda än äldre modeller för chattavslut:
Detta är särskilt viktigt för programmatisk modelldistribution eftersom den här ändringen i RPM/TPM-förhållandet kan leda till oavsiktlig under allokering av kvot om man fortfarande antar förhållandet 1:1000 följt av äldre chattslutmodeller.
Det finns ett känt problem med API:et för kvot/användning där det förutsätter att det gamla förhållandet gäller för de nya modellerna i o1-serien. API:et returnerar rätt baskapacitetsnummer, men tillämpar inte rätt förhållande för korrekt beräkning av TPM.
Modell | Nivå | Kvotgräns i token per minut (TPM) | Antal begäranden per minut |
---|---|---|---|
o3-mini |
Enterprise-avtal | 50 M | 5 K |
o1 & o1-preview |
Enterprise-avtal | 30 M | 5 K |
o1-mini |
Enterprise-avtal | 50 M | 5 K |
o3-mini |
Standardvärde | 5 M | 500 |
o1 & o1-preview |
Standardvärde | 3 M | 500 |
o1-mini |
Standardvärde | 5 M | 500 |
Modell | Nivå | Kvotgräns i token per minut (TPM) | Antal begäranden per minut |
---|---|---|---|
o1-preview |
Enterprise-avtal | 600 K | 100 |
o1-mini |
Enterprise-avtal | 1 M | 100 |
o1-preview |
Standardvärde | 300 K | 50 |
o1-mini |
Standardvärde | 500 K | 50 |
gpt-4o
och gpt-4o-mini
, och gpt-4
(turbo-2024-04-09
) har frekvensgränsnivåer med högre gränser för vissa kundtyper.
Modell | Nivå | Kvotgräns i token per minut (TPM) | Antal begäranden per minut |
---|---|---|---|
gpt-4o |
Enterprise-avtal | 30 M | 180 K |
gpt-4o-mini |
Enterprise-avtal | 50 M | 300 K |
gpt-4 (turbo-2024-04-09) |
Enterprise-avtal | 2 M | 12 K |
gpt-4o |
Standardvärde | 450 K | 2,7 K |
gpt-4o-mini |
Standardvärde | 2 M | 12 K |
gpt-4 (turbo-2024-04-09) |
Standardvärde | 450 K | 2,7 K |
M = miljoner | K = tusen
Modell | Nivå | Kvotgräns i token per minut (TPM) | Antal begäranden per minut |
---|---|---|---|
gpt-4o |
Enterprise-avtal | 10 M | 60 K |
gpt-4o-mini |
Enterprise-avtal | 20 M | 120 K |
gpt-4o |
Standardvärde | 300 K | 1,8 K |
gpt-4o-mini |
Standardvärde | 1 M | 6 K |
M = miljoner | K = tusen
Modell | Nivå | Kvotgräns i token per minut (TPM) | Antal begäranden per minut |
---|---|---|---|
gpt-4o |
Enterprise-avtal | 1 M | 6 K |
gpt-4o-mini |
Enterprise-avtal | 2 M | 12 K |
gpt-4o |
Standardvärde | 150 K | 900 |
gpt-4o-mini |
Standardvärde | 450 K | 2,7 K |
M = miljoner | K = tusen
Hastighetsgränserna för varje gpt-4o
distribution av ljudmodeller är 100 000 TPM och 1 000 RPM. Under förhandsversionen kan Azure AI Foundry-portalen och API:er felaktigt visa olika hastighetsgränser. Även om du försöker ange en annan hastighetsgräns blir den faktiska hastighetsgränsen 100 000 TPM och 1 000 RPM.
Modell | Nivå | Kvotgräns i token per minut (TPM) | Antal begäranden per minut |
---|---|---|---|
gpt-4o-audio-preview |
Standardvärde | 450 K | 1 K |
gpt-4o-realtime-preview |
Standardvärde | 800 K | 1 K |
gpt-4o-mini-audio-preview |
Standardvärde | 2 M | 1 K |
gpt-4o-mini-realtime-preview |
Standardvärde | 800 K | 1 K |
M = miljoner | K = tusen
Globala standarddistributioner använder Azures globala infrastruktur och dirigerar dynamiskt kundtrafik till datacentret med bästa tillgänglighet för kundens slutsatsdragningsbegäranden. På samma sätt kan du använda azure global infrastruktur för att dynamiskt dirigera trafik till datacentret i den Microsoft-definierade datazonen med den bästa tillgängligheten för varje begäran. Detta möjliggör mer konsekvent svarstid för kunder med låg till medelhög trafiknivå. Kunder med hög ihållande användningsnivå kan se större variabilitet i svarsfördröjningen.
Användningsgränsen avgör vilken användningsnivå som kunderna kan se större variabilitet i svarsfördröjningen. En kunds användning definieras per modell och är det totala antalet token som förbrukas i alla distributioner i alla prenumerationer i alla regioner för en viss klientorganisation.
Anteckning
Användningsnivåer gäller endast för standard-, datazonstandard- och globala standarddistributionstyper. Användningsnivåer gäller inte för distributioner av globalt batch- och etablerat dataflöde.
Modell | Användningsnivåer per månad |
---|---|
gpt-4o |
12 miljarder token |
gpt-4o-mini |
85 miljarder token |
Modell | Användningsnivåer per månad |
---|---|
gpt-4
+
gpt-4-32k (alla versioner) |
6 miljarder |
Om din Azure-prenumeration är länkad till vissa erbjudandetyper är maxkvotvärdena lägre än de värden som anges i tabellerna ovan.
Nivå | Kvotgräns i token per minut (TPM) |
---|---|
Azure for Students, kostnadsfria utvärderingsversioner | 1 K (alla modeller) |
MSDN-prenumerationer | GPT 3.5 Turbo Series: 30 K GPT-4-serien: 8 K |
Månatliga kreditkortsbaserade prenumerationer 1 | GPT 3.5 Turbo Series: 30 K GPT-4-serien: 8 K |
1 Detta gäller för närvarande för erbjudandetyp 0003P
I Azure Portal kan du visa vilken erbjudandetyp som är associerad med din prenumeration genom att gå till prenumerationen och kontrollera översiktsfönstret för prenumerationer. Erbjudandetyp motsvarar planfältet i prenumerationsöversikten.
För att minimera problem som rör hastighetsbegränsningar är det en bra idé att använda följande tekniker:
Begäranden om kvotökning kan skickas via formuläret för begäran om kvotökning. På grund av hög efterfrågan godkänns begäranden om kvotökning och fylls i i den ordning de tas emot. Prioritet ges till kunder som genererar trafik som förbrukar den befintliga kvotallokeringen och din begäran kan nekas om det här villkoret inte uppfylls.
Skicka en tjänstbegäran för andra hastighetsgränser.
Utforska hur du hanterar kvoter för dina Azure OpenAI-distributioner. Läs mer om de underliggande modeller som driver Azure OpenAI.
Händelser
17 mars 21 - 21 mars 10
Gå med i mötesserien för att skapa skalbara AI-lösningar baserat på verkliga användningsfall med andra utvecklare och experter.
Registrera dig nuUtbildning
Modul
Optimera utgifter och prestanda med Azure OpenAI Service-etablerade reservationer - Training
I den här modulen får du en introduktion till etablerade distributioner i Azure OpenAI-tjänster.