Kvoter och gränser för Azure OpenAI-tjänsten
Den här artikeln innehåller en snabbreferens och en detaljerad beskrivning av kvoter och gränser för Azure OpenAI i Azure AI-tjänster.
Referens för kvoter och gränser
I följande avsnitt får du en snabbguide till de standardkvoter och gränser som gäller för Azure OpenAI:
Gränsnamn | Gränsvärde |
---|---|
OpenAI-resurser per region per Azure-prenumeration | 30 |
Standardgränser för DALL-E 2-kvoter | 2 samtidiga begäranden |
Standardgränser för DALL-E 3-kvoter | 2 kapacitetsenheter (6 begäranden per minut) |
Standardgränser för Whisper-kvoter | 3 begäranden per minut |
Maximalt antal prompttoken per begäran | Varierar per modell. Mer information finns i Azure OpenAI Service-modeller |
Maximalt antal finjusterade modelldistributioner | 5 |
Totalt antal träningsjobb per resurs | 100 |
Maximalt antal träningsjobb som körs samtidigt per resurs | 1 |
Maximalt antal träningsjobb i kö | 20 |
Maximalt antal filer per resurs (finjustering) | 50 |
Total storlek för alla filer per resurs (finjustering) | 1 GB |
Maximal tid för träningsjobb (jobbet misslyckas om det överskrids) | 720 timmar |
Maximal storlek på träningsjobb (token i träningsfilen) x (antal epoker) | 2 miljarder |
Maximal storlek på alla filer per uppladdning (Azure OpenAI på dina data) | 16 MB |
Maximalt antal eller indata i matrisen med /embeddings |
2048 |
Maximalt antal /chat/completions meddelanden |
2048 |
Maximalt antal /chat/completions funktioner |
128 |
Maximalt antal /chat completions verktyg |
128 |
Maximalt antal etablerade dataflödesenheter per distribution | 100,000 |
Maximalt antal filer per assistent/tråd | 10 000 när du använder API:et eller AI Studio. 20 när du använder Azure OpenAI Studio. |
Maximal filstorlek för assistenter och finjustering | 512 MB |
Tokengräns för assistenter | 2 000 000 tokengräns |
GPT-4o max bilder per begäran (antal bilder i meddelandematrisen/konversationshistoriken) | 10 |
GPT-4 vision-preview & GPT-4 turbo-2024-04-09 standard maxtoken |
16 max_tokens Öka parametervärdet för att undvika trunkerade svar. GPT-4o maxtoken är som standard 4 096. |
Regionala kvotgränser
Region | GPT-4 | GPT-4-32K | GPT-4-Turbo | GPT-4-Turbo-V | gpt-4o | gpt-4o – GlobalStandard | GPT-35-Turbo | GPT-35-Turbo-Instruct | Text-Inbäddning-Ada-002 | text-embedding-3-small | text-embedding-3-large | Babbage-002 | Babbage-002 - finetune | Davinci-002 | Davinci-002 - finetune | GPT-35-Turbo - finetune | GPT-35-Turbo-1106 - finetune | GPT-4 – finetune | GPT-35-Turbo-0125 - finetune |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
australiaeast | 40 K | 80 K | 80 K | 30 K | - | 450 K 30 M |
300 K | - | 350 K | - | - | - | - | - | - | - | - | - | - |
Brasilien, södra | - | - | - | - | - | 450 K 30 M |
- | - | 350 K | - | - | - | - | - | - | - | - | - | - |
canadaeast | 40 K | 80 K | 80 K | - | - | 450 K 30 M |
300 K | - | 350 K | 350 K | 350 K | - | - | - | - | - | - | - | - |
eastus | - | - | 80 K | - | 150 K 1 M |
450 K 30 M |
240 K | 240 K | 240 K | 350 K | 350 K | - | - | - | - | - | - | - | - |
eastus2 | - | - | 80 K | - | 150 K 1 M |
450 K 30 M |
300 K | - | 350 K | 350 K | 350 K | - | - | - | - | 250 K | 250 K | - | 250 K |
francecentral | 20 K | 60 K | 80 K | - | - | 450 K 30 M |
240 K | - | 240 K | - | 350 K | - | - | - | - | - | - | - | - |
germanywestcentral | - | - | - | - | - | 450 K 30 M |
- | - | - | - | - | - | - | - | - | - | - | - | - |
Japan, östra | - | - | - | 30 K | - | 450 K 30 M |
300 K | - | 350 K | - | 350 K | - | - | - | - | - | - | - | - |
koreacentral | - | - | - | - | - | 450 K 30 M |
- | - | - | - | - | - | - | - | - | - | - | - | - |
northcentralus | - | - | 80 K | - | 150 K 1 M |
450 K 30 M |
300 K | - | 350 K | - | - | 240 K | 250 K | 240 K | 250 K | 250 K | 250 K | 100 K | 250 K |
norwayeast | - | - | 150 K | - | - | 450 K 30 M |
- | - | 350 K | - | - | - | - | - | - | - | - | - | - |
polencentral | - | - | - | - | - | 450 K 30 M |
- | - | - | - | - | - | - | - | - | - | - | - | - |
southafricanorth | - | - | - | - | - | 450 K 30 M |
- | - | 350 K | - | - | - | - | - | - | - | - | - | - |
USA, södra centrala | - | - | 80 K | - | 150 K 1 M |
450 K 30 M |
240 K | - | 240 K | - | - | - | - | - | - | - | - | - | - |
southindia | - | - | 150 K | - | - | 450 K 30 M |
300 K | - | 350 K | - | 350 K | - | - | - | - | - | - | - | - |
swedencentral | 40 K | 80 K | 150 K | 30 K | 150 K 1 M |
450 K 30 M |
300 K | 240 K | 350 K | - | 350 K | 240 K | 250 K | 240 K | 250 K | 250 K | 250 K | 100 K | 250 K |
switzerlandnorth | 40 K | 80 K | - | 30 K | - | 450 K 30 M |
300 K | - | 350 K | - | - | - | - | - | - | - | - | - | - |
switzerlandwest | - | - | - | - | - | - | - | - | - | - | - | - | 250 K | - | 250 K | 250 K | 250 K | - | 250 K |
uksouth | - | - | 80 K | - | - | 450 K 30 M |
240 K | - | 350 K | - | 350 K | - | - | - | - | - | - | - | - |
Europa, västra | - | - | - | - | - | 450 K 30 M |
240 K | - | 240 K | - | - | - | - | - | - | - | - | - | - |
westus | - | - | 80 K | 30 K | 150 K 1 M |
450 K 30 M |
300 K | - | 350 K | - | - | - | - | - | - | - | - | - | - |
westus3 | - | - | 80 K | - | 150 K 1 M |
450 K 30 M |
- | - | 350 K | - | 350 K | - | - | - | - | - | - | - | - |
gpt-4o-hastighetsgränser
gpt-4o
introducerar frekvensgränsnivåer med högre gränser för vissa kundtyper.
gpt-4o global standard
Nivå | Kvotgräns i token per minut (TPM) | Antal begäranden per minut |
---|---|---|
Enterprise-avtal | 30 M | 180 K |
Standardvärde | 450 K | 2,7 K |
M = miljoner | K = tusen
gpt-4o standard
Nivå | Kvotgräns i token per minut (TPM) | Antal begäranden per minut |
---|---|---|
Enterprise-avtal | 1 M | 6 K |
Standardvärde | 150 K | 900 |
M = miljoner | K = tusen
Användningsnivåer
Global Standard-distributioner använder Azures globala infrastruktur och dirigerar dynamiskt kundtrafik till datacentret med bästa tillgänglighet för kundens slutsatsdragningsbegäranden. Detta möjliggör mer konsekvent svarstid för kunder med låg till medelhög trafiknivå. Kunder med hög ihållande användningsnivå kan se mer variabilitet i svarsfördröjningen.
Användningsgränsen avgör vilken användningsnivå som kunderna kan se större variabilitet i svarsfördröjningen. En kunds användning definieras per modell och är det totala antalet token som förbrukas i alla distributioner i alla prenumerationer i alla regioner för en viss klientorganisation.
GPT-4o global standard & standard
Modell | Användningsnivåer per månad |
---|---|
GPT-4o |
1,5 miljarder token |
Andra erbjudandetyper
Om din Azure-prenumeration är länkad till vissa erbjudandetyper är maxkvotvärdena lägre än de värden som anges i tabellerna ovan.
Nivå | Kvotgräns i token per minut (TPM) |
---|---|
Azure for Students, kostnadsfria utvärderingsversioner | 1 K (alla modeller) |
MSDN-prenumerationer | GPT 3.5 Turbo Series: 30 K GPT-4-serien: 8 K |
Månatliga kreditkortsbaserade prenumerationer 1 | GPT 3.5 Turbo Series: 30 K GPT-4-serien: 8 K |
1 Detta gäller för närvarande för erbjudandetyp 0003P
I Azure-portalen kan du visa vilken erbjudandetyp som är associerad med din prenumeration genom att gå till din prenumeration och kontrollera prenumerationsöversiktsfönstret. Erbjudandetyp motsvarar planfältet i prenumerationsöversikten.
Allmänna metodtips för att hålla sig inom hastighetsgränser
För att minimera problem som rör hastighetsbegränsningar är det en bra idé att använda följande tekniker:
- Implementera logik för omprövning i ditt program.
- Undvik stora plötsliga ändringar i arbetsbelastningen. Öka arbetsbelastningen gradvis.
- Testa olika mönster för att öka belastningen.
- Öka den kvot som tilldelats distributionen. Flytta kvoten från en annan distribution om det behövs.
Så här begär du ökningar av standardkvoter och -gränser
Begäranden om kvotökning kan skickas från sidan Kvoter i Azure OpenAI Studio. Observera att på grund av en överväldigande efterfrågan godkänns begäranden om kvotökning och fylls i i den ordning de tas emot. Prioritet ges till kunder som genererar trafik som förbrukar den befintliga kvotallokeringen och din begäran kan nekas om det här villkoret inte uppfylls.
Skicka en tjänstbegäran för andra hastighetsgränser.
Nästa steg
Utforska hur du hanterar kvoter för dina Azure OpenAI-distributioner. Läs mer om de underliggande modeller som driver Azure OpenAI.
Feedback
https://aka.ms/ContentUserFeedback.
Kommer snart: Under hela 2024 kommer vi att fasa ut GitHub-problem som feedbackmekanism för innehåll och ersätta det med ett nytt feedbacksystem. Mer information finns i:Skicka och visa feedback för