Kvoter och gränser för Azure OpenAI-tjänsten

Artikel
05/30/2024

Den här artikeln innehåller en snabbreferens och en detaljerad beskrivning av kvoter och gränser för Azure OpenAI i Azure AI-tjänster.

Referens för kvoter och gränser

I följande avsnitt får du en snabbguide till de standardkvoter och gränser som gäller för Azure OpenAI:

Gränsnamn	Gränsvärde
OpenAI-resurser per region per Azure-prenumeration	30
Standardgränser för DALL-E 2-kvoter	2 samtidiga begäranden
Standardgränser för DALL-E 3-kvoter	2 kapacitetsenheter (6 begäranden per minut)
Maximalt antal prompttoken per begäran	Varierar per modell. Mer information finns i Azure OpenAI Service-modeller
Maximalt antal finjusterade modelldistributioner	5
Totalt antal träningsjobb per resurs	100
Maximalt antal träningsjobb som körs samtidigt per resurs	1
Maximalt antal träningsjobb i kö	20
Maximalt antal filer per resurs (finjustering)	50
Total storlek för alla filer per resurs (finjustering)	1 GB
Maximal tid för träningsjobb (jobbet misslyckas om det överskrids)	720 timmar
Maximal storlek på träningsjobb (token i träningsfilen) x (antal epoker)	2 miljarder
Maximal storlek på alla filer per uppladdning (Azure OpenAI på dina data)	16 MB
Maximalt antal eller indata i matrisen med `/embeddings`	2048
Maximalt antal `/chat/completions` meddelanden	2048
Maximalt antal `/chat/completions` funktioner	128
Maximalt antal `/chat completions` verktyg	128
Maximalt antal etablerade dataflödesenheter per distribution	100,000
Maximalt antal filer per assistent/tråd	20
Maximal filstorlek för assistenter och finjustering	512 MB
Tokengräns för assistenter	2 000 000 tokengräns

Regionala kvotgränser

Standardkvoten för modeller varierar beroende på modell och region. Standardkvotgränser kan komma att ändras.

Kvoten för standarddistributioner beskrivs i termer av TPM (Tokens-Per-Minute).

Region	GPT-4	GPT-4-32K	GPT-4-Turbo	GPT-4-Turbo-V	gpt-4o	gpt-4o – GlobalStandard	GPT-35-Turbo	GPT-35-Turbo-Instruct	Text-Inbäddning-Ada-002	text-embedding-3-small	text-embedding-3-large	Babbage-002	Babbage-002 - finetune	Davinci-002	Davinci-002 - finetune	GPT-35-Turbo - finetune	GPT-35-Turbo-1106 - finetune	GPT-35-Turbo-0125 - finetune	GPT-4 – finetune
australiaeast	40 K	80 K	80 K	30 K	-	-	300 K	-	350 K	-	-	-	-	-	-	-	-	-	-
Brasilien, södra	-	-	-	-	-	-	-	-	350 K	-	-	-	-	-	-	-	-	-	-
canadaeast	40 K	80 K	80 K	-	-	-	300 K	-	350 K	350 K	350 K	-	-	-	-	-	-	-	-
eastus	-	-	80 K	-	150 K	450 K	240 K	240 K	240 K	350 K	350 K	-	-	-	-	-	-	-	-
eastus2	-	-	80 K	-	150 K	450 K	300 K	-	350 K	350 K	350 K	-	-	-	-	250 K	250 K	250 K	-
francecentral	20 K	60 K	80 K	-	-	-	240 K	-	240 K	-	350 K	-	-	-	-	-	-	-	-
Japan, östra	-	-	-	30 K	-	-	300 K	-	350 K	-	350 K	-	-	-	-	-	-	-	-
northcentralus	-	-	80 K	-	150 K	450 K	300 K	-	350 K	-	-	240 K	250 K	240 K	250 K	250 K	250 K	250 K	100 K
norwayeast	-	-	150 K	-	-	-	-	-	350 K	-	-	-	-	-	-	-	-	-	-
southafricanorth	-	-	-	-	-	-	-	-	350 K	-	-	-	-	-	-	-	-	-	-
USA, södra centrala	-	-	80 K	-	150 K	450 K	240 K	-	240 K	-	-	-	-	-	-	-	-	-	-
southindia	-	-	150 K	-	-	-	300 K	-	350 K	-	350 K	-	-	-	-	-	-	-	-
swedencentral	40 K	80 K	150 K	30 K	-	-	300 K	240 K	350 K	-	350 K	240 K	250 K	240 K	250 K	250 K	250 K	250 K	100 K
switzerlandnorth	40 K	80 K	-	30 K	-	-	300 K	-	350 K	-	-	-	-	-	-	-	-	-	-
switzerlandwest	-	-	-	-	-	-	-	-	-	-	-	-	250 K	-	250 K	250 K	250 K	250 K	-
uksouth	-	-	80 K	-	-	-	240 K	-	350 K	-	350 K	-	-	-	-	-	-	-	-
Europa, västra	-	-	-	-	-	-	240 K	-	240 K	-	-	-	-	-	-	-	-	-	-
westus	-	-	80 K	30 K	150 K	450 K	300 K	-	350 K	-	-	-	-	-	-	-	-	-	-
westus3	-	-	80 K	-	150 K	450 K	-	-	350 K	-	350 K	-	-	-	-	-	-	-	-

1 K = 1 000 token per minut (TPM). Relationen mellan TPM och begäranden per minut (RPM) definieras för närvarande som 6 RPM per 1 000 TPM.

Värdena för GPT-4o i tabellen ovan representerar standardkvotvärden som är tillgängliga för alla kunder. Företagskunder har mycket större kvotallokeringar.

gpt-4o-hastighetsgränser

gpt-4o introducerar frekvensgränsnivåer med högre gränser för vissa kundtyper.

gpt-4o global standard

Kommentar

Distributionstypen global standardmodell finns för närvarande i offentlig förhandsversion.

Nivå	Kvotgräns i token per minut (TPM)	Antal begäranden per minut
Enterprise-avtal	10 M	60 K
Standardvärde	450 K	2,7 K

M = miljoner | K = tusen

gpt-4o standard

Nivå	Kvotgräns i token per minut (TPM)	Antal begäranden per minut
Enterprise-avtal	1 M	6 K
Standardvärde	150 K	900

M = miljoner | K = tusen

Användningsnivåer

Global Standard-distributioner använder Azures globala infrastruktur och dirigerar dynamiskt kundtrafik till datacentret med bästa tillgänglighet för kundens slutsatsdragningsbegäranden. Detta möjliggör mer konsekvent svarstid för kunder med låg till medelhög trafiknivå. Kunder med hög ihållande användningsnivå kan se mer variabilitet i svarsfördröjningen.

Användningsgränsen avgör vilken användningsnivå som kunderna kan se större variabilitet i svarsfördröjningen. En kunds användning definieras per modell och är det totala antalet token som förbrukas i alla distributioner i alla prenumerationer i alla regioner för en viss klientorganisation.

GPT-4o global standard & standard

Modell	Användningsnivåer per månad
`GPT-4o`	1,5 miljarder token

Allmänna metodtips för att hålla sig inom hastighetsgränser

För att minimera problem som rör hastighetsbegränsningar är det en bra idé att använda följande tekniker:

Implementera logik för omprövning i ditt program.
Undvik stora plötsliga ändringar i arbetsbelastningen. Öka arbetsbelastningen gradvis.
Testa olika mönster för att öka belastningen.
Öka den kvot som tilldelats distributionen. Flytta kvoten från en annan distribution om det behövs.

Så här begär du ökningar av standardkvoter och -gränser

Begäranden om kvotökning kan skickas från sidan Kvoter i Azure OpenAI Studio. Observera att på grund av en överväldigande efterfrågan godkänns begäranden om kvotökning och fylls i i den ordning de tas emot. Prioritet ges till kunder som genererar trafik som använder den befintliga kvotallokeringen och din begäran kan nekas om det här villkoret inte uppfylls.

För andra hastighetsbegränsningar skickar du en tjänstbegäran.

Nästa steg

Utforska hur du hanterar kvoter för dina Azure OpenAI-distributioner. Läs mer om de underliggande modeller som driver Azure OpenAI.

Dela via