Kvóty a limity služby Azure OpenAI

Článek
07/01/2024

Tento článek obsahuje stručný přehled a podrobný popis kvót a omezení pro Azure OpenAI ve službách Azure AI.

Referenční informace o kvótách a omezeních

Následující části obsahují stručný průvodce výchozími kvótami a omezeními, které platí pro Azure OpenAI:

Název limitu	Omezit hodnotu
Prostředky OpenAI na oblast na předplatné Azure	30
Výchozí limity kvót DALL-E 2	2 souběžné žádosti
Výchozí limity kvót DALL-E 3	2 jednotky kapacity (6 požadavků za minutu)
Výchozí limity kvót pro šeptaní	3 žádosti za minutu
Maximální počet tokenů výzvy na požadavek	Liší se podle modelu. Další informace najdete v tématu Modely služby Azure OpenAI Service.
Maximální jemně vyladěná nasazení modelu	5
Celkový počet trénovacích úloh na prostředek	100
Maximální počet souběžných spuštěných trénovacích úloh na prostředek	0
Maximální počet trénovacích úloh zařazených do fronty	20
Maximální počet souborů na prostředek (vyladění)	50
Celková velikost všech souborů na prostředek (vyladění)	1 GB
Maximální doba trénovací úlohy (úloha selže, pokud dojde k překročení)	720 hodin
Maximální velikost trénovací úlohy (tokeny v trénovacím souboru) x (počet epoch)	2 miliardy
Max size of all files per upload (Azure OpenAI on your data)	16 MB
Maximální počet nebo vstupy v poli s `/embeddings`	2048
Maximální počet `/chat/completions` zpráv	2048
Maximální počet `/chat/completions` funkcí	128
Maximální počet `/chat completions` nástrojů	128
Maximální počet zřízených jednotek propustnosti na nasazení	100 000
Maximální počet souborů na asistenta nebo vlákno	20
Maximální velikost souboru pro asistenty a vyladění	512 MB
Limit tokenů asistentů	2 000 000 tokenů
GpT-4o max images per request (# of images in the messages array/conversation history)	10
Výchozí maximální počet tokenů GPT-4 `vision-preview` & GPT-4 `turbo-2024-04-09`	16 Zvyšte hodnotu parametru, `max_tokens` abyste se vyhnuli zkráceným odpovědím. Výchozí hodnota maximálního počtu tokenů GPT-4o je 4096.

Omezení kvót v jednotlivých oblastech

Oblast	GPT-4	GPT-4-32K	GPT-4-Turbo	GPT-4-Turbo-V	gpt-4o	gpt-4o – GlobalStandard	GPT-35-Turbo	GPT-35-Turbo-Instruct	Text-Embedding-Ada-002	text-embedding-3-small	text-embedding-3-large	Babbage-002	Babbage-002 - jemné ladění	Davinci-002	Davinci-002 - jemné ladění	GPT-35-Turbo - jemné ladění	GPT-35-Turbo-1106 - jemné ladění	GPT-35-Turbo-0125 - jemné ladění	GPT-4 - jemné ladění
australiaeast	40 K	80 K	80 K	30 K	-	-	300 K	-	350 K	-	-	-	-	-	-	-	-	-	-
brazilsouth	-	-	-	-	-	-	-	-	350 K	-	-	-	-	-	-	-	-	-	-
canadaeast	40 K	80 K	80 K	-	-	-	300 K	-	350 K	350 K	350 K	-	-	-	-	-	-	-	-
eastus	-	-	80 K	-	150 K 1 M	450 K 10 M	240 K	240 K	240 K	350 K	350 K	-	-	-	-	-	-	-	-
eastus2	-	-	80 K	-	150 K 1 M	450 K 10 M	300 K	-	350 K	350 K	350 K	-	-	-	-	250 K	250 K	250 K	-
francecentral	20 tis.	60 K	80 K	-	-	-	240 K	-	240 K	-	350 K	-	-	-	-	-	-	-	-
japaneast	-	-	-	30 K	-	-	300 K	-	350 K	-	350 K	-	-	-	-	-	-	-	-
northcentralus	-	-	80 K	-	150 K 1 M	450 K 10 M	300 K	-	350 K	-	-	240 K	250 K	240 K	250 K	250 K	250 K	250 K	100 tis.
Norsko – východ	-	-	150 K	-	-	-	-	-	350 K	-	-	-	-	-	-	-	-	-	-
Jižní Afrika – sever	-	-	-	-	-	-	-	-	350 K	-	-	-	-	-	-	-	-	-	-
Střed USA – jih	-	-	80 K	-	150 K 1 M	450 K 10 M	240 K	-	240 K	-	-	-	-	-	-	-	-	-	-
southindia	-	-	150 K	-	-	-	300 K	-	350 K	-	350 K	-	-	-	-	-	-	-	-
swedencentral	40 K	80 K	150 K	30 K	150 K 1 M	-	300 K	240 K	350 K	-	350 K	240 K	250 K	240 K	250 K	250 K	250 K	250 K	100 tis.
switzerlandnorth	40 K	80 K	-	30 K	-	-	300 K	-	350 K	-	-	-	-	-	-	-	-	-	-
switzerlandwest	-	-	-	-	-	-	-	-	-	-	-	-	250 K	-	250 K	250 K	250 K	250 K	-
uksouth	-	-	80 K	-	-	-	240 K	-	350 K	-	350 K	-	-	-	-	-	-	-	-
westeurope	-	-	-	-	-	-	240 K	-	240 K	-	-	-	-	-	-	-	-	-	-
westus	-	-	80 K	30 K	150 K 1 M	450 K 10 M	300 K	-	350 K	-	-	-	-	-	-	-	-	-	-
westus3	-	-	80 K	-	150 K 1 M	450 K 10 M	-	-	350 K	-	350 K	-	-	-	-	-	-	-	-

omezení rychlosti gpt-4o

gpt-4o zavádí úrovně omezení rychlosti s vyššími limity pro určité typy zákazníků.

gpt-4o global standard

Úroveň	Limit kvóty v tokenech za minutu (TPM)	Žádosti za minutu
Smlouva Enterprise	10 M	60 K
Výchozí	450 K	2.7 K

M = milion | K = tisíc

gpt-4o standard

Úroveň	Limit kvóty v tokenech za minutu (TPM)	Žádosti za minutu
Smlouva Enterprise	1 M	6 K
Výchozí	150 K	900

M = milion | K = tisíc

Úrovně využití

Globální nasazení standardu využívají globální infrastrukturu Azure a dynamicky směrují provoz zákazníků do datového centra s nejlepší dostupností pro požadavky zákazníka na odvozování. To umožňuje konzistentnější latenci pro zákazníky s nízkou až střední úrovní provozu. Zákazníci s vysokou trvalou úrovní využití můžou zaznamenat větší variabilitu latence odezvy.

Limit využití určuje úroveň využití, nad kterou můžou zákazníci vidět větší variabilitu latence odezvy. Využití zákazníka je definováno na model a je celkový počet tokenů spotřebovaných napříč všemi nasazeními ve všech předplatných ve všech oblastech daného tenanta.

GPT-4o Global Standard & Standard

Model	Úrovně využití za měsíc
`GPT-4o`	1,5 Miliardy tokenů

Další typy nabídek

Pokud je vaše předplatné Azure propojené s určitými typy nabídek, jsou vaše maximální hodnoty kvóty nižší než hodnoty uvedené v předchozích tabulkách.

Úroveň	Limit kvóty v tokenech za minutu (TPM)
Azure for Students, bezplatné zkušební verze	1 K (všechny modely)
Předplatná MSDN	GPT 3.5 Turbo Série: 30 K ŘADA GPT-4: 8 K
Měsíční předplatná ^{založená na platební kartě 1}	GPT 3.5 Turbo Série: 30 K ŘADA GPT-4: 8 K

¹ Toto se aktuálně vztahuje na typ nabídky 0003P.

Na webu Azure Portal můžete zobrazit, jaký typ nabídky je přidružený k vašemu předplatnému, a to tak, že přejdete do svého předplatného a zkontrolujete podokno přehledu předplatných. Typ nabídky odpovídá poli plánu v přehledu předplatného.

Obecné osvědčené postupy pro zachování limitů četnosti

Pokud chcete minimalizovat problémy související s limity rychlosti, je vhodné použít následující techniky:

Implementujte do své aplikace logiku opakování pokusů.
Pokuste se předcházet prudkým výkyvům zatížení. Zvyšujte zatížení postupně.
Otestujte různé vzorce zvýšení zatížení.
Zvyšte kvótu přiřazenou k vašemu nasazení. V případě potřeby přesuňte kvótu z jiného nasazení.

Jak požádat o zvýšení výchozích kvót a omezení

Žádosti o navýšení kvóty je možné odeslat ze stránky Kvóty v nástroji Azure OpenAI Studio. Upozorňujeme, že kvůli zahlcení poptávky se žádosti o navýšení kvóty přijímají a budou vyplněny v pořadí, v jakém jsou přijaty. Priorita bude udělena zákazníkům, kteří generují provoz, který spotřebovává stávající přidělení kvóty, a pokud tato podmínka není splněná, může být vaše žádost zamítnuta.

V případě jiných limitů sazeb odešlete žádost o služby.

Další kroky

Prozkoumejte, jak spravovat kvótu pro nasazení Azure OpenAI. Přečtěte si další informace o základních modelech, které power Azure OpenAI.

Sdílet prostřednictvím