Kvóty a limity služby Azure OpenAI

Článek
04/19/2024

Tento článek obsahuje stručný přehled a podrobný popis kvót a omezení pro Azure OpenAI ve službách Azure AI.

Referenční informace o kvótách a omezeních

Následující části obsahují stručný průvodce výchozími kvótami a omezeními, které platí pro Azure OpenAI:

Název limitu	Omezit hodnotu
Prostředky OpenAI na oblast na předplatné Azure	30
Výchozí limity kvót DALL-E 2	2 souběžné žádosti
Výchozí limity kvót DALL-E 3	2 jednotky kapacity (6 požadavků za minutu)
Maximální počet tokenů výzvy na požadavek	Liší se podle modelu. Další informace najdete v tématu Modely služby Azure OpenAI Service.
Maximální jemně vyladěná nasazení modelu	5
Celkový počet trénovacích úloh na prostředek	100
Maximální počet souběžných spuštěných trénovacích úloh na prostředek	0
Maximální počet trénovacích úloh zařazených do fronty	20
Maximální počet souborů na prostředek (vyladění)	50
Celková velikost všech souborů na prostředek (vyladění)	1 GB
Maximální doba trénovací úlohy (úloha selže, pokud dojde k překročení)	720 hodin
Maximální velikost trénovací úlohy (tokeny v trénovacím souboru) x (počet epoch)	2 miliardy
Max size of all files per upload (Azure OpenAI on your data)	16 MB
Maximální počet nebo vstupy v poli s `/embeddings`	2048
Maximální počet `/chat/completions` zpráv	2048
Maximální počet `/chat/completions` funkcí	128
Maximální počet `/chat completions` nástrojů	128
Maximální počet zřízených jednotek propustnosti na nasazení	100 000
Maximální počet souborů na asistenta nebo vlákno	20
Maximální velikost souboru pro asistenty a vyladění	512 MB
Limit tokenů asistentů	2 000 000 tokenů

Omezení kvót v jednotlivých oblastech

Výchozí kvóta pro modely se liší podle modelu a oblasti. Výchozí limity kvót se můžou změnit.

Kvóta pro standardní nasazení je popsaná z hlediska tokenů za minutu (TPM).

Oblast	GPT-4	GPT-4-32K	GPT-4-Turbo	GPT-4-Turbo-V	GPT-35-Turbo	GPT-35-Turbo-Instruct	Text-Embedding-Ada-002	text-embedding-3-small	text-embedding-3-large	Babbage-002	Babbage-002 - jemné ladění	Davinci-002	Davinci-002 - jemné ladění	GPT-35-Turbo - jemné ladění	GPT-35-Turbo-1106 - jemné ladění	GPT-35-Turbo-0125 - jemné ladění
australiaeast	40 K	80 K	80 K	30 K	300 K	-	350 K	-	-	-	-	-	-	-	-	-
brazilsouth	-	-	-	-	-	-	350 K	-	-	-	-	-	-	-	-	-
canadaeast	40 K	80 K	80 K	-	300 K	-	350 K	350 K	350 K	-	-	-	-	-	-	-
eastus	-	-	80 K	-	240 K	240 K	240 K	350 K	350 K	-	-	-	-	-	-	-
eastus2	-	-	80 K	-	300 K	-	350 K	350 K	350 K	-	-	-	-	250 K	250 K	250 K
francecentral	20 tis.	60 K	80 K	-	240 K	-	240 K	-	-	-	-	-	-	-	-	-
japaneast	-	-	-	30 K	300 K	-	350 K	-	-	-	-	-	-	-	-	-
northcentralus	-	-	80 K	-	300 K	-	350 K	-	-	240 K	250 K	240 K	250 K	250 K	250 K	250 K
Norsko – východ	-	-	150 K	-	-	-	350 K	-	-	-	-	-	-	-	-	-
Jižní Afrika – sever	-	-	-	-	-	-	350 K	-	-	-	-	-	-	-	-	-
Střed USA – jih	-	-	80 K	-	240 K	-	240 K	-	-	-	-	-	-	-	-	-
southindia	-	-	150 K	-	300 K	-	350 K	-	-	-	-	-	-	-	-	-
swedencentral	40 K	80 K	150 K	30 K	300 K	240 K	350 K	-	-	240 K	250 K	240 K	250 K	250 K	250 K	250 K
switzerlandnorth	40 K	80 K	-	30 K	300 K	-	350 K	-	-	-	-	-	-	-	-	-
switzerlandwest	-	-	-	-	-	-	-	-	-	-	250 K	-	250 K	250 K	250 K	250 K
uksouth	-	-	80 K	-	240 K	-	350 K	-	-	-	-	-	-	-	-	-
westeurope	-	-	-	-	240 K	-	240 K	-	-	-	-	-	-	-	-	-
westus	-	-	80 K	30 K	300 K	-	350 K	-	-	-	-	-	-	-	-	-
westus3	-	-	80 K	-	-	-	350 K	-	-	-	-	-	-	-	-	-

1 K = 1000 tokenů za minutu (TPM). Vztah mezi čipem TPM a žádostmi za minutu (RPM) je aktuálně definován jako 6 RPM na 1000 TPM.

Obecné osvědčené postupy pro zachování limitů četnosti

Pokud chcete minimalizovat problémy související s limity rychlosti, je vhodné použít následující techniky:

Implementujte do své aplikace logiku opakování pokusů.
Pokuste se předcházet prudkým výkyvům zatížení. Zvyšujte zatížení postupně.
Otestujte různé vzorce zvýšení zatížení.
Zvyšte kvótu přiřazenou k vašemu nasazení. V případě potřeby přesuňte kvótu z jiného nasazení.

Jak požádat o zvýšení výchozích kvót a omezení

Žádosti o navýšení kvóty je možné odeslat ze stránky Kvóty v nástroji Azure OpenAI Studio. Upozorňujeme, že kvůli zahlcení poptávky se žádosti o navýšení kvóty přijímají a budou vyplněny v pořadí, v jakém jsou přijaty. Priorita bude udělena zákazníkům, kteří generují provoz, který spotřebovává stávající přidělení kvóty, a pokud tato podmínka není splněná, může být vaše žádost zamítnuta.

V případě jiných limitů sazeb odešlete žádost o služby.

Další kroky

Prozkoumejte, jak spravovat kvótu pro nasazení Azure OpenAI. Přečtěte si další informace o základních modelech, které power Azure OpenAI.