Kvóty a limity služby Azure OpenAI

Tento článek obsahuje stručný přehled a podrobný popis kvót a omezení pro Azure OpenAI ve službách Azure AI.

Referenční informace o kvótách a omezeních

Následující části obsahují stručný průvodce výchozími kvótami a omezeními, které platí pro Azure OpenAI:

Název limitu Omezit hodnotu
Prostředky OpenAI na oblast na předplatné Azure 30
Výchozí limity kvót DALL-E 2 2 souběžné žádosti
Výchozí limity kvót DALL-E 3 2 jednotky kapacity (6 požadavků za minutu)
Maximální počet tokenů výzvy na požadavek Liší se podle modelu. Další informace najdete v tématu Modely služby Azure OpenAI Service.
Maximální jemně vyladěná nasazení modelu 5
Celkový počet trénovacích úloh na prostředek 100
Maximální počet souběžných spuštěných trénovacích úloh na prostředek 0
Maximální počet trénovacích úloh zařazených do fronty 20
Maximální počet souborů na prostředek (vyladění) 50
Celková velikost všech souborů na prostředek (vyladění) 1 GB
Maximální doba trénovací úlohy (úloha selže, pokud dojde k překročení) 720 hodin
Maximální velikost trénovací úlohy (tokeny v trénovacím souboru) x (počet epoch) 2 miliardy
Max size of all files per upload (Azure OpenAI on your data) 16 MB
Maximální počet nebo vstupy v poli s /embeddings 2048
Maximální počet /chat/completions zpráv 2048
Maximální počet /chat/completions funkcí 128
Maximální počet /chat completions nástrojů 128
Maximální počet zřízených jednotek propustnosti na nasazení 100 000
Maximální počet souborů na asistenta nebo vlákno 20
Maximální velikost souboru pro asistenty a vyladění 512 MB
Limit tokenů asistentů 2 000 000 tokenů

Omezení kvót v jednotlivých oblastech

Výchozí kvóta pro modely se liší podle modelu a oblasti. Výchozí limity kvót se můžou změnit.

Kvóta pro standardní nasazení je popsaná z hlediska tokenů za minutu (TPM).

Oblast GPT-4 GPT-4-32K GPT-4-Turbo GPT-4-Turbo-V GPT-35-Turbo GPT-35-Turbo-Instruct Text-Embedding-Ada-002 text-embedding-3-small text-embedding-3-large Babbage-002 Babbage-002 - jemné ladění Davinci-002 Davinci-002 - jemné ladění GPT-35-Turbo - jemné ladění GPT-35-Turbo-1106 - jemné ladění GPT-35-Turbo-0125 - jemné ladění
australiaeast 40 K 80 K 80 K 30 K 300 K - 350 K - - - - - - - - -
brazilsouth - - - - - - 350 K - - - - - - - - -
canadaeast 40 K 80 K 80 K - 300 K - 350 K 350 K 350 K - - - - - - -
eastus - - 80 K - 240 K 240 K 240 K 350 K 350 K - - - - - - -
eastus2 - - 80 K - 300 K - 350 K 350 K 350 K - - - - 250 K 250 K 250 K
francecentral 20 tis. 60 K 80 K - 240 K - 240 K - - - - - - - - -
japaneast - - - 30 K 300 K - 350 K - - - - - - - - -
northcentralus - - 80 K - 300 K - 350 K - - 240 K 250 K 240 K 250 K 250 K 250 K 250 K
Norsko – východ - - 150 K - - - 350 K - - - - - - - - -
Jižní Afrika – sever - - - - - - 350 K - - - - - - - - -
Střed USA – jih - - 80 K - 240 K - 240 K - - - - - - - - -
southindia - - 150 K - 300 K - 350 K - - - - - - - - -
swedencentral 40 K 80 K 150 K 30 K 300 K 240 K 350 K - - 240 K 250 K 240 K 250 K 250 K 250 K 250 K
switzerlandnorth 40 K 80 K - 30 K 300 K - 350 K - - - - - - - - -
switzerlandwest - - - - - - - - - - 250 K - 250 K 250 K 250 K 250 K
uksouth - - 80 K - 240 K - 350 K - - - - - - - - -
westeurope - - - - 240 K - 240 K - - - - - - - - -
westus - - 80 K 30 K 300 K - 350 K - - - - - - - - -
westus3 - - 80 K - - - 350 K - - - - - - - - -

1 K = 1000 tokenů za minutu (TPM). Vztah mezi čipem TPM a žádostmi za minutu (RPM) je aktuálně definován jako 6 RPM na 1000 TPM.

Obecné osvědčené postupy pro zachování limitů četnosti

Pokud chcete minimalizovat problémy související s limity rychlosti, je vhodné použít následující techniky:

  • Implementujte do své aplikace logiku opakování pokusů.
  • Pokuste se předcházet prudkým výkyvům zatížení. Zvyšujte zatížení postupně.
  • Otestujte různé vzorce zvýšení zatížení.
  • Zvyšte kvótu přiřazenou k vašemu nasazení. V případě potřeby přesuňte kvótu z jiného nasazení.

Jak požádat o zvýšení výchozích kvót a omezení

Žádosti o navýšení kvóty je možné odeslat ze stránky Kvóty v nástroji Azure OpenAI Studio. Upozorňujeme, že kvůli zahlcení poptávky se žádosti o navýšení kvóty přijímají a budou vyplněny v pořadí, v jakém jsou přijaty. Priorita bude udělena zákazníkům, kteří generují provoz, který spotřebovává stávající přidělení kvóty, a pokud tato podmínka není splněná, může být vaše žádost zamítnuta.

V případě jiných limitů sazeb odešlete žádost o služby.

Další kroky

Prozkoumejte, jak spravovat kvótu pro nasazení Azure OpenAI. Přečtěte si další informace o základních modelech, které power Azure OpenAI.