Sdílet prostřednictvím


Kvóty a limity služby Azure OpenAI

Tento článek obsahuje stručný přehled a podrobný popis kvót a omezení pro Azure OpenAI ve službách Azure AI.

Referenční informace o kvótách a omezeních

Následující části obsahují stručný průvodce výchozími kvótami a omezeními, které platí pro Azure OpenAI:

Název limitu Omezit hodnotu
Prostředky OpenAI na oblast na předplatné Azure 30
Výchozí limity kvót DALL-E 2 2 souběžné žádosti
Výchozí limity kvót DALL-E 3 2 jednotky kapacity (6 požadavků za minutu)
Výchozí limity kvót pro šeptaní 3 žádosti za minutu
Maximální počet tokenů výzvy na požadavek Liší se podle modelu. Další informace najdete v tématu Modely služby Azure OpenAI Service.
Maximální jemně vyladěná nasazení modelu 5
Celkový počet trénovacích úloh na prostředek 100
Maximální počet souběžných spuštěných trénovacích úloh na prostředek 0
Maximální počet trénovacích úloh zařazených do fronty 20
Maximální počet souborů na prostředek (vyladění) 50
Celková velikost všech souborů na prostředek (vyladění) 1 GB
Maximální doba trénovací úlohy (úloha selže, pokud dojde k překročení) 720 hodin
Maximální velikost trénovací úlohy (tokeny v trénovacím souboru) x (počet epoch) 2 miliardy
Max size of all files per upload (Azure OpenAI on your data) 16 MB
Maximální počet nebo vstupy v poli s /embeddings 2048
Maximální počet /chat/completions zpráv 2048
Maximální počet /chat/completions funkcí 128
Maximální počet /chat completions nástrojů 128
Maximální počet zřízených jednotek propustnosti na nasazení 100 000
Maximální počet souborů na asistenta nebo vlákno 20
Maximální velikost souboru pro asistenty a vyladění 512 MB
Limit tokenů asistentů 2 000 000 tokenů
GpT-4o max images per request (# of images in the messages array/conversation history) 10
Výchozí maximální počet tokenů GPT-4 vision-preview & GPT-4 turbo-2024-04-09 16

Zvyšte hodnotu parametru, max_tokens abyste se vyhnuli zkráceným odpovědím. Výchozí hodnota maximálního počtu tokenů GPT-4o je 4096.

Omezení kvót v jednotlivých oblastech

Oblast GPT-4 GPT-4-32K GPT-4-Turbo GPT-4-Turbo-V gpt-4o gpt-4o – GlobalStandard GPT-35-Turbo GPT-35-Turbo-Instruct Text-Embedding-Ada-002 text-embedding-3-small text-embedding-3-large Babbage-002 Babbage-002 - jemné ladění Davinci-002 Davinci-002 - jemné ladění GPT-35-Turbo - jemné ladění GPT-35-Turbo-1106 - jemné ladění GPT-35-Turbo-0125 - jemné ladění GPT-4 - jemné ladění
australiaeast 40 K 80 K 80 K 30 K - - 300 K - 350 K - - - - - - - - - -
brazilsouth - - - - - - - - 350 K - - - - - - - - - -
canadaeast 40 K 80 K 80 K - - - 300 K - 350 K 350 K 350 K - - - - - - - -
eastus - - 80 K - 150 K
1 M
450 K
10 M
240 K 240 K 240 K 350 K 350 K - - - - - - - -
eastus2 - - 80 K - 150 K
1 M
450 K
10 M
300 K - 350 K 350 K 350 K - - - - 250 K 250 K 250 K -
francecentral 20 tis. 60 K 80 K - - - 240 K - 240 K - 350 K - - - - - - - -
japaneast - - - 30 K - - 300 K - 350 K - 350 K - - - - - - - -
northcentralus - - 80 K - 150 K
1 M
450 K
10 M
300 K - 350 K - - 240 K 250 K 240 K 250 K 250 K 250 K 250 K 100 tis.
Norsko – východ - - 150 K - - - - - 350 K - - - - - - - - - -
Jižní Afrika – sever - - - - - - - - 350 K - - - - - - - - - -
Střed USA – jih - - 80 K - 150 K
1 M
450 K
10 M
240 K - 240 K - - - - - - - - - -
southindia - - 150 K - - - 300 K - 350 K - 350 K - - - - - - - -
swedencentral 40 K 80 K 150 K 30 K 150 K
1 M
- 300 K 240 K 350 K - 350 K 240 K 250 K 240 K 250 K 250 K 250 K 250 K 100 tis.
switzerlandnorth 40 K 80 K - 30 K - - 300 K - 350 K - - - - - - - - - -
switzerlandwest - - - - - - - - - - - - 250 K - 250 K 250 K 250 K 250 K -
uksouth - - 80 K - - - 240 K - 350 K - 350 K - - - - - - - -
westeurope - - - - - - 240 K - 240 K - - - - - - - - - -
westus - - 80 K 30 K 150 K
1 M
450 K
10 M
300 K - 350 K - - - - - - - - - -
westus3 - - 80 K - 150 K
1 M
450 K
10 M
- - 350 K - 350 K - - - - - - - -

omezení rychlosti gpt-4o

gpt-4o zavádí úrovně omezení rychlosti s vyššími limity pro určité typy zákazníků.

gpt-4o global standard

Úroveň Limit kvóty v tokenech za minutu (TPM) Žádosti za minutu
Smlouva Enterprise 10 M 60 K
Výchozí 450 K 2.7 K

M = milion | K = tisíc

gpt-4o standard

Úroveň Limit kvóty v tokenech za minutu (TPM) Žádosti za minutu
Smlouva Enterprise 1 M 6 K
Výchozí 150 K 900

M = milion | K = tisíc

Úrovně využití

Globální nasazení standardu využívají globální infrastrukturu Azure a dynamicky směrují provoz zákazníků do datového centra s nejlepší dostupností pro požadavky zákazníka na odvozování. To umožňuje konzistentnější latenci pro zákazníky s nízkou až střední úrovní provozu. Zákazníci s vysokou trvalou úrovní využití můžou zaznamenat větší variabilitu latence odezvy.

Limit využití určuje úroveň využití, nad kterou můžou zákazníci vidět větší variabilitu latence odezvy. Využití zákazníka je definováno na model a je celkový počet tokenů spotřebovaných napříč všemi nasazeními ve všech předplatných ve všech oblastech daného tenanta.

GPT-4o Global Standard & Standard

Model Úrovně využití za měsíc
GPT-4o 1,5 Miliardy tokenů

Další typy nabídek

Pokud je vaše předplatné Azure propojené s určitými typy nabídek, jsou vaše maximální hodnoty kvóty nižší než hodnoty uvedené v předchozích tabulkách.

Úroveň Limit kvóty v tokenech za minutu (TPM)
Azure for Students, bezplatné zkušební verze 1 K (všechny modely)
Předplatná MSDN GPT 3.5 Turbo Série: 30 K
ŘADA GPT-4: 8 K
Měsíční předplatná založená na platební kartě 1 GPT 3.5 Turbo Série: 30 K
ŘADA GPT-4: 8 K

1 Toto se aktuálně vztahuje na typ nabídky 0003P.

Na webu Azure Portal můžete zobrazit, jaký typ nabídky je přidružený k vašemu předplatnému, a to tak, že přejdete do svého předplatného a zkontrolujete podokno přehledu předplatných. Typ nabídky odpovídá poli plánu v přehledu předplatného.

Obecné osvědčené postupy pro zachování limitů četnosti

Pokud chcete minimalizovat problémy související s limity rychlosti, je vhodné použít následující techniky:

  • Implementujte do své aplikace logiku opakování pokusů.
  • Pokuste se předcházet prudkým výkyvům zatížení. Zvyšujte zatížení postupně.
  • Otestujte různé vzorce zvýšení zatížení.
  • Zvyšte kvótu přiřazenou k vašemu nasazení. V případě potřeby přesuňte kvótu z jiného nasazení.

Jak požádat o zvýšení výchozích kvót a omezení

Žádosti o navýšení kvóty je možné odeslat ze stránky Kvóty v nástroji Azure OpenAI Studio. Upozorňujeme, že kvůli zahlcení poptávky se žádosti o navýšení kvóty přijímají a budou vyplněny v pořadí, v jakém jsou přijaty. Priorita bude udělena zákazníkům, kteří generují provoz, který spotřebovává stávající přidělení kvóty, a pokud tato podmínka není splněná, může být vaše žádost zamítnuta.

V případě jiných limitů sazeb odešlete žádost o služby.

Další kroky

Prozkoumejte, jak spravovat kvótu pro nasazení Azure OpenAI. Přečtěte si další informace o základních modelech, které power Azure OpenAI.