Sdílet prostřednictvím


Kvóty a limity služby Azure OpenAI

Tento článek obsahuje stručný přehled a podrobný popis kvót a omezení pro Azure OpenAI ve službách Azure AI.

Referenční informace o kvótách a omezeních

Následující části obsahují stručný průvodce výchozími kvótami a omezeními, které platí pro Azure OpenAI:

Název limitu Omezit hodnotu
Prostředky OpenAI na oblast na předplatné Azure 30
Výchozí limity kvót DALL-E 2 2 souběžné žádosti
Výchozí limity kvót DALL-E 3 2 jednotky kapacity (6 požadavků za minutu)
Výchozí limity kvót pro šeptaní 3 žádosti za minutu
Maximální počet tokenů výzvy na požadavek Liší se podle modelu. Další informace najdete v tématu Modely služby Azure OpenAI Service.
Maximální jemně vyladěná nasazení modelu 5
Celkový počet trénovacích úloh na prostředek 100
Maximální počet souběžných spuštěných trénovacích úloh na prostředek 0
Maximální počet trénovacích úloh zařazených do fronty 20
Maximální počet souborů na prostředek (vyladění) 50
Celková velikost všech souborů na prostředek (vyladění) 1 GB
Maximální doba trénovací úlohy (úloha selže, pokud dojde k překročení) 720 hodin
Maximální velikost trénovací úlohy (tokeny v trénovacím souboru) x (počet epoch) 2 miliardy
Max size of all files per upload (Azure OpenAI on your data) 16 MB
Maximální počet nebo vstupy v poli s /embeddings 2048
Maximální počet /chat/completions zpráv 2048
Maximální počet /chat/completions funkcí 128
Maximální počet /chat completions nástrojů 128
Maximální počet zřízených jednotek propustnosti na nasazení 100 000
Maximální počet souborů na asistenta nebo vlákno 10 000 při použití rozhraní API nebo AI Studia. 20 při použití nástroje Azure OpenAI Studio.
Maximální velikost souboru pro asistenty a vyladění 512 MB
Limit tokenů asistentů 2 000 000 tokenů
GpT-4o max images per request (# of images in the messages array/conversation history) 10
Výchozí maximální počet tokenů GPT-4 vision-preview & GPT-4 turbo-2024-04-09 16

Zvyšte hodnotu parametru, max_tokens abyste se vyhnuli zkráceným odpovědím. Výchozí hodnota maximálního počtu tokenů GPT-4o je 4096.

Omezení kvót v jednotlivých oblastech

Oblast GPT-4 GPT-4-32K GPT-4-Turbo GPT-4-Turbo-V gpt-4o gpt-4o – GlobalStandard GPT-35-Turbo GPT-35-Turbo-Instruct Text-Embedding-Ada-002 text-embedding-3-small text-embedding-3-large Babbage-002 Babbage-002 - jemné ladění Davinci-002 Davinci-002 - jemné ladění GPT-35-Turbo - jemné ladění GPT-35-Turbo-1106 - jemné ladění GPT-4 - jemné ladění GPT-35-Turbo-0125 - jemné ladění
australiaeast 40 K 80 K 80 K 30 K - 450 K
10 M
300 K - 350 K - - - - - - - - - -
brazilsouth - - - - - 450 K
10 M
- - 350 K - - - - - - - - - -
canadaeast 40 K 80 K 80 K - - 450 K
10 M
300 K - 350 K 350 K 350 K - - - - - - - -
eastus - - 80 K - 150 K
1 M
450 K
10 M
240 K 240 K 240 K 350 K 350 K - - - - - - - -
eastus2 - - 80 K - 150 K
1 M
450 K
10 M
300 K - 350 K 350 K 350 K - - - - 250 K 250 K - 250 K
francecentral 20 tis. 60 K 80 K - - 450 K
10 M
240 K - 240 K - 350 K - - - - - - - -
Německo – středozápad - - - - - 450 K
10 M
- - - - - - - - - - - - -
japaneast - - - 30 K - 450 K
10 M
300 K - 350 K - 350 K - - - - - - - -
koreacentral - - - - - 450 K
10 M
- - - - - - - - - - - - -
northcentralus - - 80 K - 150 K
1 M
450 K
10 M
300 K - 350 K - - 240 K 250 K 240 K 250 K 250 K 250 K 100 tis. 250 K
Norsko – východ - - 150 K - - 450 K
10 M
- - 350 K - - - - - - - - - -
polskocentral - - - - - 450 K
10 M
- - - - - - - - - - - - -
Jižní Afrika – sever - - - - - 450 K
10 M
- - 350 K - - - - - - - - - -
Střed USA – jih - - 80 K - 150 K
1 M
450 K
10 M
240 K - 240 K - - - - - - - - - -
southindia - - 150 K - - 450 K
10 M
300 K - 350 K - 350 K - - - - - - - -
swedencentral 40 K 80 K 150 K 30 K 150 K
1 M
450 K
10 M
300 K 240 K 350 K - 350 K 240 K 250 K 240 K 250 K 250 K 250 K 100 tis. 250 K
switzerlandnorth 40 K 80 K - 30 K - 450 K
10 M
300 K - 350 K - - - - - - - - - -
switzerlandwest - - - - - - - - - - - - 250 K - 250 K 250 K 250 K - 250 K
uksouth - - 80 K - - 450 K
10 M
240 K - 350 K - 350 K - - - - - - - -
westeurope - - - - - 450 K
10 M
240 K - 240 K - - - - - - - - - -
westus - - 80 K 30 K 150 K
1 M
450 K
10 M
300 K - 350 K - - - - - - - - - -
westus3 - - 80 K - 150 K
1 M
450 K
10 M
- - 350 K - 350 K - - - - - - - -

omezení rychlosti gpt-4o

gpt-4o zavádí úrovně omezení rychlosti s vyššími limity pro určité typy zákazníků.

gpt-4o global standard

Úroveň Limit kvóty v tokenech za minutu (TPM) Žádosti za minutu
Smlouva Enterprise 10 M 60 K
Výchozí 450 K 2.7 K

M = milion | K = tisíc

gpt-4o standard

Úroveň Limit kvóty v tokenech za minutu (TPM) Žádosti za minutu
Smlouva Enterprise 1 M 6 K
Výchozí 150 K 900

M = milion | K = tisíc

Úrovně využití

Globální nasazení standardu využívají globální infrastrukturu Azure a dynamicky směrují provoz zákazníků do datového centra s nejlepší dostupností pro požadavky zákazníka na odvozování. To umožňuje konzistentnější latenci pro zákazníky s nízkou až střední úrovní provozu. Zákazníci s vysokou trvalou úrovní využití můžou vidět větší variabilitu v latenci odezvy.

Limit využití určuje úroveň využití, nad kterou můžou zákazníci vidět větší variabilitu latence odezvy. Využití zákazníka je definováno na model a je celkový počet tokenů spotřebovaných napříč všemi nasazeními ve všech předplatných ve všech oblastech daného tenanta.

GPT-4o Global Standard & Standard

Model Úrovně využití za měsíc
GPT-4o 1,5 Miliardy tokenů

Další typy nabídek

Pokud je vaše předplatné Azure propojené s určitými typy nabídek, jsou vaše maximální hodnoty kvóty nižší než hodnoty uvedené v předchozích tabulkách.

Úroveň Limit kvóty v tokenech za minutu (TPM)
Azure for Students, bezplatné zkušební verze 1 K (všechny modely)
Předplatná MSDN GPT 3.5 Turbo Série: 30 K
ŘADA GPT-4: 8 K
Měsíční předplatná založená na platební kartě 1 GPT 3.5 Turbo Série: 30 K
ŘADA GPT-4: 8 K

1 Toto se aktuálně vztahuje na typ nabídky 0003P.

Na webu Azure Portal můžete zobrazit, jaký typ nabídky je přidružený k vašemu předplatnému, a to tak, že přejdete do svého předplatného a zkontrolujete podokno přehledu předplatných. Typ nabídky odpovídá poli plánu v přehledu předplatného.

Obecné osvědčené postupy pro zachování limitů četnosti

Pokud chcete minimalizovat problémy související s limity rychlosti, je vhodné použít následující techniky:

  • Implementujte do své aplikace logiku opakování pokusů.
  • Pokuste se předcházet prudkým výkyvům zatížení. Zvyšujte zatížení postupně.
  • Otestujte různé vzorce zvýšení zatížení.
  • Zvyšte kvótu přiřazenou k vašemu nasazení. V případě potřeby přesuňte kvótu z jiného nasazení.

Jak požádat o zvýšení výchozích kvót a omezení

Žádosti o navýšení kvóty je možné odeslat ze stránky Kvóty v nástroji Azure OpenAI Studio. Všimněte si, že kvůli zahlcení poptávky se žádosti o navýšení kvóty přijímají a budou vyplněny v pořadí, v jakém jsou přijaty. Priorita bude udělena zákazníkům, kteří generují provoz, který spotřebovává stávající přidělení kvóty, a pokud tato podmínka není splněná, může být vaše žádost zamítnuta.

V případě jiných limitů sazeb odešlete žádost o služby.

Další kroky

Prozkoumejte, jak spravovat kvótu pro nasazení Azure OpenAI. Přečtěte si další informace o základních modelech, které power Azure OpenAI.