Kvóty a limity služby Azure OpenAI
Tento článek obsahuje stručný přehled a podrobný popis kvót a omezení pro Azure OpenAI ve službách Azure AI.
Referenční informace o kvótách a omezeních
Následující části obsahují stručný průvodce výchozími kvótami a omezeními, které platí pro Azure OpenAI:
Název limitu | Omezit hodnotu |
---|---|
Prostředky OpenAI na oblast na předplatné Azure | 30 |
Výchozí limity kvót DALL-E 2 | 2 souběžné žádosti |
Výchozí limity kvót DALL-E 3 | 2 jednotky kapacity (6 požadavků za minutu) |
Výchozí limity kvót pro šeptaní | 3 žádosti za minutu |
Maximální počet tokenů výzvy na požadavek | Liší se podle modelu. Další informace najdete v tématu Modely služby Azure OpenAI Service. |
Maximální jemně vyladěná nasazení modelu | 5 |
Celkový počet trénovacích úloh na prostředek | 100 |
Maximální počet souběžných spuštěných trénovacích úloh na prostředek | 0 |
Maximální počet trénovacích úloh zařazených do fronty | 20 |
Maximální počet souborů na prostředek (vyladění) | 50 |
Celková velikost všech souborů na prostředek (vyladění) | 1 GB |
Maximální doba trénovací úlohy (úloha selže, pokud dojde k překročení) | 720 hodin |
Maximální velikost trénovací úlohy (tokeny v trénovacím souboru) x (počet epoch) | 2 miliardy |
Max size of all files per upload (Azure OpenAI on your data) | 16 MB |
Maximální počet nebo vstupy v poli s /embeddings |
2048 |
Maximální počet /chat/completions zpráv |
2048 |
Maximální počet /chat/completions funkcí |
128 |
Maximální počet /chat completions nástrojů |
128 |
Maximální počet zřízených jednotek propustnosti na nasazení | 100 000 |
Maximální počet souborů na asistenta nebo vlákno | 10 000 při použití rozhraní API nebo AI Studia. 20 při použití nástroje Azure OpenAI Studio. |
Maximální velikost souboru pro asistenty a vyladění | 512 MB |
Limit tokenů asistentů | 2 000 000 tokenů |
GpT-4o max images per request (# of images in the messages array/conversation history) | 10 |
Výchozí maximální počet tokenů GPT-4 vision-preview & GPT-4 turbo-2024-04-09 |
16 Zvyšte hodnotu parametru, max_tokens abyste se vyhnuli zkráceným odpovědím. Výchozí hodnota maximálního počtu tokenů GPT-4o je 4096. |
Omezení kvót v jednotlivých oblastech
Oblast | GPT-4 | GPT-4-32K | GPT-4-Turbo | GPT-4-Turbo-V | gpt-4o | gpt-4o – GlobalStandard | GPT-35-Turbo | GPT-35-Turbo-Instruct | Text-Embedding-Ada-002 | text-embedding-3-small | text-embedding-3-large | Babbage-002 | Babbage-002 - jemné ladění | Davinci-002 | Davinci-002 - jemné ladění | GPT-35-Turbo - jemné ladění | GPT-35-Turbo-1106 - jemné ladění | GPT-4 - jemné ladění | GPT-35-Turbo-0125 - jemné ladění |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
australiaeast | 40 K | 80 K | 80 K | 30 K | - | 450 K 10 M |
300 K | - | 350 K | - | - | - | - | - | - | - | - | - | - |
brazilsouth | - | - | - | - | - | 450 K 10 M |
- | - | 350 K | - | - | - | - | - | - | - | - | - | - |
canadaeast | 40 K | 80 K | 80 K | - | - | 450 K 10 M |
300 K | - | 350 K | 350 K | 350 K | - | - | - | - | - | - | - | - |
eastus | - | - | 80 K | - | 150 K 1 M |
450 K 10 M |
240 K | 240 K | 240 K | 350 K | 350 K | - | - | - | - | - | - | - | - |
eastus2 | - | - | 80 K | - | 150 K 1 M |
450 K 10 M |
300 K | - | 350 K | 350 K | 350 K | - | - | - | - | 250 K | 250 K | - | 250 K |
francecentral | 20 tis. | 60 K | 80 K | - | - | 450 K 10 M |
240 K | - | 240 K | - | 350 K | - | - | - | - | - | - | - | - |
Německo – středozápad | - | - | - | - | - | 450 K 10 M |
- | - | - | - | - | - | - | - | - | - | - | - | - |
japaneast | - | - | - | 30 K | - | 450 K 10 M |
300 K | - | 350 K | - | 350 K | - | - | - | - | - | - | - | - |
koreacentral | - | - | - | - | - | 450 K 10 M |
- | - | - | - | - | - | - | - | - | - | - | - | - |
northcentralus | - | - | 80 K | - | 150 K 1 M |
450 K 10 M |
300 K | - | 350 K | - | - | 240 K | 250 K | 240 K | 250 K | 250 K | 250 K | 100 tis. | 250 K |
Norsko – východ | - | - | 150 K | - | - | 450 K 10 M |
- | - | 350 K | - | - | - | - | - | - | - | - | - | - |
polskocentral | - | - | - | - | - | 450 K 10 M |
- | - | - | - | - | - | - | - | - | - | - | - | - |
Jižní Afrika – sever | - | - | - | - | - | 450 K 10 M |
- | - | 350 K | - | - | - | - | - | - | - | - | - | - |
Střed USA – jih | - | - | 80 K | - | 150 K 1 M |
450 K 10 M |
240 K | - | 240 K | - | - | - | - | - | - | - | - | - | - |
southindia | - | - | 150 K | - | - | 450 K 10 M |
300 K | - | 350 K | - | 350 K | - | - | - | - | - | - | - | - |
swedencentral | 40 K | 80 K | 150 K | 30 K | 150 K 1 M |
450 K 10 M |
300 K | 240 K | 350 K | - | 350 K | 240 K | 250 K | 240 K | 250 K | 250 K | 250 K | 100 tis. | 250 K |
switzerlandnorth | 40 K | 80 K | - | 30 K | - | 450 K 10 M |
300 K | - | 350 K | - | - | - | - | - | - | - | - | - | - |
switzerlandwest | - | - | - | - | - | - | - | - | - | - | - | - | 250 K | - | 250 K | 250 K | 250 K | - | 250 K |
uksouth | - | - | 80 K | - | - | 450 K 10 M |
240 K | - | 350 K | - | 350 K | - | - | - | - | - | - | - | - |
westeurope | - | - | - | - | - | 450 K 10 M |
240 K | - | 240 K | - | - | - | - | - | - | - | - | - | - |
westus | - | - | 80 K | 30 K | 150 K 1 M |
450 K 10 M |
300 K | - | 350 K | - | - | - | - | - | - | - | - | - | - |
westus3 | - | - | 80 K | - | 150 K 1 M |
450 K 10 M |
- | - | 350 K | - | 350 K | - | - | - | - | - | - | - | - |
omezení rychlosti gpt-4o
gpt-4o
zavádí úrovně omezení rychlosti s vyššími limity pro určité typy zákazníků.
gpt-4o global standard
Úroveň | Limit kvóty v tokenech za minutu (TPM) | Žádosti za minutu |
---|---|---|
Smlouva Enterprise | 10 M | 60 K |
Výchozí | 450 K | 2.7 K |
M = milion | K = tisíc
gpt-4o standard
Úroveň | Limit kvóty v tokenech za minutu (TPM) | Žádosti za minutu |
---|---|---|
Smlouva Enterprise | 1 M | 6 K |
Výchozí | 150 K | 900 |
M = milion | K = tisíc
Úrovně využití
Globální nasazení standardu využívají globální infrastrukturu Azure a dynamicky směrují provoz zákazníků do datového centra s nejlepší dostupností pro požadavky zákazníka na odvozování. To umožňuje konzistentnější latenci pro zákazníky s nízkou až střední úrovní provozu. Zákazníci s vysokou trvalou úrovní využití můžou vidět větší variabilitu v latenci odezvy.
Limit využití určuje úroveň využití, nad kterou můžou zákazníci vidět větší variabilitu latence odezvy. Využití zákazníka je definováno na model a je celkový počet tokenů spotřebovaných napříč všemi nasazeními ve všech předplatných ve všech oblastech daného tenanta.
GPT-4o Global Standard & Standard
Model | Úrovně využití za měsíc |
---|---|
GPT-4o |
1,5 Miliardy tokenů |
Další typy nabídek
Pokud je vaše předplatné Azure propojené s určitými typy nabídek, jsou vaše maximální hodnoty kvóty nižší než hodnoty uvedené v předchozích tabulkách.
Úroveň | Limit kvóty v tokenech za minutu (TPM) |
---|---|
Azure for Students, bezplatné zkušební verze | 1 K (všechny modely) |
Předplatná MSDN | GPT 3.5 Turbo Série: 30 K ŘADA GPT-4: 8 K |
Měsíční předplatná založená na platební kartě 1 | GPT 3.5 Turbo Série: 30 K ŘADA GPT-4: 8 K |
1 Toto se aktuálně vztahuje na typ nabídky 0003P.
Na webu Azure Portal můžete zobrazit, jaký typ nabídky je přidružený k vašemu předplatnému, a to tak, že přejdete do svého předplatného a zkontrolujete podokno přehledu předplatných. Typ nabídky odpovídá poli plánu v přehledu předplatného.
Obecné osvědčené postupy pro zachování limitů četnosti
Pokud chcete minimalizovat problémy související s limity rychlosti, je vhodné použít následující techniky:
- Implementujte do své aplikace logiku opakování pokusů.
- Pokuste se předcházet prudkým výkyvům zatížení. Zvyšujte zatížení postupně.
- Otestujte různé vzorce zvýšení zatížení.
- Zvyšte kvótu přiřazenou k vašemu nasazení. V případě potřeby přesuňte kvótu z jiného nasazení.
Jak požádat o zvýšení výchozích kvót a omezení
Žádosti o navýšení kvóty je možné odeslat ze stránky Kvóty v nástroji Azure OpenAI Studio. Všimněte si, že kvůli zahlcení poptávky se žádosti o navýšení kvóty přijímají a budou vyplněny v pořadí, v jakém jsou přijaty. Priorita bude udělena zákazníkům, kteří generují provoz, který spotřebovává stávající přidělení kvóty, a pokud tato podmínka není splněná, může být vaše žádost zamítnuta.
V případě jiných limitů sazeb odešlete žádost o služby.
Další kroky
Prozkoumejte, jak spravovat kvótu pro nasazení Azure OpenAI. Přečtěte si další informace o základních modelech, které power Azure OpenAI.
Váš názor
https://aka.ms/ContentUserFeedback.
Připravujeme: V průběhu roku 2024 budeme postupně vyřazovat problémy z GitHub coby mechanismus zpětné vazby pro obsah a nahrazovat ho novým systémem zpětné vazby. Další informace naleznete v tématu:Odeslat a zobrazit názory pro