Kvóty a limity služby Azure OpenAI
Tento článek obsahuje stručný přehled a podrobný popis kvót a omezení pro Azure OpenAI ve službách Azure AI.
Referenční informace o kvótách a omezeních
Následující části obsahují stručný průvodce výchozími kvótami a omezeními, které platí pro Azure OpenAI:
Název limitu | Omezit hodnotu |
---|---|
Prostředky OpenAI na oblast na předplatné Azure | 30 |
Výchozí limity kvót DALL-E 2 | 2 souběžné žádosti |
Výchozí limity kvót DALL-E 3 | 2 jednotky kapacity (6 požadavků za minutu) |
Výchozí limity kvót pro šeptaní | 3 žádosti za minutu |
Maximální počet tokenů výzvy na požadavek | Liší se podle modelu. Další informace najdete v tématu Modely služby Azure OpenAI Service. |
Maximální počet standardních nasazení na prostředek | 32 |
Maximální jemně vyladěná nasazení modelu | 5 |
Celkový počet trénovacích úloh na prostředek | 100 |
Maximální počet souběžných spuštěných trénovacích úloh na prostředek | 0 |
Maximální počet trénovacích úloh zařazených do fronty | 20 |
Maximální počet souborů na prostředek (vyladění) | 50 |
Celková velikost všech souborů na prostředek (vyladění) | 1 GB |
Maximální doba trénovací úlohy (úloha selže, pokud dojde k překročení) | 720 hodin |
Maximální velikost trénovací úlohy (tokeny v trénovacím souboru) x (počet epoch) | 2 miliardy |
Max size of all files per upload (Azure OpenAI on your data) | 16 MB |
Maximální počet nebo vstupy v poli s /embeddings |
2048 |
Maximální počet /chat/completions zpráv |
2048 |
Maximální počet /chat/completions funkcí |
128 |
Maximální počet /chat completions nástrojů |
128 |
Maximální počet zřízených jednotek propustnosti na nasazení | 100 000 |
Maximální počet souborů na asistenta nebo vlákno | 10 000 při použití rozhraní API nebo AI Studia. 20 při použití nástroje Azure OpenAI Studio. |
Maximální velikost souboru pro asistenty a vyladění | 512 MB |
Maximální velikost všech nahraných souborů pro Asistenty | 100 GB |
Limit tokenů asistentů | 2 000 000 tokenů |
GpT-4o max images per request (# of images in the messages array/conversation history) | 10 |
Výchozí maximální počet tokenů GPT-4 vision-preview & GPT-4 turbo-2024-04-09 |
16 Zvyšte hodnotu parametru, max_tokens abyste se vyhnuli zkráceným odpovědím. Výchozí hodnota maximálního počtu tokenů GPT-4o je 4096. |
Maximální počet vlastních hlaviček v požadavcíchrozhraní API 1 | 10 |
1 Naše aktuální rozhraní API umožňují až 10 vlastních hlaviček, které se předávají kanálem a vrací se. Všimli jsme si, že někteří zákazníci teď tento počet hlaviček překračují, což vede k chybám HTTP 431. Pro tuto chybu neexistuje žádné řešení, kromě zmenšení svazku záhlaví. V budoucích verzích rozhraní API už nebudeme předávat vlastní hlavičky. Zákazníkům doporučujeme, aby v budoucích systémových architekturách nezávisí na vlastních hlavičkách.
Omezení kvót v jednotlivých oblastech
Oblast | o1-mini | o1 | GPT-4 | GPT-4-32K | GPT-4-Turbo | GPT-4-Turbo-V | gpt-4o | gpt-4o-mini | GPT-35-Turbo | GPT-35-Turbo-Instruct | o1-mini – GlobalStandard | o1 – GlobalStandard | gpt-4o – GlobalStandard | gpt-4o-mini - GlobalStandard | GPT-4-Turbo - GlobalStandard | GPT-4o – Global-Batch | GPT-4o-mini - Global-Batch | GPT-4 – Global-Batch | GPT-4-Turbo - Global-Batch | gpt-35-turbo - Global-Batch | Text-Embedding-Ada-002 | text-embedding-3-small | text-embedding-3-large | GPT-4o - jemné ladění | GPT-4o-mini - jemné ladění | GPT-4 - jemné ladění | Babbage-002 | Babbage-002 - jemné ladění | Davinci-002 | Davinci-002 - jemné ladění | GPT-35-Turbo - jemné ladění | GPT-35-Turbo-1106 - jemné ladění | GPT-35-Turbo-0125 - jemné ladění |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
australiaeast | - | - | 40 K | 80 K | 80 K | 30 K | - | - | 300 K | - | - | - | 30 M | 50 M | 2 M | - | - | - | - | - | 350 K | - | - | - | - | - | - | - | - | - | - | - | - |
brazilsouth | - | - | - | - | - | - | - | - | - | - | - | - | 30 M | 50 M | 2 M | - | - | - | - | - | 350 K | - | - | - | - | - | - | - | - | - | - | - | - |
canadaeast | - | - | 40 K | 80 K | 80 K | - | - | - | 300 K | - | - | - | 30 M | 50 M | 2 M | - | - | - | - | - | 350 K | 350 K | 350 K | - | - | - | - | - | - | - | - | - | - |
eastus | - | - | - | - | 80 K | - | 1 M | 2 M | 240 K | 240 K | - | - | 30 M | 50 M | 2 M | 5 B | 5 B | 150 M | 300 M | 10 B | 240 K | 350 K | 350 K | - | - | - | - | - | - | - | - | - | - |
eastus2 | 1 M | 600 K | - | - | 80 K | - | 1 M | 2 M | 300 K | - | 50 M | 15 M | 30 M | 50 M | 2 M | - | - | - | - | - | 350 K | 350 K | 350 K | 250 K | - | - | - | - | - | - | 250 K | 250 K | 250 K |
francecentral | - | - | 20 tis. | 60 K | 80 K | - | - | - | 240 K | - | - | - | 30 M | 50 M | 2 M | - | - | - | - | - | 240 K | - | 350 K | - | - | - | - | - | - | - | - | - | - |
Německo – středozápad | - | - | - | - | - | - | - | - | - | - | - | - | 30 M | 50 M | 2 M | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - |
japaneast | - | - | - | - | - | 30 K | - | - | 300 K | - | - | - | 30 M | 50 M | 2 M | - | - | - | - | - | 350 K | 350 K | 350 K | - | - | - | - | - | - | - | - | - | - |
koreacentral | - | - | - | - | - | - | - | - | - | - | - | - | 30 M | 50 M | 2 M | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - |
northcentralus | - | - | - | - | 80 K | - | 1 M | 2 M | 300 K | - | - | - | 30 M | 50 M | 2 M | - | - | - | - | - | 350 K | - | - | 250 K | 500 K | 100 tis. | 240 K | 250 K | 240 K | 250 K | 250 K | 250 K | 250 K |
Norsko – východ | - | - | - | - | 150 K | - | - | - | - | - | - | - | 30 M | 50 M | 2 M | - | - | - | - | - | 350 K | - | 350 K | - | - | - | - | - | - | - | - | - | - |
polskocentral | - | - | - | - | - | - | - | - | - | - | - | - | 30 M | 50 M | 2 M | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - |
Jižní Afrika – sever | - | - | - | - | - | - | - | - | - | - | - | - | 30 M | 50 M | 2 M | - | - | - | - | - | 350 K | - | - | - | - | - | - | - | - | - | - | - | - |
Střed USA – jih | - | - | - | - | 80 K | - | 1 M | 2 M | 240 K | - | - | - | 30 M | 50 M | 2 M | - | - | - | - | - | 240 K | - | - | - | - | - | - | - | - | - | - | - | - |
southindia | - | - | - | - | 150 K | - | - | - | 300 K | - | - | - | 30 M | 50 M | 2 M | - | - | - | - | - | 350 K | - | 350 K | - | - | - | - | - | - | - | - | - | - |
španělskocentral | - | - | - | - | - | - | - | - | - | - | - | - | 30 M | 50 M | 2 M | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - |
swedencentral | 1 M | 600 K | 40 K | 80 K | 150 K | 30 K | 1 M | 2 M | 300 K | 240 K | 50 M | 15 M | 30 M | 50 M | 2 M | 5 B | 5 B | 150 M | 300 M | 10 B | 350 K | - | 350 K | 250 K | 500 K | 100 tis. | 240 K | 250 K | 240 K | 250 K | 250 K | 250 K | 250 K |
switzerlandnorth | - | - | 40 K | 80 K | - | 30 K | - | - | 300 K | - | - | - | 30 M | 50 M | 2 M | - | - | - | - | - | 350 K | - | - | - | - | - | - | - | - | - | - | - | - |
switzerlandwest | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | 250 K | - | 250 K | 250 K | 250 K | 250 K |
uksouth | - | - | - | - | 80 K | - | - | - | 240 K | - | - | - | 30 M | 50 M | 2 M | - | - | - | - | - | 350 K | - | 350 K | - | - | - | - | - | - | - | - | - | - |
westeurope | - | - | - | - | - | - | - | - | 240 K | - | - | - | 30 M | 50 M | 2 M | - | - | - | - | - | 240 K | - | - | - | - | - | - | - | - | - | - | - | - |
westus | - | - | - | - | 80 K | 30 K | 1 M | 2 M | 300 K | - | - | - | 30 M | 50 M | 2 M | 5 B | 5 B | 150 M | 300 M | 10 B | 350 K | - | - | - | - | - | - | - | - | - | - | - | - |
westus3 | - | - | - | - | 80 K | - | 1 M | 2 M | 300 K | - | - | - | 30 M | 50 M | 2 M | - | - | - | - | - | 350 K | - | 350 K | - | - | - | - | - | - | - | - | - | - |
Globální limity dávek
Název limitu | Omezit hodnotu |
---|---|
Maximální počet souborů na prostředek | 500 |
Maximální velikost vstupního souboru | 200 MB |
Maximální počet požadavků na soubor | 100 000 |
Globální kvóta dávky
V tabulce je uveden limit kvóty dávky. Hodnoty kvót pro globální dávku jsou reprezentovány z hlediska vyčtených tokenů. Když odešlete soubor pro dávkové zpracování počtu tokenů, které jsou přítomné v souboru, se započítávají. Dokud dávková úloha nedosáhne stavu terminálu, tyto tokeny se započítávají do celkového limitu vyčíslených tokenů.
Model | Smlouva Enterprise | Výchozí | Předplatná založená na měsíčních platebních kartách | Předplatná MSDN | Azure for Students, bezplatné zkušební verze |
---|---|---|---|---|---|
gpt-4o |
5 B | 50 M | 1,35 M | 90 K | – |
gpt-4o-mini |
5 B | 50 M | 1,35 M | 90 K | – |
gpt-4-turbo |
300 M | 40 M | 1,35 M | 90 K | – |
gpt-4 |
150 M | 5 M | 200 K | 100 tis. | – |
gpt-35-turbo |
10 B | 100 M | 5 M | 2 M | 50 tis. |
B = miliarda | M = milion | K = tisíc
o1-preview & o1-mini rate limits
o1-preview & o1-mini global standard
Model | Úroveň | Limit kvóty v tokenech za minutu (TPM) | Žádosti za minutu |
---|---|---|---|
o1-preview |
Smlouva Enterprise | 15 M | 2,5 K |
o1-mini |
Smlouva Enterprise | 50 M | 5 K |
o1-preview |
Výchozí | 1,5 M | 250 |
o1-mini |
Výchozí | 1 M | 100 |
o1-preview a o1-mini standard
Model | Úroveň | Limit kvóty v tokenech za minutu (TPM) | Žádosti za minutu |
---|---|---|---|
o1-preview |
Smlouva Enterprise | 600 K | 100 |
o1-mini |
Smlouva Enterprise | 1 M | 100 |
o1-preview |
Výchozí | 300 K | 50 |
o1-mini |
Výchozí | 500 K | 50 |
gpt-4o & GPT-4 Turbo rychlost omezení
gpt-4o
a gpt-4o-mini
gpt-4
(turbo-2024-04-09
) mají úrovně omezení rychlosti s vyššími limity pro určité typy zákazníků.
gpt-4o & GPT-4 Turbo global standard
Model | Úroveň | Limit kvóty v tokenech za minutu (TPM) | Žádosti za minutu |
---|---|---|---|
gpt-4o |
Smlouva Enterprise | 30 M | 180 K |
gpt-4o-mini |
Smlouva Enterprise | 50 M | 300 K |
gpt-4 (turbo-2024-04-09) |
Smlouva Enterprise | 2 M | 12 K |
gpt-4o |
Výchozí | 450 K | 2.7 K |
gpt-4o-mini |
Výchozí | 2 M | 12 K |
gpt-4 (turbo-2024-04-09) |
Výchozí | 450 K | 2.7 K |
M = milion | K = tisíc
gpt-4o standard
Model | Úroveň | Limit kvóty v tokenech za minutu (TPM) | Žádosti za minutu |
---|---|---|---|
gpt-4o |
Smlouva Enterprise | 1 M | 6 K |
gpt-4o-mini |
Smlouva Enterprise | 2 M | 12 K |
gpt-4o |
Výchozí | 150 K | 900 |
gpt-4o-mini |
Výchozí | 450 K | 2.7 K |
M = milion | K = tisíc
Úrovně využití
Globální nasazení standardu využívají globální infrastrukturu Azure a dynamicky směrují provoz zákazníků do datového centra s nejlepší dostupností pro požadavky zákazníka na odvozování. To umožňuje konzistentnější latenci pro zákazníky s nízkou až střední úrovní provozu. Zákazníci s vysokou trvalou úrovní využití můžou vidět větší variabilitu v latenci odezvy.
Limit využití určuje úroveň využití, nad kterou můžou zákazníci vidět větší variabilitu latence odezvy. Využití zákazníka je definováno na model a je celkový počet tokenů spotřebovaných napříč všemi nasazeními ve všech předplatných ve všech oblastech daného tenanta.
Poznámka:
Úrovně využití se vztahují pouze na standardní a globální typy standardního nasazení. Úrovně využití se nevztahují na globální nasazení dávkové a zřízené propustnosti.
GPT-4o Global Standard & Standard
Model | Úrovně využití za měsíc |
---|---|
gpt-4o |
8 miliard tokenů |
gpt-4o-mini |
45 miliard tokenů |
GPT-4 standard
Model | Úrovně využití za měsíc |
---|---|
gpt-4 + gpt-4-32k (všechny verze) |
4 miliardy |
Další typy nabídek
Pokud je vaše předplatné Azure propojené s určitými typy nabídek, jsou vaše maximální hodnoty kvóty nižší než hodnoty uvedené v předchozích tabulkách.
Úroveň | Limit kvóty v tokenech za minutu (TPM) |
---|---|
Azure for Students, bezplatné zkušební verze | 1 K (všechny modely) |
Předplatná MSDN | GPT 3.5 Turbo Série: 30 K ŘADA GPT-4: 8 K |
Měsíční předplatná založená na platební kartě 1 | GPT 3.5 Turbo Série: 30 K ŘADA GPT-4: 8 K |
1 Toto se aktuálně vztahuje na typ nabídky 0003P.
Na webu Azure Portal můžete zobrazit, jaký typ nabídky je přidružený k vašemu předplatnému, a to tak, že přejdete do svého předplatného a zkontrolujete podokno přehledu předplatných. Typ nabídky odpovídá poli plánu v přehledu předplatného.
Obecné osvědčené postupy pro zachování limitů četnosti
Pokud chcete minimalizovat problémy související s limity rychlosti, je vhodné použít následující techniky:
- Implementujte do své aplikace logiku opakování pokusů.
- Pokuste se předcházet prudkým výkyvům zatížení. Zvyšujte zatížení postupně.
- Otestujte různé vzorce zvýšení zatížení.
- Zvyšte kvótu přiřazenou k vašemu nasazení. V případě potřeby přesuňte kvótu z jiného nasazení.
Jak požádat o zvýšení výchozích kvót a omezení
Žádosti o navýšení kvóty je možné odeslat ze stránky Kvóty v nástroji Azure OpenAI Studio. Všimněte si, že kvůli zahlcení poptávky se žádosti o navýšení kvóty přijímají a budou vyplněny v pořadí, v jakém jsou přijaty. Priorita bude udělena zákazníkům, kteří generují provoz, který spotřebovává stávající přidělení kvóty, a pokud tato podmínka není splněná, může být vaše žádost zamítnuta.
V případě jiných limitů sazeb odešlete žádost o služby.
Další kroky
Prozkoumejte, jak spravovat kvótu pro nasazení Azure OpenAI. Přečtěte si další informace o základních modelech, které power Azure OpenAI.