Kvóty a limity služby Azure OpenAI
Tento článek obsahuje stručný přehled a podrobný popis kvót a omezení pro Azure OpenAI ve službách Azure AI.
Referenční informace o kvótách a omezeních
Následující části obsahují stručný průvodce výchozími kvótami a omezeními, které platí pro Azure OpenAI:
Název limitu | Omezit hodnotu |
---|---|
Prostředky OpenAI na oblast na předplatné Azure | 30 |
Výchozí limity kvót DALL-E 2 | 2 souběžné žádosti |
Výchozí limity kvót DALL-E 3 | 2 jednotky kapacity (6 požadavků za minutu) |
Maximální počet tokenů výzvy na požadavek | Liší se podle modelu. Další informace najdete v tématu Modely služby Azure OpenAI Service. |
Maximální jemně vyladěná nasazení modelu | 5 |
Celkový počet trénovacích úloh na prostředek | 100 |
Maximální počet souběžných spuštěných trénovacích úloh na prostředek | 0 |
Maximální počet trénovacích úloh zařazených do fronty | 20 |
Maximální počet souborů na prostředek (vyladění) | 50 |
Celková velikost všech souborů na prostředek (vyladění) | 1 GB |
Maximální doba trénovací úlohy (úloha selže, pokud dojde k překročení) | 720 hodin |
Maximální velikost trénovací úlohy (tokeny v trénovacím souboru) x (počet epoch) | 2 miliardy |
Max size of all files per upload (Azure OpenAI on your data) | 16 MB |
Maximální počet nebo vstupy v poli s /embeddings |
2048 |
Maximální počet /chat/completions zpráv |
2048 |
Maximální počet /chat/completions funkcí |
128 |
Maximální počet /chat completions nástrojů |
128 |
Maximální počet zřízených jednotek propustnosti na nasazení | 100 000 |
Maximální počet souborů na asistenta nebo vlákno | 20 |
Maximální velikost souboru pro asistenty a vyladění | 512 MB |
Limit tokenů asistentů | 2 000 000 tokenů |
Omezení kvót v jednotlivých oblastech
Výchozí kvóta pro modely se liší podle modelu a oblasti. Výchozí limity kvót se můžou změnit.
Kvóta pro standardní nasazení je popsaná z hlediska tokenů za minutu (TPM).
Oblast | GPT-4 | GPT-4-32K | GPT-4-Turbo | GPT-4-Turbo-V | GPT-35-Turbo | GPT-35-Turbo-Instruct | Text-Embedding-Ada-002 | text-embedding-3-small | text-embedding-3-large | Babbage-002 | Babbage-002 - jemné ladění | Davinci-002 | Davinci-002 - jemné ladění | GPT-35-Turbo - jemné ladění | GPT-35-Turbo-1106 - jemné ladění | GPT-35-Turbo-0125 - jemné ladění |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
australiaeast | 40 K | 80 K | 80 K | 30 K | 300 K | - | 350 K | - | - | - | - | - | - | - | - | - |
brazilsouth | - | - | - | - | - | - | 350 K | - | - | - | - | - | - | - | - | - |
canadaeast | 40 K | 80 K | 80 K | - | 300 K | - | 350 K | 350 K | 350 K | - | - | - | - | - | - | - |
eastus | - | - | 80 K | - | 240 K | 240 K | 240 K | 350 K | 350 K | - | - | - | - | - | - | - |
eastus2 | - | - | 80 K | - | 300 K | - | 350 K | 350 K | 350 K | - | - | - | - | 250 K | 250 K | 250 K |
francecentral | 20 tis. | 60 K | 80 K | - | 240 K | - | 240 K | - | - | - | - | - | - | - | - | - |
japaneast | - | - | - | 30 K | 300 K | - | 350 K | - | - | - | - | - | - | - | - | - |
northcentralus | - | - | 80 K | - | 300 K | - | 350 K | - | - | 240 K | 250 K | 240 K | 250 K | 250 K | 250 K | 250 K |
Norsko – východ | - | - | 150 K | - | - | - | 350 K | - | - | - | - | - | - | - | - | - |
Jižní Afrika – sever | - | - | - | - | - | - | 350 K | - | - | - | - | - | - | - | - | - |
Střed USA – jih | - | - | 80 K | - | 240 K | - | 240 K | - | - | - | - | - | - | - | - | - |
southindia | - | - | 150 K | - | 300 K | - | 350 K | - | - | - | - | - | - | - | - | - |
swedencentral | 40 K | 80 K | 150 K | 30 K | 300 K | 240 K | 350 K | - | - | 240 K | 250 K | 240 K | 250 K | 250 K | 250 K | 250 K |
switzerlandnorth | 40 K | 80 K | - | 30 K | 300 K | - | 350 K | - | - | - | - | - | - | - | - | - |
switzerlandwest | - | - | - | - | - | - | - | - | - | - | 250 K | - | 250 K | 250 K | 250 K | 250 K |
uksouth | - | - | 80 K | - | 240 K | - | 350 K | - | - | - | - | - | - | - | - | - |
westeurope | - | - | - | - | 240 K | - | 240 K | - | - | - | - | - | - | - | - | - |
westus | - | - | 80 K | 30 K | 300 K | - | 350 K | - | - | - | - | - | - | - | - | - |
westus3 | - | - | 80 K | - | - | - | 350 K | - | - | - | - | - | - | - | - | - |
1 K = 1000 tokenů za minutu (TPM). Vztah mezi čipem TPM a žádostmi za minutu (RPM) je aktuálně definován jako 6 RPM na 1000 TPM.
Obecné osvědčené postupy pro zachování limitů četnosti
Pokud chcete minimalizovat problémy související s limity rychlosti, je vhodné použít následující techniky:
- Implementujte do své aplikace logiku opakování pokusů.
- Pokuste se předcházet prudkým výkyvům zatížení. Zvyšujte zatížení postupně.
- Otestujte různé vzorce zvýšení zatížení.
- Zvyšte kvótu přiřazenou k vašemu nasazení. V případě potřeby přesuňte kvótu z jiného nasazení.
Jak požádat o zvýšení výchozích kvót a omezení
Žádosti o navýšení kvóty je možné odeslat ze stránky Kvóty v nástroji Azure OpenAI Studio. Upozorňujeme, že kvůli zahlcení poptávky se žádosti o navýšení kvóty přijímají a budou vyplněny v pořadí, v jakém jsou přijaty. Priorita bude udělena zákazníkům, kteří generují provoz, který spotřebovává stávající přidělení kvóty, a pokud tato podmínka není splněná, může být vaše žádost zamítnuta.
V případě jiných limitů sazeb odešlete žádost o služby.
Další kroky
Prozkoumejte, jak spravovat kvótu pro nasazení Azure OpenAI. Přečtěte si další informace o základních modelech, které power Azure OpenAI.