Poznámka
Přístup k této stránce vyžaduje autorizaci. Můžete se zkusit přihlásit nebo změnit adresáře.
Přístup k této stránce vyžaduje autorizaci. Můžete zkusit změnit adresáře.
Tento článek obsahuje stručný přehled a podrobný popis kvót a omezení pro Azure OpenAI.
Referenční informace o kvótách a omezeních
Následující části obsahují stručný průvodce výchozími kvótami a omezeními, které platí pro Azure OpenAI:
Název limitu | Omezit hodnotu |
---|---|
Prostředky Azure OpenAI pro každou oblast a předplatné Azure | 30 |
Výchozí limity kvót DALL-E 2 | 2 souběžné žádosti |
Výchozí limity kvót DALL-E 3 | 2 jednotky kapacity (6 požadavků za minutu) |
Výchozí limity kvóty pro GPT-image-1 | 2 jednotky kapacity (6 požadavků za minutu) |
Výchozí limity kvót Sora | 60 požadavků za minutu |
Výchozí omezení kvóty rozhraní API pro převod řeči na textový formát | 3 žádosti za minutu |
Maximální počet tokenů promptu na požadavek | Liší se podle modelu. Další informace najdete v tématu Modely Azure OpenAI. |
Maximální standardní nasazení na zdroj | 32 |
Maximální počet jemně doladěných nasazení modelu | 5 |
Celkový počet tréninkových úkolů na zdroj | 100 |
Maximální počet souběžně běžících tréninkových úloh na prostředek | 1 |
Maximální počet trénovacích úloh ve frontě | 20 |
Maximální počet souborů na prostředek (přizpůsobení) | 50 |
Celková velikost všech souborů na zdroj (doladění) | 1 GB |
Maximální doba trénovací úlohy (úloha selže, pokud dojde k překročení) | 720 hodin |
Maximální velikost trénovací úlohy (tokeny v trénovacím souboru) x (počet epoch) | 2 miliardy |
Maximální velikost všech souborů na nahrání (Azure OpenAI na vašich datech) | 16 MB |
Maximální počet vstupů v poli s /embeddings |
2048 |
Maximální počet /chat/completions zpráv |
2048 |
Maximální počet /chat/completions funkcí |
128 |
Maximální počet /chat completions nástrojů |
128 |
Maximální počet zřízených jednotek propustnosti na každé nasazení | 100 000 |
Maximální počet souborů na asistenta nebo vlákno | 10 000 při použití rozhraní API nebo portálu Azure AI Foundry . |
Maximální velikost souboru pro asistenty a jemné ladění | 512 MB 200 MB přes portál Azure AI Foundry |
Maximální velikost všech nahraných souborů pro Asistenty | 200 GB |
Limit tokenů asistentů | limit 2 000 000 tokenů |
Maximální počet obrázků GPT-4o a GPT-4.1 na požadavek (počet obrázků v poli zpráv nebo historii konverzací) | 50 |
Výchozí maximální počet tokenů GPT-4 vision-preview & GPT-4 turbo-2024-04-09 |
16 Zvyšte hodnotu parametru, max_tokens abyste se vyhnuli zkráceným odpovědím. Výchozí hodnota maximálního počtu tokenů GPT-4o je 4096. |
Maximální počet vlastních hlaviček v požadavcíchrozhraní API 1 | 10 |
Limit znaků zprávy | 1048576 |
Velikost zprávy pro zvukové soubory | 20 MB |
1 Naše současné rozhraní API umožňují až 10 vlastních hlaviček, které jsou předány skrze pipeline a vráceny. Někteří zákazníci teď tento počet hlaviček překračují, což vede k chybám HTTP 431. Pro tuto chybu neexistuje žádné řešení, než zmenšit objem hlaviček. V budoucích verzích rozhraní API už nebudeme předávat vlastní hlavičky. Zákazníkům doporučujeme, aby se v budoucích systémových architekturách nespoléhali na vlastní hlavičky.
Poznámka:
Limity kvót se můžou změnit.
Limity služby Batch
Název limitu | Omezit hodnotu |
---|---|
Maximální počet souborů na jeden prostředek | 500 |
Maximální velikost vstupního souboru | 200 MB |
Maximální počet požadavků na soubor | 100 000 |
Kvóta dávky
V tabulce je uveden limit kvóty dávky. Hodnoty kvót pro globální dávku jsou reprezentovány z hlediska zařazených tokenů. Když odešlete soubor pro dávkové zpracování, spočítá se počet tokenů, které jsou v souboru přítomny. Dokud dávková úloha nedosáhne konečného stavu, tyto tokeny se započítávají do celkového limitu zařazených tokenů.
Globální dávka
Vzor | Podniková smlouva | Výchozí | Předplatná založená na měsíčních platebních kartách | Předplatná MSDN | Azure for Students, bezplatné zkušební verze |
---|---|---|---|---|---|
gpt-4.1 |
5 B | 200 milionů | 50 milionů | 90 K | není k dispozici |
gpt-4.1 mini |
15B | 1B | 50 mil. | 90 tisíc | není k dispozici |
gpt-4.1-nano |
15 B | 1 B | 50 milionů | 90 K | není k dispozici |
gpt-4o |
5 B | 200 milionů | 50 milionů | 90 K | není k dispozici |
gpt-4o-mini |
15 B | 1 B | 50 milionů | 90 K | není k dispozici |
gpt-4-turbo |
300 metrů | 80 milionů | 40 M | 90 K | není k dispozici |
gpt-4 |
150 M | 30 M | 5 miliónů | 100 tisíc | není k dispozici |
gpt-35-turbo |
10 B | 1 B | 100 M | 2 miliony | 50 tisíc |
o3-mini |
15 B | 1 B | 50 milionů | 90 K | není k dispozici |
o4-mini |
15 B | 1 B | 50 milionů | 90 K | není k dispozici |
B = miliarda | M = milion | K = tisíc
Dávka z datové zóny
Vzor | Podniková smlouva | Výchozí | Předplatná založená na měsíčních platebních kartách | Předplatná MSDN | Azure for Students, bezplatné zkušební verze |
---|---|---|---|---|---|
gpt-4.1 |
500 metrů | 30 M | 30 M | 90 K | není k dispozici |
gpt-4.1-mini |
1,5 B | 100 M | 50 milionů | 90 K | není k dispozici |
gpt-4o |
500 metrů | 30 M | 30 M | 90 K | není k dispozici |
gpt-4o-mini |
1,5 B | 100 M | 50 milionů | 90 K | není k dispozici |
o3-mini |
1,5 B | 100 M | 50 milionů | 90 K | není k dispozici |
Omezení rychlosti GPT-4
Globální standard GPT-4.5 Preview
Vzor | Úroveň | Limit kvóty v tokenech za minutu (TPM) | Žádosti za minutu |
---|---|---|---|
gpt-4.5 |
Podniková úroveň | 200 K | 200 |
gpt-4.5 |
Výchozí | 150 K | sto padesát |
Globální standard řady GPT-4.1
Vzor | Úroveň | Limit kvóty v tokenech za minutu (TPM) | Žádosti za minutu |
---|---|---|---|
gpt-4.1 (2025-04-14) |
Podniková úroveň | 5 miliónů | 5 K |
gpt-4.1 (2025-04-14) |
Výchozí | 1 mil. | 1 K |
gpt-4.1-nano (2025-04-14) |
Podniková úroveň | 150 M | 150 K |
gpt-4.1-nano (2025-04-14) |
Výchozí | 5 miliónů | 5 K |
gpt-4.1-mini (2025-04-14) |
Podniková úroveň | 150 M | 150 K |
gpt-4.1-mini (2025-04-14) |
Výchozí | 5 miliónů | 5 K |
Standard datové zóny série GPT-4.1
Vzor | Úroveň | Limit kvóty v tokenech za minutu (TPM) | Žádosti za minutu |
---|---|---|---|
gpt-4.1 (2025-04-14) |
Podniková úroveň | 2 miliony | 2 K |
gpt-4.1 (2025-04-14) |
Výchozí | 300 Kelvinů | 300 |
gpt-4.1-nano (2025-04-14) |
Podniková úroveň | 50 milionů | 50 tisíc |
gpt-4.1-nano (2025-04-14) |
Výchozí | 2 miliony | 2 K |
gpt-4.1-mini (2025-04-14) |
Podniková úroveň | 50 milionů | 50 tisíc |
gpt-4.1-mini (2025-04-14) |
Výchozí | 2 miliony | 2 K |
GPT-4 Turbo
gpt-4
(turbo-2024-04-09
) má úrovně omezení rychlosti s vyššími limity pro určité typy zákazníků.
Vzor | Úroveň | Limit kvóty v tokenech za minutu (TPM) | Žádosti za minutu |
---|---|---|---|
gpt-4 (turbo-2024-04-09) |
Podniková smlouva | 2 miliony | 12 K |
gpt-4 (turbo-2024-04-09) |
Výchozí | 450 K | 2,7 K |
omezení rychlosti modelového směrovače
Vzor | Úroveň | Limit kvóty v tokenech za minutu (TPM) | Žádosti za minutu |
---|---|---|---|
model-router (2025-05-19) |
Podniková úroveň | 10 M | 10 000 |
model-router (2025-05-19) |
Výchozí | 1 mil. | 1 K |
globální standardní limity pro použití počítače ve verzi Preview
Vzor | Úroveň | Limit kvóty v tokenech za minutu (TPM) | Žádosti za minutu |
---|---|---|---|
computer-use-preview |
Podniková úroveň | 30 M | 300 Kelvinů |
computer-use-preview |
Výchozí | 450 K | 4,5 K |
Limity rychlosti řady o-series
Důležité
Poměr požadavků za minutu (RPM) a tokenů za minutu (TPM) pro kvótu se může lišit podle modelu. Pokud nasadíte model prostřednictvím kódu programu nebo požádáte o navýšení kvóty, nemáte podrobnou kontrolu nad TPM a RPM jako nezávislými hodnotami. Kvóta se přiděluje z hlediska jednotek kapacity, které mají odpovídající množství RPM a TPM:
Vzor | Kapacita | Žádosti za minutu (RPM) | Tokeny za minutu (TPM) |
---|---|---|---|
Starší modely chatu: | 1 jednotka | 6 ot/min | 1 000 TPM |
o1 &o1-preview: | 1 jednotka | 1 ot/min | 6 000 TPM |
o3 | 1 jednotka | 1 ot/min | 1 000 TPM |
o4-mini | 1 jednotka | 1 ot/min | 1 000 TPM |
o3-mini: | 1 jednotka | 1 ot/min | 10 000 TPM |
o1-mini: | 1 jednotka | 1 ot/min | 10 000 TPM |
o3-pro: | 1 jednotka | 1 ot/min | 10 000 TPM |
To je zvlášť důležité pro programové nasazení modelu, protože změny v poměru RPM/TPM můžou vést k náhodnému chybnému umístění kvóty.
Globální standard řady o-series
Vzor | Úroveň | Limit kvóty v tokenech za minutu (TPM) | Žádosti za minutu |
---|---|---|---|
codex-mini |
Podniková smlouva | 10 M | 10 000 |
o3-pro |
Podniková smlouva | 16 M | 1.6 K |
o4-mini |
Podniková smlouva | 10 M | 10 000 |
o3 |
Podniková smlouva | 10 M | 10 000 |
o3-mini |
Podniková smlouva | 50 milionů | 5 K |
o1 & o1-preview |
Podniková smlouva | 30 M | 5 K |
o1-mini |
Podniková smlouva | 50 milionů | 5 K |
codex-mini |
Výchozí | 1 mil. | 1 K |
o3-pro |
Výchozí | 1,6 mil. | 160 |
o4-mini |
Výchozí | 1 mil. | 1 K |
o3 |
Výchozí | 1 mil. | 1 K |
o3-mini |
Výchozí | 5 miliónů | 500 |
o1 & o1-preview |
Výchozí | 3 milióny | 500 |
o1-mini |
Výchozí | 5 miliónů | 500 |
Standard datové zóny o-series
Vzor | Úroveň | Limit kvóty v tokenech za minutu (TPM) | Žádosti za minutu |
---|---|---|---|
o3-mini |
Podniková smlouva | 20 M | 2 K |
o3-mini |
Výchozí | 2 miliony | 200 |
o1 |
Podniková smlouva | 6 milionů | 1 K |
o1 |
Výchozí | 600 K | 100 |
o1-preview a o1-mini standard
Vzor | Úroveň | Limit kvóty v tokenech za minutu (TPM) | Žádosti za minutu |
---|---|---|---|
o1-preview |
Podniková smlouva | 600 K | 100 |
o1-mini |
Podniková smlouva | 1 mil. | 100 |
o1-preview |
Výchozí | 300 Kelvinů | 50 |
o1-mini |
Výchozí | 500 K | 50 |
omezení rychlosti gpt-4o
gpt-4o
a gpt-4o-mini
mají úrovně omezení rychlosti s vyššími limity pro určité typy zákazníků.
gpt-4o global standard
Vzor | Úroveň | Limit kvóty v tokenech za minutu (TPM) | Žádosti za minutu |
---|---|---|---|
gpt-4o |
Podniková smlouva | 30 M | 180 K |
gpt-4o-mini |
Podniková smlouva | 50 milionů | 300 Kelvinů |
gpt-4o |
Výchozí | 450 K | 2,7 K |
gpt-4o-mini |
Výchozí | 2 miliony | 12 K |
M = milion | K = tisíc
gpt-4o standard datové zóny
Vzor | Úroveň | Limit kvóty v tokenech za minutu (TPM) | Žádosti za minutu |
---|---|---|---|
gpt-4o |
Podniková smlouva | 10 M | 60 kB |
gpt-4o-mini |
Podniková smlouva | 20 M | 120 km |
gpt-4o |
Výchozí | 300 Kelvinů | 1.8 K |
gpt-4o-mini |
Výchozí | 1 mil. | 6 K |
M = milion | K = tisíc
gpt-4o standard
Vzor | Úroveň | Limit kvóty v tokenech za minutu (TPM) | Žádosti za minutu |
---|---|---|---|
gpt-4o |
Podniková smlouva | 1 mil. | 6 K |
gpt-4o-mini |
Podniková smlouva | 2 miliony | 12 K |
gpt-4o |
Výchozí | 150 K | 900 |
gpt-4o-mini |
Výchozí | 450 K | 2,7 K |
M = milion | K = tisíc
gpt-4o audio
Omezení rychlosti pro každé gpt-4o
nasazení zvukového modelu jsou 100 K TPM a 1 K RPM. Během náhledu můžou portál Azure AI Foundry a rozhraní API nepřesně zobrazovat různá omezení rychlosti. I když se pokusíte nastavit jiný limit rychlosti, skutečný limit rychlosti je 100 K TPM a 1 K RPM.
Vzor | Úroveň | Limit kvóty v tokenech za minutu (TPM) | Žádosti za minutu |
---|---|---|---|
gpt-4o-audio-preview |
Výchozí | 450 K | 1 K |
gpt-4o-realtime-preview |
Výchozí | 800 K | 1 K |
gpt-4o-mini-audio-preview |
Výchozí | 2 miliony | 1 K |
gpt-4o-mini-realtime-preview |
Výchozí | 800 K | 1 K |
M = milion | K = tisíc
Omezení rychlosti GPT-image-1
Globální standard GPT0-image-1
Vzor | Úroveň | Limit kvóty v tokenech za minutu (TPM) | Žádosti za minutu |
---|---|---|---|
gpt-image-1 |
Podniková smlouva | není k dispozici | 20 |
gpt-image-1 |
Výchozí | není k dispozici | 6 |
Úrovně využití
Globální standardní nasazení využívají globální infrastrukturu Azure a dynamicky směrují zákaznický provoz do datového centra s nejlepší dostupností pro požadavky zákazníka na odvozování. Podobně nasazení standardu datové zóny umožňují používat globální infrastrukturu Azure k dynamickému směrování provozu do datového centra v rámci datového centra definovaného Microsoftem s nejlepší dostupností pro jednotlivé požadavky. To umožňuje konzistentnější latenci pro zákazníky s nízkou až střední úrovní provozu. Zákazníci s vysokou trvalou úrovní využití můžou vidět větší variabilitu latence odezvy.
Limit využití určuje úroveň využití, nad kterou můžou zákazníci vidět větší variabilitu latence odezvy. Využití zákazníka je definováno na model a je celkový počet tokenů spotřebovaných napříč všemi nasazeními ve všech předplatných ve všech oblastech daného tenanta.
Poznámka:
Úrovně využití se vztahují pouze na standardní typy nasazení, standardu datové zóny a globálního standardního nasazení. Úrovně využití se nevztahují na globální nasazení s dávkovým a zajištěným průtokem.
Globální standard, standard datové zóny a standard
Vzor | Úrovně využití za měsíc |
---|---|
gpt-4
+
gpt-4-32k (všechny verze) |
6 Miliard tokenů |
gpt-4o |
12 miliard tokenů |
gpt-4o-mini |
85 miliard tokenů |
o3-mini |
50 miliard tokenů |
o1 |
Miliarda tokenů |
o4-mini |
50 miliard tokenů |
o3 |
5 miliard tokenů |
gpt-4.1 |
30 miliard tokenů |
gpt-4.1-mini |
150 miliard tokenů |
gpt-4.1-nano |
550 miliard tokenů |
Další typy nabídek
Pokud je vaše předplatné Azure propojené s určitými typy nabídek, maximální hodnoty kvóty jsou nižší než hodnoty uvedené v předchozích tabulkách.
Úroveň | Limit kvóty v tokenech za minutu (TPM) |
---|---|
Azure for Students |
1 K (všechny modely) Exception o-series & GPT-4.1 & GPT 4.5 Náhled: 0 |
MSDN |
GPT-4o-mini: 200 K GPT 3.5 Turbo Série: 200 K Řada GPT-4: 50 K náhled používání počítače: 8 K gpt-4o-realtime-preview: 1 KB série-o: 0 GPT 4.5 Preview: 0 GPT-4.1: 50 K GPT-4.1-nano: 200 K |
Standard |
GPT-4o-mini: 200 K GPT 3.5 Turbo Série: 200 K Řada GPT-4: 50 K náhled použití počítače: 30 K série-o: 0 GPT 4.5 Preview: 0 GPT-4.1: 50 K GPT-4.1-nano: 200 K |
Azure_MS-AZR-0111P Azure_MS-AZR-0035P Azure_MS-AZR-0025P Azure_MS-AZR-0052P |
GPT-4o-mini: 200 K GPT 3.5 Turbo Série: 200 K GPT-4 série: 50 K |
CSP Integration Sandbox
*
|
Všechny modely: 0 |
Lightweight trial Free Trials Azure Pass |
Všechny modely: 0 |
*To se týká pouze malého počtu starších CSP sandboxových předplatných. Pomocí následujícího dotazu zjistěte, co quotaId
je přidružené k vašemu předplatnému.
Pokud chcete určit typ nabídky, který je přidružený k vašemu předplatnému, můžete zkontrolovat vaše quotaId
.
quotaId
Pokud není uvedená v této tabulce, vaše předplatné má nárok na výchozí kvótu.
Referenční materiály k rozhraní API
az login
access_token=$(az account get-access-token --query accessToken -o tsv)
curl -X GET "https://management.azure.com/subscriptions/{subscriptionId}?api-version=2020-01-01" \
-H "Authorization: Bearer $access_token" \
-H "Content-Type: application/json"
Výstup
{
"authorizationSource": "Legacy",
"displayName": "Pay-As-You-Go",
"id": "/subscriptions/aaaaaa-bbbbb-cccc-ddddd-eeeeee",
"state": "Enabled",
"subscriptionId": "aaaaaa-bbbbb-cccc-ddddd-eeeeee",
"subscriptionPolicies": {
"locationPlacementId": "Public_2014-09-01",
"quotaId": "PayAsYouGo_2014-09-01",
"spendingLimit": "Off"
}
}
Přidělení kvóty/Typ nabídky | ID kvóty předplatného |
---|---|
Enterprise | EnterpriseAgreement_2014-09-01 |
Platba dle skutečné spotřeby | PayAsYouGo_2014-09-01 |
MSDN | MSDN_2014-09-01 |
Sandbox pro integraci CSP | CSPDEVTEST_2018-05-01 |
Azure for Students | AzureForStudents_2018-01-01 |
Bezplatná zkušební verze | FreeTrial_2014-09-01 |
Azure Pass | AzurePass_2014-09-01 |
Azure_MS-AZR-0111P | AzureInOpen_2014-09-01 |
Azure_MS-AZR-0150P | LightweightTrial_2016-09-01 |
Azure_MS-AZR-0035P Azure_MS-AZR-0025P Azure_MS-AZR-0052P |
MPN_2014-09-01 |
Azure_MS-AZR-0023P Azure_MS-AZR-0060P Azure_MS-AZR-0148P Azure_MS-AZR-0148G |
MSDNDevTest_2014-09-01 |
Výchozí | Jakékoli ID kvóty, které nejsou uvedené v této tabulce |
Obecné osvědčené postupy pro zachování limitů četnosti
Pokud chcete minimalizovat problémy související s limity rychlosti, je vhodné použít následující techniky:
- Implementujte do své aplikace logiku opakování pokusů.
- Pokuste se předcházet prudkým výkyvům zatížení. Zvyšujte zatížení postupně.
- Otestujte různé vzorce zvýšení zatížení.
- Zvyšte kvótu přiřazenou k vašemu nasazení. V případě potřeby přesuňte kvótu z jiného nasazení.
Jak požádat o navýšení kvóty
Žádosti o navýšení kvóty je možné odeslat prostřednictvím formuláře žádosti o navýšení kvóty. Kvůli vysoké poptávce se žádosti o navýšení kvóty přijímají a vyplňují se v pořadí, ve kterém jsou přijaty. Priorita je dána zákazníkům, kteří spotřebovávají kvótu, a pokud tato podmínka není splněna, může být vaše žádost zamítnuta.
V případě jiných limitů sazeb odešlete žádost o služby.
Limity regionální kvóty kapacity
Dostupnost kvót podle regionu pro vaše předplatné můžete zobrazit v portálu Azure AI Foundry.
Alternativně, chcete-li zobrazit kapacitu kvót podle regionu pro konkrétní model/verzi, můžete pro svou předplatnou službu použít dotaz API capacity. "Poskytněte subscriptionId
, model_name
a model_version
a rozhraní API vám poskytne dostupnou kapacitu pro tento model napříč všemi oblastmi a typy nasazení pro vaše předplatné."
Poznámka:
V současné době portál Azure AI Foundry i rozhraní API kapacity vrací informace o kvótě nebo kapacitě pro modely, které jsou vyřazené a už nejsou k dispozici.
import requests
import json
from azure.identity import DefaultAzureCredential
subscriptionId = "Replace with your subscription ID" #replace with your subscription ID
model_name = "gpt-4o" # Example value, replace with model name
model_version = "2024-08-06" # Example value, replace with model version
token_credential = DefaultAzureCredential()
token = token_credential.get_token('https://management.azure.com/.default')
headers = {'Authorization': 'Bearer ' + token.token}
url = f"https://management.azure.com/subscriptions/{subscriptionId}/providers/Microsoft.CognitiveServices/modelCapacities"
params = {
"api-version": "2024-06-01-preview",
"modelFormat": "OpenAI",
"modelName": model_name,
"modelVersion": model_version
}
response = requests.get(url, params=params, headers=headers)
model_capacity = response.json()
print(json.dumps(model_capacity, indent=2))
Další kroky
Prozkoumejte, jak spravovat kvótu pro nasazení Azure OpenAI. Zjistěte více o základních modelech, které pohánějí Azure OpenAI.