Kvóty a omezení modelů Azure OpenAI v Azure AI Foundry

2025-07-03

Tento článek obsahuje stručný přehled a podrobný popis kvót a omezení pro Azure OpenAI.

Referenční informace o kvótách a omezeních

Následující části obsahují stručný průvodce výchozími kvótami a omezeními, které platí pro Azure OpenAI:

Název limitu	Omezit hodnotu
Prostředky Azure OpenAI pro každou oblast a předplatné Azure	30
Výchozí limity kvót DALL-E 2	2 souběžné žádosti
Výchozí limity kvót DALL-E 3	2 jednotky kapacity (6 požadavků za minutu)
Výchozí limity kvóty pro GPT-image-1	2 jednotky kapacity (6 požadavků za minutu)
Výchozí limity kvót Sora	60 požadavků za minutu
Výchozí omezení kvóty rozhraní API pro převod řeči na textový formát	3 žádosti za minutu
Maximální počet tokenů promptu na požadavek	Liší se podle modelu. Další informace najdete v tématu Modely Azure OpenAI.
Maximální standardní nasazení na zdroj	32
Maximální počet jemně doladěných nasazení modelu	5
Celkový počet tréninkových úkolů na zdroj	100
Maximální počet souběžně běžících tréninkových úloh na prostředek	1
Maximální počet trénovacích úloh ve frontě	20
Maximální počet souborů na prostředek (přizpůsobení)	50
Celková velikost všech souborů na zdroj (doladění)	1 GB
Maximální doba trénovací úlohy (úloha selže, pokud dojde k překročení)	720 hodin
Maximální velikost trénovací úlohy (tokeny v trénovacím souboru) x (počet epoch)	2 miliardy
Maximální velikost všech souborů na nahrání (Azure OpenAI na vašich datech)	16 MB
Maximální počet vstupů v poli s `/embeddings`	2048
Maximální počet `/chat/completions` zpráv	2048
Maximální počet `/chat/completions` funkcí	128
Maximální počet `/chat completions` nástrojů	128
Maximální počet zřízených jednotek propustnosti na každé nasazení	100 000
Maximální počet souborů na asistenta nebo vlákno	10 000 při použití rozhraní API nebo portálu Azure AI Foundry .
Maximální velikost souboru pro asistenty a jemné ladění	512 MB 200 MB přes portál Azure AI Foundry
Maximální velikost všech nahraných souborů pro Asistenty	200 GB
Limit tokenů asistentů	limit 2 000 000 tokenů
Maximální počet obrázků GPT-4o a GPT-4.1 na požadavek (počet obrázků v poli zpráv nebo historii konverzací)	50
Výchozí maximální počet tokenů GPT-4 `vision-preview` & GPT-4 `turbo-2024-04-09`	16 Zvyšte hodnotu parametru, `max_tokens` abyste se vyhnuli zkráceným odpovědím. Výchozí hodnota maximálního počtu tokenů GPT-4o je 4096.
Maximální počet vlastních hlaviček v požadavcích^{rozhraní API 1}	10
Limit znaků zprávy	1048576
Velikost zprávy pro zvukové soubory	20 MB

¹ Naše současné rozhraní API umožňují až 10 vlastních hlaviček, které jsou předány skrze pipeline a vráceny. Někteří zákazníci teď tento počet hlaviček překračují, což vede k chybám HTTP 431. Pro tuto chybu neexistuje žádné řešení, než zmenšit objem hlaviček. V budoucích verzích rozhraní API už nebudeme předávat vlastní hlavičky. Zákazníkům doporučujeme, aby se v budoucích systémových architekturách nespoléhali na vlastní hlavičky.

Poznámka:

Limity kvót se můžou změnit.

Limity služby Batch

Název limitu	Omezit hodnotu
Maximální počet souborů na jeden prostředek	500
Maximální velikost vstupního souboru	200 MB
Maximální počet požadavků na soubor	100 000

Kvóta dávky

V tabulce je uveden limit kvóty dávky. Hodnoty kvót pro globální dávku jsou reprezentovány z hlediska zařazených tokenů. Když odešlete soubor pro dávkové zpracování, spočítá se počet tokenů, které jsou v souboru přítomny. Dokud dávková úloha nedosáhne konečného stavu, tyto tokeny se započítávají do celkového limitu zařazených tokenů.

Globální dávka

Vzor	Podniková smlouva	Výchozí	Předplatná založená na měsíčních platebních kartách	Předplatná MSDN	Azure for Students, bezplatné zkušební verze
`gpt-4.1`	5 B	200 milionů	50 milionů	90 K	není k dispozici
`gpt-4.1 mini`	15B	1B	50 mil.	90 tisíc	není k dispozici
`gpt-4.1-nano`	15 B	1 B	50 milionů	90 K	není k dispozici
`gpt-4o`	5 B	200 milionů	50 milionů	90 K	není k dispozici
`gpt-4o-mini`	15 B	1 B	50 milionů	90 K	není k dispozici
`gpt-4-turbo`	300 metrů	80 milionů	40 M	90 K	není k dispozici
`gpt-4`	150 M	30 M	5 miliónů	100 tisíc	není k dispozici
`gpt-35-turbo`	10 B	1 B	100 M	2 miliony	50 tisíc
`o3-mini`	15 B	1 B	50 milionů	90 K	není k dispozici
`o4-mini`	15 B	1 B	50 milionů	90 K	není k dispozici

B = miliarda | M = milion | K = tisíc

Dávka z datové zóny

Vzor	Podniková smlouva	Výchozí	Předplatná založená na měsíčních platebních kartách	Předplatná MSDN	Azure for Students, bezplatné zkušební verze
`gpt-4.1`	500 metrů	30 M	30 M	90 K	není k dispozici
`gpt-4.1-mini`	1,5 B	100 M	50 milionů	90 K	není k dispozici
`gpt-4o`	500 metrů	30 M	30 M	90 K	není k dispozici
`gpt-4o-mini`	1,5 B	100 M	50 milionů	90 K	není k dispozici
`o3-mini`	1,5 B	100 M	50 milionů	90 K	není k dispozici

Omezení rychlosti GPT-4

Globální standard GPT-4.5 Preview

Vzor	Úroveň	Limit kvóty v tokenech za minutu (TPM)	Žádosti za minutu
`gpt-4.5`	Podniková úroveň	200 K	200
`gpt-4.5`	Výchozí	150 K	sto padesát

Globální standard řady GPT-4.1

Vzor	Úroveň	Limit kvóty v tokenech za minutu (TPM)	Žádosti za minutu
`gpt-4.1` (2025-04-14)	Podniková úroveň	5 miliónů	5 K
`gpt-4.1` (2025-04-14)	Výchozí	1 mil.	1 K
`gpt-4.1-nano` (2025-04-14)	Podniková úroveň	150 M	150 K
`gpt-4.1-nano` (2025-04-14)	Výchozí	5 miliónů	5 K
`gpt-4.1-mini` (2025-04-14)	Podniková úroveň	150 M	150 K
`gpt-4.1-mini` (2025-04-14)	Výchozí	5 miliónů	5 K

Standard datové zóny série GPT-4.1

Vzor	Úroveň	Limit kvóty v tokenech za minutu (TPM)	Žádosti za minutu
`gpt-4.1` (2025-04-14)	Podniková úroveň	2 miliony	2 K
`gpt-4.1` (2025-04-14)	Výchozí	300 Kelvinů	300
`gpt-4.1-nano` (2025-04-14)	Podniková úroveň	50 milionů	50 tisíc
`gpt-4.1-nano` (2025-04-14)	Výchozí	2 miliony	2 K
`gpt-4.1-mini` (2025-04-14)	Podniková úroveň	50 milionů	50 tisíc
`gpt-4.1-mini` (2025-04-14)	Výchozí	2 miliony	2 K

GPT-4 Turbo

gpt-4 (turbo-2024-04-09) má úrovně omezení rychlosti s vyššími limity pro určité typy zákazníků.

Vzor	Úroveň	Limit kvóty v tokenech za minutu (TPM)	Žádosti za minutu
`gpt-4` (turbo-2024-04-09)	Podniková smlouva	2 miliony	12 K
`gpt-4` (turbo-2024-04-09)	Výchozí	450 K	2,7 K

omezení rychlosti modelového směrovače

Vzor	Úroveň	Limit kvóty v tokenech za minutu (TPM)	Žádosti za minutu
`model-router` (2025-05-19)	Podniková úroveň	10 M	10 000
`model-router` (2025-05-19)	Výchozí	1 mil.	1 K

globální standardní limity pro použití počítače ve verzi Preview

Vzor	Úroveň	Limit kvóty v tokenech za minutu (TPM)	Žádosti za minutu
`computer-use-preview`	Podniková úroveň	30 M	300 Kelvinů
`computer-use-preview`	Výchozí	450 K	4,5 K

Limity rychlosti řady o-series

Důležité

Poměr požadavků za minutu (RPM) a tokenů za minutu (TPM) pro kvótu se může lišit podle modelu. Pokud nasadíte model prostřednictvím kódu programu nebo požádáte o navýšení kvóty, nemáte podrobnou kontrolu nad TPM a RPM jako nezávislými hodnotami. Kvóta se přiděluje z hlediska jednotek kapacity, které mají odpovídající množství RPM a TPM:

Vzor	Kapacita	Žádosti za minutu (RPM)	Tokeny za minutu (TPM)
Starší modely chatu:	1 jednotka	6 ot/min	1 000 TPM
o1 &o1-preview:	1 jednotka	1 ot/min	6 000 TPM
o3	1 jednotka	1 ot/min	1 000 TPM
o4-mini	1 jednotka	1 ot/min	1 000 TPM
o3-mini:	1 jednotka	1 ot/min	10 000 TPM
o1-mini:	1 jednotka	1 ot/min	10 000 TPM
o3-pro:	1 jednotka	1 ot/min	10 000 TPM

To je zvlášť důležité pro programové nasazení modelu, protože změny v poměru RPM/TPM můžou vést k náhodnému chybnému umístění kvóty.

Globální standard řady o-series

Vzor	Úroveň	Limit kvóty v tokenech za minutu (TPM)	Žádosti za minutu
`codex-mini`	Podniková smlouva	10 M	10 000
`o3-pro`	Podniková smlouva	16 M	1.6 K
`o4-mini`	Podniková smlouva	10 M	10 000
`o3`	Podniková smlouva	10 M	10 000
`o3-mini`	Podniková smlouva	50 milionů	5 K
`o1` & `o1-preview`	Podniková smlouva	30 M	5 K
`o1-mini`	Podniková smlouva	50 milionů	5 K
`codex-mini`	Výchozí	1 mil.	1 K
`o3-pro`	Výchozí	1,6 mil.	160
`o4-mini`	Výchozí	1 mil.	1 K
`o3`	Výchozí	1 mil.	1 K
`o3-mini`	Výchozí	5 miliónů	500
`o1` & `o1-preview`	Výchozí	3 milióny	500
`o1-mini`	Výchozí	5 miliónů	500

Standard datové zóny o-series

Vzor	Úroveň	Limit kvóty v tokenech za minutu (TPM)	Žádosti za minutu
`o3-mini`	Podniková smlouva	20 M	2 K
`o3-mini`	Výchozí	2 miliony	200
`o1`	Podniková smlouva	6 milionů	1 K
`o1`	Výchozí	600 K	100

o1-preview a o1-mini standard

Vzor	Úroveň	Limit kvóty v tokenech za minutu (TPM)	Žádosti za minutu
`o1-preview`	Podniková smlouva	600 K	100
`o1-mini`	Podniková smlouva	1 mil.	100
`o1-preview`	Výchozí	300 Kelvinů	50
`o1-mini`	Výchozí	500 K	50

omezení rychlosti gpt-4o

gpt-4o a gpt-4o-mini mají úrovně omezení rychlosti s vyššími limity pro určité typy zákazníků.

gpt-4o global standard

Vzor	Úroveň	Limit kvóty v tokenech za minutu (TPM)	Žádosti za minutu
`gpt-4o`	Podniková smlouva	30 M	180 K
`gpt-4o-mini`	Podniková smlouva	50 milionů	300 Kelvinů
`gpt-4o`	Výchozí	450 K	2,7 K
`gpt-4o-mini`	Výchozí	2 miliony	12 K

M = milion | K = tisíc

gpt-4o standard datové zóny

Vzor	Úroveň	Limit kvóty v tokenech za minutu (TPM)	Žádosti za minutu
`gpt-4o`	Podniková smlouva	10 M	60 kB
`gpt-4o-mini`	Podniková smlouva	20 M	120 km
`gpt-4o`	Výchozí	300 Kelvinů	1.8 K
`gpt-4o-mini`	Výchozí	1 mil.	6 K

M = milion | K = tisíc

gpt-4o standard

Vzor	Úroveň	Limit kvóty v tokenech za minutu (TPM)	Žádosti za minutu
`gpt-4o`	Podniková smlouva	1 mil.	6 K
`gpt-4o-mini`	Podniková smlouva	2 miliony	12 K
`gpt-4o`	Výchozí	150 K	900
`gpt-4o-mini`	Výchozí	450 K	2,7 K

M = milion | K = tisíc

gpt-4o audio

Omezení rychlosti pro každé gpt-4o nasazení zvukového modelu jsou 100 K TPM a 1 K RPM. Během náhledu můžou portál Azure AI Foundry a rozhraní API nepřesně zobrazovat různá omezení rychlosti. I když se pokusíte nastavit jiný limit rychlosti, skutečný limit rychlosti je 100 K TPM a 1 K RPM.

Vzor	Úroveň	Limit kvóty v tokenech za minutu (TPM)	Žádosti za minutu
`gpt-4o-audio-preview`	Výchozí	450 K	1 K
`gpt-4o-realtime-preview`	Výchozí	800 K	1 K
`gpt-4o-mini-audio-preview`	Výchozí	2 miliony	1 K
`gpt-4o-mini-realtime-preview`	Výchozí	800 K	1 K

M = milion | K = tisíc

Omezení rychlosti GPT-image-1

Globální standard GPT0-image-1

Vzor	Úroveň	Limit kvóty v tokenech za minutu (TPM)	Žádosti za minutu
`gpt-image-1`	Podniková smlouva	není k dispozici	20
`gpt-image-1`	Výchozí	není k dispozici	6

Úrovně využití

Globální standardní nasazení využívají globální infrastrukturu Azure a dynamicky směrují zákaznický provoz do datového centra s nejlepší dostupností pro požadavky zákazníka na odvozování. Podobně nasazení standardu datové zóny umožňují používat globální infrastrukturu Azure k dynamickému směrování provozu do datového centra v rámci datového centra definovaného Microsoftem s nejlepší dostupností pro jednotlivé požadavky. To umožňuje konzistentnější latenci pro zákazníky s nízkou až střední úrovní provozu. Zákazníci s vysokou trvalou úrovní využití můžou vidět větší variabilitu latence odezvy.

Limit využití určuje úroveň využití, nad kterou můžou zákazníci vidět větší variabilitu latence odezvy. Využití zákazníka je definováno na model a je celkový počet tokenů spotřebovaných napříč všemi nasazeními ve všech předplatných ve všech oblastech daného tenanta.

Poznámka:

Úrovně využití se vztahují pouze na standardní typy nasazení, standardu datové zóny a globálního standardního nasazení. Úrovně využití se nevztahují na globální nasazení s dávkovým a zajištěným průtokem.

Globální standard, standard datové zóny a standard

Vzor	Úrovně využití za měsíc
`gpt-4` + `gpt-4-32k` (všechny verze)	6 Miliard tokenů
`gpt-4o`	12 miliard tokenů
`gpt-4o-mini`	85 miliard tokenů
`o3-mini`	50 miliard tokenů
`o1`	Miliarda tokenů
`o4-mini`	50 miliard tokenů
`o3`	5 miliard tokenů
`gpt-4.1`	30 miliard tokenů
`gpt-4.1-mini`	150 miliard tokenů
`gpt-4.1-nano`	550 miliard tokenů

Další typy nabídek

Pokud je vaše předplatné Azure propojené s určitými typy nabídek, maximální hodnoty kvóty jsou nižší než hodnoty uvedené v předchozích tabulkách.

Úroveň	Limit kvóty v tokenech za minutu (TPM)
`Azure for Students`	1 K (všechny modely) Exception o-series & GPT-4.1 & GPT 4.5 Náhled: 0
`MSDN`	GPT-4o-mini: 200 K GPT 3.5 Turbo Série: 200 K Řada GPT-4: 50 K náhled používání počítače: 8 K gpt-4o-realtime-preview: 1 KB série-o: 0 GPT 4.5 Preview: 0 GPT-4.1: 50 K GPT-4.1-nano: 200 K
`Standard`	GPT-4o-mini: 200 K GPT 3.5 Turbo Série: 200 K Řada GPT-4: 50 K náhled použití počítače: 30 K série-o: 0 GPT 4.5 Preview: 0 GPT-4.1: 50 K GPT-4.1-nano: 200 K
`Azure_MS-AZR-0111P` `Azure_MS-AZR-0035P` `Azure_MS-AZR-0025P` `Azure_MS-AZR-0052P`	GPT-4o-mini: 200 K GPT 3.5 Turbo Série: 200 K GPT-4 série: 50 K
`CSP Integration Sandbox` ^*	Všechny modely: 0
`Lightweight trial` `Free Trials` `Azure Pass`	Všechny modely: 0

^*To se týká pouze malého počtu starších CSP sandboxových předplatných. Pomocí následujícího dotazu zjistěte, co quotaId je přidružené k vašemu předplatnému.

Pokud chcete určit typ nabídky, který je přidružený k vašemu předplatnému, můžete zkontrolovat vaše quotaId. quotaId Pokud není uvedená v této tabulce, vaše předplatné má nárok na výchozí kvótu.

REST
CLI

Referenční materiály k rozhraní API

az login
access_token=$(az account get-access-token --query accessToken -o tsv)

curl -X GET "https://management.azure.com/subscriptions/{subscriptionId}?api-version=2020-01-01" \
  -H "Authorization: Bearer $access_token" \
  -H "Content-Type: application/json"

az rest --method GET --uri "https://management.azure.com/subscriptions/{sub-id}?api-version=2020-01-01"

Výstup

{
  "authorizationSource": "Legacy",
  "displayName": "Pay-As-You-Go",
  "id": "/subscriptions/aaaaaa-bbbbb-cccc-ddddd-eeeeee",
  "state": "Enabled",
  "subscriptionId": "aaaaaa-bbbbb-cccc-ddddd-eeeeee",
  "subscriptionPolicies": {
    "locationPlacementId": "Public_2014-09-01",
    "quotaId": "PayAsYouGo_2014-09-01",
    "spendingLimit": "Off"
  }
}

Přidělení kvóty/Typ nabídky	ID kvóty předplatného
Enterprise	`EnterpriseAgreement_2014-09-01`
Platba dle skutečné spotřeby	`PayAsYouGo_2014-09-01`
MSDN	`MSDN_2014-09-01`
Sandbox pro integraci CSP	`CSPDEVTEST_2018-05-01`
Azure for Students	`AzureForStudents_2018-01-01`
Bezplatná zkušební verze	`FreeTrial_2014-09-01`
Azure Pass	`AzurePass_2014-09-01`
Azure_MS-AZR-0111P	`AzureInOpen_2014-09-01`
Azure_MS-AZR-0150P	`LightweightTrial_2016-09-01`
Azure_MS-AZR-0035P Azure_MS-AZR-0025P Azure_MS-AZR-0052P	`MPN_2014-09-01`
Azure_MS-AZR-0023P Azure_MS-AZR-0060P Azure_MS-AZR-0148P Azure_MS-AZR-0148G	`MSDNDevTest_2014-09-01`
Výchozí	Jakékoli ID kvóty, které nejsou uvedené v této tabulce

Obecné osvědčené postupy pro zachování limitů četnosti

Pokud chcete minimalizovat problémy související s limity rychlosti, je vhodné použít následující techniky:

Implementujte do své aplikace logiku opakování pokusů.
Pokuste se předcházet prudkým výkyvům zatížení. Zvyšujte zatížení postupně.
Otestujte různé vzorce zvýšení zatížení.
Zvyšte kvótu přiřazenou k vašemu nasazení. V případě potřeby přesuňte kvótu z jiného nasazení.

Jak požádat o navýšení kvóty

Žádosti o navýšení kvóty je možné odeslat prostřednictvím formuláře žádosti o navýšení kvóty. Kvůli vysoké poptávce se žádosti o navýšení kvóty přijímají a vyplňují se v pořadí, ve kterém jsou přijaty. Priorita je dána zákazníkům, kteří spotřebovávají kvótu, a pokud tato podmínka není splněna, může být vaše žádost zamítnuta.

V případě jiných limitů sazeb odešlete žádost o služby.

Limity regionální kvóty kapacity

Dostupnost kvót podle regionu pro vaše předplatné můžete zobrazit v portálu Azure AI Foundry.

Alternativně, chcete-li zobrazit kapacitu kvót podle regionu pro konkrétní model/verzi, můžete pro svou předplatnou službu použít dotaz API capacity. "Poskytněte subscriptionId, model_name a model_version a rozhraní API vám poskytne dostupnou kapacitu pro tento model napříč všemi oblastmi a typy nasazení pro vaše předplatné."

Poznámka:

V současné době portál Azure AI Foundry i rozhraní API kapacity vrací informace o kvótě nebo kapacitě pro modely, které jsou vyřazené a už nejsou k dispozici.

Referenční rozhraní API

import requests
import json
from azure.identity import DefaultAzureCredential

subscriptionId = "Replace with your subscription ID" #replace with your subscription ID
model_name = "gpt-4o"     # Example value, replace with model name
model_version = "2024-08-06"   # Example value, replace with model version

token_credential = DefaultAzureCredential()
token = token_credential.get_token('https://management.azure.com/.default')
headers = {'Authorization': 'Bearer ' + token.token}

url = f"https://management.azure.com/subscriptions/{subscriptionId}/providers/Microsoft.CognitiveServices/modelCapacities"
params = {
    "api-version": "2024-06-01-preview",
    "modelFormat": "OpenAI",
    "modelName": model_name,
    "modelVersion": model_version
}

response = requests.get(url, params=params, headers=headers)
model_capacity = response.json()

print(json.dumps(model_capacity, indent=2))

Další kroky

Prozkoumejte, jak spravovat kvótu pro nasazení Azure OpenAI. Zjistěte více o základních modelech, které pohánějí Azure OpenAI.

Sdílet prostřednictvím

Kvóty a omezení modelů Azure OpenAI v Azure AI Foundry

Referenční informace o kvótách a omezeních

Limity služby Batch

Kvóta dávky

Globální dávka

Dávka z datové zóny

Omezení rychlosti GPT-4

Globální standard GPT-4.5 Preview

Globální standard řady GPT-4.1

Standard datové zóny série GPT-4.1

GPT-4 Turbo

omezení rychlosti modelového směrovače

globální standardní limity pro použití počítače ve verzi Preview

Limity rychlosti řady o-series

Globální standard řady o-series

Standard datové zóny o-series

o1-preview a o1-mini standard

omezení rychlosti gpt-4o

gpt-4o global standard

gpt-4o standard datové zóny

gpt-4o standard

gpt-4o audio

Omezení rychlosti GPT-image-1

Globální standard GPT0-image-1

Úrovně využití

Globální standard, standard datové zóny a standard

Další typy nabídek

Výstup

Obecné osvědčené postupy pro zachování limitů četnosti

Jak požádat o navýšení kvóty

Limity regionální kvóty kapacity

Další kroky

Váš názor

Další materiály