Sdílet prostřednictvím


Kvóty a omezení modelů Azure OpenAI v Azure AI Foundry

Tento článek obsahuje stručný přehled a podrobný popis kvót a omezení pro Azure OpenAI.

Referenční informace o kvótách a omezeních

Následující části obsahují stručný průvodce výchozími kvótami a omezeními, které platí pro Azure OpenAI:

Název limitu Omezit hodnotu
Prostředky Azure OpenAI pro každou oblast a předplatné Azure 30
Výchozí limity kvót DALL-E 2 2 souběžné žádosti
Výchozí limity kvót DALL-E 3 2 jednotky kapacity (6 požadavků za minutu)
Výchozí limity kvóty pro GPT-image-1 2 jednotky kapacity (6 požadavků za minutu)
Výchozí limity kvót Sora 60 požadavků za minutu
Výchozí omezení kvóty rozhraní API pro převod řeči na textový formát 3 žádosti za minutu
Maximální počet tokenů promptu na požadavek Liší se podle modelu. Další informace najdete v tématu Modely Azure OpenAI.
Maximální standardní nasazení na zdroj 32
Maximální počet jemně doladěných nasazení modelu 5
Celkový počet tréninkových úkolů na zdroj 100
Maximální počet souběžně běžících tréninkových úloh na prostředek 1
Maximální počet trénovacích úloh ve frontě 20
Maximální počet souborů na prostředek (přizpůsobení) 50
Celková velikost všech souborů na zdroj (doladění) 1 GB
Maximální doba trénovací úlohy (úloha selže, pokud dojde k překročení) 720 hodin
Maximální velikost trénovací úlohy (tokeny v trénovacím souboru) x (počet epoch) 2 miliardy
Maximální velikost všech souborů na nahrání (Azure OpenAI na vašich datech) 16 MB
Maximální počet vstupů v poli s /embeddings 2048
Maximální počet /chat/completions zpráv 2048
Maximální počet /chat/completions funkcí 128
Maximální počet /chat completions nástrojů 128
Maximální počet zřízených jednotek propustnosti na každé nasazení 100 000
Maximální počet souborů na asistenta nebo vlákno 10 000 při použití rozhraní API nebo portálu Azure AI Foundry .
Maximální velikost souboru pro asistenty a jemné ladění 512 MB

200 MB přes portál Azure AI Foundry
Maximální velikost všech nahraných souborů pro Asistenty 200 GB
Limit tokenů asistentů limit 2 000 000 tokenů
Maximální počet obrázků GPT-4o a GPT-4.1 na požadavek (počet obrázků v poli zpráv nebo historii konverzací) 50
Výchozí maximální počet tokenů GPT-4 vision-preview & GPT-4 turbo-2024-04-09 16

Zvyšte hodnotu parametru, max_tokens abyste se vyhnuli zkráceným odpovědím. Výchozí hodnota maximálního počtu tokenů GPT-4o je 4096.
Maximální počet vlastních hlaviček v požadavcíchrozhraní API 1 10
Limit znaků zprávy 1048576
Velikost zprávy pro zvukové soubory 20 MB

1 Naše současné rozhraní API umožňují až 10 vlastních hlaviček, které jsou předány skrze pipeline a vráceny. Někteří zákazníci teď tento počet hlaviček překračují, což vede k chybám HTTP 431. Pro tuto chybu neexistuje žádné řešení, než zmenšit objem hlaviček. V budoucích verzích rozhraní API už nebudeme předávat vlastní hlavičky. Zákazníkům doporučujeme, aby se v budoucích systémových architekturách nespoléhali na vlastní hlavičky.

Poznámka:

Limity kvót se můžou změnit.

Limity služby Batch

Název limitu Omezit hodnotu
Maximální počet souborů na jeden prostředek 500
Maximální velikost vstupního souboru 200 MB
Maximální počet požadavků na soubor 100 000

Kvóta dávky

V tabulce je uveden limit kvóty dávky. Hodnoty kvót pro globální dávku jsou reprezentovány z hlediska zařazených tokenů. Když odešlete soubor pro dávkové zpracování, spočítá se počet tokenů, které jsou v souboru přítomny. Dokud dávková úloha nedosáhne konečného stavu, tyto tokeny se započítávají do celkového limitu zařazených tokenů.

Globální dávka

Vzor Podniková smlouva Výchozí Předplatná založená na měsíčních platebních kartách Předplatná MSDN Azure for Students, bezplatné zkušební verze
gpt-4.1 5 B 200 milionů 50 milionů 90 K není k dispozici
gpt-4.1 mini 15B 1B 50 mil. 90 tisíc není k dispozici
gpt-4.1-nano 15 B 1 B 50 milionů 90 K není k dispozici
gpt-4o 5 B 200 milionů 50 milionů 90 K není k dispozici
gpt-4o-mini 15 B 1 B 50 milionů 90 K není k dispozici
gpt-4-turbo 300 metrů 80 milionů 40 M 90 K není k dispozici
gpt-4 150 M 30 M 5 miliónů 100 tisíc není k dispozici
gpt-35-turbo 10 B 1 B 100 M 2 miliony 50 tisíc
o3-mini 15 B 1 B 50 milionů 90 K není k dispozici
o4-mini 15 B 1 B 50 milionů 90 K není k dispozici

B = miliarda | M = milion | K = tisíc

Dávka z datové zóny

Vzor Podniková smlouva Výchozí Předplatná založená na měsíčních platebních kartách Předplatná MSDN Azure for Students, bezplatné zkušební verze
gpt-4.1 500 metrů 30 M 30 M 90 K není k dispozici
gpt-4.1-mini 1,5 B 100 M 50 milionů 90 K není k dispozici
gpt-4o 500 metrů 30 M 30 M 90 K není k dispozici
gpt-4o-mini 1,5 B 100 M 50 milionů 90 K není k dispozici
o3-mini 1,5 B 100 M 50 milionů 90 K není k dispozici

Omezení rychlosti GPT-4

Globální standard GPT-4.5 Preview

Vzor Úroveň Limit kvóty v tokenech za minutu (TPM) Žádosti za minutu
gpt-4.5 Podniková úroveň 200 K 200
gpt-4.5 Výchozí 150 K sto padesát

Globální standard řady GPT-4.1

Vzor Úroveň Limit kvóty v tokenech za minutu (TPM) Žádosti za minutu
gpt-4.1 (2025-04-14) Podniková úroveň 5 miliónů 5 K
gpt-4.1 (2025-04-14) Výchozí 1 mil. 1 K
gpt-4.1-nano (2025-04-14) Podniková úroveň 150 M 150 K
gpt-4.1-nano (2025-04-14) Výchozí 5 miliónů 5 K
gpt-4.1-mini (2025-04-14) Podniková úroveň 150 M 150 K
gpt-4.1-mini (2025-04-14) Výchozí 5 miliónů 5 K

Standard datové zóny série GPT-4.1

Vzor Úroveň Limit kvóty v tokenech za minutu (TPM) Žádosti za minutu
gpt-4.1 (2025-04-14) Podniková úroveň 2 miliony 2 K
gpt-4.1 (2025-04-14) Výchozí 300 Kelvinů 300
gpt-4.1-nano (2025-04-14) Podniková úroveň 50 milionů 50 tisíc
gpt-4.1-nano (2025-04-14) Výchozí 2 miliony 2 K
gpt-4.1-mini (2025-04-14) Podniková úroveň 50 milionů 50 tisíc
gpt-4.1-mini (2025-04-14) Výchozí 2 miliony 2 K

GPT-4 Turbo

gpt-4 (turbo-2024-04-09) má úrovně omezení rychlosti s vyššími limity pro určité typy zákazníků.

Vzor Úroveň Limit kvóty v tokenech za minutu (TPM) Žádosti za minutu
gpt-4 (turbo-2024-04-09) Podniková smlouva 2 miliony 12 K
gpt-4 (turbo-2024-04-09) Výchozí 450 K 2,7 K

omezení rychlosti modelového směrovače

Vzor Úroveň Limit kvóty v tokenech za minutu (TPM) Žádosti za minutu
model-router (2025-05-19) Podniková úroveň 10 M 10 000
model-router (2025-05-19) Výchozí 1 mil. 1 K

globální standardní limity pro použití počítače ve verzi Preview

Vzor Úroveň Limit kvóty v tokenech za minutu (TPM) Žádosti za minutu
computer-use-preview Podniková úroveň 30 M 300 Kelvinů
computer-use-preview Výchozí 450 K 4,5 K

Limity rychlosti řady o-series

Důležité

Poměr požadavků za minutu (RPM) a tokenů za minutu (TPM) pro kvótu se může lišit podle modelu. Pokud nasadíte model prostřednictvím kódu programu nebo požádáte o navýšení kvóty, nemáte podrobnou kontrolu nad TPM a RPM jako nezávislými hodnotami. Kvóta se přiděluje z hlediska jednotek kapacity, které mají odpovídající množství RPM a TPM:

Vzor Kapacita Žádosti za minutu (RPM) Tokeny za minutu (TPM)
Starší modely chatu: 1 jednotka 6 ot/min 1 000 TPM
o1 &o1-preview: 1 jednotka 1 ot/min 6 000 TPM
o3 1 jednotka 1 ot/min 1 000 TPM
o4-mini 1 jednotka 1 ot/min 1 000 TPM
o3-mini: 1 jednotka 1 ot/min 10 000 TPM
o1-mini: 1 jednotka 1 ot/min 10 000 TPM
o3-pro: 1 jednotka 1 ot/min 10 000 TPM

To je zvlášť důležité pro programové nasazení modelu, protože změny v poměru RPM/TPM můžou vést k náhodnému chybnému umístění kvóty.

Globální standard řady o-series

Vzor Úroveň Limit kvóty v tokenech za minutu (TPM) Žádosti za minutu
codex-mini Podniková smlouva 10 M 10 000
o3-pro Podniková smlouva 16 M 1.6 K
o4-mini Podniková smlouva 10 M 10 000
o3 Podniková smlouva 10 M 10 000
o3-mini Podniková smlouva 50 milionů 5 K
o1 & o1-preview Podniková smlouva 30 M 5 K
o1-mini Podniková smlouva 50 milionů 5 K
codex-mini Výchozí 1 mil. 1 K
o3-pro Výchozí 1,6 mil. 160
o4-mini Výchozí 1 mil. 1 K
o3 Výchozí 1 mil. 1 K
o3-mini Výchozí 5 miliónů 500
o1 & o1-preview Výchozí 3 milióny 500
o1-mini Výchozí 5 miliónů 500

Standard datové zóny o-series

Vzor Úroveň Limit kvóty v tokenech za minutu (TPM) Žádosti za minutu
o3-mini Podniková smlouva 20 M 2 K
o3-mini Výchozí 2 miliony 200
o1 Podniková smlouva 6 milionů 1 K
o1 Výchozí 600 K 100

o1-preview a o1-mini standard

Vzor Úroveň Limit kvóty v tokenech za minutu (TPM) Žádosti za minutu
o1-preview Podniková smlouva 600 K 100
o1-mini Podniková smlouva 1 mil. 100
o1-preview Výchozí 300 Kelvinů 50
o1-mini Výchozí 500 K 50

omezení rychlosti gpt-4o

gpt-4o a gpt-4o-mini mají úrovně omezení rychlosti s vyššími limity pro určité typy zákazníků.

gpt-4o global standard

Vzor Úroveň Limit kvóty v tokenech za minutu (TPM) Žádosti za minutu
gpt-4o Podniková smlouva 30 M 180 K
gpt-4o-mini Podniková smlouva 50 milionů 300 Kelvinů
gpt-4o Výchozí 450 K 2,7 K
gpt-4o-mini Výchozí 2 miliony 12 K

M = milion | K = tisíc

gpt-4o standard datové zóny

Vzor Úroveň Limit kvóty v tokenech za minutu (TPM) Žádosti za minutu
gpt-4o Podniková smlouva 10 M 60 kB
gpt-4o-mini Podniková smlouva 20 M 120 km
gpt-4o Výchozí 300 Kelvinů 1.8 K
gpt-4o-mini Výchozí 1 mil. 6 K

M = milion | K = tisíc

gpt-4o standard

Vzor Úroveň Limit kvóty v tokenech za minutu (TPM) Žádosti za minutu
gpt-4o Podniková smlouva 1 mil. 6 K
gpt-4o-mini Podniková smlouva 2 miliony 12 K
gpt-4o Výchozí 150 K 900
gpt-4o-mini Výchozí 450 K 2,7 K

M = milion | K = tisíc

gpt-4o audio

Omezení rychlosti pro každé gpt-4o nasazení zvukového modelu jsou 100 K TPM a 1 K RPM. Během náhledu můžou portál Azure AI Foundry a rozhraní API nepřesně zobrazovat různá omezení rychlosti. I když se pokusíte nastavit jiný limit rychlosti, skutečný limit rychlosti je 100 K TPM a 1 K RPM.

Vzor Úroveň Limit kvóty v tokenech za minutu (TPM) Žádosti za minutu
gpt-4o-audio-preview Výchozí 450 K 1 K
gpt-4o-realtime-preview Výchozí 800 K 1 K
gpt-4o-mini-audio-preview Výchozí 2 miliony 1 K
gpt-4o-mini-realtime-preview Výchozí 800 K 1 K

M = milion | K = tisíc

Omezení rychlosti GPT-image-1

Globální standard GPT0-image-1

Vzor Úroveň Limit kvóty v tokenech za minutu (TPM) Žádosti za minutu
gpt-image-1 Podniková smlouva není k dispozici 20
gpt-image-1 Výchozí není k dispozici 6

Úrovně využití

Globální standardní nasazení využívají globální infrastrukturu Azure a dynamicky směrují zákaznický provoz do datového centra s nejlepší dostupností pro požadavky zákazníka na odvozování. Podobně nasazení standardu datové zóny umožňují používat globální infrastrukturu Azure k dynamickému směrování provozu do datového centra v rámci datového centra definovaného Microsoftem s nejlepší dostupností pro jednotlivé požadavky. To umožňuje konzistentnější latenci pro zákazníky s nízkou až střední úrovní provozu. Zákazníci s vysokou trvalou úrovní využití můžou vidět větší variabilitu latence odezvy.

Limit využití určuje úroveň využití, nad kterou můžou zákazníci vidět větší variabilitu latence odezvy. Využití zákazníka je definováno na model a je celkový počet tokenů spotřebovaných napříč všemi nasazeními ve všech předplatných ve všech oblastech daného tenanta.

Poznámka:

Úrovně využití se vztahují pouze na standardní typy nasazení, standardu datové zóny a globálního standardního nasazení. Úrovně využití se nevztahují na globální nasazení s dávkovým a zajištěným průtokem.

Globální standard, standard datové zóny a standard

Vzor Úrovně využití za měsíc
gpt-4 + gpt-4-32k (všechny verze) 6 Miliard tokenů
gpt-4o 12 miliard tokenů
gpt-4o-mini 85 miliard tokenů
o3-mini 50 miliard tokenů
o1 Miliarda tokenů
o4-mini 50 miliard tokenů
o3 5 miliard tokenů
gpt-4.1 30 miliard tokenů
gpt-4.1-mini 150 miliard tokenů
gpt-4.1-nano 550 miliard tokenů

Další typy nabídek

Pokud je vaše předplatné Azure propojené s určitými typy nabídek, maximální hodnoty kvóty jsou nižší než hodnoty uvedené v předchozích tabulkách.

Úroveň Limit kvóty v tokenech za minutu (TPM)
Azure for Students 1 K (všechny modely)
Exception o-series & GPT-4.1 & GPT 4.5 Náhled: 0
MSDN GPT-4o-mini: 200 K
GPT 3.5 Turbo Série: 200 K
Řada GPT-4: 50 K
náhled používání počítače: 8 K
gpt-4o-realtime-preview: 1 KB
série-o: 0
GPT 4.5 Preview: 0
GPT-4.1: 50 K
GPT-4.1-nano: 200 K
Standard GPT-4o-mini: 200 K
GPT 3.5 Turbo Série: 200 K
Řada GPT-4: 50 K
náhled použití počítače: 30 K
série-o: 0
GPT 4.5 Preview: 0
GPT-4.1: 50 K
GPT-4.1-nano: 200 K
Azure_MS-AZR-0111P
Azure_MS-AZR-0035P
Azure_MS-AZR-0025P
Azure_MS-AZR-0052P
GPT-4o-mini: 200 K
GPT 3.5 Turbo Série: 200 K
GPT-4 série: 50 K
CSP Integration Sandbox * Všechny modely: 0
Lightweight trial
Free Trials
Azure Pass
Všechny modely: 0

*To se týká pouze malého počtu starších CSP sandboxových předplatných. Pomocí následujícího dotazu zjistěte, co quotaId je přidružené k vašemu předplatnému.

Pokud chcete určit typ nabídky, který je přidružený k vašemu předplatnému, můžete zkontrolovat vaše quotaId. quotaId Pokud není uvedená v této tabulce, vaše předplatné má nárok na výchozí kvótu.

Referenční materiály k rozhraní API

az login
access_token=$(az account get-access-token --query accessToken -o tsv)
curl -X GET "https://management.azure.com/subscriptions/{subscriptionId}?api-version=2020-01-01" \
  -H "Authorization: Bearer $access_token" \
  -H "Content-Type: application/json"

Výstup

{
  "authorizationSource": "Legacy",
  "displayName": "Pay-As-You-Go",
  "id": "/subscriptions/aaaaaa-bbbbb-cccc-ddddd-eeeeee",
  "state": "Enabled",
  "subscriptionId": "aaaaaa-bbbbb-cccc-ddddd-eeeeee",
  "subscriptionPolicies": {
    "locationPlacementId": "Public_2014-09-01",
    "quotaId": "PayAsYouGo_2014-09-01",
    "spendingLimit": "Off"
  }
}
Přidělení kvóty/Typ nabídky ID kvóty předplatného
Enterprise EnterpriseAgreement_2014-09-01
Platba dle skutečné spotřeby PayAsYouGo_2014-09-01
MSDN MSDN_2014-09-01
Sandbox pro integraci CSP CSPDEVTEST_2018-05-01
Azure for Students AzureForStudents_2018-01-01
Bezplatná zkušební verze FreeTrial_2014-09-01
Azure Pass AzurePass_2014-09-01
Azure_MS-AZR-0111P AzureInOpen_2014-09-01
Azure_MS-AZR-0150P LightweightTrial_2016-09-01
Azure_MS-AZR-0035P
Azure_MS-AZR-0025P
Azure_MS-AZR-0052P
MPN_2014-09-01
Azure_MS-AZR-0023P
Azure_MS-AZR-0060P
Azure_MS-AZR-0148P
Azure_MS-AZR-0148G
MSDNDevTest_2014-09-01
Výchozí Jakékoli ID kvóty, které nejsou uvedené v této tabulce

Obecné osvědčené postupy pro zachování limitů četnosti

Pokud chcete minimalizovat problémy související s limity rychlosti, je vhodné použít následující techniky:

  • Implementujte do své aplikace logiku opakování pokusů.
  • Pokuste se předcházet prudkým výkyvům zatížení. Zvyšujte zatížení postupně.
  • Otestujte různé vzorce zvýšení zatížení.
  • Zvyšte kvótu přiřazenou k vašemu nasazení. V případě potřeby přesuňte kvótu z jiného nasazení.

Jak požádat o navýšení kvóty

Žádosti o navýšení kvóty je možné odeslat prostřednictvím formuláře žádosti o navýšení kvóty. Kvůli vysoké poptávce se žádosti o navýšení kvóty přijímají a vyplňují se v pořadí, ve kterém jsou přijaty. Priorita je dána zákazníkům, kteří spotřebovávají kvótu, a pokud tato podmínka není splněna, může být vaše žádost zamítnuta.

V případě jiných limitů sazeb odešlete žádost o služby.

Limity regionální kvóty kapacity

Dostupnost kvót podle regionu pro vaše předplatné můžete zobrazit v portálu Azure AI Foundry.

Alternativně, chcete-li zobrazit kapacitu kvót podle regionu pro konkrétní model/verzi, můžete pro svou předplatnou službu použít dotaz API capacity. "Poskytněte subscriptionId, model_name a model_version a rozhraní API vám poskytne dostupnou kapacitu pro tento model napříč všemi oblastmi a typy nasazení pro vaše předplatné."

Poznámka:

V současné době portál Azure AI Foundry i rozhraní API kapacity vrací informace o kvótě nebo kapacitě pro modely, které jsou vyřazené a už nejsou k dispozici.

Referenční rozhraní API

import requests
import json
from azure.identity import DefaultAzureCredential

subscriptionId = "Replace with your subscription ID" #replace with your subscription ID
model_name = "gpt-4o"     # Example value, replace with model name
model_version = "2024-08-06"   # Example value, replace with model version

token_credential = DefaultAzureCredential()
token = token_credential.get_token('https://management.azure.com/.default')
headers = {'Authorization': 'Bearer ' + token.token}

url = f"https://management.azure.com/subscriptions/{subscriptionId}/providers/Microsoft.CognitiveServices/modelCapacities"
params = {
    "api-version": "2024-06-01-preview",
    "modelFormat": "OpenAI",
    "modelName": model_name,
    "modelVersion": model_version
}

response = requests.get(url, params=params, headers=headers)
model_capacity = response.json()

print(json.dumps(model_capacity, indent=2))

Další kroky

Prozkoumejte, jak spravovat kvótu pro nasazení Azure OpenAI. Zjistěte více o základních modelech, které pohánějí Azure OpenAI.