Aracılığıyla paylaş


Azure AI Foundry Modellerinde Azure OpenAI kotaları ve sınırları

Bu makale, Azure OpenAI için kotaların ve sınırların hızlı referansı ve ayrıntılı bir açıklamasını içerir.

Kotalar ve limitler referansı

Aşağıdaki bölümlerde, Azure OpenAI için geçerli olan varsayılan kotalar ve sınırlar için hızlı bir kılavuz sağlanır:

Sınır Adı Sınır Değeri
Azure aboneliği başına bölge başına Azure OpenAI kaynakları 30
Varsayılan DALL-E 2 kota sınırları 2 eşzamanlı istek
Varsayılan DALL-E 3 kota sınırları 2 kapasite birimi (dakikada 6 istek)
Varsayılan GPT-image-1 kota sınırları 2 kapasite birimi (dakikada 6 istek)
Varsayılan Sora kota sınırları Dakikada 60 istek
Ses dosyasını yazıya aktaran API için varsayılan kota sınırları Dakikada 3 istek
Talep başına maksimum komut belirteci Modele göre değişir. Daha fazla bilgi için bkz. Azure OpenAI modelleri
Kaynak başına en fazla Standart dağıtım 32
Maksimum ince ayarlı model dağıtımları 5
Kaynak başına toplam eğitim işi sayısı 100
Kaynak başına eşzamanlı çalışan en fazla eğitim işi sayısı 1
Kuyrukta bekleyen maksimum eğitim görevi 20
Kaynak başına En Fazla Dosya (ince ayar) 50
Kaynak başına tüm dosyaların toplam boyutu (ince ayar) 1 GB
En fazla eğitim işi süresi (aşılırsa iş başarısız olur) 720 saat
Maksimum eğitim iş boyutu (eğitim dosyasındaki belirteçler) x (dönem sayısı) 2 Milyar
Karşıya yükleme başına tüm dosyalar için maksimum boyut (Azure OpenAI ile verileriniz üzerinde) 16 MB
Dizideki maksimum sayı veya giriş sayısı /embeddings ile 2048
En fazla /chat/completions ileti sayısı 2048
Maksimum işlev sayısı /chat/completions 128
Maksimum /chat completions araç sayısı 128
Dağıtım başına maksimum sağlanan aktarım hızı birimi sayısı. 100,000
Yardımcı/iş parçacığı başına maksimum dosya sayısı API veya Azure AI Foundry portalını kullanırken 10.000.
Asistanlar ve ince ayar için en fazla dosya boyutu 512 MB

Azure AI Foundry portalı aracılığıyla 200 MB
Yardımcılar için yüklenebilecek dosyaların toplam maksimum boyutu 200 GB
Asistan belirteç sınırı 2.000.000 token sınırı
GPT-4o ve GPT-4.1 istek başına maksimum görüntü sayısı (ileti dizisi/konuşma geçmişindeki görüntü sayısı) 50
GPT-4 vision-preview & GPT-4 turbo-2024-04-09 varsayılan maksimum belirteçler 16

Kısa max_tokens yanıtlardan kaçınmak için parametre değerini artırın. GPT-4o maksimum belirteçleri varsayılan olarak 4096'dır.
API isteklerindeen fazla özel üst bilgi sayısı 1 10
İleti karakter sınırı 1048576
Ses dosyaları için ileti boyutu 20 MB

1 Geçerli API'lerimiz işlem hattından geçirilen ve döndürülen en fazla 10 özel üst bilgi sağlar. Bazı müşteriler artık bu üst bilgi sayısını aşıyor ve bu, HTTP 431 hatalarıyla sonuçlanmasına neden oluyor. Bu hatanın üst bilgi hacmini azaltmak dışında bir çözümü yoktur. Gelecekteki API sürümlerinde özel üst bilgileri artık iletmeyeceğiz. Müşterilerin gelecekteki sistem mimarilerinde özel üst bilgilere bağımlı olmamasını öneririz.

Uyarı

Kota sınırları değiştirilebilir.

Toplu limitler

Sınır Adı Sınır Değeri
Kaynak başına en fazla dosya sayısı beş yüz
Maksimum giriş dosyası boyutu 200 MB
Dosya başına en fazla istek sayısı 100,000

Parti kotası

Tablo, parti kota sınırını gösterir. Global yığın için kota değerleri, sıraya alınmış belirteçler açısından temsil edilir. Toplu işlem için bir dosya gönderdiğinizde, dosyada bulunan belirteçlerin sayısı sayılır. Toplu iş terminal durumuna ulaşana kadar, bu belirteçler toplam sıralanmış belirteç sınırınıza göre sayılır.

Küresel toplu işlem

Örnek Kurumsal anlaşma Varsayılan Aylık kredi kartı tabanlı abonelikler MSDN abonelikleri Öğrenciler için Azure, Ücretsiz Denemeler
gpt-4.1 5 B 200 milyon 50 Milyon 90 K Geçerli Değil
gpt-4.1 mini 15B 1B 50 Milyon 90 bin Geçerli Değil
gpt-4.1-nano 15 B 1 B 50 Milyon 90 K Geçerli Değil
gpt-4o 5 B 200 milyon 50 Milyon 90 K Geçerli Değil
gpt-4o-mini 15 B 1 B 50 Milyon 90 K Geçerli Değil
gpt-4-turbo 300 Milyon 80 milyon 40 M 90 K Geçerli Değil
gpt-4 150 M 30 M 5 milyon 100 K Geçerli Değil
gpt-35-turbo 10 B 1 B 100 M 2 milyon 50 K
o3-mini 15 B 1 B 50 Milyon 90 K Geçerli Değil
o4-mini 15 B 1 B 50 Milyon 90 K Geçerli Değil

B = milyar | M = milyon | K = bin

Veri bölgesi kümesi

Örnek Kurumsal anlaşma Varsayılan Aylık kredi kartı tabanlı abonelikler MSDN abonelikleri Öğrenciler için Azure, Ücretsiz Denemeler
gpt-4.1 500 Milyon 30 M 30 M 90 K Geçerli Değil
gpt-4.1-mini 1,5 B 100 M 50 Milyon 90 K Geçerli Değil
gpt-4o 500 Milyon 30 M 30 M 90 K Geçerli Değil
gpt-4o-mini 1,5 B 100 M 50 Milyon 90 K Geçerli Değil
o3-mini 1,5 B 100 M 50 Milyon 90 K Geçerli Değil

GPT-4 hız sınırları

GPT-4.5 önizleme genel standardı

Örnek Katman Dakika başına jetonlarda Kota Sınırı (TPM) Dakika başına istek sayısı
gpt-4.5 Kurumsal Seviye 200 K 200
gpt-4.5 Varsayılan 150 K Yüz elli

GPT-4.1 serisi genel standart

Örnek Katman Dakika başına jetonlarda Kota Sınırı (TPM) Dakika başına istek sayısı
gpt-4.1 (2025-04-14) Kurumsal Seviye 5 milyon 5 K
gpt-4.1 (2025-04-14) Varsayılan 1 milyon 1 Kelvin
gpt-4.1-nano (2025-04-14) Kurumsal Seviye 150 M 150 K
gpt-4.1-nano (2025-04-14) Varsayılan 5 milyon 5 K
gpt-4.1-mini (2025-04-14) Kurumsal Seviye 150 M 150 K
gpt-4.1-mini (2025-04-14) Varsayılan 5 milyon 5 K

GPT-4.1 serisi veri bölgesi standardı

Örnek Katman Dakika başına jetonlarda Kota Sınırı (TPM) Dakika başına istek sayısı
gpt-4.1 (2025-04-14) Kurumsal Seviye 2 milyon 2 K
gpt-4.1 (2025-04-14) Varsayılan 300 Kelvin 300
gpt-4.1-nano (2025-04-14) Kurumsal Seviye 50 Milyon 50 K
gpt-4.1-nano (2025-04-14) Varsayılan 2 milyon 2 K
gpt-4.1-mini (2025-04-14) Kurumsal Seviye 50 Milyon 50 K
gpt-4.1-mini (2025-04-14) Varsayılan 2 milyon 2 K

GPT-4 Turbo

gpt-4 (turbo-2024-04-09) belirli müşteri türleri için daha yüksek sınırlara sahip hız sınırı katmanlarına sahiptir.

Örnek Katman Dakika başına jetonlarda Kota Sınırı (TPM) Dakika başına istek sayısı
gpt-4 (turbo-2024-04-09) Kurumsal anlaşma 2 milyon 12 K
gpt-4 (turbo-2024-04-09) Varsayılan 450 K 2,7 K

model-yönlendirici hız sınırları

Örnek Katman Dakika başına jetonlarda Kota Sınırı (TPM) Dakika başına istek sayısı
model-router (2025-05-19) Kurumsal Seviye 10 M 10 KB
model-router (2025-05-19) Varsayılan 1 milyon 1 Kelvin

bilgisayar kullanımı-önizleme genel standart hız sınırları

Örnek Katman Dakika başına jetonlarda Kota Sınırı (TPM) Dakika başına istek sayısı
computer-use-preview Kurumsal Seviye 30 M 300 Kelvin
computer-use-preview Varsayılan 450 K 4,5 K

o serisi hız sınırları

Önemli

Dakika Başına İsteklerin (RPM) oranı ile Dakika Başına Belirteçlerin (TPM) oranı, kota için modele göre farklılık gösterebilir. Bir modeli program aracılığıyla dağıttığınızda veya kota artışı istediğinizde TPM ve RPM üzerinde bağımsız değerler olarak ayrıntılı denetim sahibi olmazsınız. Kota, karşılık gelen RPM ve TPM miktarlarına sahip kapasite birimleri açısından ayrılır:

Örnek Kapasite Dakika Başına İstek sayısı (RPM) Dakika Başına Belirteçler (TPM)
Eski sohbet modelleri: 1 Birim 6 RPM 1.000 TPM
o1 & o1-preview: 1 Birim 1 devir/dakika 6.000 TPM
o3 1 Birim 1 devir/dakika 1.000 TPM
o4-mini 1 Birim 1 devir/dakika 1.000 TPM
o3-mini: 1 Birim 1 devir/dakika 10.000 TPM
o1-mini: 1 Birim 1 devir/dakika 10.000 TPM
o3-pro: 1 Birim 1 devir/dakika 10.000 TPM

RPM/TPM oranındaki değişiklikler kotanın yanlışlıkla yanlış yerleştirilmesine neden olabileceğinden bu özellikle programlı model dağıtımı için önemlidir.

o serisi global standart

Örnek Katman Dakika başına jetonlarda Kota Sınırı (TPM) Dakika başına istek sayısı
codex-mini Kurumsal anlaşma 10 M 10 KB
o3-pro Kurumsal anlaşma 16 M 1,6 K
o4-mini Kurumsal anlaşma 10 M 10 KB
o3 Kurumsal anlaşma 10 M 10 KB
o3-mini Kurumsal anlaşma 50 Milyon 5 K
o1 & o1-preview Kurumsal anlaşma 30 M 5 K
o1-mini Kurumsal anlaşma 50 Milyon 5 K
codex-mini Varsayılan 1 milyon 1 Kelvin
o3-pro Varsayılan 1,6 milyon 160
o4-mini Varsayılan 1 milyon 1 Kelvin
o3 Varsayılan 1 milyon 1 Kelvin
o3-mini Varsayılan 5 milyon beş yüz
o1 & o1-preview Varsayılan 3 Milyon beş yüz
o1-mini Varsayılan 5 milyon beş yüz

o serisi veri bölgesi standardı

Örnek Katman Dakika başına jetonlarda Kota Sınırı (TPM) Dakika başına istek sayısı
o3-mini Kurumsal anlaşma 20 milyon 2 K
o3-mini Varsayılan 2 milyon 200
o1 Kurumsal anlaşma 6 Milyon 1 Kelvin
o1 Varsayılan 600 K 100

o1-önizleme & o1-mini standart

Örnek Katman Dakika başına jetonlarda Kota Sınırı (TPM) Dakika başına istek sayısı
o1-preview Kurumsal anlaşma 600 K 100
o1-mini Kurumsal anlaşma 1 milyon 100
o1-preview Varsayılan 300 Kelvin 50
o1-mini Varsayılan 500 K 50

gpt-4o hız sınırları

gpt-4o ve gpt-4o-mini belirli müşteri türleri için daha yüksek sınırlara sahip hız sınırı katmanlarına sahiptir.

gpt-4o global standart

Örnek Katman Dakika başına jetonlarda Kota Sınırı (TPM) Dakika başına istek sayısı
gpt-4o Kurumsal anlaşma 30 M 180 Kelvin
gpt-4o-mini Kurumsal anlaşma 50 Milyon 300 Kelvin
gpt-4o Varsayılan 450 K 2,7 K
gpt-4o-mini Varsayılan 2 milyon 12 K

M = milyon | K = bin

gpt-4o veri bölgesi standardı

Örnek Katman Dakika başına jetonlarda Kota Sınırı (TPM) Dakika başına istek sayısı
gpt-4o Kurumsal anlaşma 10 M 60 K
gpt-4o-mini Kurumsal anlaşma 20 milyon 120 K
gpt-4o Varsayılan 300 Kelvin 1,8 K
gpt-4o-mini Varsayılan 1 milyon 6 K

M = milyon | K = bin

gpt-4o standard

Örnek Katman Dakika başına jetonlarda Kota Sınırı (TPM) Dakika başına istek sayısı
gpt-4o Kurumsal anlaşma 1 milyon 6 K
gpt-4o-mini Kurumsal anlaşma 2 milyon 12 K
gpt-4o Varsayılan 150 K 900
gpt-4o-mini Varsayılan 450 K 2,7 K

M = milyon | K = bin

gpt-4o ses kaydı

Her gpt-4o ses modeli dağıtımı için hız sınırları 100 K TPM ve 1 K RPM'dir. Önizleme sırasında Azure AI Foundry portalı ve API'ler yanlışlıkla farklı hız sınırları gösterebilir. Farklı bir hız sınırı ayarlamaya çalışsanız bile gerçek hız sınırı 100 K TPM ve 1 K RPM'dir.

Örnek Katman Dakika başına jetonlarda Kota Sınırı (TPM) Dakika başına istek sayısı
gpt-4o-audio-preview Varsayılan 450 K 1 Kelvin
gpt-4o-realtime-preview Varsayılan 800 Kelvin 1 Kelvin
gpt-4o-mini-audio-preview Varsayılan 2 milyon 1 Kelvin
gpt-4o-mini-realtime-preview Varsayılan 800 Kelvin 1 Kelvin

M = milyon | K = bin

GPT-image-1 hız sınırları

GPT0-image-1 genel standardı

Örnek Katman Dakika başına jetonlarda Kota Sınırı (TPM) Dakika başına istek sayısı
gpt-image-1 Kurumsal anlaşma Geçerli Değil 20
gpt-image-1 Varsayılan Geçerli Değil 6

Kullanım katmanları

Genel standart dağıtımlar Azure'ın genel altyapısını kullanır ve müşterinin çıkarım istekleri için en iyi kullanılabilirlik ile müşteri trafiğini dinamik olarak veri merkezine yönlendirebilir. Benzer şekilde, Veri bölgesi standart dağıtımları, trafiği her istek için en iyi kullanılabilirliğe sahip Microsoft tanımlı veri bölgesi içindeki veri merkezine dinamik olarak yönlendirmek için Azure genel altyapısını kullanmanıza olanak sağlar. Bu, düşük ve orta düzeyde trafiğe sahip müşteriler için daha tutarlı gecikme süresi sağlar. Kullanım düzeyleri yüksek olan müşteriler yanıt gecikme süresinde daha fazla değişkenlik görebilir.

Kullanım Sınırı, müşterilerin yanıt gecikme süresinde daha büyük değişkenlik görebileceği kullanım düzeyini belirler. Müşterinin kullanımı, model başına tanımlanır ve belirli bir kiracı için tüm bölgelerdeki tüm abonelikler kapsamındaki tüm dağıtımlarda tüketilen toplam belirteç miktarıdır.

Uyarı

Kullanım katmanları yalnızca standart, veri bölgesi standardı ve genel standart dağıtım türleri için geçerlidir. Kullanım katmanları, küresel toplu işlemler ve sağlanmış aktarım kapasitesi dağıtımları için geçerli değildir.

Genel standart, veri bölgesi standardı ve standart

Örnek Aylık kullanım katmanları
gpt-4 + gpt-4-32k (tüm sürümler) 6 Milyar token
gpt-4o 12 Milyar jeton
gpt-4o-mini 85 Milyar jeton
o3-mini 50 Milyar belirteç
o1 4 Milyar belirteci
o4-mini 50 Milyar belirteç
o3 5 Milyar belirteç
gpt-4.1 30 Milyar jeton
gpt-4.1-mini 150 Milyar token
gpt-4.1-nano 550 milyar token

Diğer teklif türleri

Azure aboneliğiniz belirli teklif türlerine bağlıysa, maksimum kota değerleriniz yukarıdaki tablolarda belirtilen değerlerden daha düşüktür.

Katman Dakika başına jetonlarda Kota Sınırı (TPM)
Azure for Students 1 K (tüm modeller)
Exception o-serisi & GPT-4.1 & GPT-4.5 Önizleme: 0
MSDN GPT-4o-mini: 200 K
GPT 3.5 Turbo Serisi: 200 Bin
GPT-4 serisi: 50 Bin
bilgisayar kullanım önizlemesi: 8 K
gpt-4o-gerçek-zamanlı-önizleme: 1 K
o serisi: 0
GPT 4.5 Önizleme: 0
GPT-4.1: 50 K
GPT-4.1-nano: 200 K
Standard GPT-4o-mini: 200 K
GPT 3.5 Turbo Serisi: 200 Bin
GPT-4 serisi: 50 Bin
bilgisayar kullanım önizlemesi: 30 KB
o serisi: 0
GPT 4.5 Önizleme: 0
GPT-4.1: 50 K
GPT-4.1-nano: 200 K
Azure_MS-AZR-0111P
Azure_MS-AZR-0035P
Azure_MS-AZR-0025P
Azure_MS-AZR-0052P
GPT-4o-mini: 200 K
GPT 3.5 Turbo Serisi: 200 Bin
GPT-4 serisi: 50 Bin
CSP Integration Sandbox * Tüm modeller: 0
Lightweight trial
Free Trials
Azure Pass
Tüm modeller: 0

*Bu, yalnızca sınırlı sayıda eski CSP sanal alan aboneliği için geçerlidir. Aboneliğinizle nelerin quotaId ilişkili olduğunu belirlemek için aşağıdaki sorguyu kullanın.

Aboneliğinizle ilişkili teklif türünü belirlemek için quotaId öğesini kontrol edebilirsiniz. Aboneliğiniz quotaId bu tabloda listelenmiyorsa, aboneliğiniz varsayılan kotaya uygun olur.

API başvurusu

az login
access_token=$(az account get-access-token --query accessToken -o tsv)
curl -X GET "https://management.azure.com/subscriptions/{subscriptionId}?api-version=2020-01-01" \
  -H "Authorization: Bearer $access_token" \
  -H "Content-Type: application/json"

Çıktı

{
  "authorizationSource": "Legacy",
  "displayName": "Pay-As-You-Go",
  "id": "/subscriptions/aaaaaa-bbbbb-cccc-ddddd-eeeeee",
  "state": "Enabled",
  "subscriptionId": "aaaaaa-bbbbb-cccc-ddddd-eeeeee",
  "subscriptionPolicies": {
    "locationPlacementId": "Public_2014-09-01",
    "quotaId": "PayAsYouGo_2014-09-01",
    "spendingLimit": "Off"
  }
}
Kota tahsisi/Teklif türü Abonelik kotası kimliği
İşletme EnterpriseAgreement_2014-09-01
Kullandıkça ödeme yap PayAsYouGo_2014-09-01
MSDN MSDN_2014-09-01
CSP Tümleştirme Deneme Ortamı CSPDEVTEST_2018-05-01
Öğrenciler için Azure AzureForStudents_2018-01-01
Ücretsiz Deneme FreeTrial_2014-09-01
Azure Pass AzurePass_2014-09-01
Azure_MS-AZR-0111P AzureInOpen_2014-09-01
Azure_MS-AZR-0150P LightweightTrial_2016-09-01
Azure_MS-AZR-0035P
Azure_MS-AZR-0025P
Azure_MS-AZR-0052P
MPN_2014-09-01
Azure_MS-AZR-0023P
Azure_MS-AZR-0060P
Azure_MS-AZR-0148P
Azure_MS-AZR-0148G
MSDNDevTest_2014-09-01
Varsayılan Bu tabloda listelenmeyen herhangi bir kota kimliği

Hız sınırları içinde kalmak için genel en iyi yöntemler

Hız sınırlarıyla ilgili sorunları en aza indirmek için aşağıdaki teknikleri kullanmak iyi bir fikirdir:

  • Uygulamanıza yeniden deneme mantığı ekleyin.
  • İş yükünde ani değişikliklerden kaçının. İş yükünü kademeli olarak artırın.
  • Farklı yük artışı desenlerini test edin.
  • Dağıtımınıza atanan kotayı artırın. Gerekirse kotayı başka bir dağıtımdan taşıyın.

Kota Artışı Nasıl İstenir

Kota artışı istekleri, kota artışı istek formu aracılığıyla gönderilebilir. Talebin yüksek olması nedeniyle kota artışı istekleri kabul ediliyor ve alındıkları sırayla dolduruluyor. Mevcut kota tahsisini tüketen trafik oluşturan müşterilere öncelik verilir ve bu koşul karşılanmazsa isteğiniz reddedilebilir.

Diğer oran sınırları için, bir hizmet isteği gönderin.

Bölgesel kota kapasite sınırları

Aboneliğiniz için bölgeye göre kota kullanılabilirliğini Azure AI Foundry portalı'nda görüntüleyebilirsiniz.

Alternatif olarak, belirli bir model/sürüm için bölgelere göre kota kapasitesini görüntülemek için aboneliğinizle ilgili capacity API'sını sorgulayabilirsiniz. Bir subscriptionId, model_name ve model_version sağlayın ve API, tüm bölgelerde bu model ve aboneliğiniz için dağıtım türleri için kullanılabilir kapasiteyi döndürür.

Uyarı

Şu anda hem Azure AI Foundry portalı hem de kapasite API'si, kullanımdan kaldırılmış ve artık kullanılamayan modeller için kota/kapasite bilgilerini geri döndürmektedir.

API Referansı

import requests
import json
from azure.identity import DefaultAzureCredential

subscriptionId = "Replace with your subscription ID" #replace with your subscription ID
model_name = "gpt-4o"     # Example value, replace with model name
model_version = "2024-08-06"   # Example value, replace with model version

token_credential = DefaultAzureCredential()
token = token_credential.get_token('https://management.azure.com/.default')
headers = {'Authorization': 'Bearer ' + token.token}

url = f"https://management.azure.com/subscriptions/{subscriptionId}/providers/Microsoft.CognitiveServices/modelCapacities"
params = {
    "api-version": "2024-06-01-preview",
    "modelFormat": "OpenAI",
    "modelName": model_name,
    "modelVersion": model_version
}

response = requests.get(url, params=params, headers=headers)
model_capacity = response.json()

print(json.dumps(model_capacity, indent=2))

Sonraki Adımlar

Azure OpenAI dağıtımlarınız için kotayı yönetmeyi keşfedin. Azure OpenAI'yi destekleyen temel modeller hakkında daha fazla bilgi edinin.