Azure OpenAI ve Microsoft Foundry Modelleri kotaları ve sınırları

Bu makale, Azure OpenAI kotaları ve sınırları için hızlı referans ve ayrıntılı bir açıklama içerir.

Kota kapsamı

Kotalar ve sınırlar kiracı düzeyinde uygulanmaz. Bunun yerine, en yüksek kota kısıtlamaları düzeyi Azure abonelik düzeyinde kapsamlanır.

Bölgesel kota ayırma

Dakika başına belirteç (TPM) ve dakika başına istek (RPM) sınırları bölge,abonelik ve model veya dağıtım türü başına tanımlanır.

Örneğin, gpt-4.1 Genel Standart modeli 5 milyon TPM ve 5.000 RPM kotasıyla listeleniyorsa, her bir bölge bu model veya dağıtım türünün kullanılabildiği her bir bölgede, her biri için bu miktarda bir kota havuzuna sahiptir Azure abonelikleriniz için. Tek bir Azure aboneliğinde, birden çok bölgeye yayılmış kaynaklarınız ve model dağıtımlarınız olduğu sürece, belirli bir model ve dağıtım türü için daha büyük miktarda toplam TPM ve RPM kotası kullanabilirsiniz.

Kota katmanları

Dökümhane Modelleri deneyimini iyileştirmek ve iş yükleri genişledikçe ortaya çıkan engelleri azaltmak için Kota Katmanları tanıtıyoruz. Kotalar artık kullanımla birlikte otomatik olarak artırılacak ve hız sınırı hatalarının önlenmesine yardımcı olurken, aynı zamanda tüm kullanıcılar için daha adil bir ortam oluşturacaktır. Yedi katman kullanıma sunulacaktır: En yüksek kotaları sunan Katman 6 ile Ücretsiz Katman ve Katman 1 ile 6 arası katmanlar. Müşterinin ilk atanan katmanı, bu modelin geçerli kullanımına ve Kurumsal Anlaşma (EA veya MCA-E) durumu gibi Microsoft ile olan geçerli ilişkisine bağlıdır. 

Benim için ne değişiyor?

Daha önce Foundry, kullandıkça öde teklifi türü için yalnızca Varsayılan ve Kurumsal kota seviyeleri sunuyordu ve bu seviyeler arasında belirgin bir fark ile artış talep süreci daha uzundu. Kota Katmanları ile tüm kullanıcılara önceki düzeylerine eşit veya daha yüksek kotalara sahip bir katman atanır. Önceden onaylanan kota artışları korunur ve azaltılmaz. Kullanım arttıkça, Foundry kullanıcıları daha yüksek katmanlara taşıyarak kotaları otomatik olarak artırır ve kota formu aracılığıyla ek kota istenebilir.

Bir müşteri otomatik olarak bir katmandan diğerine nasıl geçer, örneğin katman değiştirme ölçütleri nelerdir? 

Otomatik katman yükseltmeleri, temel olarak zaman içindeki Dökümhane Modelleri genelindeki müşteri tüketimi eğilimlerini temel alır. Müşterinin kullanımı, mevcut kota katmanının Foundry Modellerini kullanma yeteneğini sınırlayacak şekilde artarsa, sistem müşteriyi otomatik olarak bir sonraki katmana yükseltir. Müşterinin Microsoft ile ilişkisi de dikkate alınır. Microsoft ile Kurumsal İlişkilere (EA ve MCA-E dahil) sahip müşterilere daha yüksek kota katmanları atanır. Ayrıca Microsoft otomatik yükseltmelere uygun olup olmadığını belirlemek için müşterinin ödeme geçmişini de göz önünde bulunduracaktır. 

Otomatik yükseltmeleri geri çevirebilir miyim?

Evet, otomatik yükseltmeleri geri çevirebilirsiniz ve tüketiminizdeki değişikliklerden bağımsız olarak geçerli katmanınızda kalırsınız. Bazı müşterilerimizin faturalamalarını yönetmek için kota kullandığını biliyoruz. Ancak, en iyi Azure yöntem bu değildir, ancak sisteminiz bu şekilde yapılandırılırsa bunu bozmak istemediğimizi anlıyoruz. Faturalama yönetimi ve en iyi yöntemler hakkında daha fazla bilgiyi burada bulabilirsiniz: Maliyet Yönetimi.

Vazgeçmek için aşağıdaki bayrağı NoAutoUpgrade olarak ayarlayabilirsiniz:

curl -X PATCH \
  "https://management.azure.com/subscriptions/00000000-0000-0000-0000-000000000000/providers/Microsoft.CognitiveServices/quotaTiers/default?api-version=2025-10-01-preview" \
  -H "Authorization: Bearer <YOUR_ACCESS_TOKEN>" \
  -H "Content-Type: application/json" \
  -d '{
    "properties": {
      "tierUpgradePolicy": "NoAutoUpgrade"
    }
  }'

Not

Geri çevirme özelliği önizleme aşamasındadır ve gelecekte değiştirilebilir/kaldırılabilir.

Daha fazla kota isteyebilir miyim?

Evet, kota isteği formunu kullanarak istediğiniz zaman daha fazla kota isteyebilirsiniz. İstek onaylanırsa geçerli katman aynı kalır ancak daha fazla kota atanır.

Aboneliğimin kota katmanını nasıl denetleyebilirim?

Şu anda denetim düzlemi API'siyle kota katmanınızı denetleyebilirsiniz:

curl -X GET \
  "https://management.azure.com/subscriptions/00000000-0000-0000-0000-000000000000/providers/Microsoft.CognitiveServices/quotaTiers?api-version=2025-10-01-preview" \
  -H "Authorization: Bearer $(az account get-access-token --resource https://management.azure.com --query accessToken -o tsv)" \
  -H "Content-Type: application/json"

Kota katmanı referansı

Katman 1

Model Adı Dağıtım Türü Dakika Başına İstek sayısı (RPM) Dakika Başına Belirteçler (TPM)
codex-mini GlobalStandard 1,000 1,000,000
bilgisayar kullanımı önizlemesi GlobalStandard 4,500 450.000
gpt-4.1 DataZoneStandard 300 300,000
gpt-4.1 GlobalStandard 1,000 1,000,000
gpt-4.1-mini DataZoneStandard 2.000 2,000,000
gpt-4.1-mini GlobalStandard 5,000 5,000,000
gpt-4.1-mini Standart 6,000 6,000,000
gpt-4.1-nano DataZoneStandard 2.000 2,000,000
gpt-4.1-nano GlobalStandard 5,000 5,000,000
gpt-4o DataZoneStandard 300 / 10sn 300,000
gpt-4o ses-önizleme GlobalStandard 30000 / 10s 30,000,000
gpt-4o-mini DataZoneStandard 10.000 1,000,000
gpt-4o-mini GlobalStandard 20,000 2,000,000
gpt-4o-mini-ses-önizleme GlobalStandard 30000 / 10s 30,000,000
gpt-4o-mini-gerçek-zamanlı-önizleme GlobalStandard 36 6,000
gpt-4o-realtime-preview GlobalStandard 36 6,000
gpt-5 DataZoneStandard 3,000 300,000
gpt-5 GlobalStandard 10.000 1,000,000
gpt-5-chat GlobalStandard 1,000 1,000,000
gpt-5-codex GlobalStandard 1,000 1,000,000
gpt-5-mini DataZoneStandard 300 300,000
gpt-5-mini GlobalStandard 1,000 1,000,000
gpt-5-nano DataZoneStandard 2.000 2,000,000
gpt-5-nano GlobalStandard 5,000 5,000,000
gpt-5-pro GlobalStandard 1,600 160,000
gpt-5.1 DataZoneStandard 3,000 300,000
gpt-5.1 GlobalStandard 10.000 1,000,000
gpt-5.1-chat GlobalStandard 10.000 1,000,000
gpt-5.1-codex DataZoneStandard 3,000 300,000
gpt-5.1-codex GlobalStandard 1,000 1,000,000
gpt-5.1-codex-max GlobalStandard 10.000 1,000,000
gpt-5.1-codex-mini GlobalStandard 1,000 1,000,000
gpt-5.2 DataZoneStandard 3,000 300,000
gpt-5.2 GlobalStandard 10.000 1,000,000
gpt-5.2-chat GlobalStandard 10.000 1,000,000
gpt-5.3-chat GlobalStandard 1,000 1,000,000
gpt-5.2-codex GlobalStandard 10.000 1,000,000
gpt-5.3-codex GlobalStandard 10.000 1,000,000
gpt-5.4 DataZoneStandard 300 300,000
gpt-5.4 GlobalStandard 10.000 1,000,000
gpt-5.4-pro GlobalStandard 160 160,000
gpt-5.4-mini GlobalStandard 1,000 1,000,000
gpt-5.4-nano DataZoneStandard 2.000 2,000,000
gpt-5.4-nano GlobalStandard 5,000 5,000,000
gpt-5.5 DataZoneStandard 0 0
gpt-5.5 GlobalStandard 0 0
gpt-chat-latest GlobalStandard 10.000 1,000,000
gpt-audio GlobalStandard 30000 / 10s 30,000,000
gpt-image-1 GlobalStandard 9 -
gpt-image-1-mini GlobalStandard 12 -
gpt-image-1.5 DataZoneStandard 3 -
gpt-image-1.5 GlobalStandard 9 -
gpt-image-2 DataZoneStandard 2 -
gpt-image-2 GlobalStandard 6 -
gpt-realtime GlobalStandard 200 100,000
model yönlendiricisi DataZoneStandard 150 150,000
model yönlendiricisi GlobalStandard 250 250,000
o1 DataZoneStandard 100 600,000
o1 GlobalStandard 500 3,000,000
o3 DataZoneStandard 300 300,000
o3 GlobalStandard 1,000 1,000,000
o3-derin araştırma GlobalStandard 3,000 3,000,000
o3-mini DataZoneStandard 200 2,000,000
o3-mini GlobalStandard 500 5,000,000
o3-pro GlobalStandard 160 1,600,000
o4-mini DataZoneStandard 300 / 10sn 300,000
o4-mini GlobalStandard 1,000 1,000,000
metin ekleme-3-büyük DataZoneStandard 1,000 1,000,000
metin ekleme-3-büyük GlobalStandard 1000 / 10 saniye 1,000,000
metin ekleme-3-küçük DataZoneStandard 1,000 1,000,000
metin ekleme-3-küçük GlobalStandard 1000 / 10 saniye 1,000,000

Kotalar ve limitler referansı

Aşağıdaki bölümde, Azure OpenAI için geçerli olan varsayılan kotalar ve sınırlar için hızlı bir kılavuz sağlanır:

Sınır adı Sınır değeri
Azure aboneliği başına her bölgedeki OpenAI kaynakları 30.
Varsayılan GPT-image-1 kota sınırları Dakikada 9 istek
Varsayılan GPT-image-1-mini kota sınırları Dakikada 12 istek
Varsayılan GPT-image-1.5 kota sınırları Dakikada 9 istek
Varsayılan GPT-image-2 kota sınırları Dakikada 9 istek
Varsayılan Sora kota sınırları Dakikada 60 istek.
Varsayılan Sora 2 kota sınırları Dakikada 2 iş isteği1
Varsayılan konuşmayı metne dönüştürme ses API'si kota sınırları Dakikada 3 istek.
İstek başına en fazla istem belirteci Modele göre değişir. Daha fazla bilgi için bkz. Azure OpenAI modelleri.
Kaynak başına maksimum standart dağıtım 32.
Maksimum ince ayarlı model dağıtımları 10.
Kaynak başına toplam eğitim işi sayısı 100.
Kaynak başına aynı anda çalışan en fazla eğitim işi sayısı Standart ve küresel eğitim: 3;
Geliştirici eğitimi: 5
Kuyruğa alınan en fazla eğitim işi sayısı 20.
Kaynak başına en fazla dosya sayısı (ince ayar) 100.
Kaynak başına tüm dosyaların toplam boyutu (ince ayar) 1GB.
En fazla eğitim işi süresi (aşılırsa iş başarısız olur) 720 saat.
Maksimum eğitim işi boyutu (tokens in training file) x (# of epochs) 2 milyar.
Karşıya yükleme başına tüm dosyaların en büyük boyutu (Azure OpenAI verileriniz üzerinde) 16MB.
Dizideki maksimum giriş sayısı ile /embeddings 2,048.
/embeddings istek başına en fazla token sayısı (tüm girdilerdeki toplam) 300,000.
İleti sayısı üst sınırı /chat/completions 2,048.
Maksimum işlev sayısı /chat/completions 128.
En fazla araç sayısı /chat/completions 128.
Dağıtım başına sağlanan aktarım hızı birimi sayısı üst sınırı 100,000.
Yardımcı veya iş parçacığı başına en fazla dosya sayısı API veya Microsoft Dökümhane portalı kullanılırken 10.000.
Asistanlar ve ince ayar için azami dosya boyutu API aracılığıyla 512 MB

Foundry Portalı üzerinden 200 MB.
Kaynak başına en fazla dosya yükleme isteği sayısı Saniyede 30 istek.
Yardımcılar için yüklenen dosyaların maksimum boyutu 200 GB.
Yardımcılar için token sınırı 2.000.000 belirteç sınırı.
GPT-4o ve GPT-4.1 istek başına en fazla görüntü sayısı (ileti dizisindeki veya konuşma geçmişindeki görüntü sayısı) 50.
GPT-4 vision-preview ve GPT-4 turbo-2024-04-09 için varsayılan maksimum belirteç sayısı 16.

Kesilen max_tokens yanıtlardan kaçınmak için parametre değerini artırın. GPT-4o en fazla belirteç varsayılan olarak 4.096'dır.
API isteklerinde en fazla özel üst bilgi sayısı2 10.
İleti karakter sınırı 1,048,576.
Ses dosyaları için ileti boyutu 20 MB.

1 Sora 2 RPM kotası yalnızca video işi isteklerini sayar. Diğer istek türleri hız sınırına tabi değildir.

2 Geçerli API'lerimiz, işlem hattı aracılığıyla iletilip geri döndürülebilen en fazla 10 özel üst bilgiye izin verir. Bazı müşteriler artık bu başlık sayısını aşıyor ve bu durum, HTTP 431 hataları almalarına neden oluyor. Bu hatanın üst bilgi hacmini azaltmak dışında bir çözümü yoktur. Gelecekteki API sürümlerinde özel üst bilgilerden geçmeyeceğiz. Müşterilerin gelecekteki sistem mimarilerinde özel üst bilgilere bağımlı kalmamalarını öneririz.

Not

Kota sınırları değiştirilebilir.

Toplu iş sınırları

Sınır adı Sınır değeri
En fazla Batch giriş dosyası - (süre sonu yok) 500
En fazla Toplu girdi dosyası - (son kullanma tarihi ayarlanmış) 10.000
En büyük giriş dosyası boyutu 200 MB
En büyük giriş dosyası boyutu - Bring your own storage (BYOS) (Kendi depolama alanınızı getirin) 1GB
Dosya başına en fazla istek sayısı 100,000

Not

Batch dosya sınırları çıkış dosyalarına (örneğin, result.jsonlve error.jsonl) uygulanmaz. Toplu giriş dosyası sınırlarını kaldırmak için Azure Blob Depolama ile Batch kullanın.

Batch kotası

Tabloda toplu işlem kota sınırı gösterilir. Genel toplu iş için kota değerleri, sıralanmış belirteçler açısından temsil edilir. Toplu işlem için bir dosya gönderdiğinizde, dosyadaki belirteç sayısı sayılır. Toplu iş terminal durumuna ulaşana kadar, bu belirteçler toplam sıralanmış belirteç sınırınıza göre sayılır.

Genel toplu iş

Modeli Kurumsal ve MCA-E Varsayılan Aylık kredi kartı tabanlı abonelikler MSDN abonelikleri Öğrenciler için Azure, ücretsiz denemeler
gpt-4.1 5B 200M 50M 90 bin YOK
gpt-4.1 mini 15B 1B 50M 90 bin YOK
gpt-4.1-nano 15B 1B 50M 90 bin YOK
gpt-4o 5B 200M 50M 90 bin YOK
gpt-4o-mini 15B 1B 50M 90 bin YOK
gpt-4-turbo 300 Milyon 80M 40M 90 bin YOK
gpt-4 150 milyon 30M 5M 100 bin YOK
o3-mini 15B 1B 50M 90 bin YOK
o4-mini 15B 1B 50M 90 bin YOK
gpt-5 5B 200M 50M 90 bin YOK
gpt-5.1 5B 200M 50M 90 bin YOK

B = milyar | M = milyon | K = bin

Veri bölgesi işlem grubu

Modeli Kurumsal ve MCA-E Varsayılan Aylık kredi kartı tabanlı abonelikler MSDN abonelikleri Öğrenciler için Azure, ücretsiz denemeler
gpt-4.1 500 MB 30M 30M 90 bin YOK
gpt-4.1-mini 1,5B 100M 50M 90 bin YOK
gpt-4o 500 MB 30M 30M 90 bin YOK
gpt-4o-mini 1,5B 100M 50M 90 bin YOK
o3-mini 1,5B 100M 50M 90 bin YOK
gpt-5 5B 200M 50M 90 bin YOK
gpt-5.1 5B 200M 50M 90 bin YOK

gpt-oss

Modeli Dakika başına token (TPM) Dakika başına istek sayısı (RPM)
gpt-oss-120b 5 milyon 5 K

Kullanım katmanları

Genel Standart dağıtımlar, Azure genel altyapısını kullanır. Müşteri trafiğini, müşterinin çıkarım istekleri için en iyi kullanılabilirlikle veri merkezine dinamik olarak yönlendirir. Benzer şekilde, Veri Bölgesi Standart dağıtımları, trafiği her istek için en iyi kullanılabilirliğe sahip Microsoft tanımlı veri bölgesi içindeki veri merkezine dinamik olarak yönlendirmek için Azure genel altyapısını kullanmanıza olanak sağlar. Bu uygulama, düşük ve orta düzeyde trafiğe sahip müşteriler için daha tutarlı gecikme süresi sağlar. Kullanım düzeyleri yüksek olan müşteriler yanıt gecikme süresinde daha fazla değişkenlik görebilir.

Azure OpenAI kullanım katmanları, düşük ve orta düzeyde trafiğe sahip müşterilerin çoğu için tutarlı performans sağlamak üzere tasarlanmıştır. Her kullanım katmanı, öngörülebilir gecikme süresiyle elde edilebilecek en yüksek veri aktarım hızını (dakika başına token) tanımlar. Kullanımınız atanan katmanınız içinde kaldığında gecikme süresi kararlı kalır ve yanıt süreleri tutarlı olur.

Kullanım katmanınızı aşarsanız ne olur?

  • İstek aktarım hızınız kullanım katmanınızı (özellikle talebin yüksek olduğu dönemlerde) aşıyorsa yanıt gecikme süreniz önemli ölçüde artabilir.
  • Gecikme süresi farklılık gösterebilir ve bazı durumlarda kullanım katmanınızda çalışırken iki kat daha yüksek olabilir.
  • Bu değişkenlik, yüksek sürekli kullanım veya yoğun trafik desenleri olan müşteriler için en belirgindir.

429 hatalarıyla karşılaşırsanız veya gecikme süresi değişkenliğinin arttığını fark ederseniz yapmanız gerekenler şunlardır:

  • Kota artışı isteyin: aboneliğiniz için daha yüksek bir kota istemek için Azure portalını ziyaret edin.
  • Premium teklife (PTU) yükseltmeyi göz önünde bulundurun: Gecikme süresi açısından kritik veya yüksek hacimli iş yükleri için Sağlanan Aktarım Hızı Birimleri'ne (PTU) yükseltin. PTU, uygun ölçekte bile ayrılmış kaynaklar, garantili kapasite ve öngörülebilir gecikme süresi sağlar. Bu, tutarlı performans gerektiren görev açısından kritik uygulamalar için en iyi seçenektir.
  • Kullanımınızı izleme: Katman sınırlarınızda çalıştığınızdan emin olmak için Azure portalında kullanım ölçümlerinizi düzenli olarak gözden geçirin. İş yükü veya dağıtım stratejinizi gerektiği gibi ayarlayın.

Belirteç kullanımı ölçümleri kotanızın altında görünse bile 429 (Çok Fazla İstek) yanıtı alabilirsiniz. Bunun neden oluştuğuna ilişkin bir açıklama için bkz. Belirteç kullanımı ölçümleri kotanın altında olduğunda bile neden 429'ları görebilirsiniz?

Kullanım sınırı, müşterilerin yanıt gecikme süresinde daha büyük değişkenlik görebileceği kullanım düzeyini belirler. Müşterinin kullanımı model başına tanımlanır. Bu, belirli bir kiracı için tüm bölgelerdeki tüm aboneliklerdeki tüm dağıtımlarda kullanılan toplam belirteç sayısıdır.

Not

Kullanım katmanları yalnızca Standart, Veri Bölgesi Standart ve Genel Standart dağıtım türleri için geçerlidir. Kullanım katmanları küresel toplu ve sağlanan aktarım hızı dağıtımları için geçerli değildir.

Genel Standart, Veri Bölgesi Standardı ve Standart

Modeli Aylık kullanım kademeleri
gpt-5 32 milyar belirteç (token)
gpt-5-mini 160 milyar belirteç
gpt-5-nano 800 milyar belirteç
gpt-5-chat 32 milyar belirteç (token)
gpt-4 + gpt-4-32k (tüm sürümler) 6 milyar belirteç
gpt-4o 12 milyar belirteç
gpt-4o-mini 85 milyar token
o3-mini 50 milyar belirteç
o1 4 milyar belirteç
o4-mini 50 milyar belirteç
o3 5 milyar jeton
gpt-4.1 30 milyar belirteç
gpt-4.1-mini 150 milyar token
gpt-4.1-nano 550 milyar belirteç

Hız sınırları içinde kalmak için genel en iyi yöntemler

Hız sınırlarıyla ilgili sorunları en aza indirmek için aşağıdaki teknikleri kullanmak iyi bir fikirdir:

  • Uygulamanızda yeniden deneme mantığını uygulayın.
  • İş yükünde keskin değişiklikler yapmaktan kaçının. İş yükünü kademeli olarak artırın.
  • Farklı yük artışı desenlerini test edin.
  • Dağıtımınıza atanan kotayı artırın. Gerekirse kotayı başka bir dağıtımdan taşıyın.

Ayrıntılı en iyi uygulamalar, geri çekilmeli yeniden deneme kod örnekleri ve 429 sorun giderme kılavuzu için bkz. Microsoft Foundry Modelleri kotasında Azure OpenAI’yi yönetme.

Kota artışlarını isteme

Kota artışı talep formunu, Azure tarafından satılan Foundry Modelleri, Azure OpenAI modelleri ve Anthropic modelleri için kota artışı talep etmek üzere gönderin. İş ortakları ve topluluk modelleri, Anthropic modelleri hariç kota artışlarını desteklemez.

Kota artışı istekleri alındıkları sırayla işlenir ve öncelik, mevcut kota ayırmalarını etkin bir şekilde kullanan müşterilere gider. Bu koşula uymayen istekler reddedilebilir.

Bölgesel kota kapasitesi sınırları

Dökümhane portalında aboneliğiniz için bölgeye göre kota kullanılabilirliğini görüntüleyebilirsiniz.

Kotayı ve kapasiteyi program aracılığıyla denetlemek için kota yönetimi kılavuzundaki Program aracılığıyla kotayı ve kapasiteyi denetleme bölümüne bakın. Bu bölüm iki tamamlayıcı REST API'sini kapsar: tüketimi sınırlara göre denetlemek için Kullanımlar API'si ve modele ve bölgeye göre kullanılabilir dağıtım kapasitesini denetlemek için Model Kapasiteleri API'si .

Not

Şu anda hem Foundry portalı hem de kapasite API'leri , kullanımdan kaldırılıp artık yeni dağıtımlar için kullanılamayan modeller için kota ve kapasite bilgilerini döndürür.

  • Azure OpenAI dağıtımlarınız için kotayı nasıl yöneteceğinizi keşfedin.
  • Azure OpenAI'yi destekleyen temel modeller hakkında daha fazla bilgi edinin.