Not
Bu sayfaya erişim yetkilendirme gerektiriyor. Oturum açmayı veya dizinleri değiştirmeyi deneyebilirsiniz.
Bu sayfaya erişim yetkilendirme gerektiriyor. Dizinleri değiştirmeyi deneyebilirsiniz.
Bu makale, Azure OpenAI kotaları ve sınırlarının ayrıntılı bir açıklamasını ve hızlı başvuru kılavuzunu içerir.
Kota kapsamı
Kotalar ve sınırlar kiracı düzeyinde uygulanmaz. Bunun yerine, en yüksek kota kısıtlamaları düzeyi Azure abonelik düzeyinde kapsamlanır.
Bölgesel kota ayırma
Dakika başına belirteç (TPM) ve dakika başına istek (RPM) sınırları bölge,abonelik ve model veya dağıtım türü başına tanımlanır.
Örneğin, gpt-4.1 Genel Standart modeli 5 milyon TPM ve 5.000 RPM kotasıyla listeleniyorsa, bu her bölge bu model veya dağıtım türünün kullanılabildiği yerlerde, Azure aboneliklerinizin her biri için bu miktarda ayrılmış bir kota havuzuna sahiptir. Tek bir Azure aboneliğinde, birden çok bölgeye yayılmış kaynaklarınız ve model dağıtımlarınız olduğu sürece, belirli bir model ve dağıtım türü için daha büyük miktarda toplam TPM ve RPM kotası kullanabilirsiniz.
Kota katmanları
Foundry Modelleri deneyimini geliştirmek ve iş yükleri ölçeklendikçe sürtüşmeyi azaltmak için Kota Katmanları sunuyoruz. Kotalar artık kullanımla birlikte otomatik olarak artırılacak ve hız sınırı hatalarının önlenmesine yardımcı olurken, aynı zamanda tüm kullanıcılar için daha adil bir ortam oluşturacaktır. Yedi katman kullanıma sunulacaktır: En yüksek kotaları sunan Katman 6 ile Ücretsiz Katman ve Katman 1 ile 6 arası katmanlar. Müşterinin ilk atanan katmanı, bu modelin geçerli kullanımına ve Kurumsal Anlaşma (EA veya MCA-E) durumu gibi Microsoft ile olan geçerli ilişkisine bağlıdır.
Benim için ne değişiyor?
Daha önce Foundry, "kullandıkça öde" teklif türü için yalnızca Varsayılan ve Kurumsal kota seviyeleri sunuyordu, bu seviyeler arasında büyük bir boşluk vardı ve artış talep süreci uzundu. Kota Katmanları ile tüm kullanıcılara önceki düzeylerine eşit veya daha yüksek kotalara sahip bir katman atanır. Önceden onaylanan kota artışları korunur ve azaltılmaz. Kullanım arttıkça, Foundry kullanıcıları daha yüksek katmanlara taşıyarak kotaları otomatik olarak artırır ve kota formu aracılığıyla ek kota istenebilir.
Bir müşteri otomatik olarak bir katmandan diğerine nasıl geçer, örneğin katman değiştirme ölçütleri nelerdir?
Otomatik katman yükseltmeleri, temel olarak zaman içindeki Dökümhane Modelleri genelindeki müşteri tüketimi eğilimlerini temel alır. Müşterinin kullanımı, mevcut kota katmanının Dökümhane Modelleri'ni kullanma yeteneğini sınırlayacak şekilde artarsa, sistem müşteriyi otomatik olarak bir sonraki üst katmana yükseltir. Müşterinin Microsoft ile ilişkisi de dikkate alınır. Kurumsal ilişkileri Microsoft ile olan (EA ve MCA-E dahil) müşterilere daha yüksek kota seviyeleri atanır. Ayrıca Microsoft otomatik yükseltmelere uygun olup olmadığını belirlemek için müşterinin ödeme geçmişini de göz önünde bulunduracaktır.
Otomatik yükseltmeleri geri çevirebilir miyim?
Evet, otomatik yükseltmeleri geri çevirebilirsiniz ve tüketiminizdeki değişikliklerden bağımsız olarak geçerli katmanınızda kalırsınız. Bazı müşterilerimizin faturalamalarını yönetmek için kota kullandığını biliyoruz. Ancak, en iyi Azure yöntem bu değildir, ancak sisteminiz bu şekilde yapılandırılırsa bunu bozmak istemediğimizi anlıyoruz. Faturalama yönetimi ve en iyi yöntemler hakkında daha fazla bilgiyi burada bulabilirsiniz: Maliyet Yönetimi.
Vazgeçmek için aşağıdaki bayrağı NoAutoUpgrade olarak ayarlayabilirsiniz.
curl -X PATCH \
"https://management.azure.com/subscriptions/00000000-0000-0000-0000-000000000000/providers/Microsoft.CognitiveServices/quotaTiers/default?api-version=2025-10-01-preview" \
-H "Authorization: Bearer <YOUR_ACCESS_TOKEN>" \
-H "Content-Type: application/json" \
-d '{
"properties": {
"tierUpgradePolicy": "NoAutoUpgrade"
}
}'
Uyarı
Geri çevirme özelliği önizleme aşamasındadır ve gelecekte değiştirilebilir/kaldırılabilir.
Daha fazla kota isteyebilir miyim?
Evet, kota isteği formunu kullanarak istediğiniz zaman daha fazla kota isteyebilirsiniz. İstek onaylanırsa geçerli katman aynı kalır ancak daha fazla kota atanır.
Kot katmanı referansı
Katman 1
| Model Adı | Dağıtım Türü | Dakika Başına İstek sayısı (RPM) | Dakika Başına Belirteçler (TPM) |
|---|---|---|---|
| codex-mini | GlobalStandard | 1,000 | 1,000,000 |
| computer-use-preview | GlobalStandard | 4,500 | 450.000 |
| gpt-4.1 | DataZoneStandard | 300 | 300,000 |
| gpt-4.1 | GlobalStandard | 1,000 | 1,000,000 |
| gpt-4.1-mini | DataZoneStandard | 2,000 | 2,000,000 |
| gpt-4.1-mini | GlobalStandard | 5.000 | 5,000,000 |
| gpt-4.1-mini | Standart | 6.000 | 6,000,000 |
| gpt-4.1-nano | DataZoneStandard | 2,000 | 2,000,000 |
| gpt-4.1-nano | GlobalStandard | 5.000 | 5,000,000 |
| gpt-4o | DataZoneStandard | 300 / 10 sn | 300,000 |
| gpt-4o-audio-preview | GlobalStandard | 30000 / 10s | 30,000,000 |
| gpt-4o-mini | DataZoneStandard | 10.000 | 1,000,000 |
| gpt-4o-mini | GlobalStandard | 20,000 | 2,000,000 |
| gpt-4o-mini-audio-önizleme | GlobalStandard | 30000 / 10s | 30,000,000 |
| gpt-4o-mini-anlık-önizleme | GlobalStandard | 36 | 6.000 |
| gpt-4o-realtime-preview | GlobalStandard | 36 | 6.000 |
| gpt-5 | DataZoneStandard | 3.000 | 300,000 |
| gpt-5 | GlobalStandard | 10.000 | 1,000,000 |
| gpt-5-chat | GlobalStandard | 1,000 | 1,000,000 |
| gpt-5-codex | GlobalStandard | 1,000 | 1,000,000 |
| gpt-5-mini | DataZoneStandard | 300 | 300,000 |
| gpt-5-mini | GlobalStandard | 1,000 | 1,000,000 |
| gpt-5-nano | DataZoneStandard | 2,000 | 2,000,000 |
| gpt-5-nano | GlobalStandard | 5.000 | 5,000,000 |
| gpt-5-pro | GlobalStandard | 1.600 | 160.000 |
| gpt-5.1 | DataZoneStandard | 3.000 | 300,000 |
| gpt-5.1 | GlobalStandard | 10.000 | 1,000,000 |
| gpt-5.1-chat | GlobalStandard | 10.000 | 1,000,000 |
| gpt-5.1-codex | DataZoneStandard | 3.000 | 300,000 |
| gpt-5.1-codex | GlobalStandard | 1,000 | 1,000,000 |
| gpt-5.1-codex-max | GlobalStandard | 10.000 | 1,000,000 |
| gpt-5.1-codex-mini | GlobalStandard | 1,000 | 1,000,000 |
| gpt-5.2 | DataZoneStandard | 3.000 | 300,000 |
| gpt-5.2 | GlobalStandard | 10.000 | 1,000,000 |
| gpt-5.2-chat | GlobalStandard | 10.000 | 1,000,000 |
| gpt-5.3-chat | GlobalStandard | 1,000 | 1,000,000 |
| gpt-5.2-codex | GlobalStandard | 10.000 | 1,000,000 |
| gpt-5.3-codex | GlobalStandard | 10.000 | 1,000,000 |
| gpt-5.4 | DataZoneStandard | 300 | 300,000 |
| gpt-5.4 | GlobalStandard | 10.000 | 1,000,000 |
| gpt-5.4-pro | GlobalStandard | 160 | 160.000 |
| gpt-5.4-mini | GlobalStandard | 1,000 | 1,000,000 |
| gpt-5.4-nano | DataZoneStandard | 2,000 | 2,000,000 |
| gpt-5.4-nano | GlobalStandard | 5.000 | 5,000,000 |
| gpt-audio | GlobalStandard | 30000 / 10s | 30,000,000 |
| gpt-image-1 | GlobalStandard | 9 | - |
| gpt-image-1-mini | GlobalStandard | 12 | - |
| gpt-image-1.5 | DataZoneStandard | 3 | - |
| gpt-image-1.5 | GlobalStandard | 9 | - |
| gpt-realtime | GlobalStandard | 200 | 100,000 |
| model-router | DataZoneStandard | Yüz elli | 150,000 |
| o1 | DataZoneStandard | 100 | 600,000 |
| o1 | GlobalStandard | beş yüz | 3,000,000 |
| o3 | DataZoneStandard | 300 | 300,000 |
| o3 | GlobalStandard | 1,000 | 1,000,000 |
| o3-Derin Araştırma | GlobalStandard | 3.000 | 3,000,000 |
| o3-mini | DataZoneStandard | 200 | 2,000,000 |
| o3-mini | GlobalStandard | beş yüz | 5,000,000 |
| o3-pro | GlobalStandard | 160 | 1,600,000 |
| o4-mini | DataZoneStandard | 300 / 10 sn | 300,000 |
| o4-mini | GlobalStandard | 1,000 | 1,000,000 |
| metin ekleme-3-büyük | DataZoneStandard | 1,000 | 1,000,000 |
| metin ekleme-3-büyük | GlobalStandard | 1000 / 10 saniye | 1,000,000 |
| metin yerleştirme, 3, küçük | DataZoneStandard | 1,000 | 1,000,000 |
| metin yerleştirme, 3, küçük | GlobalStandard | 1000 / 10 saniye | 1,000,000 |
Kotalar ve limitler referansı
Aşağıdaki bölümde, Azure OpenAI için geçerli olan varsayılan kotalar ve sınırlar için hızlı bir kılavuz sağlanır:
| Sınır adı | Sınır değeri |
|---|---|
| Azure aboneliği başına, her bölge için OpenAI kaynakları | 30. |
| Varsayılan GPT-image-1 kota sınırları | Dakikada 9 istek |
| Varsayılan GPT-image-1-mini kota sınırları | Dakikada 12 istek |
| Varsayılan GPT-image-1.5 kota sınırları | Dakikada 9 istek |
| Varsayılan Sora kota sınırları | Dakikada 60 istek. |
| Varsayılan Sora 2 kota sınırları | Dakikada1 2 iş isteği |
| Varsayılan konuşmayı metne dönüştürme ses API'si kota sınırları | Dakikada 3 istek. |
| Talep başına maksimum komut belirteci | Modele göre değişir. Daha fazla bilgi için bkz. Azure OpenAI modelleri. |
| Kaynak başına maksimum standart dağıtım | 32. |
| Maksimum optimize edilmiş model dağıtımları | 10. |
| Kaynak başına toplam eğitim işi sayısı | 100. |
| Kaynak başına aynı anda çalışan en fazla eğitim işi sayısı | Standart ve küresel eğitim: 3; Geliştirici eğitimi: 5 |
| Kuyruğa alınan en fazla eğitim işi sayısı | 20. |
| Kaynak başına en fazla dosya sayısı (ince ayar) | 100. |
| Kaynak başına tüm dosyaların toplam boyutu (ince ayar) | 1GB. |
| En fazla eğitim işi süresi (aşılırsa iş başarısız olur) | 720 saat. |
Azami eğitim işi boyutu (tokens in training file) x (# of epochs) |
2 milyar. |
| Yükleme başına tüm dosyaların maksimum boyutu (Azure OpenAI üzerinde verileriniz) | 16MB. |
/embeddings ile dizideki maksimum giriş sayısı |
2,048. |
Maksimum ileti sayısı /chat/completions |
2,048. |
Maksimum işlev sayısı /chat/completions |
128. |
/chat/completions maksimum araç sayısı |
128. |
| Dağıtım başına sağlanan aktarım hızı birimi sayısı üst sınırı | 100,000. |
| Yardımcı veya iş parçacığı başına en fazla dosya sayısı | API veya Microsoft Foundry portalı kullanıldığında 10.000. |
| Yardımcılar ve ince ayar için maksimum dosya boyutu | API aracılığıyla 512 MB 200 MB Foundry portalı üzerinden. |
| Kaynak başına en fazla dosya yükleme isteği sayısı | Saniyede 30 istek. |
| Yardımcılar için yüklenen tüm dosyaların maksimum karşıya boyutu | 200 GB. |
| Asistan belirteç sınırı | 2.000.000 token sınırı. |
GPT-4o ve GPT-4.1 istek başına en fazla görüntü sayısı (ileti dizisindeki veya konuşma geçmişindeki görüntü sayısı) |
50. |
GPT-4 vision-preview ve GPT-4 turbo-2024-04-09 varsayılan en fazla belirteç sayısı |
16. Kısa max_tokens yanıtlardan kaçınmak için parametre değerini artırın.
GPT-4o en fazla belirteç varsayılan olarak 4.096'dır. |
| API isteklerinde en fazla özel üst bilgi sayısı2 | 10. |
| İleti karakter sınırı | 1,048,576. |
| Ses dosyaları için ileti boyutu | 20 MB. |
1 Sora 2 RPM kotası yalnızca video işi isteklerini sayar. Hız sınırlamasına tabi olmayan diğer istek türleri.
2 Mevcut API'lerimiz, işlem hattından geçirilip geri döndürülen en fazla 10 özel üst bilgiye izin verir. Bazı müşteriler artık bu üst bilgi sayısını aşıyor ve bu da HTTP 431 hatalarına yol açıyor. Bu hatanın üst bilgi hacmini azaltmak dışında bir çözümü yoktur. Gelecekteki API sürümlerinde özel üst bilgilerden geçmeyeceğiz. Müşterilerin gelecekteki sistem mimarilerinde özel üst bilgilere bağımlı kalmamalarını öneririz.
Uyarı
Kota sınırları değiştirilebilir.
model-yönlendirici hız sınırları
| Model | Dağıtım Türü | Varsayılan RPM | Varsayılan TPM | Kurumsal ve MCA-E RPM | Kurumsal ve MCA-E TPM |
|---|---|---|---|---|---|
model-router (2025-11-18) |
DataZoneStandard | Yüz elli | 150,000 | 300 | 300,000 |
model-router (2025-11-18) |
GlobalStandard | 250 | 250,000 | 400 | 400,000 |
Toplu limitler
| Sınır adı | Sınır değeri |
|---|---|
| En fazla Batch giriş dosyası - (süre sonu yok) | beş yüz |
| Maksimum Batch giriş dosyaları - (süresi dolmuş ayar) | 10.000 |
| En büyük giriş dosyası boyutu | 200 MB |
| En büyük giriş dosyası boyutu - Kendi depolamanızı getirin (BYOS) | 1GB |
| Dosya başına en fazla istek sayısı | 100,000 |
Uyarı
Batch dosya sınırları çıkış dosyalarına (örneğin, result.jsonlve error.jsonl) uygulanmaz. Toplu giriş dosyası sınırlarını kaldırmak için Azure Blob Depolama ile
Parti kotası
Tablo, parti kota sınırını gösterir. Global yığın için kota değerleri, sıraya alınmış belirteçler açısından temsil edilir. Toplu işlem için bir dosya gönderdiğinizde, dosyadaki belirteç sayısı sayılır. Toplu iş terminal durumuna ulaşana kadar, bu belirteçler toplam sıralanmış belirteç sınırınıza göre sayılır.
Küresel toplu işlem
| Model | Enterprise ve MCA-E | Varsayılan | Aylık kredi kartı tabanlı abonelikler | MSDN abonelikleri | Öğrenciler için Azure, ücretsiz denemeler |
|---|---|---|---|---|---|
gpt-4.1 |
5B | 200M | 50 Milyon | 90 bin | Mevcut Değil |
gpt-4.1 mini |
15B | 1B | 50 Milyon | 90 bin | Mevcut Değil |
gpt-4.1-nano |
15B | 1B | 50 Milyon | 90 bin | Mevcut Değil |
gpt-4o |
5B | 200M | 50 Milyon | 90 bin | Mevcut Değil |
gpt-4o-mini |
15B | 1B | 50 Milyon | 90 bin | Mevcut Değil |
gpt-4-turbo |
300 Milyon | 80M | 40M | 90 bin | Mevcut Değil |
gpt-4 |
150M | 30M | 5M | 100.000 | Mevcut Değil |
o3-mini |
15B | 1B | 50 Milyon | 90 bin | Mevcut Değil |
o4-mini |
15B | 1B | 50 Milyon | 90 bin | Mevcut Değil |
gpt-5 |
5B | 200M | 50 Milyon | 90 bin | Mevcut Değil |
gpt-5.1 |
5B | 200M | 50 Milyon | 90 bin | Mevcut Değil |
B = milyar | M = milyon | K = bin
Veri bölgesi kümesi
| Model | Enterprise ve MCA-E | Varsayılan | Aylık kredi kartı tabanlı abonelikler | MSDN abonelikleri | Öğrenciler için Azure, ücretsiz denemeler |
|---|---|---|---|---|---|
gpt-4.1 |
500 Milyon | 30M | 30M | 90 bin | Mevcut Değil |
gpt-4.1-mini |
1,5B | 100 M | 50 Milyon | 90 bin | Mevcut Değil |
gpt-4o |
500 Milyon | 30M | 30M | 90 bin | Mevcut Değil |
gpt-4o-mini |
1,5B | 100 M | 50 Milyon | 90 bin | Mevcut Değil |
o3-mini |
1,5B | 100 M | 50 Milyon | 90 bin | Mevcut Değil |
gpt-5 |
5B | 200M | 50 Milyon | 90 bin | Mevcut Değil |
gpt-5.1 |
5B | 200M | 50 Milyon | 90 bin | Mevcut Değil |
gpt-oss
| Model | Dakika başına belirteçler (TPM) | Dakika başına istek sayısı (RPM) |
|---|---|---|
gpt-oss-120b |
5 milyon | 5 K |
Kullanım katmanları
Genel Standart dağıtımlar, Azure genel altyapısını kullanır. Müşteri trafiğini, müşterinin çıkarım istekleri için en iyi kullanılabilirlikle veri merkezine dinamik olarak yönlendirir. Benzer şekilde, Veri Bölgesi Standart dağıtımları, trafiği her istek için en iyi kullanılabilirliğe sahip Microsoft tanımlı veri bölgesi içindeki veri merkezine dinamik olarak yönlendirmek için Azure genel altyapısını kullanmanıza olanak sağlar. Bu uygulama, düşük ve orta düzeyde trafiğe sahip müşteriler için daha tutarlı gecikme süresi sağlar. Kullanım düzeyleri yüksek olan müşteriler yanıt gecikme süresinde daha fazla değişkenlik görebilir.
Azure OpenAI kullanım katmanları, düşük ve orta düzeyde trafiğe sahip müşterilerin çoğu için tutarlı performans sağlamak üzere tasarlanmıştır. Her kullanım katmanı, öngörülebilir gecikme süresiyle bekleyebileceğiniz maksimum aktarım hızını (dakika başına düşen belirteç sayısı) tanımlar. Kullanımınız atanan katmanınız içinde kaldığında gecikme süresi kararlı kalır ve yanıt süreleri tutarlı olur.
Kullanım katmanınızı aşarsanız ne olur?
- İstek aktarım hızınız kullanım katmanınızı (özellikle talebin yüksek olduğu dönemlerde) aşıyorsa yanıt gecikme süreniz önemli ölçüde artabilir.
- Gecikme süresi farklılık gösterebilir ve bazı durumlarda kullanım katmanınızda çalışırken iki kat daha yüksek olabilir.
- Bu değişkenlik, yüksek sürekli kullanım veya yoğun trafik desenleri olan müşteriler için en belirgindir.
Kullanım katmanınızı aşarsanız önerilen eylemler
429 hatalarıyla karşılaşırsanız veya gecikme süresi değişkenliğinin arttığını fark ederseniz yapmanız gerekenler şunlardır:
- Kota artışı isteyin: aboneliğiniz için daha yüksek bir kota istemek için Azure portalını ziyaret edin.
- Premium teklife (PTU) yükseltmeyi göz önünde bulundurun: Gecikme süresi açısından kritik veya yüksek hacimli iş yükleri için Sağlanan Aktarım Hızı Birimleri'ne (PTU) yükseltin. PTU, uygun ölçekte bile ayrılmış kaynaklar, garantili kapasite ve öngörülebilir gecikme süresi sağlar. Bu, tutarlı performans gerektiren görev açısından kritik uygulamalar için en iyi seçenektir.
- Kullanımınızı izleme: Katman sınırlarınızda çalıştığınızdan emin olmak için Azure portalında kullanım ölçümlerinizi düzenli olarak gözden geçirin. İş yükü veya dağıtım stratejinizi gerektiği gibi ayarlayın.
Belirteç kullanımı ölçümleri kotanızın altında görünse bile 429 (Çok Fazla İstek) yanıtı alabilirsiniz.
Bu durum aşağıdaki senaryolarda oluşabilir:
- Giriş veya bağlam uzunluğu sınırları (HTTP 400) nedeniyle reddedilen istekler. Bu istekler faturalandırılmaz ve belirteç kullanımı ölçümlerinde görünmeyebilir, ancak yine de oran sınırlaması kapsamında sayılabilir.
- Olası belirteç kullanımına (örneğin, ) göre değerlendirilen istekler,
max_tokenssonuçta belirteç oluşturulmasa bile. - Zorlamanın tam olarak kesin veya toplu ölçümlere hemen yansıtılmayabileceği dağıtılmış hız sınırlama davranışı.
Kullanım sınırı, müşterilerin yanıt gecikme süresinde daha büyük değişkenlik görebileceği kullanım düzeyini belirler. Müşterinin kullanımı model başına tanımlanır. Bu, belirli bir kiracı için tüm bölgelerdeki tüm aboneliklerdeki tüm dağıtımlarda kullanılan toplam belirteç sayısıdır.
Uyarı
Kullanım katmanları yalnızca Standart, Veri Bölgesi Standart ve Genel Standart dağıtım türleri için geçerlidir. Kullanım katmanları, küresel toplu işlemler ve sağlanmış aktarım kapasitesi dağıtımları için geçerli değildir.
Genel Standart, Veri Bölgesi Standardı ve Standart
| Model | Aylık kullanım seviyeleri |
|---|---|
gpt-5 |
32 milyar belirteç |
gpt-5-mini |
160 milyar belirteç |
gpt-5-nano |
800 milyar belirteç |
gpt-5-chat |
32 milyar belirteç |
gpt-4
+
gpt-4-32k (tüm sürümler) |
6 milyar token |
gpt-4o |
12 milyar belirteç |
gpt-4o-mini |
85 milyar belirteç |
o3-mini |
50 milyar belirteç |
o1 |
4 milyar belirteç |
o4-mini |
50 milyar belirteç |
o3 |
5 milyar belirteç |
gpt-4.1 |
30 milyar belirteç |
gpt-4.1-mini |
150 milyar belirteç |
gpt-4.1-nano |
550 milyar belirteç |
Hız sınırları içinde kalmak için genel en iyi yöntemler
Hız sınırlarıyla ilgili sorunları en aza indirmek için aşağıdaki teknikleri kullanmak iyi bir fikirdir:
- Uygulamanıza yeniden deneme mantığı ekleyin.
- İş yükünde ani değişikliklerden kaçının. İş yükünü kademeli olarak artırın.
- Farklı yük artışı desenlerini test edin.
- Dağıtımınıza atanan kotayı artırın. Gerekirse kotayı başka bir dağıtımdan taşıyın.
Kota artışı isteme
Azure tarafından doğrudan satılan Foundry modelleri, Azure OpenAI modelleri ve Antropik modelleri için kota artışı talep etmek amacıyla kota artışı isteği formunu gönderin. Antropik modeller dışında iş ortakları ve topluluk modelleri kota artışlarını desteklemez.
Kota artışı istekleri alındıkları sırayla işlenir ve öncelik, mevcut kota ayırmalarını etkin bir şekilde kullanan müşterilere gider. Bu koşula uymayen istekler reddedilebilir.
Bölgesel kota kapasite sınırları
Foundry portal'nda aboneliğinizin bölgeye göre kota kullanılabilirliğini görüntüleyebilirsiniz.
Belirli bir model veya sürüm için bölgeye göre kota kapasitesini görüntülemek için aboneliğinizin kapasite API'sini sorgulayabilirsiniz. Bir subscriptionId, model_name ve model_version sağlayın ve API, bu model için aboneliğiniz kapsamında tüm bölgelerde ve dağıtım türlerinde kullanılabilir kapasiteyi döndürür.
Uyarı
Şu anda hem Foundry portalı hem de kapasite API'si , kullanımdan kaldırılıp artık kullanılamamakta olan modeller için kota/kapasite bilgilerini döndürür.
Örneği çalıştırmadan önce:
- Bağımlılıkları yükleme:
pip install azure-identity requests - Aboneliğin model kapasitelerini okuyabilen bir Azure kimliğiyle oturum açın.
import requests
import json
from azure.identity import DefaultAzureCredential
subscriptionId = "Replace with your subscription ID" #replace with your subscription ID
model_name = "gpt-4o" # Example value, replace with model name
model_version = "2024-08-06" # Example value, replace with model version
token_credential = DefaultAzureCredential()
token = token_credential.get_token('https://management.azure.com/.default')
headers = {'Authorization': 'Bearer ' + token.token}
url = f"https://management.azure.com/subscriptions/{subscriptionId}/providers/Microsoft.CognitiveServices/modelCapacities"
params = {
"api-version": "2024-06-01-preview",
"modelFormat": "OpenAI",
"modelName": model_name,
"modelVersion": model_version
}
response = requests.get(url, params=params, headers=headers)
model_capacity = response.json()
print(json.dumps(model_capacity, indent=2))
İlgili içerik
- Azure OpenAI dağıtımlarınız için kotayı nasıl yöneteceğinizi keşfedin.
- Azure OpenAI'yi destekleyen temel modeller hakkında daha fazla bilgi edinin.