Not
Bu sayfaya erişim yetkilendirme gerektiriyor. Oturum açmayı veya dizinleri değiştirmeyi deneyebilirsiniz.
Bu sayfaya erişim yetkilendirme gerektiriyor. Dizinleri değiştirmeyi deneyebilirsiniz.
ŞUNLAR IÇIN GEÇERLIDIR: Geliştirici | Temel | Temel v2 | Standart | Standart v2 | Premium | Premium v2
azure-openai-token-limit ilkesi, dil modeli belirteçlerinin tüketimini belirtilen bir hız (dakika başına sayı), belirtilen süre veya her ikisi üzerinde bir kotayla sınırlayarak Döküm Modellerinde OpenAI'nin anahtar temelinde ani artışlar Azure önler. Belirtilen belirteç oranı sınırı aşıldığında, çağıran bir 429 Too Many Requests yanıt durum kodu alır. Belirtilen kota aşıldığında, çağıran bir 403 Forbidden yanıt durum kodu alır.
İlke, Azure OpenAI uç noktasından döndürülen belirteç kullanım ölçümlerine bağlı olarak gerçek belirteç tüketimine göre sınırları izler ve uygular. İlke ayrıca API Management tarafından önceden istem belirteçlerinin tahmin edilmesine olanak tanır ve sınır zaten aşılmışsa Azure OpenAI arka ucuna yönelik gereksiz istekleri en aza indirir. Ancak, tüketilen token sayısı hem istem boyutuna hem de tamamlama boyutuna (isteğe göre değişir) bağlı olduğundan, politika toplam token tüketimini önceden tahmin edemez. Bu tasarım, birden fazla talep aynı anda işlendiğinde token sınırlarının geçici olarak aşılmasına olanak tanıyabilir.
Not
İlkenin öğelerini ve alt öğelerini ilke bildiriminde sağlanan sırayla ayarlayın. API Management ilkelerini ayarlama veya düzenleme hakkında daha fazla bilgi edinin.
Microsoft Foundry modellerinde OpenAI Azure desteklenir
İlke, Aşağıdaki türlerdeki Azure OpenAI'den API Management'a API Management ile kullanılır:
| API türü | Desteklenen modeller |
|---|---|
| Sohbet tamamlama | gpt-3.5gpt-4gpt-4ogpt-4o-minio1o3 |
| Eklemeler | text-embedding-3-largetext-embedding-3-smalltext-embedding-ada-002 |
| Yanıtlar (önizleme) |
gpt-4o (Sürümler: 2024-11-20, 2024-08-06, 2024-05-13)gpt-4o-mini (Sürüm: 2024-07-18)gpt-4.1 (Sürüm: 2025-04-14)gpt-4.1-nano (Sürüm: 2025-04-14)gpt-4.1-mini (Sürüm: 2025-04-14)gpt-image-1 (Sürüm: 2025-04-15)o3 (Sürüm: 2025-04-16)o4-mini (Sürüm: '2025-04-16) |
Not
Geleneksel tamamlama API'leri yalnızca eski model sürümleriyle kullanılabilir ve destek sınırlıdır.
Modeller ve özellikleri hakkında güncel bilgiler için bkz. Azure Foundry Modellerinde OpenAI.
İlke bildirimi
<azure-openai-token-limit counter-key="key value"
tokens-per-minute="number"
token-quota="number"
token-quota-period="Hourly | Daily | Weekly | Monthly | Yearly"
estimate-prompt-tokens="true | false"
retry-after-header-name="custom header name, replaces default 'Retry-After'"
retry-after-variable-name="policy expression variable name"
remaining-quota-tokens-header-name="header name"
remaining-quota-tokens-variable-name="policy expression variable name"
remaining-tokens-header-name="header name"
remaining-tokens-variable-name="policy expression variable name"
tokens-consumed-header-name="header name"
tokens-consumed-variable-name="policy expression variable name" />
Özellikler
| Öznitelik | Açıklama | Zorunlu | Varsayılan |
|---|---|---|---|
| counter-key | Belirteç sınırı ilkesi için kullanılacak anahtar. Her anahtar değeri için, ilkenin yapılandırıldığı tüm kapsamlar için tek bir sayaç kullanılır. İlke ifadelerine izin verilir. | Evet | Yok |
| dakika başına belirteç sayısı | Dakika başına istem ve tamamlama tarafından tüketilen en fazla belirteç sayısı. | Hız sınırı (tokens-per-minute), kota (token-quota üzerinden token-quota-period) veya her ikisi de belirtilmelidir. |
Yok |
| belirteç kotası | içinde token-quota-periodbelirtilen zaman aralığında izin verilen en fazla belirteç sayısı. İlke ifadelerine izin verilir. |
Hız sınırı (tokens-per-minute), kota (token-quota üzerinden token-quota-period) veya her ikisi de belirtilmelidir. |
Yok |
| token-quota-period | Sıfırlanan sabit pencerenin token-quota uzunluğu. Değer aşağıdakilerden biri olmalıdır: Hourly,Daily, Weekly, Monthly, Yearly. Kota döneminin başlangıç zamanı, dönem için kullanılan birime (saat, gün vb.) kesilmiş UTC zaman damgası kullanılarak hesaplanır. İlke ifadelerine izin verilir. |
Hız sınırı (tokens-per-minute), kota (token-quota üzerinden token-quota-period) veya her ikisi de belirtilmelidir. |
Yok |
| estimate-prompt-tokens | İstem için gereken belirteç sayısının tahmin edilip edilmeyeceğini belirleyen Boole değeri: - true: API'deki istem şemasına göre belirteç sayısını tahmin edin; performansı düşürebilir. - false: istem belirteçlerini tahmin etmeyin. olarak falseayarlandığında, kalan belirteç sayısı counter-key , modelin yanıtından elde edilen gerçek belirteç kullanımı kullanılarak hesaplanır. Bu, modele belirteç sınırını aşan istemlerin gönderilmesine neden olabilir. Bu durumda, bu yanıtta tespit edilir ve ardından gelen tüm talepler, token sınırı sıfırlanana kadar politika tarafından engellenecektir. |
Evet | Yok |
| retry-after-header-name | Değeri belirtilen tokens-per-minute veya token-quota aşıldıktan sonra saniye cinsinden önerilen yeniden deneme aralığı olan özel yanıt üst bilgisinin adı. İlke ifadelerine izin verilmez. |
Hayır | Retry-After |
| retry-after-variable-name | Önerilen yeniden deneme aralığını belirtilen tokens-per-minute veya token-quota aşıldıktan sonra saniyeler içinde depolayan değişkenin adı. İlke ifadelerine izin verilmez. |
Hayır | Yok |
| remaining-quota-tokens-header-name | Her ilke yürütmeden sonraki değeri için izin verilen kalan belirteçlerin token-quota tahmini sayısı olan yanıt üst bilgisinin token-quota-periodadı. İlke ifadelerine izin verilmez. |
Hayır | Yok |
| remaining-quota-tokens-variable-name | Her ilke yürütmesinin ardından için izin verilen kalan belirteçlerin token-quota tahmini sayısını depolayan değişkenin token-quota-periodadı. İlke ifadelerine izin verilmez. |
Hayır | Yok |
| remaining-tokens-header-name | Her ilke yürütmeden sonraki değeri, zaman aralığı için izin verilen kalan belirteçlerin tokens-per-minute sayısı olan yanıt üst bilgisinin adıdır. İlke ifadelerine izin verilmez. |
Hayır | Yok |
| remaining-tokens-variable-name | Her ilke yürütmeden sonra zaman aralığı için izin verilene karşılık gelen tokens-per-minute kalan belirteçlerin sayısını depolayan bir değişkenin adı. İlke ifadelerine izin verilmez. |
Hayır | Yok |
| tokens-consumed-header-name | Değeri hem istem hem de tamamlama tarafından kullanılan belirteç sayısı olan yanıt üst bilgisinin adı. Üst bilgi yalnızca yanıt arka uçtan alındıktan sonra yanıta eklenir. İlke ifadelerine izin verilmez. | Hayır | Yok |
| tokens-consumed-variable-name | İşlem hattının bölümündeki tahmin edilen belirteç backend sayısıyla başlatılan değişkenin adı (aksi takdirde estimate-prompt-tokens sıfır ise true ). değişken, bölümünde yanıtı outbound aldıktan sonra bildirilen sayı ile güncelleştirilir. |
Hayır | Yok |
Kullanım
- İlke bölümleri: gelen
- İlke kapsamları: genel, çalışma alanı, ürün, API, işlem
- Ağ geçitleri: klasik, v2, şirket içinde barındırılan, çalışma alanı
Kullanım notları
- Bu politika, politika tanımı başına birden fazla kez kullanılabilir
- Bu ilke, portal kullanılarak Azure OpenAI API'sini eklerken isteğe bağlı olarak yapılandırılabilir.
-
estimate-prompt-tokensfalseolarak ayarlandığında kullanılabilir olduğunda, Azure OpenAI API'sinden gelen yanıtın kullanım bölümündeki değerler belirteç kullanımını belirlemek için kullanılır. - Birden fazla istek eşzamanlı veya hafif gecikmelerle gönderildiğinde, politika yapılandırılmış sınırı aşan token tüketimine izin verebilir. Bu, poliçenin geri plandan yanıtlar alınana kadar tüketilen token sayısını tam olarak belirleyememesi nedeniyle gerçekleşir. Yanıtlar işlendikten ve token sınırları aşıldıktan sonra, sonraki talepler sınır sıfırlanana kadar engellenir.
- Bazı Azure OpenAI uç noktaları yanıtların akışını destekler.
streamAkışı etkinleştirmek için API isteğinde olarak ayarlandığındatrue, özniteliğin değerindenestimate-prompt-tokensbağımsız olarak istem belirteçleri her zaman tahmin edilir. Tamamlama belirteçleri, yanıtların akışı yapıldığında da tahmin edilir. - veya
remaining-quota-tokens-variable-namedeğeriremaining-quota-tokens-header-name, bilgilendirme amaçlı bir tahmindir ancak gerçek belirteç tüketimine göre beklenenden daha büyük olabilir. Kotaya yaklaşıldığında değer daha doğru olur. - Görüntü girişini kabul eden modeller için, görüntü belirteçleri genellikle arka uç dil modeli tarafından sayılır ve sınır ve kota hesaplamalarına dahil edilir. Ancak, akış kullanıldığında veya
estimate-prompt-tokensolarak ayarlandığındatrue, ilke şu anda her görüntüyü en fazla 1200 belirteç sayısı olarak fazla sayar. - API Management, ilkede belirttiğiniz her
counter-keydeğer için tek bir sayaç kullanır. Sayaç, ilkenin bu anahtar değeriyle yapılandırıldığı tüm kapsamlarda güncelleştirilir. Farklı kapsamlarda (örneğin, belirli bir API veya ürün) ayrı sayaçlar yapılandırmak istiyorsanız, farklı kapsamlarda farklı anahtar değerleri belirtin. Örneğin, kapsamı ifadenin değerine tanımlayan bir dize ekleyin. - v2 katmanları, klasik katmanlardaki kaydırma pencere algoritmasından farklı olan oran sınırlandırması için token bucket algoritması kullanır. Bu uygulama farkı nedeniyle, aynı kapsamda birden
counter-keyfazla kapsamda token sınırları yapılandırdığınızda, tüm politika örneklerinde değerintokens-per-minutetutarlı olduğundan emin olun. Tutarsız değerler öngörülemez davranışlara yol açabilir. - Bu ilke, çok bölgeli dağıtımdaçalışma alanı ağ geçitleri ve bölgesel ağ geçitleri dahil olmak üzere uygulandığı her ağ geçidinde belirteç kullanımını bağımsız olarak izler. Tüm örnek genelinde belirteç sayılarını toplamaz.
Örnekler
Belirteç hızı sınırı
Aşağıdaki örnekte, dakika başına 5000 belirteç hızı sınırı arayan IP adresi tarafından anahtarlanır. İlke, istem için gereken belirteç sayısını tahmin etmez. Her ilke yürütmeden sonra, zaman aralığında bu çağıranın IP adresi için izin verilen kalan belirteçler değişkeninde remainingTokensdepolanır.
<policies>
<inbound>
<base />
<azure-openai-token-limit
counter-key="@(context.Request.IpAddress)"
tokens-per-minute="5000" estimate-prompt-tokens="false" remaining-tokens-variable-name="remainingTokens" />
</inbound>
<outbound>
<base />
</outbound>
</policies>
Belirteç kotası
Aşağıdaki örnekte, 10000 belirteç kotası abonelik kimliği tarafından anahtarlanır ve aylık olarak sıfırlanır. Her ilke yürütmeden sonra, zaman aralığında söz konusu abonelik kimliği için izin verilen kalan belirteçlerin sayısı değişkeninde remainingQuotaTokensdepolanır.
<policies>
<inbound>
<base />
<azure-openai-token-limit
counter-key="@(context.Subscription.Id)"
token-quota="100000" token-quota-period="Monthly" remaining-quota-tokens-variable-name="remainingQuotaTokens" />
</inbound>
<outbound>
<base />
</outbound>
</policies>
İlgili ilkeler
İlgili içerik
İlkelerle çalışma hakkında daha fazla bilgi için bkz:
- Öğretici: API'nizi dönüştürme ve koruma
- İlke deyimlerinin ve ayarlarının tam listesi için ilke başvurusu
- İlke ifadeleri
- İlkeleri ayarlama veya düzenleme
- İlke yapılandırmalarını yeniden kullanma
- Policy kod parçacıkları deposu
- Policy oyun alanı deposu
- Azure API Management ilke araç seti
- İlkeleri oluşturmak, açıklamak ve sorunlarını gidermek için Copilot yardım alın