Aracılığıyla paylaş


Microsoft Foundry modelleri için öncelik işlemeyi etkinleştirme (önizleme)

Önemli

Öncelik işleme önizleme aşamasındadır ve yalnızca davetle kullanılabilir. Daha geniş bir kullanıma sunulduğunda bildirim almak için buraya kaydolun.

Bu önizleme, hizmet düzeyi sözleşmesi olmadan sağlanır ve üretim iş yükleri için önerilmez. Bazı özellikler desteklenmiyor olabileceği gibi özellikleri sınırlandırılmış da olabilir. Daha fazla bilgi için bkz. Microsoft Azure Önizlemeleri için Ek Kullanım Koşulları.

Öncelik işleme, kullandıkça öde esnekliğiyle düşük gecikme süresi performansı sağlar. Jeton modeliyle kullandıkça ödeme sistemi üzerinde çalışır, uzun vadeli sözleşme taahhütleri olmadan hızlı yanıt süreleri sunar. Bu makalede, model dağıtımında öncelik işlemeyi etkinleştirir, isteklerinizi hangi hizmet katmanının işlediğini doğrular ve ilişkili maliyetleri izlersiniz.

Önkoşullar

  • Azure aboneliği - Ücretsiz bir abonelik oluşturun.
  • Dağıtım türü GlobalStandard veya DataZoneStandard olan bir modele dağıtılan bir Microsoft Foundry projesi.
  • Öncelikli işlem önizlemesine kabul edildi. Öncelik işleme daha geniş bir kullanıma sunulduğunda bildirim almak için buraya kaydolun.
  • API sürümü 2025-10-01-preview veya üstü.

Genel Bakış

Fayda -ları

  • Tahmin edilebilir düşük gecikme süresi: Daha hızlı, daha tutarlı belirteç oluşturma.
  • Kullanımı kolay esneklik: Standart kullandıkça öde işleme gibi, önceden sağlama ve rezervasyon gerektirmek yerine esnek, kullandıkça öde temelinde erişim önceliği işleme.

Önemli kullanım örnekleri

  • Duyarlı kullanıcı deneyimleri için tutarlı ve düşük gecikme süresi.
  • Uzun vadeli taahhütler olmadan kullandıkça öde basitliği.
  • Ölçeklenebilir, uygun maliyetli performanstan yararlanan iş saati veya ani trafik. İsteğe bağlı olarak, kararlı durum kapasitesi ve maliyet iyileştirme için öncelik işlemeyi Sağlanan Aktarım Hızı Birimleri (PTU) ile birleştirebilirsiniz.

Limits

  • Rampa sınırı: Öncelik işleme belirteçlerinizde dakika başına hızlı artışlar , rampa hızı sınırlarına çarpmanıza neden olabilir. Rampa hızı sınırını aşarsanız, hizmet bunun yerine standart işlemeye ek trafik gönderebilir.

  • Kota: Öncelik işleme, standart işleme ile aynı kotayı kullanır. Bu, öncelik işleme özelliği etkinleştirilmiş dağıtımınızın mevcut standart ayırmanızdan kotayı tükettiği anlamına gelir.

Öncelik işleme desteği

Genel standart model kullanılabilirliği

Region gpt-4.1, 2025-04-14
eastus 2
Sweden Central
westus3

Uyarı

Model ve bölge kullanılabilirliği önizleme döneminde genişleyebilir. Güncelleştirmeler için bu sayfayı denetleyin.

Bilinen sorunlar

Öncelik işleme şu anda şu sınırlamalara sahiptir ve düzeltmeler devam etmektedir:

  • gpt-4.1 için uzun bağlam sınırı: Hizmet, 128.000 belirteci aşan istekleri desteklemez ve HTTP 400 hatası döndürür.

  • PTU taşma desteği yok: Hizmet henüz PTU'nun öncelik işleme özellikli dağıtıma geçişini desteklemez. Taşma davranışına ihtiyacınız varsa Azure API Management'ı kullanarak kendi mantığınızı uygulayın.

  • Yanıtlar API'sinde akış kullanılırken yanlış service_tier değeri: Yanıtlar API'sini kullanarak yanıt akışı yaparken kapasite service_tier kısıtlamaları veya rampa sınırları isteğin standart katman tarafından sunulmaya neden olmasına neden olsa bile alan yanlış bir şekilde "öncelik" döndürebilir. Bu durumda için service_tier beklenen değer "varsayılan"dır.

Dağıtım düzeyinde öncelik işlemeyi etkinleştirme

Öncelik işlemeyi dağıtım düzeyinde ve (isteğe bağlı olarak) istek düzeyinde etkinleştirebilirsiniz.

Microsoft Foundry portalında, dağıtım kurulumu sırasında öncelik işlemeyi etkinleştirebilirsiniz. Dağıtımı oluştururken dağıtım ayrıntıları sayfasında Öncelik işleme (önizleme) iki durumlu düğmesini açın veya dağıtım ayrıntılarını düzenleyerek dağıtılan modelin ayarını güncelleştirin.

Foundry portalında model dağıtımı sırasında öncelik işlemeyi etkinleştirmeyi gösteren ekran görüntüsü.

Uyarı

Dağıtım düzeyinde öncelik işlemeyi etkinleştirmek için kodu kullanmayı tercih ediyorsanız, özniteliğini aşağıdaki gibi ayarlayarak service_tier dağıtım için REST API aracılığıyla bunu yapabilirsiniz: "properties" : {"service_tier" : "priority"}. service_tier özniteliği için izin verilen değerler default ve priority'dir. default standart işlemeyi ifade ederken priority öncelik işlemeyi etkinleştirir.

Model dağıtımı öncelik işlemeyi kullanacak şekilde yapılandırıldıktan sonra modele istek göndermeye başlayabilirsiniz.

Kullanım ölçütlerini görüntüle

Kaynağınızın kullanım ölçüsünü Azure portalının Azure İzleyici bölümünde görüntüleyebilirsiniz.

Standart işleme ve öncelik işleme tarafından işlenen isteklerin hacmini görüntülemek için, özgün istekteki hizmet katmanına (standart veya öncelik) göre bölün:

  1. https://portal.azure.com'da oturum açın.
  2. Azure OpenAI kaynağınıza gidin ve sol gezinti bölmesinden Ölçümler seçeneğini belirleyin.
  3. Ölçümler sayfasında Azure OpenAI istekleri ölçümünü ekleyin. Azure OpenAI gecikme süresi, Azure OpenAIkullanımı ve diğerleri gibi diğer ölçümleri de seçebilirsiniz.
  4. Öncelik işleme isteklerinin işlendiği standart dağıtımı seçmek için Filtre ekle'yi seçin.
  5. Değerleri ServiceTierRequest ve ServiceTierResponse değerlerine göre bölmek için Bölme uygula'yı seçin.

Azure portalındaki kaynağın ölçümler sayfasındaki öncelik işleme kullanımının ekran görüntüsü.

Dağıtımlarınızı izleme hakkında daha fazla bilgi için bkz. Azure OpenAI'yi izleme.

Maliyetleri izleme

Dağıtım adını ve faturalama etiketlerini aşağıdaki gibi filtreleyerek Azure portalının maliyet analizi sayfasında öncelik ve standart isteklerin maliyetlerinin dökümünü görebilirsiniz:

  1. Azure portalında maliyet analizi sayfasına gidin.
  2. (İsteğe bağlı) Kaynağa göre filtreleyin.
  3. Dağıtım adına göre filtrelemek için: Faturalama etiketine> filtre ekleyin, değer olarak dağıtımı seçin ve ardından dağıtım adınızı seçin.

Azure portalındaki kaynağın maliyet analizi sayfasındaki öncelik işleme kullanımının ekran görüntüsü.

Öncelik işleme fiyatlandırması hakkında bilgi için bkz. Azure OpenAI Hizmeti fiyatlandırmaya genel bakış.

İstek düzeyinde öncelik işlemeyi etkinleştirme

İstek düzeyinde öncelik işlemeyi etkinleştirme isteğe bağlıdır. Hem sohbet tamamlama API'sinin hem de yanıtlar API'sinin isteğe bağlı bir özniteliği service_tier vardır ve istek sunarken kullanılacak işleme türünü belirtir. Aşağıdaki örnek, yanıt isteğinde service_tier'un priority olarak nasıl ayarlanacağını göstermektedir.

curl -X POST https://YOUR-RESOURCE-NAME.openai.azure.com/openai/v1/responses \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $AZURE_OPENAI_AUTH_TOKEN" \
  -d '{
     "model": "gpt-4.1",
     "input": "This is a test",
     "service_tier": "priority"
    }'

service_tier Dağıtım düzeyi ayarını geçersiz kılmak için özniteliğini kullanın. service_tier, autove defaultdeğerlerini priorityalabilir.

  • özniteliğini ayarlamazsanız, varsayılan olarak olur auto.

  • service_tier = auto , isteğin dağıtımda yapılandırılan hizmet katmanını kullandığı anlamına gelir.

  • service_tier = default , isteğin seçilen model için standart fiyatlandırmayı ve performansı kullandığı anlamına gelir.

  • service_tier = priority , isteğin öncelik işleme hizmet katmanını kullandığı anlamına gelir.

Aşağıdaki tablo, service_tier dağıtım düzeyi ve istek düzeyi ayarlarına göre isteklerinizi hangi hizmet katmanının işlediğini özetlemektedir.

Dağıtım düzeyi ayarı İstek düzeyi ayarı Hizmet katmanı tarafından işlenen istek
default otomatik, varsayılan Standart
default priority Öncelik işleme
priority otomatik, öncelik Öncelik işleme
priority default Standart

Gecikme süresi hedefi

Konu gpt-4.1, 2025-04-14
Gecikme Süresi Hedef Değeri 99% > Saniyede 80 Belirteç*

* 5 dakikada bir p50 istek gecikmesi olarak hesaplanır.

Rampa hızı sınırları

Tüm müşteriler için tutarlı bir şekilde yüksek performans sağlamak ve esnek, isteğe bağlı fiyatlandırma sağlamaya devam etmek için öncelikli işleme, rampa oranı sınırlarını zorunlu tutar. Şu anda rampa hızı sınırı, trafiğin 15 dakikadan kısa sürede dakikada 50% belirteci artırması olarak tanımlanmaktadır.

Eski sürüme düşürme koşulları

Öncelik işleme performansı düşer ve müşterinin trafiği çok hızlı artarsa, hizmet bazı öncelik isteklerini standart işlemeye düşürebilir. Hizmet, standart hizmet katmanı tarafından işlenen istekleri standart fiyatlarla faturalar. Bu istekler, öncelik işleme gecikme süresi hedefi için uygun değildir. Standart hizmet katmanı tarafından işlenen istekler yanıta dahildir service_tier = default .

Tavsiye

Düzenli olarak rampa oranı sınırlarıyla karşılaşırsanız, öncelik işleme yerine veya buna ek olarak PTU satın almayı göz önünde bulundurun.

Sorun giderme

Sorun Nedeni Çözüm
Uzun istemlerde HTTP 400 hatası gpt-4.1, öncelik işlemede 128.000 belirteci aşan istekleri desteklemez. Toplam istek belirteçlerini 128.000'in altında tutun. Uzun istemleri daha küçük isteklere bölün.
Standart seviyeye düşürülen istekler Trafik 15 dakikadan daha az bir süre içinde dakikada 50% belirteci artırarak rampa hızı sınırına ulaştı. Trafiği kademeli olarak artırın. Sabit durum kapasitesi için PTU satın almayı göz önünde bulundurun.
PTU taşması çalışmıyor Öncelik işleme, henüz PTU'nun öncelik işleme etkin bir dağıtıma taşmasını desteklemez. Azure API Management kullanarak, özel taşma mantığı uygulayın.
service_tier akış sırasında yanlış değer döndürür Yanıtlar API'sini kullanarak akış yaparken, istek standart katman tarafından sunulduğunda bile service_tier"priority" raporlayabilir. İsteği gerçekten hangi katmanın işlediğini onaylamak için faturalama kayıtlarını denetleyin.

API desteği

API Sürümü
Desteklenen en son önizleme API'si sürümü: 2025-10-01-preview