Not
Bu sayfaya erişim yetkilendirme gerektiriyor. Oturum açmayı veya dizinleri değiştirmeyi deneyebilirsiniz.
Bu sayfaya erişim yetkilendirme gerektiriyor. Dizinleri değiştirmeyi deneyebilirsiniz.
Önemli
Öncelik işleme önizleme aşamasındadır ve yalnızca davetle kullanılabilir. Daha geniş bir kullanıma sunulduğunda bildirim almak için buraya kaydolun.
Bu önizleme, hizmet düzeyi sözleşmesi olmadan sağlanır ve üretim iş yükleri için önerilmez. Bazı özellikler desteklenmiyor olabileceği gibi özellikleri sınırlandırılmış da olabilir. Daha fazla bilgi için bkz. Microsoft Azure Önizlemeleri için Ek Kullanım Koşulları.
Öncelik işleme, kullandıkça öde esnekliğiyle düşük gecikme süresi performansı sağlar. Jeton modeliyle kullandıkça ödeme sistemi üzerinde çalışır, uzun vadeli sözleşme taahhütleri olmadan hızlı yanıt süreleri sunar. Bu makalede, model dağıtımında öncelik işlemeyi etkinleştirir, isteklerinizi hangi hizmet katmanının işlediğini doğrular ve ilişkili maliyetleri izlersiniz.
Önkoşullar
- Azure aboneliği - Ücretsiz bir abonelik oluşturun.
- Dağıtım türü
GlobalStandardveyaDataZoneStandardolan bir modele dağıtılan bir Microsoft Foundry projesi. - Öncelikli işlem önizlemesine kabul edildi. Öncelik işleme daha geniş bir kullanıma sunulduğunda bildirim almak için buraya kaydolun.
- API sürümü
2025-10-01-previewveya üstü.
Genel Bakış
Fayda -ları
- Tahmin edilebilir düşük gecikme süresi: Daha hızlı, daha tutarlı belirteç oluşturma.
- Kullanımı kolay esneklik: Standart kullandıkça öde işleme gibi, önceden sağlama ve rezervasyon gerektirmek yerine esnek, kullandıkça öde temelinde erişim önceliği işleme.
Önemli kullanım örnekleri
- Duyarlı kullanıcı deneyimleri için tutarlı ve düşük gecikme süresi.
- Uzun vadeli taahhütler olmadan kullandıkça öde basitliği.
- Ölçeklenebilir, uygun maliyetli performanstan yararlanan iş saati veya ani trafik. İsteğe bağlı olarak, kararlı durum kapasitesi ve maliyet iyileştirme için öncelik işlemeyi Sağlanan Aktarım Hızı Birimleri (PTU) ile birleştirebilirsiniz.
Limits
Rampa sınırı: Öncelik işleme belirteçlerinizde dakika başına hızlı artışlar , rampa hızı sınırlarına çarpmanıza neden olabilir. Rampa hızı sınırını aşarsanız, hizmet bunun yerine standart işlemeye ek trafik gönderebilir.
Kota: Öncelik işleme, standart işleme ile aynı kotayı kullanır. Bu, öncelik işleme özelliği etkinleştirilmiş dağıtımınızın mevcut standart ayırmanızdan kotayı tükettiği anlamına gelir.
Öncelik işleme desteği
Genel standart model kullanılabilirliği
| Region | gpt-4.1, 2025-04-14 |
|---|---|
| eastus 2 | ✅ |
| Sweden Central | ✅ |
| westus3 | ✅ |
Uyarı
Model ve bölge kullanılabilirliği önizleme döneminde genişleyebilir. Güncelleştirmeler için bu sayfayı denetleyin.
Bilinen sorunlar
Öncelik işleme şu anda şu sınırlamalara sahiptir ve düzeltmeler devam etmektedir:
gpt-4.1 için uzun bağlam sınırı: Hizmet, 128.000 belirteci aşan istekleri desteklemez ve HTTP 400 hatası döndürür.
PTU taşma desteği yok: Hizmet henüz PTU'nun öncelik işleme özellikli dağıtıma geçişini desteklemez. Taşma davranışına ihtiyacınız varsa Azure API Management'ı kullanarak kendi mantığınızı uygulayın.
Yanıtlar API'sinde akış kullanılırken yanlış service_tier değeri: Yanıtlar API'sini kullanarak yanıt akışı yaparken kapasite
service_tierkısıtlamaları veya rampa sınırları isteğin standart katman tarafından sunulmaya neden olmasına neden olsa bile alan yanlış bir şekilde "öncelik" döndürebilir. Bu durumda içinservice_tierbeklenen değer "varsayılan"dır.
Dağıtım düzeyinde öncelik işlemeyi etkinleştirme
Öncelik işlemeyi dağıtım düzeyinde ve (isteğe bağlı olarak) istek düzeyinde etkinleştirebilirsiniz.
Microsoft Foundry portalında, dağıtım kurulumu sırasında öncelik işlemeyi etkinleştirebilirsiniz. Dağıtımı oluştururken dağıtım ayrıntıları sayfasında Öncelik işleme (önizleme) iki durumlu düğmesini açın veya dağıtım ayrıntılarını düzenleyerek dağıtılan modelin ayarını güncelleştirin.
Uyarı
Dağıtım düzeyinde öncelik işlemeyi etkinleştirmek için kodu kullanmayı tercih ediyorsanız, özniteliğini aşağıdaki gibi ayarlayarak service_tier dağıtım için REST API aracılığıyla bunu yapabilirsiniz: "properties" : {"service_tier" : "priority"}.
service_tier özniteliği için izin verilen değerler default ve priority'dir.
default standart işlemeyi ifade ederken priority öncelik işlemeyi etkinleştirir.
Model dağıtımı öncelik işlemeyi kullanacak şekilde yapılandırıldıktan sonra modele istek göndermeye başlayabilirsiniz.
Kullanım ölçütlerini görüntüle
Kaynağınızın kullanım ölçüsünü Azure portalının Azure İzleyici bölümünde görüntüleyebilirsiniz.
Standart işleme ve öncelik işleme tarafından işlenen isteklerin hacmini görüntülemek için, özgün istekteki hizmet katmanına (standart veya öncelik) göre bölün:
- https://portal.azure.com'da oturum açın.
- Azure OpenAI kaynağınıza gidin ve sol gezinti bölmesinden Ölçümler seçeneğini belirleyin.
- Ölçümler sayfasında Azure OpenAI istekleri ölçümünü ekleyin. Azure OpenAI gecikme süresi, Azure OpenAIkullanımı ve diğerleri gibi diğer ölçümleri de seçebilirsiniz.
- Öncelik işleme isteklerinin işlendiği standart dağıtımı seçmek için Filtre ekle'yi seçin.
- Değerleri ServiceTierRequest ve ServiceTierResponse değerlerine göre bölmek için Bölme uygula'yı seçin.
Dağıtımlarınızı izleme hakkında daha fazla bilgi için bkz. Azure OpenAI'yi izleme.
Maliyetleri izleme
Dağıtım adını ve faturalama etiketlerini aşağıdaki gibi filtreleyerek Azure portalının maliyet analizi sayfasında öncelik ve standart isteklerin maliyetlerinin dökümünü görebilirsiniz:
- Azure portalında maliyet analizi sayfasına gidin.
- (İsteğe bağlı) Kaynağa göre filtreleyin.
- Dağıtım adına göre filtrelemek için: Faturalama etiketine> filtre ekleyin, değer olarak dağıtımı seçin ve ardından dağıtım adınızı seçin.
Öncelik işleme fiyatlandırması hakkında bilgi için bkz. Azure OpenAI Hizmeti fiyatlandırmaya genel bakış.
İstek düzeyinde öncelik işlemeyi etkinleştirme
İstek düzeyinde öncelik işlemeyi etkinleştirme isteğe bağlıdır. Hem sohbet tamamlama API'sinin hem de yanıtlar API'sinin isteğe bağlı bir özniteliği service_tier vardır ve istek sunarken kullanılacak işleme türünü belirtir. Aşağıdaki örnek, yanıt isteğinde service_tier'un priority olarak nasıl ayarlanacağını göstermektedir.
curl -X POST https://YOUR-RESOURCE-NAME.openai.azure.com/openai/v1/responses \
-H "Content-Type: application/json" \
-H "Authorization: Bearer $AZURE_OPENAI_AUTH_TOKEN" \
-d '{
"model": "gpt-4.1",
"input": "This is a test",
"service_tier": "priority"
}'
service_tier Dağıtım düzeyi ayarını geçersiz kılmak için özniteliğini kullanın.
service_tier, autove defaultdeğerlerini priorityalabilir.
özniteliğini ayarlamazsanız, varsayılan olarak olur
auto.service_tier = auto, isteğin dağıtımda yapılandırılan hizmet katmanını kullandığı anlamına gelir.service_tier = default, isteğin seçilen model için standart fiyatlandırmayı ve performansı kullandığı anlamına gelir.service_tier = priority, isteğin öncelik işleme hizmet katmanını kullandığı anlamına gelir.
Aşağıdaki tablo, service_tier dağıtım düzeyi ve istek düzeyi ayarlarına göre isteklerinizi hangi hizmet katmanının işlediğini özetlemektedir.
| Dağıtım düzeyi ayarı | İstek düzeyi ayarı | Hizmet katmanı tarafından işlenen istek |
|---|---|---|
| default | otomatik, varsayılan | Standart |
| default | priority | Öncelik işleme |
| priority | otomatik, öncelik | Öncelik işleme |
| priority | default | Standart |
Gecikme süresi hedefi
| Konu | gpt-4.1, 2025-04-14 |
|---|---|
| Gecikme Süresi Hedef Değeri | 99% > Saniyede 80 Belirteç* |
* 5 dakikada bir p50 istek gecikmesi olarak hesaplanır.
Rampa hızı sınırları
Tüm müşteriler için tutarlı bir şekilde yüksek performans sağlamak ve esnek, isteğe bağlı fiyatlandırma sağlamaya devam etmek için öncelikli işleme, rampa oranı sınırlarını zorunlu tutar. Şu anda rampa hızı sınırı, trafiğin 15 dakikadan kısa sürede dakikada 50% belirteci artırması olarak tanımlanmaktadır.
Eski sürüme düşürme koşulları
Öncelik işleme performansı düşer ve müşterinin trafiği çok hızlı artarsa, hizmet bazı öncelik isteklerini standart işlemeye düşürebilir. Hizmet, standart hizmet katmanı tarafından işlenen istekleri standart fiyatlarla faturalar. Bu istekler, öncelik işleme gecikme süresi hedefi için uygun değildir. Standart hizmet katmanı tarafından işlenen istekler yanıta dahildir service_tier = default .
Tavsiye
Düzenli olarak rampa oranı sınırlarıyla karşılaşırsanız, öncelik işleme yerine veya buna ek olarak PTU satın almayı göz önünde bulundurun.
Sorun giderme
| Sorun | Nedeni | Çözüm |
|---|---|---|
| Uzun istemlerde HTTP 400 hatası | gpt-4.1, öncelik işlemede 128.000 belirteci aşan istekleri desteklemez. | Toplam istek belirteçlerini 128.000'in altında tutun. Uzun istemleri daha küçük isteklere bölün. |
| Standart seviyeye düşürülen istekler | Trafik 15 dakikadan daha az bir süre içinde dakikada 50% belirteci artırarak rampa hızı sınırına ulaştı. | Trafiği kademeli olarak artırın. Sabit durum kapasitesi için PTU satın almayı göz önünde bulundurun. |
| PTU taşması çalışmıyor | Öncelik işleme, henüz PTU'nun öncelik işleme etkin bir dağıtıma taşmasını desteklemez. | Azure API Management kullanarak, özel taşma mantığı uygulayın. |
service_tier akış sırasında yanlış değer döndürür |
Yanıtlar API'sini kullanarak akış yaparken, istek standart katman tarafından sunulduğunda bile service_tier"priority" raporlayabilir. |
İsteği gerçekten hangi katmanın işlediğini onaylamak için faturalama kayıtlarını denetleyin. |
API desteği
| API Sürümü | |
|---|---|
| Desteklenen en son önizleme API'si sürümü: | 2025-10-01-preview |