Microsoft Dökümhane modelleri için öncelik işlemeyi etkinleştirme

Öncelik işleme, kullandıkça öde esnekliğiyle düşük gecikme süresi performansı sağlar. Bu makalede, model dağıtımında öncelik işlemeyi etkinleştirir, isteklerinizi hangi hizmet katmanının işlediğini doğrular ve ilişkili maliyetleri izlersiniz.

Önkoşullar

Azure aboneliği - ücretsiz bir abonelik oluşturma.
GlobalStandard veya DataZoneStandard dağıtım türüne sahip bir Microsoft Foundry projesi.
Model sürümleri 2025-12-01 veya üzeri.

Önemli kullanım örnekleri

Duyarlı kullanıcı deneyimleri için tutarlı ve düşük gecikme süresi.
Uzun vadeli taahhütler olmadan kullandıkça öde basitliği.
Ölçeklenebilir, uygun maliyetli performanstan yararlanan mesai saati veya yoğun trafik. İsteğe bağlı olarak, kararlı durum kapasitesi ve maliyet iyileştirme için öncelik işlemeyi Sağlanan Aktarım Hızı Birimleri (PTU) ile birleştirebilirsiniz.

Gecikme süresi hedefi

Modeli	Gecikme süresi hedef değeri²
gpt-5.4, 2026-03-05¹	Saniyede 50 Jeton %99 >
gpt-5.2, 2025-12-11	Saniyede 50 Jeton %99 >
gpt-5.1, 2025-11-13	Saniyede 50 Jeton %99 >
gpt-4.1, 2025-04-14¹	Saniyede 80 Token %99

¹ Uzun bağlam istekleri (yani 128 bin belirteçten fazla olan istekler) standart işlemeye indirilecek ve standart katman ücretinden faturalandırılacaksınız.

² 5 dakikada bir p50 istek gecikmesi olarak hesaplanır.

Dağıtım türüne göre öncelikli işleme uygunluğu

Öncelik işleme, Genel standart dağıtımlarda veya Veri Bölgesi standart (ABD) dağıtımlarında etkinleştirilebilir. Fiyatlandırma bilgileri için bkz. Azure OpenAI fiyatlandırma sayfası.

Genel standart
Veri Bölgesi standardı

Genel standart model kullanılabilirliği

Bölge	gpt-5.5, 2026-04-24	gpt-5.4-mini, 2026-03-17	gpt-5.4, 2026-03-05	gpt-5.2, 2025-12-11	gpt-5.1, 2025-11-13	gpt-4.1, 2025-04-14
australiaeast	-	✅	✅	✅	✅	✅
brazilsouth	-	✅	✅	✅	✅	✅
canadacentral	-	✅	✅	✅	✅	✅
canadaeast	-	✅	✅	✅	✅	✅
centralus	-	✅	✅	✅	✅	✅
eastus	-	✅	✅	✅	✅	✅
eastus2	✅	✅	✅	✅	✅	-
francecentral	-	✅	✅	✅	✅	✅
Almanya Batı Merkez	-	✅	✅	✅	✅	✅
italynorth	-	✅	✅	✅	✅	✅
japaneast	-	✅	✅	✅	✅	✅
koreacentral	-	✅	✅	✅	✅	✅
northcentralus	-	✅	✅	✅	✅	✅
norwayeast	-	✅	✅	✅	✅	✅
Polonya Merkezi	✅	✅	✅	✅	✅	✅
southafricanorth	-	✅	✅	✅	✅	✅
southcentralus	✅	✅	✅	✅	✅	✅
southeastasia	-	✅	✅	✅	✅	✅
Güney Hindistan	-	✅	✅	✅	✅	✅
spaincentral	-	✅	✅	✅	✅	✅
swedencentral	✅	✅	✅	✅	✅	✅
İsviçrenin Kuzeyi	-	✅	✅	✅	✅	✅
İsviçre Batısı	-	✅	✅	✅	✅	✅
uaenorth	-	✅	✅	✅	✅	✅
uksouth	-	✅	✅	✅	✅	✅
westeurope	-	✅	✅	✅	✅	✅
westus	-	✅	✅	✅	✅	✅
westus3	-	✅	✅	✅	✅	✅

Veri bölgesi standart model kullanılabilirliği

Bölge	gpt-5.5, 2026-04-24	gpt-5.4-mini, 2026-03-17	gpt-5.4, 2026-03-05	gpt-5.2, 2025-12-11	gpt-5.1, 2025-11-13	gpt-4.1, 2025-04-14
centralus	-	✅	✅	✅	✅	✅
eastus	-	✅	✅	✅	✅	✅
eastus2	✅	✅	✅	✅	✅	-
northcentralus	-	✅	✅	✅	✅	✅
southcentralus	✅	✅	✅	✅	✅	✅
westus	-	✅	✅	✅	✅	✅
westus3	-	✅	✅	✅	✅	✅

Dağıtım düzeyinde öncelik işlemeyi etkinleştirme

Öncelik işlemeyi dağıtım düzeyinde ve (isteğe bağlı olarak) istek düzeyinde etkinleştirebilirsiniz.

Not

Öncelik işleme, Genel standart veya Veri Bölgesi standart (ABD) dağıtımlarında etkinleştirilebilir. Öncelik işleme, standart işleme ile aynı kotayı kullanır.

Microsoft Foundry portalında, dağıtımı oluştururken dağıtım ayrıntıları sayfasında Öncelikli işleme seçeneğini etkinleştirin veya dağıtılan modelin ayarını, dağıtım ayrıntılarını düzenleyerek güncelleyin.

Not

Dağıtım düzeyinde öncelik işlemeyi etkinleştirmek için kodu kullanmayı tercih ediyorsanız, özniteliğini aşağıdaki gibi ayarlayarak service_tier dağıtım için REST API aracılığıyla bunu yapabilirsiniz: "properties" : {"service_tier" : "priority"}. service_tier özniteliği için izin verilen değerler default ve priority'dir. default standart işlemeyi ifade ederken priority öncelik işlemeyi etkinleştirir.

Model dağıtımı öncelik işlemeyi kullanacak şekilde yapılandırıldıktan sonra modele istek göndermeye başlayabilirsiniz.

Kullanım ölçümlerini görüntüleme

Kaynağınızın kullanım ölçüsünü Azure portalının Azure İzleyici bölümünde görüntüleyebilirsiniz.

Standart işleme ve öncelik işleme tarafından işlenen isteklerin hacmini görüntülemek için, özgün istekteki hizmet katmanına (standart veya öncelik) göre bölün:

adresinde https://portal.azure.comoturum açın.
Azure OpenAI kaynağınıza gidin ve sol gezinti bölmesinden Metrics seçeneğini belirleyin.
Ölçümler sayfasında Azure OpenAI istekleri ölçümünü ekleyin. Ayrıca Azure OpenAI gecikme süresi, Azure OpenAI kullanımı ve diğerleri gibi diğer ölçümleri de seçebilirsiniz.
Öncelik işleme isteklerinin işlendiği standart dağıtımı seçmek için Filtre ekle'yi seçin.
Değerleri ServiceTierRequest ve ServiceTierResponse değerlerine göre bölmek için Bölme uygula'yı seçin.

Dağıtımlarınızı izleme hakkında daha fazla bilgi için bkz. Monitor Azure OpenAI.

Maliyetleri izleme

Dağıtım adını ve faturalama etiketlerini aşağıdaki gibi filtreleyerek Azure portalının maliyet analizi sayfasında öncelik ve standart isteklerin maliyetlerinin dökümünü görebilirsiniz:

Azure portalında maliyet analizi sayfasına gidin.
(İsteğe bağlı) Kaynağa göre filtreleyin.
Dağıtım adına göre filtrelemek için: Faturalama etiketine> filtre ekleyin, değer olarak dağıtımı seçin ve ardından dağıtım adınızı seçin.

Öncelik işleme fiyatlandırması hakkında bilgi için bkz. Azure OpenAI Service fiyatlandırmaya genel bakış.

İstek düzeyinde öncelik işlemeyi etkinleştirme

İstek düzeyinde öncelik işlemeyi etkinleştirme isteğe bağlıdır. Hem sohbet tamamlama API'sinin hem de yanıtlar API'sinin isteğe bağlı bir özniteliği service_tier vardır ve istek sunarken kullanılacak işleme türünü belirtir. Aşağıdaki örnek, yanıt isteğinde service_tier'i priority olarak nasıl ayarlayacağınızı göstermektedir.

curl -X POST https://YOUR-RESOURCE-NAME.openai.azure.com/openai/v1/responses \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $AZURE_OPENAI_AUTH_TOKEN" \
  -d '{
     "model": "gpt-4.1",
     "input": "This is a test",
     "service_tier": "priority"
    }'

service_tier Dağıtım düzeyi ayarını geçersiz kılmak için özniteliğini kullanın. service_tier, autove defaultdeğerlerini priorityalabilir.

özniteliğini ayarlamazsanız, varsayılan olarak olur auto.
service_tier = auto , isteğin dağıtımda yapılandırılan hizmet katmanını kullandığı anlamına gelir.
service_tier = default , isteğin seçilen model için standart fiyatlandırmayı ve performansı kullandığı anlamına gelir.
service_tier = priority , isteğin öncelik işleme hizmet katmanını kullandığı anlamına gelir.

Aşağıdaki tabloda, service_tier için hizmet katmanlarının, dağıtım düzeyi ve istek düzeyi ayarlarına göre isteklerinizi nasıl işlediği özetlenmektedir.

Dağıtım düzeyi ayarı	İstek düzeyi ayarı	Hizmet katmanı tarafından işlenen istek
Varsayılan	otomatik, varsayılan	Standart
Varsayılan	Öncelik	Öncelik işleme
Öncelik	otomatik, öncelik	Öncelik işleme
Öncelik	Varsayılan	Standart

Sınırlama

Hizmet şu anda bölgesel standart dağıtımları ve AB veri bölgesi standart dağıtımlarını desteklememektedir.
Hizmet, bu senaryolar sırasında bazı öncelikli istekleri standart işlemeye* yeniden yönlendirebilir:
- Öncelik işleme belirteçlerinizin dakika başına hızla artması rampa hızı sınırlarına çarpmaya yol açarsa. Şu anda rampa oranı sınırı, trafiğin 15 dakikadan daha az bir sürede dakikada %50 token artışı sağlaması olarak tanımlanmaktadır.
- Öncelikli işlemeye yönelik isteklerin yoğun olduğu dönemlerde.
- Gecikme süresi hedef tablosunda listelenen belirli modellere gönderilen uzun bağlam istekleri.
Ipucu

Düzenli olarak rampa oranı sınırlarıyla karşılaşırsanız, öncelik işleme yerine veya buna ek olarak PTU satın almayı göz önünde bulundurun.

* Hizmet, standart hizmet katmanı tarafından işlenen istekleri standart fiyatlarla faturalar. Standart hizmet katmanı tarafından işlenen istekler yanıta dahil service_tier = default edilirken, öncelik işleme katmanı tarafından işlenen istekler yanıta dahildir service_tier = priority .

Sorun giderme

Sorunu	Neden	Çözünürlük
Standart seviyeye düşürülen istekler	Bu durumlardan biri: - Trafik 15 dakikadan daha az bir süre içinde dakikada 50% belirteci artırarak rampa hızı sınırına ulaştı. - Öncelikli işlemeye yönelik isteklerin yoğun olduğu dönemlerde gönderilen istekler. - Gecikme süresi hedef tablosunda listelenen belirli modellere gönderilen uzun bağlam istekleri.	- Rampa hızı sınırlarıyla karşılaştıysanız trafiği kademeli olarak artırın. - Sabit durum kapasitesi için PTU satın almayı göz önünde bulundurun.

Geri Bildirim

Bu sayfayı yararlı buldunuz mu?

Last updated on 2026-04-30