Not
Bu sayfaya erişim yetkilendirme gerektiriyor. Oturum açmayı veya dizinleri değiştirmeyi deneyebilirsiniz.
Bu sayfaya erişim yetkilendirme gerektiriyor. Dizinleri değiştirmeyi deneyebilirsiniz.
Öncelik işleme, kullandıkça öde esnekliğiyle düşük gecikme süresi performansı sağlar. Bu makalede, model dağıtımında öncelik işlemeyi etkinleştirir, isteklerinizi hangi hizmet katmanının işlediğini doğrular ve ilişkili maliyetleri izlersiniz.
Önkoşullar
- Azure aboneliği - ücretsiz bir abonelik oluşturma.
-
GlobalStandardveyaDataZoneStandarddağıtım türüne sahip bir Microsoft Foundry projesi. - Model sürümleri
2025-12-01veya üzeri.
Önemli kullanım örnekleri
- Duyarlı kullanıcı deneyimleri için tutarlı ve düşük gecikme süresi.
- Uzun vadeli taahhütler olmadan kullandıkça öde basitliği.
- Ölçeklenebilir, uygun maliyetli performanstan yararlanan mesai saati veya yoğun trafik. İsteğe bağlı olarak, kararlı durum kapasitesi ve maliyet iyileştirme için öncelik işlemeyi Sağlanan Aktarım Hızı Birimleri (PTU) ile birleştirebilirsiniz.
Gecikme süresi hedefi
| Modeli | Gecikme süresi hedef değeri2 |
|---|---|
| gpt-5.4, 2026-03-051 | Saniyede 50 Jeton %99 > |
| gpt-5.2, 2025-12-11 | Saniyede 50 Jeton %99 > |
| gpt-5.1, 2025-11-13 | Saniyede 50 Jeton %99 > |
| gpt-4.1, 2025-04-141 | Saniyede 80 Token %99 |
1 Uzun bağlam istekleri (yani 128 bin belirteçten fazla olan istekler) standart işlemeye indirilecek ve standart katman ücretinden faturalandırılacaksınız.
2 5 dakikada bir p50 istek gecikmesi olarak hesaplanır.
Dağıtım türüne göre öncelikli işleme uygunluğu
Öncelik işleme, Genel standart dağıtımlarda veya Veri Bölgesi standart (ABD) dağıtımlarında etkinleştirilebilir. Fiyatlandırma bilgileri için bkz. Azure OpenAI fiyatlandırma sayfası.
Genel standart model kullanılabilirliği
| Bölge | gpt-5.5, 2026-04-24 | gpt-5.4-mini, 2026-03-17 | gpt-5.4, 2026-03-05 | gpt-5.2, 2025-12-11 | gpt-5.1, 2025-11-13 | gpt-4.1, 2025-04-14 |
|---|---|---|---|---|---|---|
| australiaeast | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| brazilsouth | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| canadacentral | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| canadaeast | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| centralus | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| eastus | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| eastus2 | ✅ | ✅ | ✅ | ✅ | ✅ | - |
| francecentral | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| Almanya Batı Merkez | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| italynorth | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| japaneast | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| koreacentral | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| northcentralus | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| norwayeast | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| Polonya Merkezi | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| southafricanorth | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| southcentralus | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| southeastasia | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| Güney Hindistan | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| spaincentral | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| swedencentral | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| İsviçrenin Kuzeyi | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| İsviçre Batısı | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| uaenorth | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| uksouth | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| westeurope | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| westus | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| westus3 | - | ✅ | ✅ | ✅ | ✅ | ✅ |
Dağıtım düzeyinde öncelik işlemeyi etkinleştirme
Öncelik işlemeyi dağıtım düzeyinde ve (isteğe bağlı olarak) istek düzeyinde etkinleştirebilirsiniz.
Not
Öncelik işleme, Genel standart veya Veri Bölgesi standart (ABD) dağıtımlarında etkinleştirilebilir. Öncelik işleme, standart işleme ile aynı kotayı kullanır.
Microsoft Foundry portalında, dağıtımı oluştururken dağıtım ayrıntıları sayfasında Öncelikli işleme seçeneğini etkinleştirin veya dağıtılan modelin ayarını, dağıtım ayrıntılarını düzenleyerek güncelleyin.
Not
Dağıtım düzeyinde öncelik işlemeyi etkinleştirmek için kodu kullanmayı tercih ediyorsanız, özniteliğini aşağıdaki gibi ayarlayarak service_tier dağıtım için REST API aracılığıyla bunu yapabilirsiniz: "properties" : {"service_tier" : "priority"}.
service_tier özniteliği için izin verilen değerler default ve priority'dir.
default standart işlemeyi ifade ederken priority öncelik işlemeyi etkinleştirir.
Model dağıtımı öncelik işlemeyi kullanacak şekilde yapılandırıldıktan sonra modele istek göndermeye başlayabilirsiniz.
Kullanım ölçümlerini görüntüleme
Kaynağınızın kullanım ölçüsünü Azure portalının Azure İzleyici bölümünde görüntüleyebilirsiniz.
Standart işleme ve öncelik işleme tarafından işlenen isteklerin hacmini görüntülemek için, özgün istekteki hizmet katmanına (standart veya öncelik) göre bölün:
- adresinde https://portal.azure.comoturum açın.
- Azure OpenAI kaynağınıza gidin ve sol gezinti bölmesinden Metrics seçeneğini belirleyin.
- Ölçümler sayfasında Azure OpenAI istekleri ölçümünü ekleyin. Ayrıca Azure OpenAI gecikme süresi, Azure OpenAI kullanımı ve diğerleri gibi diğer ölçümleri de seçebilirsiniz.
- Öncelik işleme isteklerinin işlendiği standart dağıtımı seçmek için Filtre ekle'yi seçin.
- Değerleri ServiceTierRequest ve ServiceTierResponse değerlerine göre bölmek için Bölme uygula'yı seçin.
Dağıtımlarınızı izleme hakkında daha fazla bilgi için bkz. Monitor Azure OpenAI.
Maliyetleri izleme
Dağıtım adını ve faturalama etiketlerini aşağıdaki gibi filtreleyerek Azure portalının maliyet analizi sayfasında öncelik ve standart isteklerin maliyetlerinin dökümünü görebilirsiniz:
- Azure portalında maliyet analizi sayfasına gidin.
- (İsteğe bağlı) Kaynağa göre filtreleyin.
- Dağıtım adına göre filtrelemek için: Faturalama etiketine> filtre ekleyin, değer olarak dağıtımı seçin ve ardından dağıtım adınızı seçin.
Öncelik işleme fiyatlandırması hakkında bilgi için bkz. Azure OpenAI Service fiyatlandırmaya genel bakış.
İstek düzeyinde öncelik işlemeyi etkinleştirme
İstek düzeyinde öncelik işlemeyi etkinleştirme isteğe bağlıdır. Hem sohbet tamamlama API'sinin hem de yanıtlar API'sinin isteğe bağlı bir özniteliği service_tier vardır ve istek sunarken kullanılacak işleme türünü belirtir. Aşağıdaki örnek, yanıt isteğinde service_tier'i priority olarak nasıl ayarlayacağınızı göstermektedir.
curl -X POST https://YOUR-RESOURCE-NAME.openai.azure.com/openai/v1/responses \
-H "Content-Type: application/json" \
-H "Authorization: Bearer $AZURE_OPENAI_AUTH_TOKEN" \
-d '{
"model": "gpt-4.1",
"input": "This is a test",
"service_tier": "priority"
}'
service_tier Dağıtım düzeyi ayarını geçersiz kılmak için özniteliğini kullanın.
service_tier, autove defaultdeğerlerini priorityalabilir.
özniteliğini ayarlamazsanız, varsayılan olarak olur
auto.service_tier = auto, isteğin dağıtımda yapılandırılan hizmet katmanını kullandığı anlamına gelir.service_tier = default, isteğin seçilen model için standart fiyatlandırmayı ve performansı kullandığı anlamına gelir.service_tier = priority, isteğin öncelik işleme hizmet katmanını kullandığı anlamına gelir.
Aşağıdaki tabloda, service_tier için hizmet katmanlarının, dağıtım düzeyi ve istek düzeyi ayarlarına göre isteklerinizi nasıl işlediği özetlenmektedir.
| Dağıtım düzeyi ayarı | İstek düzeyi ayarı | Hizmet katmanı tarafından işlenen istek |
|---|---|---|
| Varsayılan | otomatik, varsayılan | Standart |
| Varsayılan | Öncelik | Öncelik işleme |
| Öncelik | otomatik, öncelik | Öncelik işleme |
| Öncelik | Varsayılan | Standart |
Sınırlama
Hizmet şu anda bölgesel standart dağıtımları ve AB veri bölgesi standart dağıtımlarını desteklememektedir.
Hizmet, bu senaryolar sırasında bazı öncelikli istekleri standart işlemeye* yeniden yönlendirebilir:
- Öncelik işleme belirteçlerinizin dakika başına hızla artması rampa hızı sınırlarına çarpmaya yol açarsa. Şu anda rampa oranı sınırı, trafiğin 15 dakikadan daha az bir sürede dakikada %50 token artışı sağlaması olarak tanımlanmaktadır.
- Öncelikli işlemeye yönelik isteklerin yoğun olduğu dönemlerde.
- Gecikme süresi hedef tablosunda listelenen belirli modellere gönderilen uzun bağlam istekleri.
Ipucu
Düzenli olarak rampa oranı sınırlarıyla karşılaşırsanız, öncelik işleme yerine veya buna ek olarak PTU satın almayı göz önünde bulundurun.
* Hizmet, standart hizmet katmanı tarafından işlenen istekleri standart fiyatlarla faturalar. Standart hizmet katmanı tarafından işlenen istekler yanıta dahil
service_tier = defaultedilirken, öncelik işleme katmanı tarafından işlenen istekler yanıta dahildirservice_tier = priority.
Sorun giderme
| Sorunu | Neden | Çözünürlük |
|---|---|---|
| Standart seviyeye düşürülen istekler | Bu durumlardan biri: - Trafik 15 dakikadan daha az bir süre içinde dakikada 50% belirteci artırarak rampa hızı sınırına ulaştı. - Öncelikli işlemeye yönelik isteklerin yoğun olduğu dönemlerde gönderilen istekler. - Gecikme süresi hedef tablosunda listelenen belirli modellere gönderilen uzun bağlam istekleri. |
- Rampa hızı sınırlarıyla karşılaştıysanız trafiği kademeli olarak artırın. - Sabit durum kapasitesi için PTU satın almayı göz önünde bulundurun. |