Aracılığıyla paylaş


Sağlanan aktarım hızı nedir?

Uyarı

Sağlanan aktarım hızı teklifinde yapılan son değişiklikler hakkında daha fazla bilgi için güncelleştirme makalesine bakın.

Azure AI Foundry tarafından sağlanan aktarım hızı teklifi, model dağıtımında ihtiyacınız olan aktarım hızı miktarını belirtmenize olanak tanıyan bir model dağıtım türüdür. Azure AI Foundry daha sonra gerekli model işleme kapasitesini ayırır ve sizin için hazır olmasını sağlar. İstediğiniz sağlanan aktarım hızını doğrudan Azure tarafından satılan çeşitli model portföyünde kullanabilirsiniz. Bu modeller Azure OpenAI modellerini ve Azure DeepSeek, Azure Grok, Azure Llama gibi yeni tanıtılan amiral gemisi model ailelerini ve Azure AI Foundry Modellerini içerir.

Sağlanan aktarım hızı şunları sağlar:

  • En son amiral gemisi modellerinde biniş modeli seçimi
  • Sağlanan aktarım hızı kotasıyla modelleri ve dağıtımları değiştirme esnekliği
  • Daha esnek bir rezervasyon seçeneğiyle önemli indirimler ve rezervasyon kullanımınızı artırma olanağı
  • Tekdüzen iş yükleri için kararlı maksimum gecikme süresi ve aktarım hızı sağlayarak tahmin edilebilir performans.
  • Ayrılmış işleme kapasitesi: Dağıtım, aktarım hızı miktarını yapılandırır. Dağıtıldıktan sonra, kullanılsa da kullanılmasa da aktarım hızı kullanılabilir.
  • Maliyet tasarrufu: Yüksek aktarım hızı iş yükleri, belirteç tabanlı tüketime karşı maliyet tasarrufu sağlayabilir.

Tavsiye

Sağlanan aktarım hızı ne zaman kullanılır?

İyi tanımlanmış, öngörülebilir aktarım hızı ve gecikme süresi gereksinimleriniz olduğunda standart dağıtımlardan sağlanan aktarım hızı dağıtımlarına geçmeyi düşünmelisiniz. Bu durum genellikle uygulama üretime hazır olduğunda veya zaten üretimde dağıtıldığında ve beklenen trafiğin anlaşılması durumunda oluşur. Bu, kullanıcıların gerekli kapasiteyi doğru şekilde tahmin etmesine ve beklenmeyen faturalamayı önlemesine olanak tanır. Sağlanan Aktarım Hızı dağıtımları, gerçek zamanlı/gecikme süresine duyarlı gereksinimleri olan uygulamalar için de yararlıdır.

Temel kavramlar

Aşağıdaki bölümlerde, sağlanan aktarım hızı teklifini kullanırken bilmeniz gereken temel kavramlar açıklanmaktadır.

Sağlanan Aktarım Hızı Birimleri (PTU)

Sağlanan aktarım hızı birimleri (PTU), istemleri işlemek ve tamamlamaları oluşturmak için gerekli aktarım hızını elde etmek üzere sağlanan dağıtımları boyutlandırmak için kullanabileceğiniz genel model işleme kapasitesi birimleridir. Sağlanan aktarım hızı birimleri bir aboneliğe kota olarak verilir ve maliyetleri tanımlamak için kullanılır. Her kota bir bölgeye özgüdür ve bu abonelik ve bölgedeki dağıtımlara atanabilecek en fazla PTU sayısını tanımlar.

Paylaşılan PTU rezervasyonu altında maliyet yönetimi

Paylaşımlı bir PTU rezervasyonu altında Dökümhane Modelleri maliyetlerini sorunsuz bir şekilde yönetmek için PTU özelliğini kullanabilirsiniz. Ancak, dağıtım ve aktarım hızı performansı için gerekli PTU birimleri seçilen modellere dinamik olarak uyarlanır. PTU maliyetleri ve model gecikme noktaları hakkında daha fazla bilgi edinmek için bkz. PTU ile ilişkili maliyetleri anlama.

Mevcut PTU rezervasyonları, Foundry Modellerini dağıtan müşterileri daha yüksek verimlilik ve maliyet tasarrufu ile güçlendirmek için otomatik olarak yükseltilir. Örneğin, mevcut bir PTU tahsisinizin olduğunu ve 500 PTU satın aldığınızı varsayalım. Azure OpenAI modelleri için 300 birim kullanırsınız ve PTU kullanarak Azure DeepSeek, Azure Llama veya DökümHane Modellerinde PTU özelliğine sahip diğer modelleri dağıtmayı da seçebilirsiniz.

  • DeepSeek-R1 için kalan 200 PTU'yu kullanırsanız, 200 PTU rezervasyon indirimini otomatik olarak paylaşır ve rezervasyon için toplam kullanımınız 500 PTU olur.

  • DeepSeek-R1 için 300 PTU kullanıyorsanız, 200 PTU rezervasyon indirimini otomatik olarak paylaşırken 100 PTU rezervasyonu aşar ve DeepSeek-R1'in saatlik fiyatıyla ücretlendirilir.

PTU rezervasyonlarında maliyet tasarrufu hakkında bilgi edinmek için bkz. Microsoft Azure AI Foundry Tarafından Sağlanan Aktarım Hızı Rezervasyonları ile maliyet tasarrufu.

Dağıtım türleri

Azure AI Foundry'de sağlanan bir dağıtım oluştururken, "Dağıtım Oluştur" iletişim kutusundaki dağıtım türü, verilen iş yükünün veri işleme gereksinimlerine bağlı olarak Genel Sağlanan Aktarım Hızı, Veri Bölgesi Sağlanan Aktarım Hızı veya Bölgesel Sağlanan Aktarım Hızı dağıtım türüne ayarlanabilir.

Azure AI Foundry'de CLI veya API aracılığıyla sağlanan bir dağıtım oluştururken, sku-name, belirli bir iş yükü için veri işleme gereksinimine bağlı olarak GlobalProvisionedManaged, DataZoneProvisionedManaged veya ProvisionedManaged olarak ayarlanabilir.

Dağıtım Türü CLI'de sku-name
Genel Sağlanan Aktarım Hızı GlobalProvisionedManaged
Veri Bölgesi Sağlanan Aktarım Hızı VeriBölgesi Sağlanmış Yönetilen
Bölgesel Sağlanan Aktarım Hızı Hazırlanmış Yönetim

Aşağıdaki Azure CLI örnek komutunu farklı bir dağıtım türüne uyarlamak için, parametresini sku-name dağıtmak istediğiniz dağıtım türüyle eşleşecek şekilde güncelleştirin.

az cognitiveservices account deployment create \
--name <myResourceName> \
--resource-group  <myResourceGroupName> \
--deployment-name MyDeployment \
--model-name gpt-4o \
--model-version 2024-08-06  \
--model-format OpenAI \
--sku-capacity 15 \
--sku-name GlobalProvisionedManaged

Kapasite saydamlığı

Doğrudan Azure tarafından satılan modeller, müşteri talebinin hizmet GPU kapasitesini aşabileceği yüksek oranda aranan hizmetlerdir. Microsoft, tüm isteğe bağlı bölgeler ve modeller için kapasite sağlamaya çalışır, ancak bir bölgeyi satmak her zaman mümkündür. Bu kısıtlama, bazı müşterilerin istenen bölgede kotaları olsa bile istenen model, sürüm veya PTU sayısının dağıtımını oluşturma becerisini sınırlayabilir. Genel olarak konuşmak gerekirse:

  • Kota, bir abonelikte ve bölgede dağıtılacak en fazla PTU sayısına bir sınır yerleştirir ve kapasite kullanılabilirliğini garanti etmez.
  • Kapasite dağıtım zamanında ayrılır ve dağıtım mevcut olduğu sürece tutulur. Hizmet kapasitesi kullanılamıyorsa dağıtım başarısız olur.
  • Müşteriler, gerekli model kapasitesine sahip senaryoları için uygun bir bölge seçmek üzere kota/kapasite kullanılabilirliğiyle ilgili gerçek zamanlı bilgileri kullanır.
  • Bir dağıtımın ölçeğini azaltma veya silme, kapasiteyi bölgeye geri gönderir. Dağıtımın ölçeğinin daha sonra genişletilmesi veya yeniden oluşturulması durumunda kapasitenin kullanılabilir olacağının garantisi yoktur.

Bölgesel kapasite kılavuzu

Dağıtımları için gereken kapasiteyi bulmak için kapasite kullanılabilirliği hakkında gerçek zamanlı bilgi sağlamak üzere kapasite API'sini veya Azure AI Foundry dağıtım deneyimini kullanın.

Azure AI Foundry'de dağıtım deneyimi, bir bölgede modeli dağıtmak için gereken kapasitenin eksik olduğu zamanları tanımlar. Bu işlem istenen modele, sürüme ve PTU sayısına bakar. Kapasite kullanılamıyorsa, deneyim kullanıcıları alternatif bir bölge seçmeye yönlendirir.

Dağıtım deneyimiyle ilgili ayrıntıları Azure AI Foundry Sağlamalı kullanmaya başlama kılavuzunda bulabilirsiniz.

Model kapasiteleri API'si, belirtilen modelin en büyük boyutlu dağıtımını program aracılığıyla tanımlamak için kullanılabilir. API, bölgedeki kotanızı ve hizmet kapasitenizi dikkate alır.

İstenen modeli, sürümü ve/veya PTU'nun desteklenebileceği kabul edilebilir bir bölge yoksa müşteriler aşağıdaki adımları da deneyebilir:

  • Daha az sayıda PTU ile dağıtımı deneyin.
  • Dağıtımı farklı bir zamanda deneme. Kapasite kullanılabilirliği müşteri talebine göre dinamik olarak değişir ve daha sonra daha fazla kapasite kullanılabilir hale gelebilir.
  • Kotanın kabul edilebilir tüm bölgelerde kullanılabilir olduğundan emin olun. Model kapasiteleri API'si ve Azure AI Foundry deneyimi, bir dağıtım oluşturulacak alternatif bölgeleri döndürürken kota kullanılabilirliğini göz önünde bulundurmaktadır.

Kapasiteyi nasıl izleyebilirim?

Azure İzleyici'deki Sağlanan-Yönetilen Kullanım V2 ölçümü , belirli bir dağıtım kullanımını 1 dakikalık artışlarla ölçer. Sağlanan tüm dağıtım türleri, kabul edilen çağrıların tutarlı bir model işleme süresiyle işlenmesini sağlamak için optimize edilmiştir (gerçek uçtan uca gecikme süresi, bir çağrının özelliklerine bağlıdır).

Kullanım performansı nasıl çalışır?

Sağlanan dağıtımlar, belirli bir modeli çalıştırmak için size ayrılmış miktarda model işleme kapasitesi sağlar.

Sağlanan tüm dağıtım türlerinde kapasite aşıldığında API 429 HTTP Durum Hatası döndürür. Hızlı yanıt, kullanıcının trafiğini nasıl yönetecekleri konusunda karar vermesine olanak tanır. Kullanıcılar istekleri ayrı bir dağıtıma, standart bir dağıtım örneğine yönlendirebilir veya belirli bir isteği yönetmek için yeniden deneme stratejisi kullanabilir. Hizmet, kullanım %100'in altına düşene kadar 429 HTTP durum kodunu döndürmeye devam eder.

429 yanıtı alırsam ne yapmalıyım?

429 yanıtı bir hata değildir, ancak bunun yerine kullanıcılara belirli bir dağıtımın belirli bir noktada tam olarak kullanıldığını söyleme tasarımının bir parçasıdır. Hızlı bir başarısız yanıt sağlayarak, bu durumların uygulama gereksinimlerinize en uygun şekilde nasıl işleneceğini denetleyebilirsiniz.

Yanıttaki retry-after-ms ve retry-after üst bilgileri, bir sonraki çağrı kabul edilmeden önce beklenecek süreyi bildirir. Bu yanıtı işlemeyi nasıl seçeceğiniz, uygulama gereksinimlerinize bağlıdır. Dikkat edilmesi gereken bazı noktalar şunlardır:

  • Trafiği diğer modellere, dağıtımlara veya deneyimlere yeniden yönlendirmeyi düşünebilirsiniz. 429 sinyalini alır almaz eylem gerçekleştirilebileceğinden bu seçenek en düşük gecikme süresi çözümüdür. Bu düzeni etkili bir şekilde uygulama hakkında fikirler için bu topluluk gönderisine bakın.
  • Eğer daha uzun çağrı başına gecikme süreleri sizin için sorun değilse, istemci tarafı yeniden deneme mantığını uygulayın. Bu seçenek, PTU başına en yüksek aktarım hızı miktarını sağlar. Azure AI Foundry istemci kitaplıkları, yeniden denemeleri işlemeye yönelik yerleşik özellikler içerir.

Hizmet 429'un ne zaman göndereceğine nasıl karar verir?

Sağlanan tüm dağıtım türlerinde her istek, beklenen kullanımını belirlemek için istem boyutuna, beklenen oluşturma boyutuna ve modeline göre ayrı ayrı değerlendirilir. Bu davranış, tahmini trafik yüküne göre özel hız sınırlama davranışına sahip standart dağıtımların aksinedir. Standart dağıtımlarda bu özel hız sınırlama davranışı, trafik eşit dağıtılmadıysa tanımlı kota değerleri aşılmadan önce HTTP 429 hatalarının oluşturulmasına neden olabilir.

Sağlanan dağıtımlarda, kullanımı %100'ün altında tutmak ve trafikteki ani artışlara izin vermek için sızdıran kova algoritmasının bir çeşitlemesini kullanırız. Üst düzey mantık aşağıdaki gibidir:

  1. Her müşterinin bir dağıtımda kullanabileceği belirli bir kapasite miktarı vardır

  2. İstekte bulunulduğunda:

    a. Geçerli kullanım %100'ün üzerinde olduğunda, hizmet, kullanım %100'ün altına inene kadar geçen süreyi içeren retry-after-ms üst bilgisi ile bir 429 kodu döndürür.

    b. Aksi takdirde, hizmet istem belirteçlerini, önbelleğe alınmış belirteçleri ve çağrıda belirtilenleri max_tokens birleştirerek isteğe hizmet sunmak için gereken artımlı kullanım değişikliğini tahmin eder. Müşteri, önbellek belirteçlerinin boyutuna göre hızlı yanıt belirteçlerinde %100'e kadar indirim alabilir. max_tokens Parametre belirtilmezse, hizmet bir değer tahmin eder. Bu tahmin, oluşturulan gerçek belirteçlerin sayısı az olduğunda beklenenden daha düşük eşzamanlılığa yol açabilir. En yüksek eşzamanlılık için değerin gerçek nesil boyutuna max_tokens mümkün olduğunca yakın olduğundan emin olun.

  3. bir istek tamamlandığında, artık çağrının gerçek işlem maliyetini biliyoruz. Doğru bir muhasebe sağlamak için aşağıdaki mantığı kullanarak kullanımı düzeltiyoruz:

    a. Gerçek > tahmini ise, fark dağıtımın kullanımına eklenir.

    b. Gerçek < tahmini ise, fark çıkarılır.

  4. Genel kullanım, dağıtılan PTU sayısına göre sürekli bir oranda azalmaktadır.

Uyarı

Kullanım %100'e ulaşana kadar çağrılar kabul edilir. Kısa süreler içinde 100%'nin biraz üzerinde olan patlamalara izin verilebilir, ancak zaman içinde trafiğiniz 100%'e kadar sınırlandırılır.

Sonraki çağrıların kullanımına nasıl eklendiğini gösteren diyagram.

Dağıtımımda kaç eşzamanlı çağrı olabilir?

Ulaşabileceğiniz eş zamanlı çağrı sayısı, her çağrının şekline (istem boyutu, max_tokens parametre vb.) bağlıdır. Hizmet, kullanım %100'e ulaşana kadar aramaları kabul etmeye devam eder. Yaklaşık eş zamanlı çağrı sayısını belirlemek için kapasite hesaplayıcısındaki belirli bir çağrı şekli için dakika başına en fazla istek sayısını modelleyebilirsiniz. Sistem parametre için max_tokens ayarlanan çıkış belirteci sayısından daha az oluşturursa, sağlanan dağıtım daha fazla istek kabul eder.

Azure tarafından Doğrudan Satılan Modeller için sağlanan aktarım hızı özelliği

Bu bölümde, sağlanan aktarım hızı özelliğini destekleyen DökümHane Modelleri listelenmiştir. PTU kotanızı ve PTU ayırmanızı, tabloda gösterilen modeller arasında kullanabilirsiniz.

Aşağıdaki noktalar tablodan bazı önemli noktalardır:

  • Model sürümü bu tabloya dahil değildir. Azure AI Foundry portalında dağıtım seçeneğini belirlediğinizde her model için desteklenen sürümü denetleyin.

  • Bölgesel tanımlı aktarım hızı uygulama seçeneği, bölgeye göre değişir.

  • Doğrudan Azure tarafından satılan yeni modeller, ilk olarak Küresel sağlanan işlem hacmi dağıtım seçeneğiyle eklenir. Veri alanı sağlama seçeneği daha sonra gelir.

  • PTU bölgesel olarak ve teklif türüne göre yönetilir. PTU kotası ve tüm rezervasyonlar kullanmak istediğiniz bölgede ve şekilde (Genel, Veri bölgesi, Bölgesel) olmalıdır.

  • Taşma, sağlanan dağıtımlardaki trafik dalgalanmalarını yöneten isteğe bağlı bir özelliktir. Taşma hakkında daha fazla bilgi için bkz. Sağlanan dağıtımlar için taşma ile trafiği yönetme (Önizleme).

Model Ailesi Model İsmi Küresel olarak sağlanmış Sağlanan veri bölgesi Bölgesel olarak temin edildi Taşma özelliği
Azure OpenAI Gpt4.1
Gpt 4.1 mini
Gpt 4.1 nano
Gpt 4o
Gpt 4o mini
Gpt 3.5 Turbo
o1
O3 mini
O4 mini
Azure DeepSeek DeepSeek-R1
DeepSeek-V3-0324
DeepSeek-R1-0528

Sağlanan aktarım hızı kapasitesi için bölge kullanılabilirliği

Genel sağlanan Aktarım Hızı modeli kullanılabilirliği

Bölge o3
2025-04-16
o4-mini
2025-04-16
gpt-4.1
2025-04-14
gpt-4.1-nano
2025-04-14
gpt-4.1-mini
2025-04-14
o3-mini
31.01.2025
o1
17.12.2024
gpt-4o
13.05.2024
gpt-4o
2024-08-06
gpt-4o
20.11.2024
gpt-4o-mini
18.07.2024
DeepSeek-R1 DeepSeek-V3-0324 DeepSeek-R1-0528
Avustralya doğusu
Brezilya'nın güneyi
Kanada'nın Doğusu
eastus (bölge adı)
eastus2
francecentral
AlmanyaBatıMerkezi
italynorth
japaneast
Kore Merkezi
northcentralus -
Doğu Norveç
Polonya Merkezi
southafricanorth
southcentralus
Güneydoğu Asya
Güney Hindistan
spaincentral
Sweden Central
Kuzey İsviçre
İsviçre Batı
uaenorth
uksouth
Batı Avrupa
westus -
westus3

Uyarı

gpt-4 öğesinin turbo-2024-04-09 sağlanan sürümü şu anda yalnızca metinle sınırlıdır.