Aracılığıyla paylaş


Sağlanan dağıtımlar için taşma ile trafiği yönetme

Uyarı

Bu belge , Microsoft Foundry (klasik) portalını ifade eder.

🔄Yeni portalı kullanıyorsanız Microsoft Foundry (yeni) belgelerine geçin.

Uyarı

Bu belge , Microsoft Foundry (yeni) portalını ifade eder.

Taşma yönetimi, sağlanan dağıtımlardaki trafik dalgalanmalarını, aşırı trafiği ilgili standart dağıtıma yönlendirerek yönetir. Spillover, belirli bir dağıtımdaki tüm istekler için ayarlanabilen veya istek başına yönetilebilen isteğe bağlı bir özelliktir. Taşma etkinleştirildiğinde, Microsoft Foundry Modellerinde Azure OpenAI sağlanan dağıtımınızdan gelen fazla kullanım trafiğini işlenmek üzere standart bir dağıtıma gönderir.

Önkoşullar

  • Sağlanan yönetilen dağıtıma ve standart bir dağıtıma sahip olmanız gerekir.

  • Sağlanan ve standart dağıtımların taşmaya uygun olması için aynı Azure OpenAI kaynağında olması gerekir.

  • Standart dağıtımınızın veri işleme düzeyi, sağlanan dağıtımınızla eşleşmelidir (örneğin, küresel bir sağlanan dağıtım, küresel bir standart taşma dağıtımıyla kullanılmalıdır).

Sağlanan dağıtımlarda taşma özelliğini ne zaman etkinleştirmek gerek?

Sağlanan dağıtımınızın kullanımını en üst düzeye çıkarmak için, tüm genel ve veri bölgesi tarafından sağlanan dağıtımlarda taşma özelliğini etkinleştirebilirsiniz. Taşma ile trafikteki ani artışlar veya dalgalanmalar hizmet tarafından otomatik olarak yönetilebilir. Bu özellik, sağlanan bir dağıtım tam olarak kullanıldığında kesinti yaşama riskini azaltır. Alternatif olarak, farklı senaryolarda ve iş yüklerinde esneklik sağlamak için istek başına taşma yapılandırılabilir. Taşma artık Döküm Aracı Hizmeti için de kullanılabilir.

Taşma ne zaman etkili olur?

Dağıtım için taşma özelliğini etkinleştirdiğinizde veya belirli bir çıkarım isteği için yapılandırdığınızda, bu senaryolardan birinin sonucu olarak verilen bir çıkarım isteği için belirli bir 200 dışı yanıt kodu alındığında taşma başlatılır.

  • Sağlanan aktarım hızı birimleri (PTU) tamamen kullanıldığından yanıt kodu elde edilir 429 .

  • Uzun bir bağlam belirteci isteği göndererek hata 400 kodu elde edebilirsiniz. Örneğin, seri modelleri kullanılırken gpt 4.1 PTU yalnızca 128 binden küçük bağlam uzunluklarını destekler ve HTTP 400 döndürür.

  • İsteğinizi işlerken oluşan sunucu hataları, hata kodu 500 veya 503ile sonuçlanır.

Bir istek bu yanıt dışı200 kodlardan biriyle sonuçlandığında Azure OpenAI, sağlanan dağıtımınızdan gelen isteği otomatik olarak işlenmek üzere standart dağıtımınıza gönderir.

Uyarı

İsteklerin bir alt kümesi standart dağıtıma yönlendirilse bile hizmet, standart dağıtıma fazla kullanım istekleri göndermeden önce sağlanan dağıtıma istek göndermeye öncelik verir ve bu da ek gecikmeye neden olabilir.

Bir isteğin üzerine döküldüğü nasıl öğrenilir?

Aşağıdaki HTTP yanıt başlıkları belirli bir isteğin taştığını gösterir.

  • x-ms-spillover-from-<deployment-name>. Bu başlık, PTU dağıtım adını içerir. Bu üst bilginin varlığı, isteğin bir taşma isteği olduğunu gösterir.

  • x-ms-<deployment-name>. İsteğe hizmet eden dağıtımın adı bu başlıkta yer alır. İstek sınırı aşıldıysa, dağıtımın adı, standart dağıtımın adıdır.

Üzerine taşan bir istek için, standart dağıtım isteği herhangi bir nedenle başarısız olduysa, müşteriye verilen yanıtta özgün PTU yanıtı kullanılır. Müşteri, taşma isteğinin yanıt kodunu içeren bir üst bilgi görür (örneğin x-ms-spillover-error veya 429) ve böylece başarısız olan taşmanın nedenini bilir.

Taşma maliyeti nasıl etkiler?

Çünkü taşma, trafik dalgalanmalarını yönetebilmek için tahsis edilmiş ve standart dağıtımların bir kombinasyonunu kullandığından, taşma faturalaması iki bileşenden oluşur.

  • Sağlanan dağıtımınız tarafından işlenen tüm istekler için yalnızca saatlik sağlanan dağıtım maliyeti geçerlidir. Bu istekler için ek ücret uygulanmaz.

  • Standart dağıtımınıza yönlendirilen tüm istekler için istek, belirtilen model sürümü ve dağıtım türü için ilişkili giriş belirteci, önbelleğe alınmış belirteç ve çıkış belirteci hızlarından faturalandırılır.

Sağlanan dağıtımdaki tüm istekler için taşma özelliğini etkinleştirme

Taşma özelliğine sahip bir model dağıtmak için Foundry'ye gidin. Sol gezinti menüsünde Dağıtımlar'ı seçin.

Model dağıtma seçin. Görüntülenen menüde Özelleştir'i seçin.

Dağıtım özelleştirme düğmesini gösteren ekran görüntüsü.

Dağıtım türü olarak sağlanan seçeneklerden birini belirtin, örneğin Genel Sağlanan Aktarım Hızı. Sağlanan dağıtımınızda taşma özelliğini etkinleştirmek için Trafik taşmasını seçin.

Tavsiye

  • Taşma özelliğini etkinleştirmek için, hesabınızın mevcut sağlanmış dağıtımınızın modeline ve sürümüne uyan en az bir etkin kullandıkça öde dağıtımına sahip olması gerekir.
  • Belirli çıkarım isteklerinde taşma özelliğinin nasıl etkinleştirileceğini görmek için yukarıdaki REST API sekmesine tıklayın.

Taşma seçeneğini gösteren ekran görüntüsü.

Taşma özelliğini etkinleştirmeyi öğrenmek için REST API sekmesine bakın.

Taşma kullanımımı nasıl izleyebilirim?

Taşma kapasitesi, trafik fazlalıklarını yönetmek için sağlanan ve standart dağıtımların birleşimine dayandığından, izleme her biri için dağıtım düzeyinde gerçekleştirilebilir. Birincil sağlanan dağıtımda ve taşma standart dağıtımında kaç isteğin işlendiğini görüntülemek için, her dağıtım tarafından işlenen istekleri ve ilgili durum kodlarını görüntülemek için Azure İzleyici ölçümlerinde bölme özelliğini uygulayın. Benzer şekilde, bölme işlevi, belirli bir süre boyunca birincil sağlanan dağıtımda işlenen belirteçlerin sayısını ve taşma için kullanılan standart dağıtımda işlenen belirteçleri görüntülemek amacıyla kullanılabilir.

Azure OpenAI içinde gözlemlenebilirlik hakkında daha fazla bilgi için Azure OpenAI'yi izleme belgelerini gözden geçirin.

Azure portalında ölçümleri izleme

Aşağıdaki Azure İzleyici ölçüm grafiği, taşma başlatıldığında isteklerin birincil sağlanan dağıtım ile taşma standart dağıtımı arasında bölünmesine ilişkin bir örnek sağlar. Grafik oluşturmak için Azure portalında kaynağınıza gidin.

  1. Sol gezinti menüsünden İzleme>ölçümleri'ni seçin.

  2. Azure OpenAI Requests istekler metriğini ekleyin.

    Azure portalında temel bir taşma örneğinin ölçümlerini gösteren ekran görüntüsü.

  3. Bölme uygula'yı seçin ve bölme ve ModelDeploymentNameStatusCode bölmeleri ölçüme Azure OpenAI Requests uygulayın. Bu, kaynağınız için oluşturulan 200 (başarılı) ve 429 (çok fazla istek) yanıt kodlarını içeren bir grafik gösterir.

    Azure portalında bölme ekleme menüsünü gösteren ekran görüntüsü.

    Bölmeyi uygularken görüntülemek istediğiniz model dağıtımlarını eklediğinizden ModelDeploymentName emin olun.

    Kullanılabilir model filtrelerini gösteren ekran görüntüsü.

    Aşağıdaki örnekte, sağlanan aktarım hızı dağıtımına gönderilen isteklerdeki ani artışın hata kodları oluşturduğu bir örnek gösterilmektedir 429 . Kısa bir süre sonra, taşma gerçekleşir ve istekler, taşma için kullanılan kullandıkça öde dağıtımına gönderilmeye başlar, bu da o dağıtım için 200 yanıtları oluşturur.

    Taşma durumunu görselleştirme ölçümlerini gösteren ekran görüntüsü.

    Uyarı

    İstekler kullandıkça öde dağıtımına gönderildiğinden, yeniden yönlendirilmeden önce sağlanan dağıtımda yine 429 yanıt kodu oluşturur. Sağlanan dağıtımdaki yanıt kodlarını gösteren ekran görüntüsü.

Taşma ölçümlerini görüntüleme

Bölmeyi IsSpillover uygulamak, dağıtımınıza gelen ve yedek dağıtımınıza yönlendirilen istekleri görüntülemenizi sağlar. Önceki örneği takip ederek, birincil dağıtımdan gelen 429 yanıtların, yedek dağıtım tarafından oluşturulan 200 yanıt kodlarıyla nasıl eşleştiğini görebilirsiniz.

Azure portalında taşma bölme işlemini gösteren ekran görüntüsü.

Ayrıca bakınız