Aracılığıyla paylaş


Microsoft Foundry Modellerinde Azure OpenAI üzerinde sağlanan dağıtımları kullanmaya başlama

Uyarı

Bu belge , Microsoft Foundry (klasik) portalını ifade eder.

🔄Yeni portalı kullanıyorsanız Microsoft Foundry (yeni) belgelerine geçin.

Uyarı

Bu belge , Microsoft Foundry (yeni) portalını ifade eder.

Aşağıdaki kılavuz, Microsoft Foundry kaynağınızla sağlanan dağıtım oluşturma adımlarında size yol gösterir. Burada ele alınan kavramlar hakkında daha fazla ayrıntı için bkz:

Önkoşullar

PTU kotası kullanılabilirliğini alma/doğrulama

Sağlanan aktarım hızı dağıtımları, Sağlanan Aktarım Hızı Birimleri (PTU) olarak adlandırılan birimler halinde boyutlandırılır. Sağlanan her dağıtım türü için PTU kotası bir aboneliğe bölgesel olarak verilir ve tüm modeller ve sürümler arasında söz konusu bölgede dağıtılacak toplam PTU sayısını sınırlar.

Yeni dağıtım oluşturmak için, dağıtımın istenen boyutunu kapsayacak kullanılabilir (kullanılmayan) kota gerekir. Örneğin: Bir aboneliğin Orta Güney ABD'de aşağıdakiler varsa:

  • Toplam PTU Kotası = 500 PTU
  • Dağıtım:
    • 100 PTU: GPT-4o, 2024-05-13
    • 100 PTU: DeepSeek-R1, 1

Sonra 200 PTU'luk kota kullanılmış olarak kabul edilir ve yeni dağıtımlar oluşturmak için 300 PTU kullanıma hazırdır.

Çeşitli bölgelerdeki uygun aboneliklere varsayılan genel, veri bölgesi ve bölgesel sağlanan kota miktarı atanır.

Dökümhane portalındaki Kotalar bölmesini ziyaret edip istediğiniz aboneliği ve bölgeyi seçerek bir bölgede kullanabileceğiniz kotayı görüntüleyebilirsiniz. Örneğin, aşağıdaki ekran görüntüsünde seçilen abonelik için Batı ABD'de 300 Genel Sağlanan Aktarım Hızı PTU kota sınırı gösterilmektedir. Bu Genel PTU'ların toplam kullanımı 50'dir, ardından Genel Sağlanan Aktarım Hızı dağıtım türünü dağıtmak için 250 PTU biriminiz olur.

Dökümhane portalında kullanılabilir kotanın ekran görüntüsü.

Quota bölmesini Microsoft Foundryİşlet bölümünde ziyaret ederek bir bölgedeki kullanılabilir kotayı görüntüleyebilirsiniz. İstenen aboneliği ve bölgeyi seçerek.

Kota İste düğmesine tıklanarak ek kota istenebilir.

Dökümhane kaynağı oluştur.

Sağlanan dağıtımlar, Azure içindeki Foundry kaynak nesneleri aracılığıyla oluşturulur. Dağıtım oluşturmayı planladığınız her bölgede bir dökümhane kaynağınız olmalıdır.

Gerekirse, kullanılabilir kotaya sahip bir bölgede kaynak oluşturmak için Azure portalını kullanın.

Uyarı

Dökümhane kaynakları aynı anda birden çok dökümhane dağıtımını destekleyebilir. Sağlanan dağıtımlarınız için yeni kaynaklar ayırmanız gerekmez.

Sağlanan dağıtım seçeneğine sahip modelleri bulma

Kotanızı doğruladıktan sonra bir dağıtım oluşturabilirsiniz. Sağlanan dağıtım seçeneklerine sahip modelleri bulmak için Dökümhane model kataloğuna gidin.

  1. Microsoft Foundry'de oturum açın. Yeni Dökümhane anahtarının kapalı olduğundan emin olun. Bu adımlar Foundry (klasik) ile ilgilidir.
  2. Sağlanan dağıtımlar için etkinleştirilen aboneliği seçin ve kotaya sahip olduğunuz bir bölgede istediğiniz kaynağı seçin.
  3. Model koleksiyonları filtresinde Azure'dan Doğrudan'ı filtreleyerek modelleri seçebilirsiniz. Doğrudan Azure tarafından barındırılan ve yönetilen bu modeller, sağlanan aktarım hızı dağıtım seçeneğini destekler.
  4. Dağıtmak istediğiniz modeli seçin ve model kartındaki model ayrıntılarını denetleyin.
  1. Microsoft Foundry'de oturum açın. Yeni Dökümhane iki durumlu düğmesinin açık olduğundan emin olun. Bu adımlar Foundry (yeni)'ye atıfta bulunur.
  2. Sağlanan dağıtımlar için etkinleştirilen aboneliği seçin ve kotaya sahip olduğunuz bir bölgede istediğiniz kaynağı seçin.
  3. Model koleksiyonları filtresinde Azure'dan Doğrudan'ı filtreleyerek modelleri seçebilirsiniz. Doğrudan Azure tarafından barındırılan ve yönetilen bu modeller, sağlanan aktarım hızı dağıtım seçeneğini destekler.
  4. Dağıtmak istediğiniz modeli seçin ve model kartındaki model ayrıntılarını denetleyin.

Sağlanmış dağıtımınızı oluşturun - kapasite kullanılabilir

Sağlanan dağıtım oluşturmak için şu adımları izleyebilirsiniz; açıklanan seçenekler, ekran görüntüsünde gösterilen girdileri yansıtır.

Sağlanan dağıtımın Döküm portalı dağıtım sayfasının ekran görüntüsü.

  1. Bu modeli kullan'a tıklayın ve aşağıdaki alanları yapılandırın.

  2. Sağlanan dağıtımınız için Dağıtım türü açılan listesinde gerekli olduğu gibi "Genel Sağlanan Aktarım Hızı"," Veri Bölgesi Sağlanan Aktarım Hızı" veya "Bölgesel Sağlanan Aktarım Hızı" seçeneğini belirleyin.

  3. Gelişmiş seçenekler açılan menüsünü genişletin.

  4. Her alandaki değerleri doldurun. İşte bir örnek:

Alan Açıklama Örnek
Bir model seçin Dağıtmak istediğiniz modeli seçin. GPT-4
Model sürümü Dağıtılacak modelin sürümünü seçin. 0613
Dağıtım Adı Dağıtım adı, kodunuzda istemci kitaplıklarını ve REST API'lerini kullanarak modeli çağırmak için kullanılır. gpt-4
İçerik filtresi Dağıtıma uygulanacak filtreleme ilkesini belirtin. İçerik Filtreleme nasıl yapılır makalemiz hakkında daha fazla bilgi edinin. Varsayılan
Dağıtım Türü Bu, aktarım hızını ve performansı etkiler. Dağıtımınız için dağıtım iletişim kutusu açılan listesinden Genel Sağlanan Aktarım Hızı, Veri Bölgesi Sağlanan Aktarım Hızı veya Bölgesel Sağlanan Aktarım Hızı'nı seçin Genel Sağlanan Aktarım Hızı
Sağlanan Aktarım Hızı Birimleri Dağıtıma eklemek istediğiniz aktarım hızı miktarını seçin. 100

Uyarı

Dağıtım iletişim kutusu, belirli bir dönem taahhüdü karşılığında önemli bir indirim elde etmek için Foundry Sağlanan Aktarım Hızı için Azure Rezervasyonu satın alabileceğinizi belirten bir hatırlatıcı içerir.

Dağıtım ayarlarını girdikten sonra devam etmek için Fiyatlandırmayı Onayla'ya tıklayın. Saatlik olarak ödeme yapmayı ve Azure Rezervasyonu olmadan bir dönem indirimi almamayı seçerseniz, dağıtım için liste fiyatını gösteren bir fiyatlandırma onay iletişim kutusu görüntülenecektir.

Maliyetlerden emin değilseniz, dağıtımı iptal edin ve sağlanan dağıtım için ödeme modelini ve temel maliyetleri anladıktan sonra devam edin. Bu adım, ödeme faturanızda beklenmeyen ve yüksek ücretleri önleyebilir. Kendinizi eğitmek için kaynaklar şunlardır:

Aşağıdaki görüntüde, göreceğiniz fiyatlandırma onayı gösterilmektedir. Gösterilen fiyat yalnızca bir örnektir.

Fiyatlandırma onayı ekranını gösteren ekran görüntüsü.

Aşağıdaki Azure CLI komutunu kullanarak program aracılığıyla dağıtımınızı oluşturabilirsiniz. Dağıtım türünü belirtmek için, sku-name öğesini hedeflenen dağıtım türüne bağlı olarak GlobalProvisionedManaged, DataZoneProvisionedManaged veya ProvisionedManaged ile değiştirin. öğesini sku-capacity sağlanan aktarım hızı birimlerinin istenen sayısıyla güncelleştirin.

az cognitiveservices account deployment create \
--name <myResourceName> \
--resource-group <myResourceGroupName> \
--deployment-name MyModel \
--model-name GPT-4 \
--model-version 0613  \
--model-format OpenAI \
--sku-capacity 100 \
--sku-name ProvisionedManaged

REST, ARM şablonu, Bicep ve Terraform da dağıtım oluşturmak için kullanılabilir. Yönetim Kotası nasıl yapılır kılavuzundaki dağıtımları otomatikleştirme bölümüne bakın ve öğesini sku.name, GlobalProvisionedManaged, veya DataZoneProvisionedManaged ile değiştirin, ProvisionedManaged yerine.

Sağlanan dağıtımınızı oluşturun – Kapasite mevcut değil

Kapasite kullanılabilirliğinin dinamik yapısı nedeniyle, seçtiğiniz kaynağın bölgesinin belirtilen modelin, sürümün ve PTU sayısının dağıtımını oluşturacak hizmet kapasitesi olmayabilir.

Bu olayda, Foundry portalındaki sihirbaz sizi kullanılabilir kota ve kapasiteye sahip diğer bölgelere yönlendirerek istenen modelin dağıtımını oluşturur. Bu durumda dağıtım iletişim kutusu şöyle görünür:

Kullanılabilir kapasite olmadan sağlanan bir dağıtımın Foundry portalı dağıtım sayfasının ekran görüntüsü.

Dikkate almak gerekenler:

  • Kullanılabilir kotanızda bulunan birçok PTU'yu ve şu anda kaç tane dağıtılabildiğini gösteren bir ileti görüntülenir.
  • Hizmet kapasitesinden büyük sayıda PTU seçerseniz, daha fazla kapasite elde etmek için seçenekler sağlayan bir ileti ve alternatif bir bölge seçmenize olanak sağlayan bir düğme görüntülenir. "Diğer bölgeleri görüntüle" düğmesine tıklanması, her bölgedeki kullanılabilir kota ve hizmet kapasitesine göre oluşturulabilecek en büyük boyutlu dağıtımın yanı sıra bir dağıtım oluşturabileceğiniz Dökümhane kaynaklarının listesini gösteren bir iletişim kutusu görüntüler.

Farklı bir kaynak ve bölge seçmek için Dökümhane portalı dağıtım sayfasının ekran görüntüsü.

Bir kaynağı seçip Kaynağı değiştir'e tıklanması, dağıtım iletişim kutusunun seçili kaynağı kullanarak yeniden dağıtmasına neden olur. Daha sonra dağıtımınızı yeni bölgede oluşturmaya devam edebilirsiniz.

Bu durumda , Microsoft Foundry'deki sihirbaz sizi kullanılabilir kota ve kapasiteye sahip diğer bölgelere yönlendirerek istenen modelin dağıtımını oluşturur. Bu durumda dağıtım iletişim kutusu şöyle görünür:

Kullanılabilir kapasite olmadan sağlanan bir dağıtımın Foundry portalı dağıtım sayfasının ekran görüntüsü.

Dikkate almak gerekenler:

  • Kullanılabilir kotanızda bulunan birçok PTU'yu ve şu anda kaç tane dağıtılabildiğini gösteren bir ileti görüntülenir.
  • Hizmet kapasitesinden büyük sayıda PTU seçerseniz, daha fazla kapasite elde etmek için seçenekler sağlayan bir ileti ve alternatif bir bölge seçmenize olanak sağlayan bir düğme görüntülenir. "Diğer bölgeleri görüntüle" düğmesine tıklanması, her bölgedeki kullanılabilir kota ve hizmet kapasitesine göre oluşturulabilecek en büyük boyutlu dağıtımın yanı sıra bir dağıtım oluşturabileceğiniz Dökümhane kaynaklarının listesini gösteren bir iletişim kutusu görüntüler.

Farklı bir kaynak ve bölge seçmek için Dökümhane portalı dağıtım sayfasının ekran görüntüsü.

Bir kaynağı seçip Kaynağı değiştir'e tıklanması, dağıtım iletişim kutusunun seçili kaynağı kullanarak yeniden dağıtmasına neden olur. Daha sonra dağıtımınızı yeni bölgede oluşturmaya devam edebilirsiniz.

Kotanızla yeni dağıtım veya değişim modelleri oluşturma

Abonelik ve bölge kapsamında hala kullanılabilir kotanız varsa, Microsoft'tan barındırılan ve satışı yapılan diğer modeller için yeni sağlanmış dağıtımlar oluşturabilirsiniz.

Adımlar yukarıdaki örnekle aynıdır. Yeni bir dağıtım oluşturduğunuzda, dağıtım pencere öğesinde kullanabileceğiniz toplam kullanılabilir kotayı görürsünüz. Aşağıdaki ekran görüntüsünde kullanılabilir kota 250 birimdir.

Amiral gemisi modellerini dağıtmak için devredilebilir PTU'nun ekran görüntüsü.

Yeni modeli dağıttıktan sonra Foundry portalında kota kullanımını kontrol edebilirsiniz. Sağlanan yeni dağıtımlar için PTU kotalarını boşaltmak için yeni kota isteyerek veya mevcut dağıtımları silerek kotanızı yönetebilirsiniz.

Kota sayfasındaki devredilebilir PTU kotasının ekran görüntüsü.

İsteğe bağlı olarak rezervasyon satın alma

Dağıtımınızın oluşturulmasının ardından Azure Rezervasyonu aracılığıyla bir dönem indirimi satın almak isteyebilirsiniz. Azure Rezervasyonu, dağıtımı birkaç günden fazla kullanmayı planlayan kullanıcılar için saatlik fiyatta önemli bir indirim sağlayabilir.

Satın alma modeli ve rezervasyonlar hakkında daha fazla bilgi için bkz:

Önemli

Model dağıtımları için kapasite kullanılabilirliği dinamiktir ve bölgeler ve modeller arasında sık sık değişir. Kullanabileceğinizden daha fazla PTU için rezervasyon satın almanızı önlemek için önce dağıtımlar oluşturun ve ardından dağıtmış olduğunuz PTU'ları kapsayacak şekilde Azure Rezervasyonu satın alın. Bu en iyi uygulama, rezervasyon indiriminden tam olarak yararlanabilmenizi ve kullanamayacağınız bir dönem taahhüdü satın almanızı engellemenizi sağlar.

İlk çıkarım çağrılarınızı yapma

Sağlanan dağıtımlar için çıkarım kodu, standart dağıtım türüyle aynıdır. Aşağıdaki kod parçacığı bir GPT-4 modeline yapılan sohbet tamamlama çağrısını gösterir. Bu modelleri program aracılığıyla ilk kez kullandığınızda, hızlı başlangıç kılavuzumuzdan başlamanızı öneririz. Kitaplık içinde yeniden deneme mantığını içerdiğinden, OpenAI kitaplığını sürüm 1.0 veya üzeri ile kullanmanız önerimizdir.

    import os
    from openai import AzureOpenAI

    client = AzureOpenAI(
        azure_endpoint = os.getenv("AZURE_OPENAI_ENDPOINT"), 
        api_key=os.getenv("AZURE_OPENAI_API_KEY"),  
        api_version="2024-10-21"
    )

    response = client.chat.completions.create(
        model="gpt-4", # model = "deployment_name".
        messages=[
            {"role": "system", "content": "You are a helpful assistant."},
            {"role": "user", "content": "Does Azure OpenAI support customer managed keys?"},
            {"role": "assistant", "content": "Yes, customer managed keys are supported by Azure OpenAI."},
            {"role": "user", "content": "Do other Azure services support this too?"}
        ]
    )

    print(response.choices[0].message.content)

Önemli

Üretim için Azure Key Vault gibi kimlik bilgilerinizi depolamanın ve bunlara erişmenin güvenli bir yolunu kullanın. Kimlik bilgisi güvenliği hakkında daha fazla bilgi için bu güvenlik makalesine bakın.

Beklenen aktarım hızını anlama

Uç noktada elde edilebilecek aktarım hızı, dağıtılan PTU sayısı, giriş boyutu, çıkış boyutu ve çağrı hızının bir faktörüdür. eş zamanlı çağrıların ve işlenen toplam belirteçlerin sayısı bu değerlere göre farklılık gösterebilir.

Dağıtımınız için aktarım hızını belirlemenin önerilen yolu aşağıdaki gibidir:

  1. Boyutlandırma tahmini için Kapasite hesaplayıcısını kullanın. Kapasite hesaplayıcısını Foundry portalında kotalar sayfası ve Sağlanan sekmesi altında bulabilirsiniz.
  2. Gerçek trafik iş yükünü kullanarak yükü karşılaştırma. Karşılaştırma hakkında daha fazla bilgi için karşılaştırma bölümüne bakın.

Dağıtım kullanımınızı ölçme

Belirtilen sayıda sağlanan aktarım hızı birimi (PTU) dağıttığınızda, bu uç nokta için belirli bir çıkarım aktarım hızı miktarı sağlanır. Bu aktarım hızının kullanımı modele, model sürümü çağrı hızına, istem boyutuna, oluşturma boyutuna dayalı karmaşık bir formüldür. Bu hesaplamayı basitleştirmek için Azure İzleyici'de bir kullanım ölçümü sunuyoruz. Kullanım %100'in üzerine çıktıktan sonra dağıtımınız yeni çağrılarda 429 döndürür. Sağlanan kullanım aşağıdaki gibi tanımlanır:

PTU dağıtım kullanımı = (Zaman aralığında tüketilen PTU'lar) / (Zaman aralığında dağıtılan PTU'lar)

Kullanım ölçüsünü kaynağınızın Azure-İzleyici bölümünde bulabilirsiniz. İzleme panolarına erişmek için https://portal.azure.com'de oturum açın, Azure OpenAI kaynağınıza gidin ve sol gezinme bölmesinden Ölçümler sayfasını seçin. Ölçümler sayfasında 'Sağlanan yönetilen kullanım V2' ölçümünü seçin. Kaynakta birden fazla dağıtımınız varsa, 'Bölmeyi Uygula' düğmesine tıklayarak değerleri her dağıtıma göre de bölmeniz gerekir.

Azure portalındaki kaynağın ölçümler panelinde tahsis edilmiş yönetilen kullanımın ekran görüntüsü.

Dağıtımlarınızı izleme hakkında daha fazla bilgi için bkz. Azure OpenAI'yi İzleme sayfası.

Yüksek kullanımın yönetilmesi

Sağlanan dağıtımlar, belirli bir modeli çalıştırmak için ayrılmış miktarda işlem kapasitesi sağlar. Azure İzleyici'deki 'Provisioned-Managed Kullanımı V2' ölçümü, dağıtımın kullanımını bir dakikalık aralıklarla ölçer. Sağlanan Yönetilen dağıtımlar da iyileştirilir, böylece kabul edilen çağrılar tutarlı bir çağrı başına maksimum gecikme süresiyle işlenir. İş yükü ayrılmış kapasitesini aştığında, kullanım %100'in altına düşene kadar hizmet 429 HTTP durum kodu döndürür. Yeniden denemeden önceki süre, saniye ve milisaniye cinsinden olmak üzere retry-after ve retry-after-ms yanıt üst bilgilerinde sağlanır. Bu yaklaşım, geliştiriciye yüksek yük durumlarının nasıl işleneceğini (örneğin, yeniden deneme veya başka bir deneyime/uç noktaya yönlendirme) denetlemesini sağlarken çağrı başına gecikme hedeflerini korur.

429 yanıtı alırsam ne yapmalıyım?

429 yanıtı, ayrılan PTU'ların çağrı sırasında tamamen tüketildiğini gösterir. Yanıt, retry-after-ms ve retry-after üst bilgilerini içerir; bu üst bilgiler, bir sonraki çağrının kabul edilmesinden önce ne kadar beklemeniz gerektiğini belirtir. 429 yanıtını işlemeyi nasıl seçeceğiniz uygulama gereksinimlerinize bağlıdır. Dikkat edilmesi gereken bazı noktalar şunlardır:

  • Daha uzun çağrı başına gecikme sürelerini kabul ediyorsanız, retry-after-ms süreyi beklemek ve yeniden denemek için istemci tarafı yeniden deneme mantığını uygulayın. Bu yaklaşım, dağıtımdaki aktarım hızını en üst düzeye çıkarmanızı sağlar. Microsoft tarafından sağlanan istemci SDK'ları bunu zaten makul varsayılan değerlerle işler. Kullanım örneklerinize göre daha fazla ayarlama yapmanız gerekebilir.
  • Trafiği diğer modellere, dağıtımlara veya deneyimlere yeniden yönlendirmeyi göz önünde bulundurun. Bu yaklaşım en düşük gecikme süresi çözümüdür çünkü 429 sinyalini alır almaz bu işlem yapılabilir. 429 sinyali, yüksek kullanıma gönderilirken beklenmeyen bir hata yanıtı değildir, bunun yerine sağlanan dağıtımlar için kuyruğa alma ve yüksek yük yönetimi tasarımının bir parçasıdır.

İstemci kitaplıkları içinde yeniden deneme mantığını değiştirme

Azure OpenAI SDK'ları, varsayılan olarak ve arka planda istemcide 429 yanıtlarını yeniden dener (en fazla yeniden deneme sayısına kadar). Kitaplıklar zamana saygı gösterir retry-after . Ayrıca, yeniden deneme davranışını deneyiminiz için daha iyi olacak şekilde değiştirebilirsiniz. Python kitaplığıyla ilgili bir örnek aşağıda verilmiştır.

Yeniden deneme ayarlarını yapılandırmak veya devre dışı bırakmak için seçeneğini kullanabilirsiniz max_retries :

from openai import AzureOpenAI

# Configure the default for all requests:
client = AzureOpenAI(
    azure_endpoint = os.getenv("AZURE_OPENAI_ENDPOINT"),
    api_key=os.getenv("AZURE_OPENAI_API_KEY"),
    api_version="2024-10-21",
    max_retries=5,# default is 2
)

# Or, configure per-request:
client.with_options(max_retries=5).chat.completions.create(
    model="gpt-4", # model = "deployment_name".
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Does Azure OpenAI support customer managed keys?"},
        {"role": "assistant", "content": "Yes, customer managed keys are supported by Azure OpenAI."},
        {"role": "user", "content": "Do other Azure services support this too?"}
    ]
)

Karşılaştırma çalıştırma

Örneğinizin tam performans ve aktarım hızı özellikleri, yaptığınız isteklerin türüne ve tam iş yüküne bağlıdır. İş yükünüz için aktarım hızını belirlemenin en iyi yolu, kendi verileriniz üzerinde bir karşılaştırma çalıştırmaktır.

Bu çalışmada size yardımcı olmak için karşılaştırma aracı, dağıtımınız üzerinde karşılaştırmaları kolayca çalıştırmanın bir yolunu sağlar. Araç, birkaç olası önceden yapılandırılmış iş yükü şekliyle birlikte gelir ve temel performans ölçümlerini oluşturur. GitHub Depomuzda araç ve yapılandırma ayarları hakkında daha fazla bilgi edinin: https://github.com/Azure/azure-openai-benchmark.

Aşağıdaki iş akışını öneririz:

  1. Kapasite hesaplayıcısını kullanarak aktarım hızı PTU'larınızı tahmin edin.
  2. Sonuçları düzenli bir durumda gözlemlemek için bu trafik şekliyle uzun bir süre (10+ dakika) bir karşılaştırma çalıştırın.
  3. Karşılaştırma aracından ve Azure İzleyici'den kullanımı, işlenen belirteçleri ve çağrı hızı değerlerini gözlemleyin.
  4. İstemci uygulamanızı kullanarak kendi trafik şekliniz ve iş yükleriniz ile bir karşılaştırma çalıştırın. Azure OpenAI istemci kitaplığını veya özel mantığı kullanarak yeniden deneme mantığını mutlaka uygulayın.

Sonraki Adımlar