Meta Llama modellerini Azure Machine Learning stüdyosu ile dağıtma

Makale
05/22/2024

Bu makalede Meta Lama modelleri (LLM'ler) hakkında bilgi edineceksiniz. Ayrıca Azure Machine Learning stüdyosu kullanarak bu kümeden faturalama sırasında ödeme veya yönetilen işlem ile sunucusuz API'lere model dağıtmayı da öğreneceksiniz.

Önemli

Meta Llama 3 modellerinin duyurusu hakkında daha fazla bilgi edinmek için Azure Yapay Zeka Modeli Kataloğu: Microsoft Tech Community Blogu ve Meta Duyuru Blogu'ndan ulaşabilirsiniz.

Meta Llama 3 modelleri ve araçları, 8 milyar ila 70 milyar parametre arasında değişen önceden eğitilmiş ve ince ayarlı üretken metin modellerinden oluşan bir koleksiyon. Meta Llama model ailesi, insan geri bildirimlerinden (RLHF) gelen ve Meta-Llama-3-8B-Instruct ve Meta-Llama-3-70B-Instruct adlı pekiştirici öğrenme ile diyalog kullanım örnekleri için iyileştirilmiş ince ayarlı sürümler de içerir. LangChain, LiteLLM , OpenAI ve Azure API ile tümleştirmeleri keşfetmek için aşağıdaki GitHub örneklerine bakın.

Önemli

Bu özellik şu anda genel önizlemededir. Bu önizleme sürümü hizmet düzeyi sözleşmesi olmadan sağlanır ve üretim iş yükleri için bu sürümü önermeyiz. Bazı özellikler desteklenmiyor olabileceği gibi özellikleri sınırlandırılmış da olabilir.

Daha fazla bilgi için bkz. Microsoft Azure Önizlemeleri Ek Kullanım Koşulları.

Meta Llama modellerini sunucusuz API olarak dağıtma

Model kataloğundaki bazı modeller kullandıkça öde faturalaması ile sunucusuz API olarak dağıtılabilir ve bu sayede, kuruluşların ihtiyaç duyduğu kurumsal güvenlik ve uyumluluk özelliklerini koruyarak bunları aboneliğinizde barındırmadan API olarak kullanmanın bir yolu sağlanır. Bu dağıtım seçeneği aboneliğinizden kota gerektirmez.

Meta Llama modelleri kullandıkça öde faturalaması olan sunucusuz bir API olarak dağıtılır ve Meta AI tarafından Microsoft Azure Market aracılığıyla sunulur ve daha fazla kullanım koşulları ve fiyatlandırma ekleyebilir.

model tekliflerini Azure Market

Kullandıkça öde faturalaması ile sunucusuz API olarak dağıtıldığında Meta Llama modelleri için Azure Market aşağıdaki modeller kullanılabilir:

Meta Lama 3
Meta Lama 2

Farklı bir model dağıtmanız gerekiyorsa, bunun yerine yönetilen işlemde dağıtın.

Geçerli bir ödeme yöntemine sahip bir Azure aboneliği. Ücretsiz veya deneme Azure abonelikleri çalışmaz. Azure aboneliğiniz yoksa başlamak için ücretli bir Azure hesabı oluşturun.
Azure Machine Learning çalışma alanı ve işlem örneği. Bunlara sahip değilseniz, bunları oluşturmak için Hızlı Başlangıç: Çalışma alanı kaynakları oluşturma makalesindeki adımları kullanın.

Önemli

Kullandıkça öde modeli dağıtım teklifi yalnızca Meta Llama 3 modelleri için Doğu ABD 2 ve İsveç Orta bölgelerinde oluşturulan çalışma alanlarında kullanılabilir.
Azure Machine Learning’deki işlemlere erişim vermek için Azure rol tabanlı erişim denetimleri (Azure RBAC) kullanılır. Bu makaledeki adımları gerçekleştirmek için kullanıcı hesabınıza Azure aboneliğinde sahip veya katkıda bulunan rolü atanmalıdır. Alternatif olarak, hesabınıza aşağıdaki izinlere sahip bir özel rol de atanabilir:
- Azure aboneliğinde - Çalışma alanının her çalışma alanı ve teklif başına bir kez Azure Market teklifine abone olması için:
  - Microsoft.MarketplaceOrdering/agreements/offers/plans/read
  - Microsoft.MarketplaceOrdering/agreements/offers/plans/sign/action
  - Microsoft.MarketplaceOrdering/offerTypes/publishers/offers/plans/agreements/read
  - Microsoft.Marketplace/offerTypes/publishers/offers/plans/agreements/read
  - Microsoft.SaaS/register/action
- Kaynak grubunda - SaaS kaynağını oluşturmak ve kullanmak için:
  - Microsoft.SaaS/resources/read
  - Microsoft.SaaS/resources/write
- Çalışma alanında - Uç noktaları dağıtmak için (Azure Machine Learning veri bilimci rolü bu izinleri zaten içerir):
  - Microsoft.MachineLearningServices/workspaces/marketplaceModelSubscriptions/*
  - Microsoft.MachineLearningServices/workspaces/serverlessEndpoints/*
İzinler hakkında daha fazla bilgi için bkz. Azure Machine Learning çalışma alanlarına erişimi yönetme.

Geçerli bir ödeme yöntemine sahip bir Azure aboneliği. Ücretsiz veya deneme Azure abonelikleri çalışmaz. Azure aboneliğiniz yoksa başlamak için ücretli bir Azure hesabı oluşturun.
Azure Machine Learning çalışma alanı ve işlem örneği. Bunlara sahip değilseniz, bunları oluşturmak için Hızlı Başlangıç: Çalışma alanı kaynakları oluşturma makalesindeki adımları kullanın.

Önemli

Kullandıkça öde modeli dağıtım teklifi yalnızca Meta Llama 2 modelleri için Doğu ABD 2 ve Batı ABD 3 bölgelerinde oluşturulan çalışma alanlarında kullanılabilir.
Azure Machine Learning’deki işlemlere erişim vermek için Azure rol tabanlı erişim denetimleri (Azure RBAC) kullanılır. Bu makaledeki adımları gerçekleştirmek için kullanıcı hesabınıza Azure aboneliğinde sahip veya katkıda bulunan rolü atanmalıdır. Alternatif olarak, hesabınıza aşağıdaki izinlere sahip bir özel rol de atanabilir:
- Azure aboneliğinde - Çalışma alanının her çalışma alanı ve teklif başına bir kez Azure Market teklifine abone olması için:
  - Microsoft.MarketplaceOrdering/agreements/offers/plans/read
  - Microsoft.MarketplaceOrdering/agreements/offers/plans/sign/action
  - Microsoft.MarketplaceOrdering/offerTypes/publishers/offers/plans/agreements/read
  - Microsoft.Marketplace/offerTypes/publishers/offers/plans/agreements/read
  - Microsoft.SaaS/register/action
- Kaynak grubunda - SaaS kaynağını oluşturmak ve kullanmak için:
  - Microsoft.SaaS/resources/read
  - Microsoft.SaaS/resources/write
- Çalışma alanında - Uç noktaları dağıtmak için (Azure Machine Learning veri bilimci rolü bu izinleri zaten içerir):
  - Microsoft.MachineLearningServices/workspaces/marketplaceModelSubscriptions/*
  - Microsoft.MachineLearningServices/workspaces/serverlessEndpoints/*
İzinler hakkında daha fazla bilgi için bkz. Azure Machine Learning çalışma alanlarına erişimi yönetme.

Yeni dağıtım oluşturma

Dağıtım oluşturmak için:

Meta Lama 3
Meta Lama 2

Azure Machine Learning stüdyosu'a gidin.
Modellerinizi dağıtmak istediğiniz çalışma alanını seçin. Kullandıkça öde modeli dağıtım teklifini kullanmak için çalışma alanınızın Doğu ABD 2 veya İsveç Orta bölgesine ait olması gerekir.
Model kataloğundan dağıtmak istediğiniz modeli seçin.

Alternatif olarak, çalışma alanınıza gidip Uç Noktalar>Sunucusuz uç noktalar>Oluştur'u seçerek dağıtımı başlatabilirsiniz.
Modelin genel bakış sayfasında Dağıt'ı ve ardından Azure AI content Safety ile Sunucusuz API'yi seçin.
Kullanım koşulları hakkında daha fazla bilgi edinmek için dağıtım sihirbazında Azure Market Koşulları bağlantısını seçin. Seçilen modelin fiyatlandırması hakkında bilgi edinmek için Market teklifi ayrıntıları sekmesini de seçebilirsiniz.
Modeli çalışma alanında ilk kez dağıtıyorsanız, çalışma alanınızı belirli bir teklif (örneğin, Meta-Llama-3-70B) için Azure Market abone olmanız gerekir. Bu adım, hesabınızın önkoşullarda listelenen Azure abonelik izinlerine ve kaynak grubu izinlerine sahip olmasını gerektirir. Her çalışma alanının, harcamaları denetlemenize ve izlemenize olanak tanıyan belirli Azure Market teklifine kendi aboneliği vardır. Abone Ol ve Dağıt'ı seçin.

Not

Çalışma alanını belirli bir Azure Market teklifine abone yapmak (bu örnekte Llama-3-70B), hesabınızın projenin oluşturulduğu abonelik düzeyinde Katkıda Bulunan veya Sahip erişimine sahip olmasını gerektirir. Alternatif olarak, kullanıcı hesabınıza önkoşullarda listelenen Azure aboneliği izinlerine ve kaynak grubu izinlerine sahip özel bir rol atanabilir.
Belirli bir Azure Market teklifi için çalışma alanına kaydolduktan sonra, aynı teklifin aynı çalışma alanında sonraki dağıtımları için yeniden abone olmanız gerekmez. Bu nedenle, sonraki dağıtımlar için abonelik düzeyinde izinlere sahip olmanız gerekmez. Bu senaryo sizin için geçerliyse dağıtmak için Devam'ı seçin.
Dağıtıma bir ad verin. Bu ad, dağıtım API'si URL'sinin bir parçası olur. Bu URL her Azure bölgesinde benzersiz olmalıdır.
Dağıt'ı seçin. Dağıtım tamamlanana ve sunucusuz uç noktalar sayfasına yönlendirilene kadar bekleyin.
Uç noktayı seçerek Ayrıntılar sayfasını açın.
Modelle etkileşime geçmek için Test sekmesini seçin.
Ayrıca, dağıtımı çağırmak ve tamamlamaları oluşturmak için Hedef URL'yi ve Gizli Anahtar'ı da not alabilirsiniz.
Her zaman Çalışma Alanı>Uç Noktaları Sunucusuz uç noktalarına> giderek uç noktanın ayrıntılarını, URL'sini ve erişim anahtarlarını bulabilirsiniz.

Sunucusuz API olarak dağıtılan Meta Llama modellerinin faturalaması hakkında bilgi edinmek için bkz . Sunucusuz API olarak dağıtılan Meta Llama modelleri için maliyet ve kota konuları.

Meta Lama modellerini hizmet olarak kullanma

Hizmet olarak dağıtılan modeller, dağıtılan modelin türüne bağlı olarak sohbet veya tamamlamaLAR API'si kullanılarak kullanılabilir.

Meta Lama 3
Meta Lama 2

Çalışma alanında Uç Noktalar>Sunucusuz uç noktalar'ı seçin.
Oluşturduğunuz dağıtımı bulun ve seçin.
Hedef URL'yi ve Anahtar belirteci değerlerini kopyalayın.
Dağıtılan modelin türüne göre bir API isteğinde bulunun.
- gibi Llama-3-8Btamamlama modelleri için API'yi <target_url>/v1/completions kullanın.
- gibi Llama-3-8B-Instructsohbet modelleri için API'yi <target_url>/v1/chat/completions kullanın.
API'leri kullanma hakkında daha fazla bilgi için başvuru bölümüne bakın.

Çalışma alanında Uç Noktalar>Sunucusuz uç noktalar'ı seçin.
Oluşturduğunuz dağıtımı bulun ve seçin.
Hedef URL'yi ve Anahtar belirteci değerlerini kopyalayın.
Dağıtılan modelin türüne göre bir API isteğinde bulunun.
- gibi Meta-Llama-2-7Btamamlama modelleri için, yolundaki /completions/v1/completionsAPI'yi veya Azure AI Model Çıkarım API'sini kullanın.
- gibi Meta-Llama-2-7B-Chatsohbet modelleri için, yolundaki /chat/completions/v1/chat/completionsAPI'yi veya Azure AI Model Çıkarım API'sini kullanın.
API'leri kullanma hakkında daha fazla bilgi için başvuru bölümüne bakın.

Sunucusuz API dağıtılan Meta Llama modelleri için başvuru

Lama modelleri hem yolda /chat/completions Azure AI Model Çıkarım API'sini hem de üzerinde bir Lama Sohbet API'sini kabul edebilir/v1/chat/completions. Aynı şekilde, metin tamamlama işlemleri rotadaki /completions Azure AI Model Çıkarımı API'sini veya üzerinde bir Lama Tamamlamaları API'sini kullanarak oluşturulabilir/v1/completions

Azure AI Model Çıkarım API'si şeması, Sohbet Tamamlamaları başvurusu makalesinde bulunabilir ve uç noktanın kendisinden bir OpenAPI belirtimi elde edilebilir.

Tamamlamalar API'si

İsteği yola göndermek için /v1/completions yöntemini POST kullanın:

İste

POST /v1/completions HTTP/1.1
Host: <DEPLOYMENT_URI>
Authorization: Bearer <TOKEN>
Content-type: application/json

İstek şeması

Payload, aşağıdaki parametreleri içeren JSON biçimli bir dizedir:

Anahtar	Tür	Varsayılan	Açıklama
`prompt`	`string`	Varsayılan yoktur. Bu değer belirtilmelidir.	Modele gönderme istemi.
`stream`	`boolean`	`False`	Akış, oluşturulan belirteçlerin her kullanılabilir olduğunda yalnızca veri sunucu tarafından gönderilen olaylar olarak gönderilmesini sağlar.
`max_tokens`	`integer`	`16`	Tamamlanmada oluşturulacak en fazla belirteç sayısı. İsteminizin ve artı `max_tokens` değerin belirteç sayısı modelin bağlam uzunluğunu aşamaz.
`top_p`	`float`	`1`	Modelin olasılık kütleli belirteçlerin sonuçlarını dikkate aldığı, çekirdek örneklemesi olarak adlandırılan sıcaklıkla `top_p` örneklemeye alternatiftir. Bu nedenle 0,1 yalnızca ilk %10 olasılık kütlesinden oluşan belirteçlerin dikkate alınması anlamına gelir. Genellikle veya `temperature`değiştirmenizi `top_p` öneririz, ancak ikisini birden önermeyiz.
`temperature`	`float`	`1`	0 ile 2 arasında kullanılacak örnekleme sıcaklığı. Daha yüksek değerler, model örneklerinin belirteçlerin daha geniş bir şekilde dağıtılması anlamına gelir. Sıfır, doyumsuz örnekleme anlamına gelir. Bunu veya `top_p`değiştirmenizi öneririz, ancak ikisini birden değiştirmemenizi öneririz.
`n`	`integer`	`1`	Her istem için kaç tamamlama oluşturulacağı. Not: Bu parametre birçok tamamlama oluşturduğundan belirteç kotanızı hızla kullanabilir.
`stop`	`array`	`null`	Dize veya API'nin başka belirteçler oluşturmayı durdurduğu sözcüğü içeren dizelerin listesi. Döndürülen metin durdurma sırasını içermez.
`best_of`	`integer`	`1`	Tamamlamaları `best_of` sunucu tarafı oluşturur ve "en iyi" değerini (belirteç başına en düşük günlük olasılığına sahip olan) döndürür. Sonuçlar akışla aktarılamaz. ile `n`kullanıldığında, `best_of` aday tamamlama sayısını denetler ve `n` döndürülecek sayısını belirtir; best_of değerinden `n`büyük olması gerekir. Not: Bu parametre birçok tamamlama oluşturduğundan belirteç kotanızı hızla kullanabilir.
`logprobs`	`integer`	`null`	En olası belirteçlere ve seçilen belirteçlere günlük olasılıklarını `logprobs` eklemeyi gösteren bir sayı. Örneğin, 10 ise `logprobs` , API en olası 10 belirtecin listesini döndürür. API her zaman örneklenen belirtecin logprob'unu döndürür, bu nedenle yanıtta en fazla `logprobs`+1 öğe olabilir.
`presence_penalty`	`float`	`null`	-2,0 ile 2,0 arasında bir sayı. Pozitif değerler, yeni belirteçleri metinde şu ana kadar görünip görünmediklerine göre cezalandırarak modelin yeni konularla ilgili konuşma olasılığını artırır.
`ignore_eos`	`boolean`	`True`	EOS belirtecinin yoksayılıp yoksayılmayacağı ve EOS belirteci oluşturulduktan sonra belirteç oluşturmaya devam edilip edilmeyeceği.
`use_beam_search`	`boolean`	`False`	Örnekleme yerine ışın aramasının kullanılıp kullanılmaymayacağı. Böyle bir durumda, `best_of` değerinden `1` büyük ve `temperature` olmalıdır `0`.
`stop_token_ids`	`array`	`null`	Oluşturulduğunda daha fazla belirteç oluşturmayı durduran belirteçler için kimliklerin listesi. Döndürülen çıkış, durdurma belirteçleri özel belirteçler olmadığı sürece durdurma belirteçlerini içerir.
`skip_special_tokens`	`boolean`	`null`	Çıkıştaki özel belirteçlerin atlanıp atlanmayacağı.

Örnek

Gövde

{
    "prompt": "What's the distance to the moon?",
    "temperature": 0.8,
    "max_tokens": 512,
}

Yanıt şeması

Yanıt yükü, aşağıdaki alanlara sahip bir sözlüktür.

Anahtar	Type	Açıklama
`id`	`string`	Tamamlanma için benzersiz bir tanımlayıcı.
`choices`	`array`	Giriş istemi için modelin oluşturduğu tamamlama seçeneklerinin listesi.
`created`	`integer`	Tamamlanmanın oluşturulduğu Unix zaman damgası (saniye olarak).
`model`	`string`	Tamamlanmak için kullanılan model_id.
`object`	`string`	Her zaman `text_completion`olan nesne türü.
`usage`	`object`	Tamamlanma isteği için kullanım istatistikleri.

İpucu

Akış modunda, her yanıt öbeği için, finish_reason bir yük [DONE]tarafından sonlandırılan son öbek dışında her zaman nullolur.

choices nesnesi aşağıdaki alanlara sahip bir sözlüktür.

Anahtar	Type	Açıklama
`index`	`integer`	Seçim dizini. 1 olduğunda `best_of`> , bu dizideki dizin sıralı olmayabilir ve 0 ile n-1 arasında olmayabilir.
`text`	`string`	Tamamlanma sonucu.
`finish_reason`	`string`	Modelin belirteç oluşturma işlemini durdurmasının nedeni: - `stop`: model doğal bir durdurma noktasına veya sağlanan bir durdurma dizisine isabet etti. - `length`: en fazla belirteç sayısına ulaşıldıysa. - `content_filter`: RAI moderatör olduğunda ve CMP moderasyonu zorladığında. - `content_filter_error`: denetim sırasında bir hata oluştu ve yanıtla ilgili karar veremedi. - `null`: API yanıtı devam ediyor veya tamamlanmadı.
`logprobs`	`object`	Çıkış metninde oluşturulan belirteçlerin günlük olasılıkları.

usage nesnesi aşağıdaki alanlara sahip bir sözlüktür.

Anahtar	Tür	Değer
`prompt_tokens`	`integer`	İstemdeki belirteç sayısı.
`completion_tokens`	`integer`	Tamamlanmada oluşturulan belirteçlerin sayısı.
`total_tokens`	`integer`	Toplam belirteç sayısı.

logprobs nesnesi aşağıdaki alanlara sahip bir sözlüktür:

Anahtar	Tür	Değer
`text_offsets`	`array` / `integers`	Tamamlanma çıkışındaki her belirtecin konumu veya dizini.
`token_logprobs`	`array` / `float`	Dizideki `top_logprobs` sözlükten seçildi`logprobs`.
`tokens`	`array` / `string`	Seçili belirteçler.
`top_logprobs`	`array` / `dictionary`	Sözlük dizisi. Her sözlükte anahtar belirteç, değer ise olasılıktır.

Örnek

{
    "id": "12345678-1234-1234-1234-abcdefghijkl",
    "object": "text_completion",
    "created": 217877,
    "choices": [
        {
            "index": 0,
            "text": "The Moon is an average of 238,855 miles away from Earth, which is about 30 Earths away.",
            "logprobs": null,
            "finish_reason": "stop"
        }
    ],
    "usage": {
        "prompt_tokens": 7,
        "total_tokens": 23,
        "completion_tokens": 16
    }
}

Sohbet API'si

İsteği yola göndermek için /v1/chat/completions yöntemini POST kullanın:

İste

POST /v1/chat/completions HTTP/1.1
Host: <DEPLOYMENT_URI>
Authorization: Bearer <TOKEN>
Content-type: application/json

İstek şeması

Payload, aşağıdaki parametreleri içeren JSON biçimli bir dizedir:

Anahtar	Tür	Varsayılan	Açıklama
`messages`	`string`	Varsayılan yoktur. Bu değer belirtilmelidir.	Modele sorulmak için kullanılacak ileti veya ileti geçmişi.
`stream`	`boolean`	`False`	Akış, oluşturulan belirteçlerin her kullanılabilir olduğunda yalnızca veri sunucu tarafından gönderilen olaylar olarak gönderilmesini sağlar.
`max_tokens`	`integer`	`16`	Tamamlanmada oluşturulacak en fazla belirteç sayısı. İsteminizin ve artı `max_tokens` değerin belirteç sayısı modelin bağlam uzunluğunu aşamaz.
`top_p`	`float`	`1`	Modelin olasılık kütleli belirteçlerin sonuçlarını dikkate aldığı, çekirdek örneklemesi olarak adlandırılan sıcaklıkla `top_p` örneklemeye alternatiftir. Bu nedenle 0,1 yalnızca ilk %10 olasılık kütlesinden oluşan belirteçlerin dikkate alınması anlamına gelir. Genellikle veya `temperature`değiştirmenizi `top_p` öneririz, ancak ikisini birden önermeyiz.
`temperature`	`float`	`1`	0 ile 2 arasında kullanılacak örnekleme sıcaklığı. Daha yüksek değerler, model örneklerinin belirteçlerin daha geniş bir şekilde dağıtılması anlamına gelir. Sıfır, doyumsuz örnekleme anlamına gelir. Bunu veya `top_p`değiştirmenizi öneririz, ancak ikisini birden değiştirmemenizi öneririz.
`n`	`integer`	`1`	Her istem için kaç tamamlama oluşturulacağı. Not: Bu parametre birçok tamamlama oluşturduğundan belirteç kotanızı hızla kullanabilir.
`stop`	`array`	`null`	Dize veya API'nin başka belirteçler oluşturmayı durdurduğu sözcüğü içeren dizelerin listesi. Döndürülen metin durdurma sırasını içermez.
`best_of`	`integer`	`1`	Tamamlamaları `best_of` sunucu tarafı oluşturur ve "en iyi" değerini (belirteç başına en düşük günlük olasılığına sahip olan) döndürür. Sonuçlar akışla aktarılamaz. ile `nbest_of` kullanıldığında, aday tamamlama sayısını denetler ve `n` döndürülecek sayısını belirtir;`best_of` değerinden `n`büyük olmalıdır. Not: Bu parametre birçok tamamlama oluşturduğundan belirteç kotanızı hızla kullanabilir.
`logprobs`	`integer`	`null`	En olası belirteçlere ve seçilen belirteçlere günlük olasılıklarını `logprobs` eklemeyi gösteren bir sayı. Örneğin, 10 ise `logprobs` , API en olası 10 belirtecin listesini döndürür. API her zaman örneklenen belirtecin logprob'unu döndürür, bu nedenle yanıtta en fazla `logprobs`+1 öğe olabilir.
`presence_penalty`	`float`	`null`	-2,0 ile 2,0 arasında bir sayı. Pozitif değerler, yeni belirteçleri metinde şu ana kadar görünip görünmediklerine göre cezalandırarak modelin yeni konularla ilgili konuşma olasılığını artırır.
`ignore_eos`	`boolean`	`True`	EOS belirtecinin yoksayılıp yoksayılmayacağı ve EOS belirteci oluşturulduktan sonra belirteç oluşturmaya devam edilip edilmeyeceği.
`use_beam_search`	`boolean`	`False`	Örnekleme yerine ışın aramasının kullanılıp kullanılmaymayacağı. Böyle bir durumda, `best_of` değerinden `1` büyük ve `temperature` olmalıdır `0`.
`stop_token_ids`	`array`	`null`	Oluşturulduğunda daha fazla belirteç oluşturmayı durduran belirteçler için kimliklerin listesi. Döndürülen çıkış, durdurma belirteçleri özel belirteçler olmadığı sürece durdurma belirteçlerini içerir.
`skip_special_tokens`	`boolean`	`null`	Çıkıştaki özel belirteçlerin atlanıp atlanmayacağı.

messages Nesnesi aşağıdaki alanlara sahiptir:

Anahtar	Tür	Değer
`content`	`string`	İletinin içeriği. tüm iletiler için içerik gereklidir.
`role`	`string`	İletinin yazarının rolü. `system`, `user`veya `assistant`.

Örnek

Gövde

{
    "messages":
    [
        { 
        "role": "system", 
        "content": "You are a helpful assistant that translates English to Italian."},
        {
        "role": "user", 
        "content": "Translate the following sentence from English to Italian: I love programming."
        }
    ],
    "temperature": 0.8,
    "max_tokens": 512,
}

Yanıt şeması

Yanıt yükü, aşağıdaki alanlara sahip bir sözlüktür.

Anahtar	Type	Açıklama
`id`	`string`	Tamamlanma için benzersiz bir tanımlayıcı.
`choices`	`array`	Modelin giriş iletileri için oluşturduğu tamamlama seçimlerinin listesi.
`created`	`integer`	Tamamlanmanın oluşturulduğu Unix zaman damgası (saniye olarak).
`model`	`string`	Tamamlanmak için kullanılan model_id.
`object`	`string`	Her zaman `chat.completion`olan nesne türü.
`usage`	`object`	Tamamlanma isteği için kullanım istatistikleri.

İpucu

Akış modunda, her yanıt öbeği için, finish_reason bir yük [DONE]tarafından sonlandırılan son öbek dışında her zaman nullolur. Her choices nesnede, için messages anahtarı tarafından deltadeğiştirilir.

choices nesnesi aşağıdaki alanlara sahip bir sözlüktür.

Anahtar	Type	Açıklama
`index`	`integer`	Seçim dizini. 1 olduğunda`best_of`>, bu dizideki dizin sıralı olmayabilir ve için `n-1`olmayabilir`0`.
`messages` veya `delta`	`string`	Nesnede `messages` sohbet tamamlama sonucu. Akış modu kullanıldığında anahtar `delta` kullanılır.
`finish_reason`	`string`	Modelin belirteç oluşturma işlemini durdurmasının nedeni: - `stop`: model doğal bir durdurma noktasına veya sağlanan bir durdurma dizisine isabet etti. - `length`: en fazla belirteç sayısına ulaşıldıysa. - `content_filter`: RAI moderatör olduğunda ve CMP moderasyonu zorladığında - `content_filter_error`: denetim sırasında bir hata oluştu ve yanıtla ilgili karar veremedi - `null`: API yanıtı devam ediyor veya tamamlanmadı.
`logprobs`	`object`	Çıkış metninde oluşturulan belirteçlerin günlük olasılıkları.

usage nesnesi aşağıdaki alanlara sahip bir sözlüktür.

Anahtar	Tür	Değer
`prompt_tokens`	`integer`	İstemdeki belirteç sayısı.
`completion_tokens`	`integer`	Tamamlanmada oluşturulan belirteçlerin sayısı.
`total_tokens`	`integer`	Toplam belirteç sayısı.

logprobs nesnesi aşağıdaki alanlara sahip bir sözlüktür:

Anahtar	Tür	Değer
`text_offsets`	`array` / `integers`	Tamamlanma çıkışındaki her belirtecin konumu veya dizini.
`token_logprobs`	`array` / `float`	Dizideki `top_logprobs` sözlükten seçildi`logprobs`.
`tokens`	`array` / `string`	Seçili belirteçler.
`top_logprobs`	`array` / `dictionary`	Sözlük dizisi. Her sözlükte anahtar belirteç, değer ise olasılıktır.

Örnek

Aşağıda örnek bir yanıt gösterilmektedir:

{
    "id": "12345678-1234-1234-1234-abcdefghijkl",
    "object": "chat.completion",
    "created": 2012359,
    "model": "",
    "choices": [
        {
            "index": 0,
            "finish_reason": "stop",
            "message": {
                "role": "assistant",
                "content": "Sure, I\'d be happy to help! The translation of ""I love programming"" from English to Italian is:\n\n""Amo la programmazione.""\n\nHere\'s a breakdown of the translation:\n\n* ""I love"" in English becomes ""Amo"" in Italian.\n* ""programming"" in English becomes ""la programmazione"" in Italian.\n\nI hope that helps! Let me know if you have any other sentences you\'d like me to translate."
            }
        }
    ],
    "usage": {
        "prompt_tokens": 10,
        "total_tokens": 40,
        "completion_tokens": 30
    }
}

Meta Llama modellerini yönetilen işlem için dağıtma

Kullandıkça öde yönetilen hizmetiyle dağıtmanın yanı sıra, Azure Machine Learning stüdyosu'de yönetilen işlem için Llama 3 modellerini de dağıtabilirsiniz. Yönetilen işleme dağıtıldığında, kullanılacak sanal makineler ve beklediğiniz yükü işlemek için örnek sayısı dahil olmak üzere modeli çalıştıran altyapıyla ilgili tüm ayrıntıları seçebilirsiniz. Yönetilen işlem kotasına dağıtılan modeller aboneliğinizden kota tüketir. Meta Llama ailesindeki tüm modeller yönetilen işlem için dağıtılabilir.

Yeni dağıtım oluşturma

Meta Lama 3
Meta Lama 2

gibi Llama-3-7B-Instruct bir modeli Azure Machine Learning stüdyosu'daki gerçek zamanlı uç noktaya dağıtmak için bu adımları izleyin.

Modeli dağıtmak istediğiniz çalışma alanını seçin.
Stüdyonun model kataloğundan dağıtmak istediğiniz modeli seçin.

Alternatif olarak, çalışma alanınıza gidip Uç noktalar>gerçek zamanlı uç noktalar>Oluştur'u seçerek dağıtımı başlatabilirsiniz.
Modelin genel bakış sayfasında Dağıt'ı ve ardından Azure AI İçerik Güvenliği olmadan Yönetilen İşlem'i seçin.
Azure AI İçerik Güvenliği ile Dağıt (önizleme) sayfasında Azure AI İçerik Güvenliği'ni atla'yı seçerek modeli kullanıcı arabirimini kullanarak dağıtmaya devam edebilirsiniz.

İpucu

Genel olarak Meta Llama modelinin dağıtımı için Azure AI İçerik Güvenliğini Etkinleştir (Önerilen) seçeneğini belirlemenizi öneririz. Bu dağıtım seçeneği şu anda yalnızca Python SDK'sı kullanılarak desteklenir ve bir not defterinde gerçekleşir.
Devam Et'i seçin.

İpucu

Seçili projede yeterli kotanız yoksa, Paylaşılan kota kullanmak istiyorum seçeneğini kullanabilirsiniz ve bu uç noktanın 168 saat içinde silineceğini kabul ediyorum.
Dağıtıma atamak istediğiniz Sanal makineyi ve Örnek sayısını seçin.
Bu dağıtımı yeni bir uç noktanın veya mevcut bir uç noktanın parçası olarak oluşturmak isteyip istemediğinizi seçin. Uç noktalar, kaynak yapılandırmasını her biri için özel olarak tutarken birden çok dağıtım barındırabilir. Aynı uç nokta altındaki dağıtımlar uç nokta URI'sini ve erişim anahtarlarını paylaşır.
Çıkarım veri toplamayı (önizleme) etkinleştirmek isteyip istemediğinizi belirtin.
Paket Modeli'nin (önizleme) etkinleştirilmesini isteyip istemediğinizi belirtin.
Dağıt'ı seçin. Birkaç dakika sonra uç noktanın Ayrıntılar sayfası açılır.
Uç nokta oluşturma ve dağıtımının tamamlanmasını bekleyin. Bu adım birkaç dakika sürebilir.
Uygulamanızda dağıtılan modeli kullanmak için kullanabileceğiniz kod örneklerini almak için uç noktanın Kullan sayfasını seçin.

Studio kullanarak yönetilen işlemde modelleri dağıtma hakkında daha fazla bilgi için bkz . Çıkarım için temel modelleri uç noktalara dağıtma.

gibi Llama-2-7b-chat bir modeli Azure Machine Learning stüdyosu'daki gerçek zamanlı uç noktaya dağıtmak için bu adımları izleyin.

Modeli dağıtmak istediğiniz çalışma alanını seçin.
Stüdyonun model kataloğundan dağıtmak istediğiniz modeli seçin.

Alternatif olarak, çalışma alanınıza gidip Uç noktalar>gerçek zamanlı uç noktalar>Oluştur'u seçerek dağıtımı başlatabilirsiniz.
Modelin genel bakış sayfasında Dağıt'ı ve ardından Azure AI İçerik Güvenliği olmadan Yönetilen İşlem'i seçin.
Azure AI İçerik Güvenliği ile Dağıt (önizleme) sayfasında Azure AI İçerik Güvenliği'ni atla'yı seçerek modeli kullanıcı arabirimini kullanarak dağıtmaya devam edebilirsiniz.

İpucu

Genel olarak Meta Llama modelinin dağıtımı için Azure AI İçerik Güvenliğini Etkinleştir (Önerilen) seçeneğini belirlemenizi öneririz. Bu dağıtım seçeneği şu anda yalnızca Python SDK'sı kullanılarak desteklenir ve bir not defterinde gerçekleşir.
Devam Et'i seçin.

İpucu

Seçili projede yeterli kotanız yoksa, Paylaşılan kota kullanmak istiyorum seçeneğini kullanabilirsiniz ve bu uç noktanın 168 saat içinde silineceğini kabul ediyorum.
Dağıtıma atamak istediğiniz Sanal makineyi ve Örnek sayısını seçin.
Bu dağıtımı yeni bir uç noktanın veya mevcut bir uç noktanın parçası olarak oluşturmak isteyip istemediğinizi seçin. Uç noktalar, kaynak yapılandırmasını her biri için özel olarak tutarken birden çok dağıtım barındırabilir. Aynı uç nokta altındaki dağıtımlar uç nokta URI'sini ve erişim anahtarlarını paylaşır.
Çıkarım veri toplamayı (önizleme) etkinleştirmek isteyip istemediğinizi belirtin.
Paket Modeli'nin (önizleme) etkinleştirilmesini isteyip istemediğinizi belirtin.
Dağıt'ı seçin. Birkaç dakika sonra uç noktanın Ayrıntılar sayfası açılır.
Uç nokta oluşturma ve dağıtımının tamamlanmasını bekleyin. Bu adım birkaç dakika sürebilir.
Uygulamanızda dağıtılan modeli kullanmak için kullanabileceğiniz kod örneklerini almak için uç noktanın Kullan sayfasını seçin.

Studio kullanarak yönetilen işlemde modelleri dağıtma hakkında daha fazla bilgi için bkz . Çıkarım için temel modelleri uç noktalara dağıtma.

Yönetilen işlemde dağıtılan Meta Llama modellerini kullanma

Gerçek zamanlı uç noktalara dağıtılan Meta Llama 3 modellerini çağırma hakkında başvuru için Azure Machine Learning stüdyosu model kataloğunda modelin kartına bakın. Her modelin kartında modelin açıklamasını, kod tabanlı çıkarım, ince ayarlama ve model değerlendirmesi için örnekler içeren bir genel bakış sayfası vardır.

Ek çıkarım örnekleri

Paket	Örnek Not Defteri
CURL ve Python web isteklerini kullanan CLI	cohere-embed.ipynb
OpenAI SDK (deneysel)	openaisdk.ipynb
LangChain	langchain.ipynb
Tutarlı SDK	cohere-sdk.ipynb
LiteLLM SDK	litellm.ipynb

Maliyet ve kotalar

Sunucusuz API olarak dağıtılan Meta Llama modelleri için maliyet ve kota konuları

Sunucusuz API olarak dağıtılan Meta Llama modelleri Meta tarafından Azure Market aracılığıyla sunulur ve kullanım için Azure Machine Learning stüdyosu ile tümleştirilir. Modelleri dağıtırken veya hassas ayarlar yaparken Azure Market fiyatlandırma bulabilirsiniz.

Çalışma alanı Azure Market belirli bir model teklifine her abone olduğunda, tüketimiyle ilişkili maliyetleri izlemek için yeni bir kaynak oluşturulur. Aynı kaynak çıkarım ve ince ayarlama ile ilişkili maliyetleri izlemek için kullanılır; ancak, her senaryo bağımsız olarak izlemek için birden çok metre kullanılabilir.

Maliyetleri izleme hakkında daha fazla bilgi için bkz. Azure Market aracılığıyla sunulan modeller için maliyetleri izleme.

Kota dağıtım başına yönetilir. Her dağıtımın dakikada 200.000 belirteç ve dakikada 1.000 API isteği hız sınırı vardır. Ancak şu anda proje başına model başına bir dağıtımı sınırlandırıyoruz. Geçerli hız sınırları senaryolarınız için yeterli değilse Microsoft Azure Desteği'ne başvurun.

Yönetilen işlem dağıtılan Meta Llama modelleri için maliyet ve kota konusunda dikkat edilmesi gerekenler

Meta Llama modellerinin yönetilen işlemle dağıtılması ve çıkarılması için, bölge bazında aboneliğinize atanan sanal makine (VM) çekirdek kotasını kullanırsınız. Azure Machine Learning stüdyosu kaydolduğunda, bölgede kullanılabilen birkaç VM ailesi için varsayılan VM kotası alırsınız. Kota sınırınıza ulaşana kadar dağıtım oluşturmaya devam edebilirsiniz. Bu sınıra ulaştıktan sonra kota artışı isteyebilirsiniz.

İçerik filtrelemesi

Sunucusuz API olarak dağıtılan modeller Azure AI içerik güvenliği tarafından korunur. Yönetilen işleme dağıtıldığında bu özelliği devre dışı bırakabilirsiniz. Azure AI içerik güvenliği etkinleştirildiğinde, hem istem hem de tamamlama, zararlı içeriğin çıkışını algılamayı ve önlemeyi hedefleyen sınıflandırma modellerinden oluşan bir topluluk aracılığıyla geçer. İçerik filtreleme sistemi, hem giriş istemlerinde hem de çıkış tamamlamalarında zararlı olabilecek belirli içerik kategorilerini algılar ve üzerinde işlem gerçekleştirir. Azure AI İçerik Güvenliği hakkında daha fazla bilgi edinin.

Aracılığıyla paylaş

Meta Llama modellerini Azure Machine Learning stüdyosu ile dağıtma

Meta Llama modellerini sunucusuz API olarak dağıtma

model tekliflerini Azure Market

Önkoşullar

Yeni dağıtım oluşturma

Meta Lama modellerini hizmet olarak kullanma

Sunucusuz API dağıtılan Meta Llama modelleri için başvuru

Tamamlamalar API'si

İstek şeması

Örnek

Yanıt şeması

Örnek

Sohbet API'si

İstek şeması

Örnek

Yanıt şeması

Örnek

Meta Llama modellerini yönetilen işlem için dağıtma

Yeni dağıtım oluşturma

Yönetilen işlemde dağıtılan Meta Llama modellerini kullanma

Ek çıkarım örnekleri

Maliyet ve kotalar

Sunucusuz API olarak dağıtılan Meta Llama modelleri için maliyet ve kota konuları

Yönetilen işlem dağıtılan Meta Llama modelleri için maliyet ve kota konusunda dikkat edilmesi gerekenler

İçerik filtrelemesi

Ek kaynaklar

Aracılığıyla paylaş

Meta Llama modellerini Azure Machine Learning stüdyosu ile dağıtma

Meta Llama modellerini sunucusuz API olarak dağıtma

model tekliflerini Azure Market

Önkoşullar

Yeni dağıtım oluşturma

Meta Lama modellerini hizmet olarak kullanma

Sunucusuz API dağıtılan Meta Llama modelleri için başvuru

Tamamlamalar API'si

İstek şeması

Örnek

Yanıt şeması

Örnek

Sohbet API'si

İstek şeması

Örnek

Yanıt şeması

Örnek

Meta Llama modellerini yönetilen işlem için dağıtma

Yeni dağıtım oluşturma

Yönetilen işlemde dağıtılan Meta Llama modellerini kullanma

Ek çıkarım örnekleri

Maliyet ve kotalar

Sunucusuz API olarak dağıtılan Meta Llama modelleri için maliyet ve kota konuları

Yönetilen işlem dağıtılan Meta Llama modelleri için maliyet ve kota konusunda dikkat edilmesi gerekenler

İçerik filtrelemesi

İlgili içerik

Ek kaynaklar