次の方法で共有


Azure AI Studio を使用して Meta Llama モデルをデプロイする方法

重要

この記事で説明する機能の一部は、プレビューでのみ使用できる場合があります。 このプレビューはサービス レベル アグリーメントなしで提供されており、運用環境ではお勧めしません。 特定の機能はサポート対象ではなく、機能が制限されることがあります。 詳しくは、Microsoft Azure プレビューの追加使用条件に関するページをご覧ください。

この記事では、Meta Llama モデルについて説明します。 また、Azure AI Studio を使用して、従量課金制でサーバーレス API またはマネージド コンピューティングに、このセットのモデルをデプロイする方法についても学習します。

重要

Azure AI モデル カタログで現在利用可能な Meta Llama 3 モデルの発表の詳細については、Microsoft Tech Community ブログMeta 発表ブログをお読みください。

Meta Llama 3 のモデルとツールは、規模が 80 億から 700 億個のパラメーターの範囲の、事前トレーニングおよび微調整された生成テキスト モデルのコレクションです。 モデル ファミリには、人間のフィードバックによる強化学習 (RLHF) を使用した対話のユース ケース用に最適化された、Meta-Llama-3-8B-Instruct や Meta-Llama-3-70B-Instruct と呼ばれる微調整バージョンも含まれています。 次の GitHub サンプルを参照し、LangChainLiteLLMOpenAIAzure API との統合を確認します。

Meta Llama モデルをサーバーレス API としてデプロイする

モデル カタログ内の特定のモデルは、従量課金制でサーバーレス API としてデプロイでき、企業のセキュリティとコンプライアンス組織のニーズを維持しながら、サブスクリプションでホストせずに API として使用する方法が提供されます。 このデプロイ オプションでは、サブスクリプションからのクォータを必要としません。

Meta Llama 3 モデルは、Microsoft Azure Marketplace を通じて従量課金制でサーバーレス API としてデプロイされ、使用条件と価格が追加される可能性があります。

Azure Marketplace モデルオファリング

従量課金制のサービスとしてデプロイするときは、Llama 3 のモデルを Azure Marketplace で入手できます。

別のモデルをデプロイする必要がある場合は、代わりにマネージド コンピューティングにデプロイします。

前提条件

  • 有効な支払い方法を持つ Azure サブスクリプション。 無料または試用版の Azure サブスクリプションは機能しません。 Azure サブスクリプションを持っていない場合は、始めるために有料の Azure アカウントを作成してください。

  • AI Studio ハブ

    重要

    Meta Llama 3 モデルでは、従量課金制モデルのデプロイ オファリングは、米国東部 2 およびスウェーデン中部リージョンで作成されたハブでのみ利用できます。

  • Azure AI Studio の AI Studio プロジェクト

  • Azure AI Studio での操作に対するアクセスを許可するには、Azure ロールベースのアクセス制御 (Azure RBAC) を使います。 この記事の手順を実行するには、ユーザー アカウントに、Azure サブスクリプションの所有者共同作成者ロールを割り当てる必要があります。 別の方法として、アカウントに、次のアクセス許可を持つカスタム ロールを割り当てることができます。

    • Azure サブスクリプションで - 各プロジェクトについて 1 回、オファリングごとに、AI Studio プロジェクトを Azure Marketplace オファリングにサブスクライブするため:

      • Microsoft.MarketplaceOrdering/agreements/offers/plans/read
      • Microsoft.MarketplaceOrdering/agreements/offers/plans/sign/action
      • Microsoft.MarketplaceOrdering/offerTypes/publishers/offers/plans/agreements/read
      • Microsoft.Marketplace/offerTypes/publishers/offers/plans/agreements/read
      • Microsoft.SaaS/register/action
    • リソース グループで - SaaS リソースを作成して使用するため:

      • Microsoft.SaaS/resources/read
      • Microsoft.SaaS/resources/write
    • AI Studio プロジェクトで - エンドポイントをデプロイするため (Azure AI 開発者ロールには、次のアクセス許可が既に含まれています):

      • Microsoft.MachineLearningServices/workspaces/marketplaceModelSubscriptions/*
      • Microsoft.MachineLearningServices/workspaces/serverlessEndpoints/*

    アクセス許可について詳しくは、「Azure AI Studio でのロールベースのアクセス制御」をご覧ください。

新しいデプロイを作成する

デプロイを作成するには:

  1. Azure AI Studio にサインインします。

  2. Azure AI Studio のモデル カタログからデプロイするモデルを選びます。

    または、AI Studio でプロジェクトから開始して、デプロイを始めることもできます。 プロジェクトを選び、[デプロイ]>[+ 作成] を選択します。

  3. モデルの [詳細] ページで、[デプロイ] を選択し、[Azure AI Content Safety を使用したサーバーレス API] を選びます。

  4. モデルをデプロイするプロジェクトを選びます。 従量課金制モデルのデプロイ オファリングを使用するには、ワークスペースが米国東部 2 またはスウェーデン中部リージョンに属している必要があります。

  5. デプロイ ウィザードで、リンク [Azure Marketplace の使用条件] を選択して、使用条件の詳細を確認します。 [Marketplace オファーの詳細] タブを選択して、選択したモデルの価格について確認することもできます。

  6. プロジェクトにモデルを初めてデプロイする場合は、Azure Marketplace から特定のオファリング (Meta-Llama-3-70B など) 用のプロジェクトをサブスクライブする必要があります。 この手順は、前提条件に記載されている Azure サブスクリプションのアクセス許可とリソース グループのアクセス許可がアカウントに付与されていることを必要とします。 プロジェクトごとに、特定の Azure Marketplace オファリングへの固有のサブスクリプションがあり、それを使って支出を管理および監視できます。 [サブスクライブしてデプロイ] を選択します。

    Note

    プロジェクトを特定の Azure Marketplace オファリング (この場合、Meta-Llama-3-70B) にサブスクライブするには、プロジェクトが作成されるサブスクリプション レベルの共同作成者または所有者アクセス権をアカウントが持っている必要があります。 別の方法として、「前提条件」に記載されている Azure サブスクリプションのアクセス許可とリソース グループのアクセス許可を持つカスタム ロールをユーザー アカウントに割り当てることもできます。

  7. 特定の Azure Marketplace オファリングのプロジェクトにサインアップすると、"同じ" プロジェクト内の "同じ" オファリングの以降のデプロイで再度サブスクライブする必要はありません。 そのため、以降のデプロイに対するサブスクリプション レベルのアクセス許可を持つ必要はありません。 このシナリオが該当する場合は、[デプロイを続行] を選択します。

  8. デプロイに名前を付けます。 この名前は、デプロイ API URL の一部になります。 この URL は、Azure リージョンごとに一意である必要があります。

  9. 展開 を選択します。 デプロイの準備ができるまで待つと、[デプロイ] ページにリダイレクトされます。

  10. [プレイグラウンドで開く] を選んで、モデルの操作を始めます。

  11. [デプロイ] ページに戻ってデプロイを選び、エンドポイントの [ターゲット] URL とシークレット [キー] を記録できます。これを使ってデプロイを呼び出し、入力候補を生成できます。

  12. プロジェクト ページに移動し、左側のメニューから [デプロイ] を選択すれば、いつでもエンドポイントの詳細、URL、アクセス キーを確認できます。

従量課金制でデプロイされる Meta Llama モデルの課金については、「サービスとしてデプロイされた Llama 3 モデルのコストとクォータに関する考慮事項」を参照してください。

Meta Llama モデルをサービスとして使用する

サービスとしてデプロイされるモデルは、デプロイしたモデルの種類に応じて、チャットまたは入力候補 API を使用して消費できます。

  1. プロジェクトまたはハブを選び、左側のメニューから [デプロイ] を選択します。

  2. 作成したデプロイを見つけて選択します。

  3. [プレイグラウンドで開く] を選択します。

  4. [コードの表示] を選び、[エンドポイント] の URL と [キー] の値をコピーします。

  5. デプロイしたモデルの種類に基づいて API 要求を行います。

    • Meta-Llama-3-8B などの入力候補モデルの場合は、/completions API を使用します。
    • Meta-Llama-3-8B-Instruct などのチャット モデルの場合は、/chat/completions API を使用します。

    API の使用方法の詳細については、リファレンスのセクションを参照してください。

サービスとしてデプロイされた Meta Llama モデルのリファレンス

Llama モデルは、ルート /chat/completionsAzure AI Model Inference API または /v1/chat/completionsLlama Chat API の両方を受け入れます。 同様に、テキスト入力候補は、ルート /completionsAzure AI Model Inference API または /v1/completionsLlama Completions API を使って生成できます

Azure AI Model Inference API スキーマは、チャット入力候補のリファレンスの記事にあり、OpenAPI 仕様はエンドポイント自体から取得できます

入力候補 API

メソッド POST を使用して、/v1/completions ルートに要求を送信します:

Request

POST /v1/completions HTTP/1.1
Host: <DEPLOYMENT_URI>
Authorization: Bearer <TOKEN>
Content-type: application/json

要求スキーマ

ペイロードは、次のパラメーターを含む JSON 形式の文字列です:

キー Type Default 説明
prompt string 既定値はありません。 この値は指定する必要があります。 モデルに送信するプロンプト。
stream boolean False ストリーミングを使用すると、生成されたトークンが使用可能になるたびに、データのみのサーバー送信イベントとして送信できます。
max_tokens integer 16 完了で生成されるトークンの最大数。 プロンプトのトークン数と max_tokens の合計は、モデルのコンテキスト長を超えることはできません。
top_p float 1 核サンプリングと呼ばれる、温度によるサンプリングの代替の場合、モデルでは top_p 確率質量を持つトークンの結果が考慮されます。 したがって、0.1 は、上位 10% の確率質量を含むトークンのみが考慮されることを意味します。 一般に、top_ptemperature の両方ではなく、いずれかを変更することをお勧めします。
temperature float 1 使うサンプリング温度 (0 から 2)。 値が大きいほど、モデルはトークンの分布をより広くサンプルすることを意味します。 ゼロは、最長一致のサンプリングを意味します。 これと top_p の両方ではなく、いずれかを変更することをお勧めします。
n integer 1 プロンプトごとに生成する入力候補の数。
注: このパラメーターにより多くの入力候補が生成されるため、トークン クォータがすぐに消費される可能性があります。
stop array null API がそれ以降のトークンの生成を停止する単語を含む文字列または文字列のリスト。 返されるテキストに停止シーケンスは含まれません。
best_of integer 1 サーバー側で best_of 入力候補を生成し、"最適なもの" (トークンあたりの対数確率が最低のもの) を返します。 結果をストリーミングすることはできません。 n とともに使用すると、best_of は入力候補の数を制御し、n は返す数を指定します。best_ofn より大きくする必要があります。
注: このパラメーターにより多くの入力候補が生成されるため、トークン クォータがすぐに消費される可能性があります。
logprobs integer null logprobs に含める、最も可能性の高いトークンと選択したトークンの対数確率を示す数値。 たとえば、logprobs が 10 の場合、API は最も可能性が高い 10 個のトークンの一覧を返します。 API は、常にサンプリングされたトークンの logprob を返します。そのため、応答には、最大 logprobs+ 1 個の要素が含まれる可能性があります。
presence_penalty float null -2.0 ~ 2.0 の数。 正の値は、新しいトークンがこれまでのテキストに表示されているかどうかに基づいてペナルティを課し、モデルが新しいトピックについて話す可能性を高めます。
ignore_eos boolean True EOS トークンを無視し、EOS トークンの生成後もトークンの生成を続行するかどうかを指定します。
use_beam_search boolean False サンプリングの代わりにビーム検索を使用するかどうかを指定します。 この場合、best_of1 より大きく、temperature0 である必要があります。
stop_token_ids array null 生成されると、以降のトークンの生成を停止するトークンの ID の一覧。 返される出力には、停止トークンが特殊なトークンでない限り、停止トークンが含まれます。
skip_special_tokens boolean null 出力内の特別なトークンをスキップするかどうかを指定します。

本文​​

{
    "prompt": "What's the distance to the moon?",
    "temperature": 0.8,
    "max_tokens": 512
}

応答スキーマ

応答ペイロードは、次のフィールドを持つディクショナリです。

キー Type 説明
id string チャット入力候補の一意識別子。
choices array 入力プロンプト用にモデルが生成した入力候補の一覧。
created integer 入力候補が作成されたときの Unix タイムスタンプ (秒単位)。
model string 入力候補に使用される model_id。
object string オブジェクトの種類。これは常に text_completion です。
usage object 入力候補要求の使用状況の統計情報。

ヒント

ストリーミング モードでは、応答のチャンクごとに、ペイロード [DONE] によって終了される最後のチャンクを除き、finish_reason は常に null です。

choices オブジェクトは、次のフィールドを持つディクショナリです。

キー Type 説明
index integer 選択肢インデックス。 best_of> 1 のとき、この配列内のインデックスは順序が整っていない可能性があり、0 から n-1 ではない可能性があります。
text string 入力候補の結果。
finish_reason string モデルがトークンの生成を停止した理由。
- stop: モデルが自然な停止ポイント、または指定された停止シーケンスに達した場合。
- length: トークンの最大数に達した場合。
- content_filter: RAI がモデレートを行い、CMP がモデレーションを強制するとき。
- content_filter_error: モデレーション中にエラーが発生し、応答を決定できなかった場合。
- null: API 応答がまだ進行中であるか未完了の場合。
logprobs object 出力テキスト内の生成されたトークンのログ確率。

usage オブジェクトは、次のフィールドを持つディクショナリです。

キー Type Value
prompt_tokens integer プロンプト内のトークンの数。
completion_tokens integer 入力候補に生成されたトークンの数。
total_tokens integer トークンの合計数。

logprobs オブジェクトは、次のフィールドを持つディクショナリです:

キー Type Value
text_offsets arrayintegers 入力候補出力内の各トークンの位置またはインデックス。
token_logprobs arrayfloat top_logprobs 配列内のディクショナリから選択された logprobs
tokens arraystring 選択されたトークン。
top_logprobs arraydictionary ディクショナリの配列。 各ディクショナリでは、キーはトークンであり、値は prob です。

{
    "id": "12345678-1234-1234-1234-abcdefghijkl",
    "object": "text_completion",
    "created": 217877,
    "choices": [
        {
            "index": 0,
            "text": "The Moon is an average of 238,855 miles away from Earth, which is about 30 Earths away.",
            "logprobs": null,
            "finish_reason": "stop"
        }
    ],
    "usage": {
        "prompt_tokens": 7,
        "total_tokens": 23,
        "completion_tokens": 16
    }
}

チャット API

メソッド POST を使用して、/v1/chat/completions ルートに要求を送信します。

Request

POST /v1/chat/completions HTTP/1.1
Host: <DEPLOYMENT_URI>
Authorization: Bearer <TOKEN>
Content-type: application/json

要求スキーマ

ペイロードは、次のパラメーターを含む JSON 形式の文字列です:

キー Type Default 説明
messages string 既定値はありません。 この値は指定する必要があります。 モデルにプロンプトを表示するために使用するメッセージまたはメッセージの履歴。
stream boolean False ストリーミングを使用すると、生成されたトークンが使用可能になるたびに、データのみのサーバー送信イベントとして送信できます。
max_tokens integer 16 完了で生成されるトークンの最大数。 プロンプトのトークン数と max_tokens の合計は、モデルのコンテキスト長を超えることはできません。
top_p float 1 核サンプリングと呼ばれる、温度によるサンプリングの代替の場合、モデルでは top_p 確率質量を持つトークンの結果が考慮されます。 したがって、0.1 は、上位 10% の確率質量を含むトークンのみが考慮されることを意味します。 一般に、top_ptemperature の両方ではなく、いずれかを変更することをお勧めします。
temperature float 1 使うサンプリング温度 (0 から 2)。 値が大きいほど、モデルはトークンの分布をより広くサンプルすることを意味します。 ゼロは、最長一致のサンプリングを意味します。 これと top_p の両方ではなく、いずれかを変更することをお勧めします。
n integer 1 プロンプトごとに生成する入力候補の数。
注: このパラメーターにより多くの入力候補が生成されるため、トークン クォータがすぐに消費される可能性があります。
stop array null API がそれ以降のトークンの生成を停止する単語を含む文字列または文字列のリスト。 返されるテキストに停止シーケンスは含まれません。
best_of integer 1 サーバー側で best_of 入力候補を生成し、"最適なもの" (トークンあたりの対数確率が最低のもの) を返します。 結果をストリーミングすることはできません。 n とともに使用すると、best_of は入力候補の数を制御し、n は返す数を指定します。best_ofn より大きくする必要があります。
注: このパラメーターにより多くの入力候補が生成されるため、トークン クォータがすぐに消費される可能性があります。
logprobs integer null logprobs に含める、最も可能性の高いトークンと選択したトークンの対数確率を示す数値。 たとえば、logprobs が 10 の場合、API は最も可能性が高い 10 個のトークンの一覧を返します。 API は、常にサンプリングされたトークンの logprob を返します。そのため、応答には、最大 logprobs+ 1 個の要素が含まれる可能性があります。
presence_penalty float null -2.0 ~ 2.0 の数。 正の値は、新しいトークンがこれまでのテキストに表示されているかどうかに基づいてペナルティを課し、モデルが新しいトピックについて話す可能性を高めます。
ignore_eos boolean True EOS トークンを無視し、EOS トークンの生成後もトークンの生成を続行するかどうかを指定します。
use_beam_search boolean False サンプリングの代わりにビーム検索を使用するかどうかを指定します。 この場合、best_of1 より大きく、temperature0 である必要があります。
stop_token_ids array null 生成されると、以降のトークンの生成を停止するトークンの ID の一覧。 返される出力には、停止トークンが特殊なトークンでない限り、停止トークンが含まれます。
skip_special_tokens boolean null 出力内の特別なトークンをスキップするかどうかを指定します。

messages オブジェクトには次のフィールドがあります:

キー Type Value
content string メッセージの内容。 すべてのメッセージにはコンテンツが必要です。
role string メッセージの作成者の役割。 systemuser、または assistant のいずれか。

本文​​

{
    "messages":
    [
        { 
        "role": "system", 
        "content": "You are a helpful assistant that translates English to Italian."},
        {
        "role": "user", 
        "content": "Translate the following sentence from English to Italian: I love programming."
        }
    ],
    "temperature": 0.8,
    "max_tokens": 512,
}

応答スキーマ

応答ペイロードは、次のフィールドを持つディクショナリです。

キー Type 説明
id string チャット入力候補の一意識別子。
choices array 入力メッセージ用にモデルが生成した入力候補の一覧。
created integer 入力候補が作成されたときの Unix タイムスタンプ (秒単位)。
model string 入力候補に使用される model_id。
object string オブジェクトの種類。これは常に chat.completion です。
usage object 入力候補要求の使用状況の統計情報。

ヒント

ストリーミング モードでは、応答のチャンクごとに、ペイロード [DONE] によって終了される最後のチャンクを除き、finish_reason は常に null です。 各 choices オブジェクトで、messages のキーは delta で変更されます。

choices オブジェクトは、次のフィールドを持つディクショナリです。

キー Type 説明
index integer 選択肢インデックス。 best_of> 1 のとき、この配列内のインデックスは順序が整っていない可能性があり、0 から n-1 ではない可能性があります。
messages または delta string messages オブジェクトのチャットの入力候補結果。 ストリーミング モードを使用する場合は、 delta キーが使用されます。
finish_reason string モデルがトークンの生成を停止した理由。
- stop: モデルが自然な停止ポイント、または指定された停止シーケンスに達した場合。
- length: トークンの最大数に達した場合。
- content_filter: RAI がモデレートを行い、CMP がモデレーションを強制するとき
- content_filter_error: モデレーション中にエラーが発生し、応答を決定できなかった場合
- null: API 応答がまだ進行中であるか未完了の場合。
logprobs object 出力テキスト内の生成されたトークンのログ確率。

usage オブジェクトは、次のフィールドを持つディクショナリです。

キー Type Value
prompt_tokens integer プロンプト内のトークンの数。
completion_tokens integer 入力候補に生成されたトークンの数。
total_tokens integer トークンの合計数。

logprobs オブジェクトは、次のフィールドを持つディクショナリです:

キー Type Value
text_offsets arrayintegers 入力候補出力内の各トークンの位置またはインデックス。
token_logprobs arrayfloat top_logprobs 配列内のディクショナリから選択された logprobs
tokens arraystring 選択されたトークン。
top_logprobs arraydictionary ディクショナリの配列。 各ディクショナリでは、キーはトークンであり、値は prob です。

次に応答の例を示します。

{
    "id": "12345678-1234-1234-1234-abcdefghijkl",
    "object": "chat.completion",
    "created": 2012359,
    "model": "",
    "choices": [
        {
            "index": 0,
            "finish_reason": "stop",
            "message": {
                "role": "assistant",
                "content": "Sure, I\'d be happy to help! The translation of ""I love programming"" from English to Italian is:\n\n""Amo la programmazione.""\n\nHere\'s a breakdown of the translation:\n\n* ""I love"" in English becomes ""Amo"" in Italian.\n* ""programming"" in English becomes ""la programmazione"" in Italian.\n\nI hope that helps! Let me know if you have any other sentences you\'d like me to translate."
            }
        }
    ],
    "usage": {
        "prompt_tokens": 10,
        "total_tokens": 40,
        "completion_tokens": 30
    }
}

Meta Llama モデルをマネージド コンピューティングにデプロイする

従量課金制のマネージド サービスを使用したデプロイとは別に、AI Studio で Meta Llama モデルをマネージド コンピューティングにデプロイすることもできます。 マネージド コンピューティングにデプロイするときは、使用する仮想マシンや、予想される負荷を処理するインスタンスの数などの、モデルを実行するインフラストラクチャに関するすべての詳細を選択できます。 マネージド コンピューティングにデプロイされるモデルでは、サブスクリプションからのクォータが使用されます。 Llama ファミリのすべてのモデルをマネージド コンピューティングにデプロイできます。

Azure AI Studio でリアルタイム エンドポイントに Llama-2-7b-chat などのモデルをデプロイするには、次の手順のようにします。

  1. Azure AI Studio のモデル カタログからデプロイするモデルを選びます。

    または、AI Studio でプロジェクトから開始して、デプロイを始めることもできます。 プロジェクトを選び、[デプロイ]>[+ 作成] を選択します。

  2. モデルの [詳細] ページで、[ライセンスの表示] ボタンの横にある [デプロイ] を選択します。

    リアルタイム エンドポイント オプションを使用してモデルをデプロイする方法を示すスクリーンショット。

  3. [Azure AI Content Safety でデプロイ (プレビュー)] ページで、[Skip Azure AI Content Safety] (Azure AI Content Safety をスキップする) を選択して、UI を使用したモデルのデプロイに進みます。

    ヒント

    一般に、Llama モデルのデプロイには [Azure AI Content Safety を有効にする (推奨)] を選択することをお勧めします。 このデプロイ オプションは現在、Python SDK を使用することでのみサポートされていて、ノートブックで行われます。

  4. [続行] を選択します。

  5. デプロイを作成するプロジェクトを選択します。

    ヒント

    選択したプロジェクトで十分なクォータを使用できない場合は、「共有クォータを使用するオプションを使用します。このエンドポイントは 168 時間以内に削除されることを確認します」オプションを使用できます。

  6. デプロイに割り当てる [仮想マシン] と、[インスタンス数] を選択します。

  7. このデプロイを新しいエンドポイントまたは既存のエンドポイントの一部として作成するかどうかを選択します。 エンドポイントは、複数のデプロイをホストしながら、リソース構成をデプロイごとに固有になるように維持できます。 同じエンドポイントの下のデプロイでは、エンドポイント URI とそのアクセス キーが共有されます。

  8. 推論データ収集 (プレビュー) を有効にするかどうかを指定します。

  9. 展開 を選択します。 しばらくすると、エンドポイントの [詳細] ページが開きます。

  10. エンドポイントの作成とデプロイが完了するまで待ちます。 このステップには数分かかる場合があります。

  11. デプロイの [使用] タブを選んで、デプロイされたモデルをアプリケーションで使うために使用できるコード サンプルを取得します。

マネージド コンピューティングにデプロイされた Llama 2 モデルを使用する

マネージド コンピューティングにデプロイされた Llama モデルを呼び出す方法については、Azure AI Studio のモデル カタログでモデルのカードを参照してください。 各モデルのカードには、モデルの説明、コード ベースの推論のサンプル、微調整、モデル評価を含む概要ページがあります。

推論のその他の例
Package サンプル ノートブック
CURL および Python Web 要求を使用した CLI - Command R command-r.ipynb
CURL および Python Web 要求を使用した CLI - Command R+ command-r-plus.ipynb
OpenAI SDK (試験段階) openaisdk.ipynb
LangChain langchain.ipynb
Cohere SDK cohere-sdk.ipynb
LiteLLM SDK litellm.ipynb

コストとクォータ

サービスとしてデプロイされる Llama モデルのコストとクォータに関する考慮事項

サービスとしてデプロイされた Llama モデルは、Azure Marketplace を通じて Meta によって提供され、使用するために Azure AI Studio と統合されます。 モデルをデプロイまたはモデルを微調整するときに、Azure Marketplace の価格を確認できます。

プロジェクトが Azure Marketplace から特定のオファーにサブスクライブするたびに、その消費に関連するコストを追跡するための新しいリソースが作成されます。 推論と微調整に関連するコストを追跡するために同じリソースが使用されますが、各シナリオを個別に追跡するために複数の測定値を使用できます。

コストの追跡方法について詳しくは、「Azure Marketplace を通じて提供されるモデルのコストを監視する」をご覧ください。

さまざまなモデル オファーとその関連するメーターに対応するさまざまなリソースを示すスクリーンショット。

クォータはデプロイごとに管理されます。 各デプロイのレート制限は、1 分あたり 200,000 トークン、1 分あたり 1,000 個の API 要求です。 ただし、現在、プロジェクトのモデルごとに 1 つのデプロイに制限しています。 現在のレート制限がシナリオに十分でない場合は、Microsoft Azure サポートにお問い合わせください。

マネージド コンピューティングとしてデプロイされる Llama モデルのコストとクォータに関する考慮事項

マネージド コンピューティングを使用した Llama モデルのデプロイと推論には、リージョンごとにサブスクリプションに割り当てられている仮想マシン (VM) コア クォータを使います。 Azure AI Studio にサインアップすると、リージョンで使用可能な複数の VM ファミリに対する既定の VM クォータを受け取ります。 クォータ制限に達するまで、デプロイを作成し続けることができます。 この制限に達したら、クォータの引き上げを要求できます。

コンテンツのフィルター処理

従量課金制でサーバーレス API としてデプロイされるモデルは、Azure AI Content Safety によって保護されます。 マネージド コンピューティングにデプロイする場合は、この機能をオプトアウトできます。 Azure AI Content Safety を有効にすると、プロンプトと入力候補の両方が、有害なコンテンツ出力の検出と防止を目的とした一連の分類モデルを通過します。 コンテンツ フィルタリング システムは、入力プロンプトと (出力される) 入力候補の両方で、有害な可能性があるコンテンツ特有のカテゴリを検出し、アクションを実行します。 Azure AI Content Safety の詳細を確認します。

次のステップ