次の方法で共有


Azure Machine Learning スタジオを使用して、Phi-3 ファミリの小さな言語モデルをデプロイする方法

この記事では、Phi-3 ファミリの小さな言語モデル (SLM) について説明します。 また、Azure Machine Learning スタジオを使用して、このファミリのモデルをトークンベースの従量課金制でサーバーレス API としてデプロイする方法についても学習します。

SLM の Phi-3 ファミリは、命令でチューニングされた生成テキスト モデルのコレクションです。 Phi-3 モデルは、利用可能な小規模言語モデルの中で、さまざまな言語、推論、コーディング、数学ベンチマークで同等のサイズと次段階のサイズのモデルを上回る、最高レベルの能力とコスト効率を発揮する小規模言語モデル (SLM) です。

Phi-3 ファミリのモデル

Phi-3 Mini は、高品質で推論密度の高いデータに焦点を当て、Phi-2 (合成データとフィルター処理された Web サイト) に使用されるデータセットに基づいて構築された、軽量で最先端のオープン モデルである 3.8B パラメーターです。 モデルは Phi-3 モデル ファミリに属し、Mini バージョンには 4K と 128K の 2 つのバリエーションがあります。これは、モデルがサポートできるコンテキストの長さ (トークン単位) です。

このモデルは厳格な強化プロセスを経て、監督された微調整と直接の優先設定の両方を組み込むことで、正確な指示の遵守と堅牢な安全対策を保証します。 良識、言語理解、数学、コード、長いコンテキスト、論理的推論をテストするベンチマークに対して評価を行うと、、Phi-3 Mini-4K-Instruct と Phi-3 Mini-128K-Instruct は、130 億未満のパラメーターを持つモデルにおいて堅牢で最先端のパフォーマンスを示しました。

重要

現在、この機能はパブリック プレビュー段階にあります。 このプレビュー バージョンはサービス レベル アグリーメントなしで提供されており、運用環境のワークロードに使用することは推奨されません。 特定の機能はサポート対象ではなく、機能が制限されることがあります。

詳しくは、Microsoft Azure プレビューの追加使用条件に関するページをご覧ください。

サーバーレス API として Phi-3 モデルをデプロイする

モデル カタログ内の特定のモデルは、従量課金でのサーバーレス API としてデプロイできます。 この種類のデプロイは、組織が必要とする企業レベルのセキュリティとコンプライアンスを維持しながら、サブスクリプションでホストせずに API としてモデルを使用する方法を提供します。 このデプロイ オプションでは、サブスクリプションからのクォータを必要としません。

前提条件

  • 有効な支払い方法を持つ Azure サブスクリプション。 無料または試用版の Azure サブスクリプションは機能しません。 Azure サブスクリプションを持っていない場合は、始めるために有料の Azure アカウントを作成してください。

  • Azure Machine Learning ワークスペース。 ワークスペースがない場合は、クイック スタート: ワークスペース リソースの作成に関する記事の手順を使用して作成してください。

    重要

    Phi-3 ファミリ モデルでは、サーバーレス API モデルのデプロイ オファリングは、米国東部 2 およびスウェーデン中部リージョンで作成されたワークスペースでのみ利用できます。

  • Azure ロールベースのアクセス制御 (Azure RBAC) は、Azure Machine Learning の操作に対するアクセスを許可するために使用されます。 この記事の手順を実行するには、ご自分のユーザー アカウントに、リソース グループの Azure AI 開発者ロールを割り当てる必要があります。 アクセス許可の詳細については、「Azure Machine Learning ワークスペースへのアクセスの管理」を参照してください。

新しいデプロイを作成する

デプロイを作成するには:

  1. [Azure Machine Learning Studio] に移動します。

  2. モデルをデプロイするワークスペースを選択します。 サーバーレス API モデルのデプロイ オファリングを使用するには、ワークスペースが米国東部 2 またはスウェーデン中部リージョンに属している必要があります。

  3. デプロイするモデル (たとえば、Phi-3-medium-128k-Instruct) をモデル カタログから選択します。

  4. モデル カタログ内のモデルの概要ページで、[デプロイ] を選択し、次に [Azure AI Content Safety を使用したサーバーレス API] を選びます。

    別の方法として、ワークスペースに移動し、[エンドポイント]>[Serverless endpoints] (サーバーレス エンドポイント)>[作成] を選択して、デプロイを開始することもできます。 次に、モデルを選択できます。

  5. デプロイ ウィザードの [価格と使用条件] タブを選択して、選択したモデルの価格について確認します。

  6. デプロイに名前を付けます。 この名前は、デプロイ API URL の一部になります。 この URL は、Azure リージョンごとに一意である必要があります。

  7. 展開 を選択します。 デプロイの準備ができるまで待つと、[デプロイ] ページにリダイレクトされます。 この手順では、前提条件に記載されているように、アカウントにリソース グループに対する Azure AI 開発者ロールのアクセス許可が付与されている必要があります。

  8. デプロイを呼び出して予測変換を生成するのに使用できる [ターゲット URI] と秘密 [鍵] をメモします。 API の使用方法の詳細については、「リファレンス: チャット補完」を参照してください。

  9. [テスト] タブを選択して、モデルの操作を開始します。

  10. エンドポイントの詳細、URI、アクセス キーは、[ワークスペース]>[エンドポイント]>[Serverless endpoints] (サーバーレス エンドポイント) に移動することでいつでも確認できます。

Phi-3 モデルをサービスとして使用する

サーバーレス API としてデプロイされたモデルは、デプロイしたモデルの種類に応じて、チャット API で使用できます。

  1. [ワークスペース] で、[エンドポイント]>[Serverless endpoints] (サーバーレス エンドポイント) を選択します。
  2. 作成したデプロイを見つけて選択します。
  3. [ターゲット] URI と [キー] のトークン値をコピーします。
  4. <target_url>/v1/chat/completions を使った /v1/chat/completions API を使用して API 要求を行います。 API の使用方法の詳細については、「リファレンス: チャット補完」を参照してください。

コストとクォータ

サーバーレス API としてデプロイされる Phi-3 モデルのコストとクォータに関する考慮事項

価格情報は、モデルのデプロイ時にデプロイ ウィザードの [価格と使用条件] タブに表示されます。

クォータはデプロイごとに管理されます。 各デプロイのレート制限は、1 分あたり 200,000 トークン、1 分あたり 1,000 個の API 要求です。 ただし現在、ワークスペースのモデルごとにデプロイを 1 つに制限しています。 現在のレート制限がシナリオに十分でない場合は、Microsoft Azure サポートにお問い合わせください。