注
このドキュメントでは、 Microsoft Foundry (クラシック) ポータルを参照します。
🔄新しいポータルを使用している場合は、Microsoft Foundry (新しい) ドキュメントに切り替えます。
注
このドキュメントでは、 Microsoft Foundry (新しい) ポータルを参照します。
この記事では、Foundry ポータルを使用して Foundry リソースに Foundry モデルをデプロイし、推論タスクの実行に使用する方法について説明します。 Foundry モデルには、Azure OpenAI モデル、Meta Llama モデルなどのモデルが含まれます。 Foundry モデルをデプロイしたら、Foundry Playground を使用してそれを操作し、コードを使用して推論できます。
この記事では、パートナーとコミュニティ Llama-3.2-90B-Vision-Instruct の Foundry モデルを使用して説明します。 パートナーやコミュニティのモデルでは、デプロイ前に Azure Marketplace をサブスクライブする必要があります。 一方、Foundry Models の Azure Open AI など、Azure によって直接販売される Foundry Models には、この要件はありません。 利用可能なリージョンを含む Foundry モデルの詳細については、Azureによる直接販売のFoundryモデルとパートナーおよびコミュニティからのFoundryモデルを参照してください。
[前提条件]
この記事を完了するには、以下が必要です。
有効な支払い方法を持つ Azure サブスクリプション。 Azure サブスクリプションを持っていない場合は、始めるために有料の Azure アカウントを作成してください。 GitHub モデルを使用している場合は、Foundry Models にアップグレードし、そのプロセスで Azure サブスクリプションを作成できます。
リソースを作成および管理するための適切なアクセス許可を持つ Microsoft Foundry へのアクセス。
Microsoft Foundry プロジェクト。 この種のプロジェクトは Foundry リソースで管理されます。
パートナーやコミュニティの Foundry Models では、 サブスクリプションを作成するために Azure Marketplace にアクセスする必要があります。 モデル オファリングをサブスクライブするために必要なアクセス許可があることを確認します。 Azure によって直接販売される Foundry Models には、この要件はありません。
モデルをデプロイする
Foundry ポータルで次の手順に従ってモデルをデプロイします。
Microsoft Foundry にサインインします。 [新しいファウンドリー]切り替えがオフになっていることを確認します。 これらの手順は Foundry (クラシック) を参照します。
Microsoft Foundry にサインインします。 「新しいファウンドリー」トグルがオンになっていることを確認します。 これらの手順は Foundry (新規) を参照します。
Foundry ポータルの [モデル カタログ ] セクションに移動します。
モデルを選択し、モデル カードでその詳細を確認します。 この記事では、
Llama-3.2-90B-Vision-Instructを使用して説明します。[ このモデルを使用] を選択します。
パートナーやコミュニティの Foundry モデルの場合は、Azure Marketplace にサブスクライブする必要があります。 この要件は、たとえば
Llama-3.2-90B-Vision-Instructに適用されます。 利用規約を読み、[同意して 続行] を選択して条項に同意します。展開設定を構成します。 既定では、デプロイはデプロイするモデルの名前を受け取りますが、モデルをデプロイする前に必要に応じて名前を変更できます。 推論中の後で、この特定のモデル デプロイに要求をルーティングするために、
modelパラメーターでデプロイ名が使用されます。 この規則により、モデル デプロイの特定の名前を構成できます。ヒント
各モデルは、異なるデプロイの種類をサポートし、異なるデータ所在地またはスループットの保証を提供します。 詳細については、デプロイの種類に関するページを参照してください。 この例では、モデルは Global Standard デプロイの種類をサポートしています。
Foundry ポータルでは、プロジェクトに関連付けられている Foundry リソースが 接続済み AI リソースとして自動的に選択されます。 必要があれば、カスタマイズ を選択して接続を変更します。 サーバーレス API デプロイの種類でデプロイする場合、プロジェクトとリソースは、モデルでサポートされているデプロイリージョンのいずれかに存在する必要があります。
[デプロイ] を選択します。 デプロイの作成中に、モデルのデプロイの詳細ページが開きます。
デプロイが完了すると、モデルを使用する準備が整います。 Foundry Playgrounds を使用して、モデルを対話形式でテストすることもできます。
Foundry ポータルで次の手順に従ってモデルをデプロイします。
Microsoft Foundry にサインインします。 [新しいファウンドリー]切り替えがオフになっていることを確認します。 これらの手順は Foundry (クラシック) を参照します。
Microsoft Foundry にサインインします。 「新しいファウンドリー」トグルがオンになっていることを確認します。 これらの手順は Foundry (新規) を参照します。
Foundry ポータルのホーム ページで、右上のナビゲーションで [検出 ] を選択し、左側のウィンドウで [モデル ] を選択します。
モデルを選択し、モデル カードでその詳細を確認します。 この記事では、
Llama-3.2-90B-Vision-Instructを使用して説明します。展開>Custom 設定を選択してデプロイをカスタマイズします。 または、既定の設定を選択して、既定の展開>を使用することもできます。
パートナーやコミュニティの Foundry モデルの場合は、Azure Marketplace にサブスクライブする必要があります。 この要件は、たとえば
Llama-3.2-90B-Vision-Instructに適用されます。 利用規約を読み、[同意して 続行] を選択して条項に同意します。展開設定を構成します。 既定では、デプロイはデプロイするモデルの名前を受け取りますが、モデルをデプロイする前に必要に応じて名前を変更できます。 推論中の後で、この特定のモデル デプロイに要求をルーティングするために、
modelパラメーターでデプロイ名が使用されます。 この規則により、モデル デプロイの特定の名前を構成できます。 [ デプロイ] を選択してデプロイを作成します。ヒント
各モデルは、異なるデプロイの種類をサポートし、異なるデータ所在地またはスループットの保証を提供します。 詳細については、デプロイの種類に関するページを参照してください。 この例では、モデルは Global Standard デプロイの種類をサポートしています。
Foundry ポータルは、プロジェクトに関連付けられている Foundry リソースにモデルを自動的にデプロイします。 プロジェクトとリソースは、モデルでサポートされているデプロイリージョンのいずれかに存在する必要があります。
[デプロイ] を選択します。 デプロイが完了すると、 Foundry Playgrounds に着陸し、そこでモデルを対話形式でテストできます。
モデルを管理する
Foundry ポータルを使用して、リソース内の既存のモデル デプロイを管理できます。
Foundry ポータルの [モデルとエンドポイント] セクションに移動します。
ポータルでは、リソースごとにモデルのデプロイがグループ化され、表示されます。 Foundry リソースのセクションから Llama-3.2-90B-Vision-Instruct モデルデプロイを選択します。 このアクションにより、モデルのデプロイ ページが開きます。
Foundry ポータルを使用して、リソース内の既存のモデル デプロイを管理できます。
右上のナビゲーションで [ ビルド ] を選択します。
左側のウィンドウで [ モデル ] を選択すると、リソース内のデプロイの一覧が表示されます。
プレイグラウンドでデプロイをテストする
プレイグラウンドを使用して、Foundry ポータルで新しいモデルを操作できます。 プレイグラウンドは、モデルをリアルタイムで操作できる Web ベースのインターフェイスです。 プレイグラウンドを使用して、さまざまなプロンプトでモデルをテストし、モデルの応答を確認します。
プレイグラウンドを使用して、Foundry ポータルで新しいモデルを操作できます。 プレイグラウンドは、モデルをリアルタイムで操作できる Web ベースのインターフェイスです。 プレイグラウンドを使用して、さまざまなプロンプトでモデルをテストし、モデルの応答を確認します。
デプロイの一覧から 、Llama-3.2-90B-Vision-Instruct デプロイを選択してプレイグラウンド ページを開きます。
プロンプトを入力し、出力を表示します。
[ コード ] タブを選択すると、プログラムによってモデルのデプロイにアクセスする方法の詳細が表示されます。
コードを使用してモデルを推論する
コード サンプルを使用してデプロイされたモデルに対して推論を実行するには、次の例を参照してください。
Microsoft AI、DeepSeek、Grok モデルなど、 Azure によって直接販売される Foundry Models で Responses API を使用するには、「 Microsoft Foundry Models でテキスト応答を生成する方法」を参照してください。
OpenAI モデルで Responses API を使用するには、「応答 API の概要」を参照してください。
この記事でデプロイされている Llama モデルなど、パートナーが販売するモデルでチャット完了 API を使用するには、チャット完了のためのモデルサポートを参照してください。
モデルのリージョンの可用性とクォータ制限
Foundry モデルの場合、既定のクォータはモデルとリージョンによって異なります。 特定のモデルは、一部のリージョンでのみ使用できます。 可用性とクォータの制限の詳細については、「 Microsoft Foundry Models のクォータと制限」および「Microsoft Foundry Models の クォータと制限」の Azure OpenAI を参照してください。
モデルのデプロイと推論のクォータ
Foundry モデルの場合、デプロイと推論では、Azure がサブスクリプションに割り当てるクォータがリージョンごと、モデル単位で 1 分あたりのトークン数 (TPM) 単位で消費されます。 Foundry にサインアップすると、使用可能なほとんどのモデルの既定のクォータを受け取ります。 次に、作成時に TPM を各デプロイに割り当てます。これにより、そのモデルで使用可能なクォータが削減されます。 クォータ制限に達するまで、デプロイを作成して TPM を割り当て続けることができます。
クォータ制限に達すると、次の場合にのみ、そのモデルの新しいデプロイを作成できます。
- クォータの引き上げフォームを送信して、追加のクォータをリクエストする。
- Foundry ポータルで他のモデル デプロイに割り当てられたクォータを調整して、新しいデプロイのトークンを解放します。
クォータの詳細については、「Microsoft Foundry Models のクォータと制限」および「Azure OpenAI クォータの管理」を参照してください。