バッチエンドポイント (プレビュー) を使用して、Fabric から Azure Machine Learning モデルを実行する

[アーティクル]
09/03/2024

適用対象:Azure CLI ml extension v2 (現行)Python SDK azure-ai-ml v2 (現行)

この記事では、Microsoft Fabric から Azure Machine Learning バッチデプロイを使用する方法について説明します。ワークフローはバッチエンドポイントにデプロイされたモデルを使用しますが、Fabric からのバッチパイプラインデプロイの使用もサポートしています。

重要

現在、この機能はパブリックプレビュー段階にあります。このプレビューバージョンはサービスレベルアグリーメントなしで提供されており、運用環境のワークロードに使用することは推奨されません。特定の機能はサポート対象ではなく、機能が制限されることがあります。

詳しくは、Microsoft Azure プレビューの追加使用条件に関するページをご覧ください。

前提条件

Microsoft Fabric サブスクリプションを取得します。または、無料の Microsoft Fabric 試用版にサインアップします。
Microsoft Fabric にサインインします。
Azure サブスクリプション。 Azure サブスクリプションをお持ちでない場合は、開始する前に無料アカウントを作成してください。無料版または有料版の Azure Machine Learning をお試しください。
Azure Machine Learning ワークスペース。準備できていない場合は、ワークスペースの管理方法に関するページの手順を使用して作成します。
- ワークスペースに次のアクセス許可があることを確認します。
  - バッチエンドポイントとバッチデプロイを作成または管理する: 所有者または共同作成者のロール、あるいは Microsoft.MachineLearningServices/workspaces/batchEndpoints/* を許可するカスタムロールを使用します。
  - ワークスペースリソースグループに ARM デプロイを作成する: 所有者または共同作成者のロール、あるいはワークスペースがデプロイされているリソースグループで Microsoft.Resources/deployments/write を許可するカスタムロールを使用します。
バッチエンドポイントにデプロイされたモデル。持っていない場合は、「バッチエンドポイントにスコアリング用のモデルをデプロイする」の手順を使用して作成します。
スコアリングに使用する heart-unlabeled.csv サンプルデータセットをダウンロードします。

アーキテクチャ

Azure Machine Learning を使用して、Fabric の OneLake に格納されているデータに直接アクセスします。しかし、OneLake の機能を使って Lakehouse 内にショートカットを作成し、Azure Data Lake Gen2 に格納されたデータを読み書きすることができます。 Azure Machine Learning は Azure Data Lake Gen2 ストレージをサポートするため、このセットアップにより、Fabric および Azure Machine Learning を一緒に使用できるようになります。データアーキテクチャは次のとおりです。

データアクセスを構成する

Fabric および Azure Machine Learning が同じデータをコピーしなくても読み取りと書き込みを行えるようにするには、OneLake のショートカットと Azure Machine Learning データストアを活用します。 OneLake のショートカットとデータストアを同じストレージアカウントに指定することで、Fabric および Azure Machine Learning の両方が基になる同じデータから読み取り、基になる同じデータに書き込むことを保証できます。

このセクションでは、バッチエンドポイントが使用し、OneLake で Fabric ユーザーに表示される情報を保存するために使用するストレージアカウントを作成または特定します。 Fabric は、Azure Data Lake Gen2 など、階層名が有効になっているストレージアカウントのみをサポートします。

ストレージアカウントへの OneLake ショートカットを作成する

Fabric で、Synapse Data Engineering エクスペリエンスを開きます。
左側のパネルで、Fabric ワークスペースを選択して開きます。
接続を構成するために使用するレイクハウスを開きます。レイクハウスをまだお持ちでない場合は、Data Engineering エクスペリエンスに移動して、レイクハウスを作成します。この例では、trusted というレイクハウスを使用します。
左側のナビゲーションバーで、[ファイル] の [その他のオプション] を開き、[新しいショートカット] を選択してウィザードを表示します。
Azure Data Lake Storage Gen2 オプションを選択します。
[接続設定] セクションで、Azure Data Lake Gen2 ストレージアカウントに関連付けられた URL を貼り付けます。
[接続の資格情報] セクションで、次の操作を行います。
1. [接続] の場合、[新しい接続を作成する] を選択します。
2. [接続名] の場合、既定の自動設定値のままにします。
3. [認証の種類] で [組織アカウント] を選択し、OAuth 2.0 経由で接続されたユーザーの認証情報を使用します。
4. [サインイン] を選択してサインインします。
[次へ] を選択します。
必要に応じて、ストレージアカウントに相対的なショートカットへのパスを構成します。この設定を使用して、ショートカットがポイントするフォルダーを構成します。
ショートカットの名前を構成します。この名前は lakehouse 内のパスになります。この例では、ショートカットに datasets という名前を付けます。
変更を保存します。

ストレージアカウントを指すデータストアを作成する

Azure Machine Learning スタジオを開きます。
Azure Machine Learning ワークスペースに移動します。
[データ] セクションに移動します。
[データストア] タブを選択します。
［作成］ を選択します
次のようにデータストアを構成します。
1. [データストア名] には「trusted_blob」と入力します。
2. [接続の種類] には [Azure Blob Storage] を選択します。
  
  ヒント
  
  Azure Data Lake Gen2 ではなく Azure Blob Storage を構成する必要がある理由バッチエンドポイントは、Blob Storage アカウントに予測のみを書き込むことができます。ただし、すべての Azure Data Lake Gen2 ストレージアカウントは BLOB ストレージアカウントでもあります。そのため、これらは置き換えて使用できます。
3. サブスクリプション ID、ストレージアカウント、および Blob コンテナー (ファイルシステム) を使用して、ウィザードからストレージアカウントを選択します。
4. ［作成］ を選択します
バッチエンドポイントが実行されているコンピューティングで、このストレージアカウントにデータをマウントするための権限があることを確認します。アクセスはエンドポイントを呼び出す ID によって許可されますが、バッチエンドポイントを実行するコンピューティングには、提供するストレージアカウントをマウントするための権限が必要です。詳細については、ストレージサービスへのアクセスに関する記事を参照してください。

サンプルデータセットのアップロード

エンドポイントが入力として使用するサンプルデータをアップロードします。

Fabric ワークスペースに移動します。
ショートカットを作成したレイクハウスを選択します。
[データセット] ショートカットに移動します。
スコア付けするサンプルデータセットを保存するフォルダーを作成します。フォルダーの名前を「uci-heart-unlabeled」にします。
[データを取得] オプションを使用し、[ファイルをアップロードする] を選択してサンプルデータセット heart-unlabeled.csv をアップロードします。
サンプルデータセットをアップロードします。
サンプルファイルを使用する準備ができました。ファイルを保存した場所のパスを書き留めます。

バッチ推論パイプラインに Fabric を作成する

このセクションでは、既存の Fabric ワークスペースに Fabric からバッチへの推論パイプラインを作成し、バッチエンドポイントを呼び出します。

ホームページの左下隅にあるエクスペリエンスセレクターアイコンを使用して、Data Engineering エクスペリエンスに戻ります。
Fabric ワークスペースを開きます。
ホームページの [新規] セクションから [データパイプライン] を選択します。
パイプラインに名前を付け、[作成] を選択します。
デザイナーキャンバスのツールバーで、[アクティビティ] タブを選択します。
タブの最後にあるその他のオプションを選択し、[Azure Machine Learning] を選択します。
[設定] タブに移動し、次のようにアクティビティを構成します。
1. Azure Machine Learning 接続の横にある [新規] を選択して、デプロイを含む Azure Machine Learning ワークスペースへの新しい接続を作成します。
2. 作成ウィザードの [接続の設定] セクションで、エンドポイントを配置する [サブスクリプション ID]、[リソースグループ名]、[ワークスペース名] の値を指定します。
3. [接続の資格情報] セクションで、接続の [認証の種類] の値として [組織アカウント] を選択します。 [組織アカウント] は、接続されたユーザーの認証情報を使用します。代わりに、サービスプリンシパルを使用することもできます。運用設定では、サービスプリンシパルを使用することをお勧めします。認証の種類に関係なく、接続に関連付けられた ID が、デプロイしたバッチエンドポイントを呼び出す権限を持っていることを確認します。
4. 接続を保存します。接続を選択すると、Fabric は選択したワークスペースで使用可能なバッチエンドポイントを自動的に設定します。
[バッチエンドポイント] で、呼び出すバッチエンドポイントを選択します。この例では、heart-classifier-... を選択します。

[バッチデプロイ] セクションには、エンドポイントの利用可能なデプロイが自動的に入力されます。
[バッチデプロイ] の場合、必要に応じてリストから特定のデプロイを選択します。デプロイを選択しなかった場合、Fablic はエンドポイントで既定のデプロイを呼び出し、バッチエンドポイント作成者がどのデプロイを呼び出すかを決定できるようにします。ほとんどのシナリオでは、既定の動作がそのまま使用されます。

バッチエンドポイントの入出力を構成する

このセクションでは、バッチエンドポイントでの入出力を構成します。バッチエンドポイントへの入力では、プロセスの実行に必要なデータとパラメーターが提供されます。 Fabric の Azure Machine Learning バッチパイプラインでは、モデルデプロイとパイプラインデプロイの両方がサポートされています。指定する入力の数と種類は、デプロイの種類によって異なります。この例では、入力を 1 つだけ必要とし、1 つの出力を生成するモデルデプロイを使用します。

バッチエンドポイントの入出力の詳細については、「バッチエンドポイントでの入力および出力」を参照してください。

入力セクションの構成

[ジョブの入力] セクションを次のように構成します。

[ジョブの入力] セクションを展開します。
[新規] を選択して、新しい入力をエンドポイントに追加します。
入力に input_data という名前を付けます。モデルデプロイを使用しているため、任意の名前を使用できます。ただし、パイプラインデプロイの場合は、モデルで期待されている入力の正確な名前を指定する必要があります。
追加したばかりの入力の横にあるドロップダウンメニューを選択して、入力のプロパティ (名前と値フィールド) を開きます。
[名前] フィールドに「JobInputType」と入力して、作成する入力の種類を示します。
[値]フィールドに「UriFolder」と入力して、入力がフォルダーパスであることを示します。このフィールドでサポートされているその他の値は、UriFile (ファイルパス) または Literal (文字列や整数などの任意のリテラル値) です。デプロイで期待される適切な種類を使用する必要があります。
プロパティの横にあるプラス記号を選択して、この入力に別のプロパティを追加します。
[名前] フィールドに「Uri」と入力して、データへのパスを示します。
[値] フィールドに、データを見つけるパスである azureml://datastores/trusted_blob/datasets/uci-heart-unlabeled を入力します。ここでは、Fabric の OneLake と Azure Machine Learning の両方にリンクされているストレージアカウントにつながるパスを使用します。 azureml://datastores/trusted_blob/datasets/uci-heart-unlabeled は、バッチエンドポイントにデプロイされるモデルの予期される入力データが含まれる CSV ファイルへのパスです。 https://<storage-account>.dfs.azure.com など、ストレージアカウントへの直接パスを使うこともできます。

ヒント

入力が Literal 型の場合、プロパティ Uri を「Value」に置き換えます。

エンドポイントでさらに多くの入力が必要な場合は、それぞれについて前の手順を繰り返します。この例では、モデルデプロイには入力が 1 つだけ必要です。

出力セクションを構成する

[ジョブの出力] セクションを次のように構成します。

[ジョブの出力] セクションを展開します。
[新規] を選択して、新しい出力をエンドポイントに追加します。
出力に output_data という名前を付けます。モデルデプロイを使用しているため、任意の名前を使用できます。ただし、パイプラインデプロイの場合は、モデルで生成されている出力の正確な名前を指定する必要があります。
追加したばかりの出力の横にあるドロップダウンメニューを選択して、出力のプロパティ (名前と値フィールド) を開きます。
[名前] フィールドに「JobOutputType」と入力して、作成する出力の種類を示します。
[値]フィールドに「UriFile」と入力して、出力がファイルパスであることを示します。このフィールドでサポートされているもう 1 つの値は、UriFolder (フォルダーパス) です。ジョブ入力セクションとは異なり、Literal (文字列や整数などの任意のリテラル値) は出力としてサポートされていません。
プロパティの横にあるプラス記号を選択して、この出力に別のプロパティを追加します。
[名前] フィールドに「Uri」と入力して、データへのパスを示します。
[値] フィールドに、出力を配置するパス @concat(@concat('azureml://datastores/trusted_blob/paths/endpoints', pipeline().RunId, 'predictions.csv') を入力します。 Azure Machine Learning バッチエンドポイントでは、出力としてのデータストアパスの使用のみがサポートされます。競合を回避するには出力は一意でなければならないため、動的な式 (@concat(@concat('azureml://datastores/trusted_blob/paths/endpoints', pipeline().RunId, 'predictions.csv')) を使用してパスを構築しました。

エンドポイントでさらに多くの出力が返される場合は、それぞれについて前の手順を繰り返します。この例では、モデルデプロイには出力が 1 つだけ必要です。

(オプション) ジョブの設定を構成する

次のプロパティを追加して、ジョブの設定を構成することもできます。

モデルデプロイの場合:

設定	説明
`MiniBatchSize`	バッチのサイズ。
`ComputeInstanceCount`	デプロイから要求するコンピューティングインスタンスの数。

パイプラインデプロイの場合:

設定	説明
`ContinueOnStepFailure`	障害が発生した後、パイプラインでノードの処理を停止する必要があるかどうかを示します。
`DefaultDatastore`	出力に使用する既定のデータストアを示します。
`ForceRun`	パイプラインが、前の実行から出力が推測できる場合でも、すべてのコンポーネントを強制的に実行するかどうかを示します。

構成したら、パイプラインをテストできます。

次の方法で共有

バッチエンドポイント (プレビュー) を使用して、Fabric から Azure Machine Learning モデルを実行する

前提条件

アーキテクチャ