バッチデプロイで MLflow モデルをデプロイする

[アーティクル]
03/02/2024

適用対象:Azure CLI ml extension v2 (現行)Python SDK azure-ai-ml v2 (現行)

この記事では、MLflow モデルを Azure Machine Learning にデプロイして、バッチエンドポイントを使って両方のバッチ推論を行う方法について説明します。 MLflow モデルをバッチエンドポイントにデプロイするとき、Azure Machine Learning は次の動作を行います。

Azure Machine Learning Batch ジョブを実行するために必要な依存関係を含む MLflow ベースイメージおよびキュレーション環境を提供します。
スコアリングスクリプトを使って、並列化を使ったデータの処理に使用できるバッチジョブパイプラインを自動的に作成できます。

Note

サポートされている入力ファイルの種類と MLflow モデルの動作について詳しくは、「バッチ推論にデプロイするときの考慮事項」をご覧ください。

この例の概要

この例は、バッチ予測を実行するために、バッチエンドポイントに MLflow モデルをデプロイする方法を示しています。この例では、「UCI Heart Disease Data Set」(UCI 心臓病データセット) に基づいた MLflow モデルを使います。このデータベースには 76 個の属性が含まれていますが、そのうちの 14 個のサブセットを使用しています。このモデルは、患者の心臓病の存在を予測しようと試みるものです。これは 0 (存在しない) から 1 (存在する) の整数値です。

このモデルのトレーニングには XGBBoost 分類器が使われ、必要な前処理はすべて scikit-learn パイプラインとしてパッケージ化されているため、このモデルは生データから予測までを行うエンドツーエンドのパイプラインになっています。

この記事の例は、azureml-examples リポジトリに含まれているコードサンプルを基にしています。 YAML などのファイルをコピーして貼り付けることなくコマンドをローカルで実行するには、最初にリポジトリを複製してから、ディレクトリをそのフォルダーに変更します。

Azure CLI
Python

git clone https://github.com/Azure/azureml-examples --depth 1
cd azureml-examples/cli

git clone https://github.com/Azure/azureml-examples --depth 1
cd azureml-examples/sdk/python

この例のファイルは、次の場所にあります。

cd endpoints/batch/deploy-models/heart-classifier-mlflow

Jupyter ノートブックで経過をたどる

次のノートブックで、このサンプルの経過をたどることができます。複製されたリポジトリで、ノートブック mlflow-for-batch-tabular.ipynb を開きます。

前提条件

この記事の手順に従う前に、次の前提条件が満たされていることをご確認ください。

Azure サブスクリプション。 Azure サブスクリプションをお持ちでない場合は、開始する前に無料アカウントを作成してください。無料版または有料版の Azure Machine Learning をお試しください。
Azure Machine Learning ワークスペース。準備できていない場合は、Azure Machine Learning ワークスペースの管理に関する記事の手順を使用して作成します。
ワークスペースに次のアクセス許可があることを確認します。
- バッチエンドポイントとバッチデプロイを作成または管理する: 所有者または共同作成者のロール、あるいは Microsoft.MachineLearningServices/workspaces/batchEndpoints/* を許可するカスタムロールを使用します。
- ワークスペースリソースグループに ARM デプロイを作成する: 所有者または共同作成者のロール、あるいはワークスペースがデプロイされているリソースグループで Microsoft.Resources/deployments/write を許可するカスタムロールを使用します。
Azure Machine Learning を使用するには、次のソフトウェアをインストールする必要があります。
- Azure CLI
- Python
Azure CLI と mlAzure Machine Learning 用の拡張機能。
```
az extension add -n ml
```
注意

Batch エンドポイントのパイプラインコンポーネントデプロイは、Azure CLI 用 ml 拡張機能のバージョン 2.7 で導入されました。 az extension update --name ml を使用して、最新バージョンを取得します。
Azure Machine Learning SDK for Python。
```
pip install azure-ai-ml
```
注意

クラス ModelBatchDeployment と PipelineComponentBatchDeployment は、SDK のバージョン 1.7.0 で導入されました。 pip install -U azure-ai-ml を使用して、最新バージョンを取得します。

ワークスペースに接続する

ワークスペースは、Azure Machine Learning の最上位のリソースで、Azure Machine Learning を使用するときに作成するすべての成果物を操作するための一元的な場所を提供します。このセクションでは、デプロイタスクを実行するワークスペースに接続します。

Azure CLI
Python

次のコードで、サブスクリプション ID、ワークスペース、場所、リソースグループの値を渡します。

az account set --subscription <subscription>
az configure --defaults workspace=<workspace> group=<resource-group> location=<location>

必要なライブラリをインポートします。

from azure.ai.ml import MLClient, Input, load_component
from azure.ai.ml.entities import BatchEndpoint, ModelBatchDeployment, ModelBatchDeploymentSettings, PipelineComponentBatchDeployment, Model, AmlCompute, Data, BatchRetrySettings, CodeConfiguration, Environment, Data
from azure.ai.ml.constants import AssetTypes, BatchDeploymentOutputAction
from azure.ai.ml.dsl import pipeline
from azure.identity import DefaultAzureCredential

ワークスペースの詳細を構成し、ワークスペースへのハンドルを取得します。

次のコードで、サブスクリプション ID、ワークスペース、リソースグループの値を渡します。
```
subscription_id = "<subscription>"
resource_group = "<resource-group>"
workspace = "<workspace>"

ml_client = MLClient(DefaultAzureCredential(), subscription_id, resource_group, workspace)
```

手順

新しいデータに対してバッチ推論を実行するために、次の手順に従って MLflow モデルをバッチエンドポイントにデプロイします。

バッチエンドポイントがデプロイできるのは登録済みのモデルのみです。この場合、リポジトリにモデルのローカルコピーが既にあるので、ワークスペースのレジストリにモデルを発行するだけで済みます。デプロイ対象のモデルが既に登録されている場合は、この手順をスキップできます。
- Azure CLI
- Python
```
MODEL_NAME='heart-classifier-mlflow'
az ml model create --name $MODEL_NAME --type "mlflow_model" --path "model"
```
```
model_name = "heart-classifier-mlflow"
model_local_path = "model"

model = ml_client.models.create_or_update(
    Model(name=model_name, path=model_local_path, type=AssetTypes.MLFLOW_MODEL)
)
```
先に進む前に、これから作成するバッチデプロイが、何らかのインフラストラクチャ (コンピューティング) 上で実行できることを確認する必要があります。バッチデプロイは、ワークスペースに既に存在する Azure Machine Learning コンピューティング上で実行できます。つまり、複数のバッチデプロイが同じコンピューティングインフラストラクチャを共有できます。この例では、cpu-cluster という Azure Machine Learning コンピューティングクラスター上で作業します。ワークスペースにコンピューティングが存在することを確認し、存在しない場合は作成しましょう。
- Azure CLI
- Python
次のようにコンピューティングクラスターを作成します。
```
az ml compute create -n batch-cluster --type amlcompute --min-instances 0 --max-instances 5
```
デプロイを作成する場所に新しいコンピューティングクラスターを作成するには、次のスクリプトを使います。
```
compute_name = "batch-cluster"
if not any(filter(lambda m: m.name == compute_name, ml_client.compute.list())):
    compute_cluster = AmlCompute(
        name=compute_name, description="amlcompute", min_instances=0, max_instances=5
    )
    ml_client.begin_create_or_update(compute_cluster).result()
```
次は、バッチエンドポイントとデプロイを作成します。まず、エンドポイントから始めましょう。エンドポイントを作成するために必要なのは、名前と説明のみです。このエンドポイントの名前は、エンドポイントに関連付けられている URI に記載されます。そのため、バッチエンドポイント名は Azure リージョン内で一意である必要があります。たとえば、westus2 に存在できる mybatchendpoint という名前のバッチエンドポイントは 1 つだけです。
- Azure CLI
- Python
今回は、後で簡単に参照できるように、エンドポイント名を変数に配置しておきましょう。
```
ENDPOINT_NAME="heart-classifier"
```
今回は、後で簡単に参照できるように、エンドポイント名を変数に配置しておきましょう。
```
endpoint_name = "heart-classifier"
```

エンドポイントを作成します。

Azure CLI
Python

新しいエンドポイントを作成するには、次のような YAML 構成を作成します。

endpoint.yml

$schema: https://azuremlschemas.azureedge.net/latest/batchEndpoint.schema.json
name: heart-classifier-batch
description: A heart condition classifier for batch inference
auth_mode: aad_token

次に、次のコマンドでエンドポイントを作成します。

az ml batch-endpoint create -n $ENDPOINT_NAME -f endpoint.yml

新しいエンドポイントを作成するには、次のスクリプトを使います。

endpoint = BatchEndpoint(
    name=endpoint_name,
    description="A heart condition classifier for batch inference",
)

次に、次のコマンドでエンドポイントを作成します。

ml_client.batch_endpoints.begin_create_or_update(endpoint).result()

次はデプロイを作成しましょう。 MLflow モデルの場合、デプロイを作成するときに環境またはスコアリングスクリプトを指定する必要はありません。自動的に作成されます。ただし、デプロイによる推論方法をカスタマイズする場合は、それらを指定できます。
- Azure CLI
- Python
作成されたエンドポイントの下に新しいデプロイを作成するには、次のような YAML 構成を作成します。追加のプロパティについては、完全なバッチエンドポイント YAML スキーマを確認してください。

deployment-simple/deployment.yml
```
$schema: https://azuremlschemas.azureedge.net/latest/modelBatchDeployment.schema.json
endpoint_name: heart-classifier-batch
name: classifier-xgboost-mlflow
description: A heart condition classifier based on XGBoost
type: model
model: azureml:heart-classifier-mlflow@latest
compute: azureml:batch-cluster
resources:
  instance_count: 2
settings:
  max_concurrency_per_instance: 2
  mini_batch_size: 2
  output_action: append_row
  output_file_name: predictions.csv
  retry_settings:
    max_retries: 3
    timeout: 300
  error_threshold: -1
  logging_level: info
```
次に、次のコマンドを使ってデプロイを作成します。
```
az ml batch-deployment create --file deployment-simple/deployment.yml --endpoint-name $ENDPOINT_NAME --set-default
```
作成したエンドポイントの下に新しいデプロイを作成するには、まずデプロイを定義します。
```
deployment = ModelBatchDeployment(
    name="classifier-xgboost",
    description="A heart condition classifier based on XGBoost",
    endpoint_name=endpoint.name,
    model=model,
    compute=compute_name,
    settings=ModelBatchDeploymentSettings(
        instance_count=2,
        max_concurrency_per_instance=2,
        mini_batch_size=10,
        output_action=BatchDeploymentOutputAction.APPEND_ROW,
        output_file_name="predictions.csv",
        retry_settings=BatchRetrySettings(max_retries=3, timeout=300),
        logging_level="info",
    ),
)
```
次に、次のコマンドを使ってデプロイを作成します。
```
ml_client.batch_deployments.begin_create_or_update(deployment).result()
```
重要

モデルが 1 つのバッチで推論を実行するのにかかる時間に基づいて、デプロイでの timeout を構成します。バッチサイズが大きいほど、この値を長くする必要があります。 mini_batch_size は、サンプルの数ではなく、バッチ内のファイルの数を示すことに注意してください。表形式データを処理するときは、各ファイルに複数の行が含まれている場合があり、バッチエンドポイントが各ファイルを処理するのにかかる時間が長くなります。その場合は、タイムアウトエラーにならないように高い値を使います。
エンドポイント内で特定のデプロイを呼び出すこともできますが、通常はエンドポイント自体を呼び出し、使用するデプロイはエンドポイントで決定されるようにします。このようなデプロイは、"既定" のデプロイと呼ばれます。これにより、エンドポイントを呼び出すユーザーとのコントラクトを変更せずに、既定のデプロイを変更し、デプロイを提供するモデルを変更することができます。既定のデプロイを更新するには、次の手順に従います。
- Azure CLI
- Python
```
DEPLOYMENT_NAME="classifier-xgboost-mlflow"
az ml batch-endpoint update --name $ENDPOINT_NAME --set defaults.deployment_name=$DEPLOYMENT_NAME
```
```
endpoint = ml_client.batch_endpoints.get(endpoint.name)
endpoint.defaults.deployment_name = deployment.name
ml_client.batch_endpoints.begin_create_or_update(endpoint).result()
```
この時点で、バッチエンドポイントを使用する準備は完了です。

デプロイをテストする

このエンドポイントをテストするために、このリポジトリ内にあり、このモデルに使用できるラベルのないデータのサンプルを使用します。バッチエンドポイントは、クラウド内にあり、Azure Machine Learning ワークスペースからアクセスできるデータのみを処理できます。この例では、これを Azure Machine Learning データストアにアップロードします。具体的には、スコアリングのためにエンドポイントを呼び出すのに使用できるデータ資産を作成します。ただし、バッチエンドポイントは、さまざまな場所に配置されている可能性があるデータを受け入れることに注意してください。

まず、データ資産を作成します。このデータ資産は、バッチエンドポイントを使って並列処理する複数の CSV ファイルを含む 1 つのフォルダーで構成されています。データがデータ資産として既に登録されている場合、または別の入力の種類を使う場合、この手順はスキップできます。
- Azure CLI
- Python
a. YAML にデータ資産定義を作成します。

heart-dataset-unlabeled.yml
```
$schema: https://azuremlschemas.azureedge.net/latest/data.schema.json
name: heart-dataset-unlabeled
description: An unlabeled dataset for heart classification.
type: uri_folder
path: data
```
b. データ資産を作成します。
```
az ml data create -f heart-dataset-unlabeled.yml
```
a. データ資産定義を作成します。
```
data_path = "data"
dataset_name = "heart-dataset-unlabeled"

heart_dataset_unlabeled = Data(
    path=data_path,
    type=AssetTypes.URI_FOLDER,
    description="An unlabeled dataset for heart classification",
    name=dataset_name,
)
```
b. データ資産を作成します。
```
ml_client.data.create_or_update(heart_dataset_unlabeled)
```
c. 変更を反映するようにオブジェクトを更新します。
```
heart_dataset_unlabeled = ml_client.data.get(name=dataset_name, label="latest")
```
データがアップロードされ、使用できるようになったので、エンドポイントを呼び出します。
- Azure CLI
- Python
```
JOB_NAME = $(az ml batch-endpoint invoke --name $ENDPOINT_NAME --input azureml:heart-dataset-unlabeled@latest --query name -o tsv)
```
注意

ユーティリティ jq は、すべてのインストールでインストールされるとは限りません。インストール手順はこのリンクで確認できます。
ヒント

エンドポイントを呼び出すときの inputs と input の違いは何ですか?

一般的には invoke メソッドで辞書 inputs = {} を使用すると、"モデルデプロイ" または "パイプラインデプロイ" を含むバッチエンドポイントに、必要な入力を任意の数だけ与えることができます。

"モデルデプロイ" は常に 1 つのデータ入力しかとらないため、モデルデプロイでは、デプロイに対して入力データの場所を指定する簡単な方法として input を使用することができます。
```
job = ml_client.batch_endpoints.invoke(endpoint_name=endpoint.name, input=input)
```
ヒント

呼び出し操作でデプロイ名を指定していないことに注目してください。これは、エンドポイントによってジョブが既定のデプロイに自動的にルーティングされるからです。このエンドポイントには 1 つのデプロイしかないので、その 1 つが既定値になります。引数またはパラメーター deployment_name を指定することで、特定のデプロイをターゲットにできます。
コマンドが戻ると、すぐにバッチジョブが開始されます。ジョブの状態は、完了するまで監視できます。
- Azure CLI
- Python
```
az ml job show -n $JOB_NAME --web
```
```
ml_client.jobs.get(job.name)
```

出力の分析

デプロイ構成の指定に従い、出力予測が predictions.csv ファイル内に生成されます。このジョブにより、このファイルが配置されている場所に score という出力が生成されます。バッチジョブごとに 1 つのファイルのみが生成されます。

ファイルは次のような構造です。

モデルに送信されたデータポイントごとに 1 行があります。表形式データの場合、ファイル (predictions.csv) には、処理された各ファイルに存在する行ごとに 1 行が含まれていることを意味します。他のデータ型 (画像、オーディオ、テキストなど) の場合、処理されたファイルごとに 1 行あります。
このファイルには次の列が (順番どおりに) 含まれています。
- row (省略可能): 入力データファイル内の対応する行インデックス。これは、入力データが表形式の場合にのみ適用されます。予測は入力ファイルの出現順と同じ順序で返されるため、対応する予測と一致する行番号に頼ることができます。
- prediction: 入力データに関連付けられた予測。この値は、モデルの predict(). 関数に指定された "そのまま" の形で返されます。
- file_name: データの読み取り元のファイル名。表形式データの場合、どの予測がどの入力データに属するかを把握するためにこのフィールドを使います。

ジョブ名を使って、その結果をダウンロードできます。

Azure CLI
Python

予測をダウンロードするには、次のコマンドを使用します。

az ml job download --name $JOB_NAME --output-name score --download-path ./

ml_client.jobs.download(name=scoring_job.name, download_path=".", output_name="score")

ファイルがダウンロードされたら、お気に入りのツールを使って開くことができます。次の例では、Pandas データフレームを使って予測を読み込みます。

import pandas as pd

score = pd.read_csv(
    "named-outputs/score/predictions.csv", names=["row", "prediction", "file"]
)

出力は次のようになります。

row	prediction	file
0	0	heart-unlabeled-0.csv
1	1	heart-unlabeled-0.csv
2	0	heart-unlabeled-0.csv
...	...	...
307	0	heart-unlabeled-3.csv

ヒント

この例では、入力データは CSV 形式の表形式データであり、4 種類の入力ファイル (heart-unlabeled-0.csv、heart-unlabeled-1.csv、heart-unlabeled-2.csv、heart-unlabeled-3.csv) があったことに注目してください。

バッチ推論にデプロイするときの考慮事項

Azure Machine Learning では、スコアリングスクリプトを示さなくても、バッチエンドポイントに MLflow モデルをデプロイできます。これは、大量のデータを一括して処理する必要があるモデルをデプロイするのに便利な方法です。 Azure Machine Learning は、MLflow モデル仕様の情報を使って推論プロセスを調整します。

worker での作業の分散

バッチエンドポイントは、構造化データと非構造化データの両方について、ファイルレベルで作業を分散させます。その結果、この機能では、URI ファイルと URI フォルダーのみがサポートされます。各 worker は一度に Mini batch size 個のファイルのバッチを処理します。表形式データの場合、バッチエンドポイントによって作業が分散されるとき、各ファイル内の行数は考慮されません。

警告

入れ子になったフォルダー構造は、推論中に探索されません。フォルダーを使ってパーティション分割している場合は、事前に構造をフラット化してください。

バッチデプロイにより、1 ファイルにつき 1 回、MLflow モデルの predict 関数が呼び出されます。このため、複数の行を含む CSV ファイルの場合、基になるコンピューティングでメモリ不足が発生することがあり、モデルによる 1 つのファイルのスコア付けにかかる時間が長くなる可能性があります (特に、大規模言語モデルのようなコストがかかるモデルの場合)。メモリ不足例外やログのタイムアウトエントリが複数発生する場合は、より少ない行数のファイルにデータを分割するか、モデルやスコアリングのスクリプト内で行レベルのバッチ処理を実装することを検討してください。

ファイルの種類のサポート

バッチ推論で環境とスコアリングスクリプトを使わずに MLflow モデルをデプロイする場合、次のデータ型がサポートされています。異なるファイルの種類を処理する場合、またはバッチエンドポイントの既定値とは異なる方法で推論を実行する場合は、「MLflow モデルとスコアリングスクリプトの使用」で説明されているように、スコアリングスクリプトを使ってデプロイをいつでも作成できます。

[ファイル拡張子]	モデルの入力として返される値の型	シグネチャの要件
`.csv`、`.parquet`、`.pqt`	`pd.DataFrame`	`ColSpec` 指定しない場合、列の型指定は強制されません。
`.png`、`.jpg`、`.jpeg`、`.tiff`、`.bmp`、`.gif`	`np.ndarray`	`TensorSpec` 入力はテンソルのシェイプと一致するように再シェイプされます (使用できる場合)。使用できるシグネチャがない場合、型 `np.uint8` のテンソルが推論されます。その他のガイダンスについては、「画像を処理する MLflow モデルに関する考慮事項」を参照してください。

警告

入力データにサポートされていないファイルがあると、ジョブが失敗する可能性があることに注意してください。次のようなエラーエントリが表示されます: "ERROR:azureml:Error processing input file: '/mnt/batch/tasks/.../a-given-file.avro'.File type 'avro' is not supported." (ERROR:azureml: 入力ファイルの処理エラー: '/mnt/batch/tasks/.../a-given-file.avro'。ファイルの種類 'avro' はサポートされていません。)

MLflow モデルに対するシグネチャの適用

入力のデータ型はバッチデプロイジョブによって適用されますが、データの読み取りには、使用できる MLflow モデルのシグネチャが使われます。つまり、データ入力はモデルのシグネチャに示された型に準拠する必要があります。想定どおりにデータを解析できない場合、次のようなエラーメッセージが表示され、ジョブは失敗します: "ERROR:azureml:Error processing input file: '/mnt/batch/tasks/.../a-given-file.csv'. Exception: invalid literal for int() with base 10: 'value'" ("ERROR:azureml: 入力ファイルの処理エラー: '/mnt/batch/tasks/.../a-given-file.csv'。例外: ベース 10 の int() の無効なリテラル: 'value'")。

ヒント

MLflow モデルのシグネチャは省略可能ですが、データの互換性の問題を早期に検出する便利な方法として利用できるため、強くお勧めします。シグネチャを使ってモデルのログを記録する方法の詳細については、「カスタムのシグネチャ、環境、またはサンプルを使ったモデルのログ記録」を参照してください。

MLflow モデルに関連付けられた MLmodel ファイルを開くことで、モデルのシグネチャを調べることができます。シグネチャが MLflow でどのように機能するかの詳細については、MLflow のシグネチャに関する記事を参照してください。

フレーバーのサポート

バッチデプロイは、フレーバーが pyfunc の MLflow モデルのデプロイのみをサポートします。別のフレーバーをデプロイする必要がある場合は、「MLflow モデルとスコアリングスクリプトの使用」を参照してください。

スコアリングスクリプトを使用した MLflow モデルデプロイのカスタマイズ

デプロイ定義にスコアリングスクリプトを指定することなく、MLflow モデルをバッチエンドポイントにデプロイできます。ただし、推論の実行方法をカスタマイズするために、このファイル (通常は "バッチドライバー" と呼ばれます) を指定することもできます。

通常、次の場合にこのワークフローを選びます。

バッチデプロイの MLflow デプロイでサポートされていないファイルの種類を処理する必要があります。
モデルの実行方法をカスタマイズする必要があります。たとえば、mlflow.<flavor>.load() を使って読み込むために特定のフレーバーを使います。
モデル自体で前処理または後処理が実行されない場合、スコアリングルーチンで実行する必要があります。
モデルの出力を表形式データでうまく表現できません。たとえば、画像を表すテンソルです。
メモリに制約があるため、モデルで各ファイルを一度に処理できず、複数のチャンクに分けて読み取る必要があります。

重要

MLflow のモデルデプロイに対してスコアリングスクリプトを示す場合は、デプロイが実行される環境も指定する必要があります。

手順

次の手順を使って、カスタムのスコアリングスクリプトを含む MLflow モデルをデプロイします。

MLflow モデルが置かれているフォルダーを特定します。

a. Azure Machine Learning ポータルに移動します。

b. [モデル] セクションに移動します。

c. デプロイ予定のモデルを選び、[成果物] タブをクリックします。

d. 表示されたフォルダーをメモします。モデルの登録時にこのフォルダーが示されました。

スコアリングスクリプトを作成します。前に特定したフォルダー名 model がどのように init() 関数に含まれているか注意してください。

deployment-custom/code/batch_driver.py

# Copyright (c) Microsoft. All rights reserved.
# Licensed under the MIT license.

import os
import glob
import mlflow
import pandas as pd
import logging


def init():
    global model
    global model_input_types
    global model_output_names

    # AZUREML_MODEL_DIR is an environment variable created during deployment
    # It is the path to the model folder
    # Please provide your model's folder name if there's one
    model_path = glob.glob(os.environ["AZUREML_MODEL_DIR"] + "/*/")[0]

    # Load the model, it's input types and output names
    model = mlflow.pyfunc.load(model_path)
    if model.metadata and model.metadata.signature:
        if model.metadata.signature.inputs:
            model_input_types = dict(
                zip(
                    model.metadata.signature.inputs.input_names(),
                    model.metadata.signature.inputs.pandas_types(),
                )
            )
        if model.metadata.signature.outputs:
            if model.metadata.signature.outputs.has_input_names():
                model_output_names = model.metadata.signature.outputs.input_names()
            elif len(model.metadata.signature.outputs.input_names()) == 1:
                model_output_names = ["prediction"]
    else:
        logging.warning(
            "Model doesn't contain a signature. Input data types won't be enforced."
        )


def run(mini_batch):
    print(f"run method start: {__file__}, run({len(mini_batch)} files)")

    data = pd.concat(
        map(
            lambda fp: pd.read_csv(fp).assign(filename=os.path.basename(fp)), mini_batch
        )
    )

    if model_input_types:
        data = data.astype(model_input_types)

    # Predict over the input data, minus the column filename which is not part of the model.
    pred = model.predict(data.drop("filename", axis=1))

    if pred is not pd.DataFrame:
        if not model_output_names:
            model_output_names = ["pred_col" + str(i) for i in range(pred.shape[1])]
        pred = pd.DataFrame(pred, columns=model_output_names)

    return pd.concat([data, pred], axis=1)

スコアリングスクリプトが実行される環境を作成しましょう。モデルは MLflow であるため、conda 要件はモデルパッケージでも指定されます (MLflow モデルの詳細と、それに含まれるファイルについては、「MLmodel 形式」を参照してください)。次に、ファイルの conda 依存関係を使用して環境を構築します。ただし、Batch デプロイに必要なパッケージazureml-coreも含める必要があります。

ヒント

モデルが既にモデルレジストリに登録されている場合は、Azure Machine Learning スタジオ> [モデル] > 一覧からモデルを選択 > [成果物] の順に操作して、モデルに関連付けられている conda.yml ファイルをダウンロードまたはコピーできます。ナビゲーションでルートフォルダーを開き、一覧表示されている conda.yml ファイルを選択します。 [ダウンロード] をクリックするか、コンテンツをコピーします。

重要

この例では、 /heart-classifier-mlflow/environment/conda.yamlで指定された conda 環境を使用します。このファイルは、元の MLflow conda 依存関係ファイルを組み合わせ、パッケージ azureml-coreを追加することによって作成されました。 モデルから直接 conda.yml ファイルを使用することはできません。
- Azure CLI
- Python
環境定義は、匿名環境としてデプロイ定義自体に含まれます。デプロイでは、次の行で確認できます。
```
environment:
  name: batch-mlflow-xgboost
  image: mcr.microsoft.com/azureml/openmpi4.1.0-ubuntu20.04:latest
  conda_file: environment/conda.yaml
```
その環境に対する参照を取得しましょう。
```
environment = Environment(
    name="batch-mlflow-xgboost",
    conda_file="environment/conda.yaml",
    image="mcr.microsoft.com/azureml/openmpi4.1.0-ubuntu20.04:latest",
)
```

デプロイを構成します。

Azure CLI
Python

作成されたエンドポイントの下に新しいデプロイを作成するには、次のような YAML 構成を作成します。追加のプロパティについては、完全なバッチエンドポイント YAML スキーマを確認してください。

deployment-custom/deployment.yml

$schema: https://azuremlschemas.azureedge.net/latest/modelBatchDeployment.schema.json
endpoint_name: heart-classifier-batch
name: classifier-xgboost-custom
description: A heart condition classifier based on XGBoost
type: model
model: azureml:heart-classifier-mlflow@latest
environment:
  name: batch-mlflow-xgboost
  image: mcr.microsoft.com/azureml/openmpi4.1.0-ubuntu20.04:latest
  conda_file: environment/conda.yaml
code_configuration:
  code: code
  scoring_script: batch_driver.py
compute: azureml:batch-cluster
resources:
  instance_count: 2
settings:
  max_concurrency_per_instance: 2
  mini_batch_size: 2
  output_action: append_row
  output_file_name: predictions.csv
  retry_settings:
    max_retries: 3
    timeout: 300
  error_threshold: -1
  logging_level: info

deployment = ModelBatchDeployment(
    name="classifier-xgboost-custom",
    description="A heart condition classifier based on XGBoost with a custom scoring script",
    endpoint_name=endpoint.name,
    model=model,
    environment=environment,
    code_configuration=CodeConfiguration(code="code", scoring_script="batch_driver.py"),
    compute=compute_name,
    settings=ModelBatchDeploymentSettings(
        instance_count=2,
        max_concurrency_per_instance=2,
        mini_batch_size=10,
        output_action=BatchDeploymentOutputAction.APPEND_ROW,
        output_file_name="predictions.csv",
        retry_settings=BatchRetrySettings(max_retries=3, timeout=300),
        logging_level="info",
    ),
)

次はデプロイを作成しましょう。

Azure CLI
Python

az ml batch-deployment create --file deployment-custom/deployment.yml --endpoint-name $ENDPOINT_NAME

ml_client.batch_deployments.begin_create_or_update(deployment).result()

この時点で、バッチエンドポイントを使用する準備は完了です。

次のコードを実行して、バッチエンドポイントと基になるすべてのデプロイを削除します。バッチスコアリングジョブは削除されません。

az ml batch-endpoint delete --name $ENDPOINT_NAME --yes