Azure Machine Learning CLI、SDK、REST API を使用してモデルをトレーニングする

[アーティクル]
10/07/2024

適用対象:Azure CLI ml extension v2 (現行)Python SDK azure-ai-ml v2 (現行)

Azure Machine Learning には、ML トレーニングジョブを送信する複数の方法が用意されています。この記事では、次の方法を使用してジョブを送信する方法について説明します：

機械学習用の Azure CLI 拡張機能: CLI v2 とも呼ばれる ml拡張機能。
Azure Machine Learning 用Python SDK v2。
REST API: CLI と SDK が構築されている API。

前提条件

Azure サブスクリプション。 Azure サブスクリプションをお持ちでない場合は、開始する前に無料アカウントを作成してください。無料版または有料版の Azure Machine Learning をお試しください。
Azure Machine Learning ワークスペース。お持ちでない場合は、記事「作業を開始するために必要なリソースを作成する」の手順を使用できます。

SDK 情報を使用するには、Azure Machine Learning SDK v2 for Pythonをインストールします。

REST API 情報を使用するには、次のものが必要です：

ワークスペース内のサービスプリンシパル。管理 REST 要求でサービスプリンシパル認証が使用されている。
サービスプリンシパルの認証トークン。「サービスプリンシパルの認証トークンを取得する」の手順に従って、このトークンを取得します。
curl ユーティリティ。 curl プログラムは、Linux 用 Windows サブシステムまたは任意の UNIX ディストリビューションで使用できます。

ヒント

PowerShell では、curl は Invoke-WebRequest の別名であり、curl -d "key=val" -X POST uri は Invoke-WebRequest -Body "key=val" -Method POST -Uri uri になります。

PowerShell から REST API を呼び出しても問題はありませんが、この記事の例では Bash を使用していることを前提としています。
JSON を処理するための jq ユーティリティ。このユーティリティは、REST API 呼び出しから返される JSON ドキュメントから値を抽出するために使用されます。

examples リポジトリをクローンします

この記事のコードスニペットは、Azure Machine Learning の GitHub リポジトリの例に基づいています。リポジトリを開発環境に複製するには、次のコマンドを使用します：

git clone --depth 1 https://github.com/Azure/azureml-examples

ヒント

--depth 1 を使用すると、リポジトリに対する最新のコミットだけが複製されるので、操作の完了にかかる時間を短縮できます。

サンプルジョブ

この記事の例では、iris フラワーデータセットを使用して MLFlow モデルをトレーニングします。

クラウドでトレーニングする

クラウドでトレーニングを行う場合は、Azure Machine Learning ワークスペースに接続し、トレーニングジョブの実行に使用するコンピューティングリソースを選択する必要があります。

1. ワークスペースに接続する

ヒント

以下のタブを使って、モデルのトレーニングに使用する方法を選択します。タブを選択すると、この記事のすべてのタブが同じタブに自動的に切り替わります。いつでも別のタブを選択できます。

ワークスペースに接続するには、識別子パラメーター (サブスクリプション、リソースグループ、ワークスペース名) が必要です。これらの詳細を azure.ai.ml 名前空間の MLClient で使用して、必要な Azure Machine Learning ワークスペースへのハンドルを取得します。認証には、既定の Azure 認証を使用します。資格情報を構成してワークスペースに接続する方法の詳細については、こちらの例を参照してください。

#import required libraries
from azure.ai.ml import MLClient
from azure.identity import DefaultAzureCredential

#Enter details of your Azure Machine Learning workspace
subscription_id = '<SUBSCRIPTION_ID>'
resource_group = '<RESOURCE_GROUP>'
workspace = '<AZUREML_WORKSPACE_NAME>'

#connect to the workspace
ml_client = MLClient(DefaultAzureCredential(), subscription_id, resource_group, workspace)

Azure CLI を使用する場合は、識別子パラメーター (サブスクリプション、リソースグループ、ワークスペース名) が必要です。コマンドごとにこれらのパラメーターを指定できますが、すべてのコマンドに使用される既定値を設定することもできます。既定値を設定するには、次のコマンドを使用します。 <subscription ID>、<Azure Machine Learning workspace name>、並びに<resource group> を、構成の値に置き換えます:

az account set --subscription <subscription ID>
az configure --defaults workspace=<Azure Machine Learning workspace name> group=<resource group>

この記事の REST API の例では、$SUBSCRIPTION_ID、$RESOURCE_GROUP、$LOCATION、並びに$WORKSPACEのプレースホルダーを使用します。プレースホルダーを以下のように実際の値に置き換えてください：

$SUBSCRIPTION_ID:お使いの Azure サブスクリプション ID。
$RESOURCE_GROUP: ご利用のワークスペースを含んだ Azure リソースグループ。
$LOCATION: ご利用のワークスペースが配置されている Azure リージョン。
$WORKSPACE: ご利用のAzure Machine Learning ワークスペースの名前。
$COMPUTE_NAME: ご利用のAzure Machine Learning コンピューティングクラスターの名前。

管理 REST により、サービスプリンシパル認証トークンが要求されます。このトークンは、次のコマンドを使用して取得できます。トークンは $TOKEN環境変数に格納されます：

TOKEN=$(az account get-access-token --query accessToken -o tsv)

サービスプロバイダーは、api-version 引数を使用して互換性を保証します。 api-version 引数はサービスによって異なります。将来のバージョンに対応するために、API バージョンを変数として設定します。

API_VERSION="2022-05-01"

REST API を使用してトレーニングする場合は、データスクリプトとトレーニングスクリプトをワークスペースからアクセスできるストレージアカウントにアップロードする必要があります。次の例では、ワークスペースのストレージ情報が取得され、後で使用できるように変数に保存されます。

# Get values for storage account
response=$(curl --location --request GET "https://management.azure.com/subscriptions/$SUBSCRIPTION_ID/resourceGroups/$RESOURCE_GROUP/providers/Microsoft.MachineLearningServices/workspaces/$WORKSPACE/datastores?api-version=$API_VERSION&isDefault=true" \
--header "Authorization: Bearer $TOKEN")
AZUREML_DEFAULT_DATASTORE=$(echo $response | jq -r '.value[0].name')
AZUREML_DEFAULT_CONTAINER=$(echo $response | jq -r '.value[0].properties.containerName')
export AZURE_STORAGE_ACCOUNT=$(echo $response | jq -r '.value[0].properties.accountName')

2. トレーニング用のコンピューティングリソースを作成する

Note

サーバーレスコンピューティングを試すには、この手順をスキップし、「3.トレーニングジョブの送信」に進みます。

Azure Machine Learning コンピューティングクラスターは、トレーニングジョブの実行に使用できるフルマネージドコンピューティングリソースです。次の例では、cpu-computeと名づけられたコンピューティングクラスターが作成されます。

from azure.ai.ml.entities import AmlCompute

# specify aml compute name.
cpu_compute_target = "cpu-cluster"

try:
    ml_client.compute.get(cpu_compute_target)
except Exception:
    print("Creating a new cpu compute target...")
    compute = AmlCompute(
        name=cpu_compute_target, size="STANDARD_D2_V2", min_instances=0, max_instances=4
    )
    ml_client.compute.begin_create_or_update(compute).result()

az ml compute create -n cpu-cluster --type amlcompute --min-instances 0 --max-instances 4

curl -X PUT \
  "https://management.azure.com/subscriptions/$SUBSCRIPTION_ID/resourceGroups/$RESOURCE_GROUP/providers/Microsoft.MachineLearningServices/workspaces/$WORKSPACE/computes/$COMPUTE_NAME?api-version=$API_VERSION" \
  -H "Authorization:Bearer $TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "location": "'$LOCATION'",
    "properties": {
        "computeType": "AmlCompute",
        "properties": {
            "vmSize": "Standard_D2_V2",
            "vmPriority": "Dedicated",
            "scaleSettings": {
                "maxNodeCount": 4,
                "minNodeCount": 0,
                "nodeIdleTimeBeforeScaleDown": "PT30M"
            }
        }
    }
}'

ヒント

数秒後に応答が返されますが、これは作成要求が受け入れられたことを示すだけです。クラスターの作成処理は、完了までに数分かかる場合があります。

3.トレーニングジョブの送信

このスクリプトを実行するには、./sdk/python/jobs/single-step/lightgbm/iris/src/ の下にある Python スクリプト main.py を実行する command を使用します。このコマンドは、それを job として Azure Machine Learning に送信することによって実行されます。

Note

サーバーレスコンピューティングを使用するには、このコードで compute="cpu-cluster" を削除します。

from azure.ai.ml import command, Input

# define the command
command_job = command(
    code="./src",
    command="python main.py --iris-csv ${{inputs.iris_csv}} --learning-rate ${{inputs.learning_rate}} --boosting ${{inputs.boosting}}",
    environment="AzureML-lightgbm-3.2-ubuntu18.04-py37-cpu@latest",
    inputs={
        "iris_csv": Input(
            type="uri_file",
            path="https://azuremlexamples.blob.core.windows.net/datasets/iris.csv",
        ),
        "learning_rate": 0.9,
        "boosting": "gbdt",
    },
    compute="cpu-cluster",
)

# submit the command
returned_job = ml_client.jobs.create_or_update(command_job)
# get a URL for the status of the job
returned_job.studio_url

上記の例では、次の構成を行いました：

code - コマンドを実行するコードが配置されているパス
command - 実行する必要があるコマンド
environment - トレーニングスクリプトを実行するため必要な環境。この例では、AzureML-lightgbm-3.2-ubuntu18.04-py37-cpu と呼ばれる Azure Machine Learning によって提供されるキュレーション済みまたは既製の環境を使用します。 @latest ディレクティブを使用して、この環境の最新バージョンを使用します。また、ベース Docker イメージを指定し、その上に conda yaml を指定することで、カスタム環境を使用することもできます。
inputs - 名前と値のペアを使用した、コマンドへの入力のディクショナリ。キーは、ジョブのコンテキスト内の入力の名前であり、値は入力値です。入力は、${{inputs.<input_name>}} 式を使用して command で参照されます。ファイルやフォルダーを入力として使用するには、Input クラスを使用できます。詳細については、「SDK と CLI v2 式」を参照してください。

詳しくは、リファレンスドキュメントをご覧ください。

ジョブを送信すると、Azure Machine Learning スタジオのジョブの状態に URL が返されます。スタジオ UI を使用して、ジョブの進行状況を表示します。ジョブの現在の状態を確認するためにも returned_job.statusを使用できます。

この例で使用する az ml job createコマンドには、YAML ジョブ定義ファイルが必要です。この例で使用するファイルのコンテンツは次のとおりです：

Note

サーバーレスコンピューティングを使用するには、このコードで compute: azureml:cpu-cluster" を削除します。

$schema: https://azuremlschemas.azureedge.net/latest/commandJob.schema.json
code: src
command: >-
  python main.py
  --iris-csv ${{inputs.iris_csv}}
inputs:
  iris_csv:
    type: uri_file
    path: https://azuremlexamples.blob.core.windows.net/datasets/iris.csv
environment: azureml:AzureML-lightgbm-3.3@latest
compute: azureml:cpu-cluster
display_name: lightgbm-iris-example
experiment_name: lightgbm-iris-example
description: Train a LightGBM model on the Iris dataset.

上記では、次の構成を行いました。

code - コマンドを実行するコードが配置されているパス
command - 実行する必要があるコマンド
inputs - 名前と値のペアを使用した、コマンドへの入力のディクショナリ。キーは、ジョブのコンテキスト内の入力の名前であり、値は入力値です。入力は、${{inputs.<input_name>}} 式を使用して command で参照されます。詳細については、「SDK と CLI v2 式」を参照してください。
environment - トレーニングスクリプトを実行するため必要な環境。この例では、AzureML-lightgbm-3.3 と呼ばれる Azure Machine Learning によって提供されるキュレーション済みまたは既製の環境を使用します。 @latest ディレクティブを使用して、この環境の最新バージョンを使用します。また、ベース Docker イメージを指定し、その上に conda yaml を指定することで、カスタム環境を使用することもできます。ジョブを提出するには、次のコマンドを使います。トレーニングジョブの実行 ID (名前) は、$run_id変数に格納されます：

run_id=$(az ml job create -f jobs/single-step/lightgbm/iris/job.yml --query name -o tsv)

格納されている実行 ID を使用して、ジョブに関する情報を返すことができます。この --web パラメーターによって Azure Machine Learning スタジオ Web UI が開き、ジョブの詳細を詳しく調べることができます:

az ml job show -n $run_id --web

ジョブの送信の一環として、トレーニングスクリプトとデータを、Azure Machine Learning ワークスペースがアクセスできるクラウドストレージの場所にアップロードする必要があります。

トレーニングスクリプトをアップロードするには、次の Azure CLI コマンドを使用します。このコマンドでは、個々のファイルではなく、トレーニングに必要なファイルを含むディレクトリを指定します。代わりに REST を使用してデータをアップロードする場合は、Put Blob リファレンスを参照してください。
```
az storage blob upload-batch -d $AZUREML_DEFAULT_CONTAINER/testjob -s cli/jobs/single-step/lightgbm/iris/src/ --account-name $AZURE_STORAGE_ACCOUNT
```

トレーニングデータへのバージョン管理された参照を作成します。この例では、データは既にクラウドの https://azuremlexamples.blob.core.windows.net/datasets/iris.csv にあります。データの参照方法の詳細については、「Azure Machine Learning のデータ」を参照してください。

DATA_VERSION=$RANDOM
curl --location --request PUT "https://management.azure.com/subscriptions/$SUBSCRIPTION_ID/resourceGroups/$RESOURCE_GROUP/providers/Microsoft.MachineLearningServices/workspaces/$WORKSPACE/data/iris-data/versions/$DATA_VERSION?api-version=$API_VERSION" \
--header "Authorization: Bearer $TOKEN" \
--header "Content-Type: application/json" \
--data-raw "{
        \"properties\": {
        \"description\": \"Iris dataset\",
        \"dataType\": \"uri_file\",
        \"dataUri\": \"https://azuremlexamples.blob.core.windows.net/datasets/iris.csv\"
    }
}"

ジョブで使用するトレーニングスクリプトへのバージョン管理された参照を登録します。この例では、スクリプトの場所は手順 1 でアップロードした既定のストレージアカウントとコンテナーです。バージョン管理されたトレーニングコードの ID が返され、$TRAIN_CODE 変数に格納されます。

TRAIN_CODE=$(curl --location --request PUT "https://management.azure.com/subscriptions/$SUBSCRIPTION_ID/resourceGroups/$RESOURCE_GROUP/providers/Microsoft.MachineLearningServices/workspaces/$WORKSPACE/codes/train-lightgbm/versions/1?api-version=$API_VERSION" \
--header "Authorization: Bearer $TOKEN" \
--header "Content-Type: application/json" \
--data-raw "{
        \"properties\": {
        \"description\": \"Train code\",
        \"codeUri\": \"https://$AZURE_STORAGE_ACCOUNT.blob.core.windows.net/$AZUREML_DEFAULT_CONTAINER/testjob\"
    }
}" | jq -r '.id')

クラスターがトレーニングスクリプトの実行に使用する環境を作成します。この例では、AzureML-lightgbm-3.2-ubuntu18.04-py37-cpu と呼ばれる Azure Machine Learning によって提供されるキュレーション済みまたは既製の環境を使用します。次のコマンドは、最新のバージョンがコレクションの一番上にある環境バージョンの一覧を取得します。 jq は、最新の ([0]) バージョンの ID を取得するために使用され、 $ENVIRONMENT 変数に格納されます。
```
ENVIRONMENT=$(curl --location --request GET "https://management.azure.com/subscriptions/$SUBSCRIPTION_ID/resourceGroups/$RESOURCE_GROUP/providers/Microsoft.MachineLearningServices/workspaces/$WORKSPACE/environments/AzureML-lightgbm-3.2-ubuntu18.04-py37-cpu?api-version=$API_VERSION" --header "Authorization: Bearer $TOKEN" | jq -r .id)
```

最後に、ジョブを送信します。次の例では、ジョブの送信方法、トレーニングコード ID、環境 ID、入力データの URL、コンピューティングクラスターの ID を参照する方法を示します。ジョブ出力の場所は、 $JOB_OUTPUT 変数に格納されます：

ヒント

ジョブ名は一意である必要があります。この例では、 uuidgenは名前の一意の値を生成するために使用されます。

Note

サーバーレスコンピューティングを使用するには、このコードで \"computeId\": のラインを削除します。

run_id=$(uuidgen)
curl --location --request PUT "https://management.azure.com/subscriptions/$SUBSCRIPTION_ID/resourceGroups/$RESOURCE_GROUP/providers/Microsoft.MachineLearningServices/workspaces/$WORKSPACE/jobs/$run_id?api-version=$API_VERSION" \
--header "Authorization: Bearer $TOKEN" \
--header "Content-Type: application/json" \
--data-raw "{
    \"properties\": {
        \"jobType\": \"Command\",
        \"codeId\": \"$TRAIN_CODE\",
        \"command\": \"python main.py --iris-csv \$AZURE_ML_INPUT_iris\",
        \"environmentId\": \"$ENVIRONMENT\",
        \"inputs\": {
            \"iris\": {
                \"jobInputType\": \"uri_file\",
                \"uri\": \"https://azuremlexamples.blob.core.windows.net/datasets/iris.csv\"
            }
        },
        \"experimentName\": \"lightgbm-iris\",
        \"computeId\": \"/subscriptions/$SUBSCRIPTION_ID/resourceGroups/$RESOURCE_GROUP/providers/Microsoft.MachineLearningServices/workspaces/$WORKSPACE/computes/$COMPUTE_NAME\"
    }
}"

トレーニングされたモデルを登録します

次の例では、Azure Machine Learning ワークスペースにモデルを登録する方法が示されています。

ヒント

トレーニングジョブによって返される name プロパティは、モデルへのパスの一部として使用されます。

from azure.ai.ml.entities import Model
from azure.ai.ml.constants import AssetTypes

run_model = Model(
    path="azureml://jobs/{}/outputs/artifacts/paths/model/".format(returned_job.name),
    name="run-model-example",
    description="Model created from run.",
    type=AssetTypes.MLFLOW_MODEL
)

ml_client.models.create_or_update(run_model)

ヒント

名前 ( $run_id 変数に格納) は、モデルへのパスの一部として使用されます。

az ml model create -n sklearn-iris-example -v 1 -p runs:/$run_id/model --type mlflow_model

ヒント

名前 ( $run_id 変数に格納) は、モデルへのパスの一部として使用されます。

curl --location --request PUT "https://management.azure.com/subscriptions/$SUBSCRIPTION_ID/resourceGroups/$RESOURCE_GROUP/providers/Microsoft.MachineLearningServices/workspaces/$WORKSPACE/models/sklearn/versions/1?api-version=$API_VERSION" \
--header "Authorization: Bearer $TOKEN" \
--header "Content-Type: application/json" \
--data-raw "{
    \"properties\": {
        \"modelType\": \"mlflow_model\",
        \"modelUri\":\"runs:/$run_id/model\"
    }
}"

次の手順

トレーニング済みのモデルを作成したら、オンラインエンドポイントを使用してモデルをデプロイする方法について説明します。

その他の例については、Azure Machine Learning の例で GitHub リポジトリを参照してください。

この記事で使用する Azure CLI コマンド、Python SDK クラス、または REST API の詳細については、次のリファレンスドキュメントを参照してください：

次の方法で共有

Azure Machine Learning CLI、SDK、REST API を使用してモデルをトレーニングする

前提条件

examples リポジトリをクローンします

サンプルジョブ

クラウドでトレーニングする

1. ワークスペースに接続する

2. トレーニング用のコンピューティングリソースを作成する

3.トレーニングジョブの送信

トレーニングされたモデルを登録します

次の手順

フィードバック

その他のリソース

次の方法で共有

Azure Machine Learning CLI、SDK、REST API を使用してモデルをトレーニングする

前提条件

examples リポジトリをクローンします

サンプル ジョブ

クラウドでトレーニングする

1. ワークスペースに接続する

2. トレーニング用のコンピューティング リソースを作成する

3.トレーニング ジョブの送信

トレーニングされたモデルを登録します

次の手順

フィードバック

その他のリソース

サンプルジョブ

2. トレーニング用のコンピューティングリソースを作成する

3.トレーニングジョブの送信