Azure Machine Learning CLI、SDK、REST API を使用してモデルをトレーニングする
[アーティクル] 10/07/2024
9 人の共同作成者
フィードバック
この記事の内容
適用対象: Azure CLI ml extension v2 (現行) Python SDK azure-ai-ml v2 (現行)
Azure Machine Learning には、ML トレーニング ジョブを送信する複数の方法が用意されています。 この記事では、次の方法を使用してジョブを送信する方法について説明します:
機械学習用の Azure CLI 拡張機能: CLI v2 とも呼ばれる ml
拡張機能。
Azure Machine Learning 用Python SDK v2。
REST API: CLI と SDK が構築されている API。
前提条件
REST API 情報を使用するには、次のものが必要です:
ワークスペース内のサービス プリンシパル 。 管理 REST 要求でサービス プリンシパル認証 が使用されている。
サービス プリンシパルの認証トークン 。 「サービス プリンシパルの認証トークンを取得する 」の手順に従って、このトークンを取得します。
curl ユーティリティ。 curl プログラムは、Linux 用 Windows サブシステム または任意の UNIX ディストリビューションで使用できます。
ヒント
PowerShell では、curl
は Invoke-WebRequest
の別名であり、curl -d "key=val" -X POST uri
は Invoke-WebRequest -Body "key=val" -Method POST -Uri uri
になります。
PowerShell から REST API を呼び出しても問題はありませんが、この記事の例では Bash を使用していることを前提としています。
JSON を処理するための jq ユーティリティ。 このユーティリティは、REST API 呼び出しから返される JSON ドキュメントから値を抽出するために使用されます。
examples リポジトリをクローンします
この記事のコード スニペットは、Azure Machine Learning の GitHub リポジトリの例 に基づいています。 リポジトリを開発環境に複製するには、次のコマンドを使用します:
git clone --depth 1 https://github.com/Azure/azureml-examples
ヒント
--depth 1
を使用すると、リポジトリに対する最新のコミットだけが複製されるので、操作の完了にかかる時間を短縮できます。
サンプル ジョブ
この記事の例では、iris フラワー データセットを使用して MLFlow モデルをトレーニングします。
クラウドでトレーニングする
クラウドでトレーニングを行う場合は、Azure Machine Learning ワークスペースに接続し、トレーニング ジョブの実行に使用するコンピューティング リソースを選択する必要があります。
1. ワークスペースに接続する
ヒント
以下のタブを使って、モデルのトレーニングに使用する方法を選択します。 タブを選択すると、この記事のすべてのタブが同じタブに自動的に切り替わります。いつでも別のタブを選択できます。
ワークスペースに接続するには、識別子パラメーター (サブスクリプション、リソース グループ、ワークスペース名) が必要です。 これらの詳細を azure.ai.ml
名前空間の MLClient
で使用して、必要な Azure Machine Learning ワークスペースへのハンドルを取得します。 認証には、既定の Azure 認証 を使用します。 資格情報を構成してワークスペースに接続する方法の詳細については、こちらの例 を参照してください。
#import required libraries
from azure.ai.ml import MLClient
from azure.identity import DefaultAzureCredential
#Enter details of your Azure Machine Learning workspace
subscription_id = '<SUBSCRIPTION_ID>'
resource_group = '<RESOURCE_GROUP>'
workspace = '<AZUREML_WORKSPACE_NAME>'
#connect to the workspace
ml_client = MLClient(DefaultAzureCredential(), subscription_id, resource_group, workspace)
Azure CLI を使用する場合は、識別子パラメーター (サブスクリプション、リソース グループ、ワークスペース名) が必要です。 コマンドごとにこれらのパラメーターを指定できますが、すべてのコマンドに使用される既定値を設定することもできます。 既定値を設定するには、次のコマンドを使用します。 <subscription ID>
、<Azure Machine Learning workspace name>
、並びに<resource group>
を、構成の値に置き換えます:
az account set --subscription <subscription ID>
az configure --defaults workspace=<Azure Machine Learning workspace name> group=<resource group>
この記事の REST API の例では、$SUBSCRIPTION_ID
、$RESOURCE_GROUP
、$LOCATION
、並びに$WORKSPACE
のプレースホルダーを使用します。 プレースホルダーを以下のように実際の値に置き換えてください:
$SUBSCRIPTION_ID
:お使いの Azure サブスクリプション ID。
$RESOURCE_GROUP
: ご利用のワークスペースを含んだ Azure リソース グループ。
$LOCATION
: ご利用のワークスペースが配置されている Azure リージョン。
$WORKSPACE
: ご利用のAzure Machine Learning ワークスペースの名前。
$COMPUTE_NAME
: ご利用のAzure Machine Learning コンピューティング クラスターの名前。
管理 REST により、サービス プリンシパル認証トークン が要求されます。 このトークンは、次のコマンドを使用して取得できます。 トークンは $TOKEN
環境変数に 格納されます:
TOKEN=$(az account get-access-token --query accessToken -o tsv)
サービス プロバイダーは、api-version
引数を使用して互換性を保証します。 api-version
引数はサービスによって異なります。 将来のバージョンに対応するために、API バージョンを変数として設定します。
API_VERSION="2022-05-01"
REST API を使用してトレーニングする場合は、データ スクリプトとトレーニング スクリプトをワークスペースからアクセスできるストレージ アカウントにアップロードする必要があります。 次の例では、ワークスペースのストレージ情報が取得され、後で使用できるように変数に保存されます。
# Get values for storage account
response=$(curl --location --request GET "https://management.azure.com/subscriptions/$SUBSCRIPTION_ID/resourceGroups/$RESOURCE_GROUP/providers/Microsoft.MachineLearningServices/workspaces/$WORKSPACE/datastores?api-version=$API_VERSION&isDefault=true" \
--header "Authorization: Bearer $TOKEN")
AZUREML_DEFAULT_DATASTORE=$(echo $response | jq -r '.value[0].name')
AZUREML_DEFAULT_CONTAINER=$(echo $response | jq -r '.value[0].properties.containerName')
export AZURE_STORAGE_ACCOUNT=$(echo $response | jq -r '.value[0].properties.accountName')
2. トレーニング用のコンピューティング リソースを作成する
Azure Machine Learning コンピューティング クラスターは、トレーニング ジョブの実行に使用できるフル マネージドコンピューティング リソースです。 次の例では、cpu-compute
と名づけられた コンピューティング クラスターが作成されます。
from azure.ai.ml.entities import AmlCompute
# specify aml compute name.
cpu_compute_target = "cpu-cluster"
try:
ml_client.compute.get(cpu_compute_target)
except Exception:
print("Creating a new cpu compute target...")
compute = AmlCompute(
name=cpu_compute_target, size="STANDARD_D2_V2", min_instances=0, max_instances=4
)
ml_client.compute.begin_create_or_update(compute).result()
az ml compute create -n cpu-cluster --type amlcompute --min-instances 0 --max-instances 4
curl -X PUT \
"https://management.azure.com/subscriptions/$SUBSCRIPTION_ID/resourceGroups/$RESOURCE_GROUP/providers/Microsoft.MachineLearningServices/workspaces/$WORKSPACE/computes/$COMPUTE_NAME?api-version=$API_VERSION" \
-H "Authorization:Bearer $TOKEN" \
-H "Content-Type: application/json" \
-d '{
"location": "'$LOCATION'",
"properties": {
"computeType": "AmlCompute",
"properties": {
"vmSize": "Standard_D2_V2",
"vmPriority": "Dedicated",
"scaleSettings": {
"maxNodeCount": 4,
"minNodeCount": 0,
"nodeIdleTimeBeforeScaleDown": "PT30M"
}
}
}
}'
ヒント
数秒後に応答が返されますが、これは作成要求が受け入れられたことを示すだけです。 クラスターの作成処理は、完了までに数分かかる場合があります。
3.トレーニング ジョブの送信
このスクリプトを実行するには、./sdk/python/jobs/single-step/lightgbm/iris/src/ の下にある Python スクリプト main.py を実行する command
を使用します。 このコマンドは、それを job
として Azure Machine Learning に送信することによって実行されます。
from azure.ai.ml import command, Input
# define the command
command_job = command(
code="./src",
command="python main.py --iris-csv ${{inputs.iris_csv}} --learning-rate ${{inputs.learning_rate}} --boosting ${{inputs.boosting}}",
environment="AzureML-lightgbm-3.2-ubuntu18.04-py37-cpu@latest",
inputs={
"iris_csv": Input(
type="uri_file",
path="https://azuremlexamples.blob.core.windows.net/datasets/iris.csv",
),
"learning_rate": 0.9,
"boosting": "gbdt",
},
compute="cpu-cluster",
)
# submit the command
returned_job = ml_client.jobs.create_or_update(command_job)
# get a URL for the status of the job
returned_job.studio_url
上記の例では、次の構成を行いました:
code
- コマンドを実行するコードが配置されているパス
command
- 実行する必要があるコマンド
environment
- トレーニングスクリプトを実行するため必要な環境。 この例では、AzureML-lightgbm-3.2-ubuntu18.04-py37-cpu
と呼ばれる Azure Machine Learning によって提供されるキュレーション済みまたは既製の環境を使用します。 @latest
ディレクティブを使用して、この環境の最新バージョンを使用します。 また、ベース Docker イメージを指定し、その上に conda yaml を指定することで、カスタム環境を使用することもできます。
inputs
- 名前と値のペアを使用した、コマンドへの入力のディクショナリ。 キーは、ジョブのコンテキスト内の入力の名前であり、値は入力値です。 入力は、${{inputs.<input_name>}}
式を使用して command
で参照されます。 ファイルやフォルダーを入力として使用するには、Input
クラスを使用できます。 詳細については、「SDK と CLI v2 式 」を参照してください。
詳しくは、リファレンスドキュメント をご覧ください。
ジョブを送信すると、Azure Machine Learning スタジオのジョブの状態に URL が返されます。 スタジオ UI を使用して、ジョブの進行状況を表示します。 ジョブの現在の状態を確認するためにも returned_job.status
を使用できます。
この例で使用する az ml job create
コマンドには、YAML ジョブ定義ファイルが必要です。 この例で使用するファイルのコンテンツは次のとおりです:
$schema: https://azuremlschemas.azureedge.net/latest/commandJob.schema.json
code: src
command: >-
python main.py
--iris-csv ${{inputs.iris_csv}}
inputs:
iris_csv:
type: uri_file
path: https://azuremlexamples.blob.core.windows.net/datasets/iris.csv
environment: azureml:AzureML-lightgbm-3.3@latest
compute: azureml:cpu-cluster
display_name: lightgbm-iris-example
experiment_name: lightgbm-iris-example
description: Train a LightGBM model on the Iris dataset.
上記では、次の構成を行いました。
code
- コマンドを実行するコードが配置されているパス
command
- 実行する必要があるコマンド
inputs
- 名前と値のペアを使用した、コマンドへの入力のディクショナリ。 キーは、ジョブのコンテキスト内の入力の名前であり、値は入力値です。 入力は、${{inputs.<input_name>}}
式を使用して command
で参照されます。 詳細については、「SDK と CLI v2 式 」を参照してください。
environment
- トレーニングスクリプトを実行するため必要な環境。 この例では、AzureML-lightgbm-3.3
と呼ばれる Azure Machine Learning によって提供されるキュレーション済みまたは既製の環境を使用します。 @latest
ディレクティブを使用して、この環境の最新バージョンを使用します。 また、ベース Docker イメージを指定し、その上に conda yaml を指定することで、カスタム環境を使用することもできます。
ジョブを提出するには、次のコマンドを使います。 トレーニング ジョブの実行 ID (名前) は、$run_id
変数に格納されます:
run_id=$(az ml job create -f jobs/single-step/lightgbm/iris/job.yml --query name -o tsv)
格納されている実行 ID を使用して、ジョブに関する情報を返すことができます。 この --web
パラメーターによって Azure Machine Learning スタジオ Web UI が開き、ジョブの詳細を詳しく調べることができます:
az ml job show -n $run_id --web
ジョブの送信の一環として、トレーニング スクリプトとデータを、Azure Machine Learning ワークスペースがアクセスできるクラウド ストレージの場所にアップロードする必要があります。
トレーニング スクリプトをアップロードするには、次の Azure CLI コマンドを使用します。 このコマンドでは、個々のファイルではなく、トレーニングに必要なファイルを含むディレクトリ を指定します。 代わりに REST を使用してデータをアップロードする場合は、Put Blob リファレンスを参照してください。
az storage blob upload-batch -d $AZUREML_DEFAULT_CONTAINER/testjob -s cli/jobs/single-step/lightgbm/iris/src/ --account-name $AZURE_STORAGE_ACCOUNT
トレーニング データへのバージョン管理された参照を作成します。 この例では、データは既にクラウドの https://azuremlexamples.blob.core.windows.net/datasets/iris.csv
にあります。 データの参照方法の詳細については、「Azure Machine Learning のデータ 」を参照してください。
DATA_VERSION=$RANDOM
curl --location --request PUT "https://management.azure.com/subscriptions/$SUBSCRIPTION_ID/resourceGroups/$RESOURCE_GROUP/providers/Microsoft.MachineLearningServices/workspaces/$WORKSPACE/data/iris-data/versions/$DATA_VERSION?api-version=$API_VERSION" \
--header "Authorization: Bearer $TOKEN" \
--header "Content-Type: application/json" \
--data-raw "{
\"properties\": {
\"description\": \"Iris dataset\",
\"dataType\": \"uri_file\",
\"dataUri\": \"https://azuremlexamples.blob.core.windows.net/datasets/iris.csv\"
}
}"
ジョブで使用するトレーニング スクリプトへのバージョン管理された参照を登録します。 この例では、スクリプトの場所は手順 1 でアップロードした既定のストレージ アカウントとコンテナーです。 バージョン管理されたトレーニング コードの ID が返され、$TRAIN_CODE
変数に格納されます。
TRAIN_CODE=$(curl --location --request PUT "https://management.azure.com/subscriptions/$SUBSCRIPTION_ID/resourceGroups/$RESOURCE_GROUP/providers/Microsoft.MachineLearningServices/workspaces/$WORKSPACE/codes/train-lightgbm/versions/1?api-version=$API_VERSION" \
--header "Authorization: Bearer $TOKEN" \
--header "Content-Type: application/json" \
--data-raw "{
\"properties\": {
\"description\": \"Train code\",
\"codeUri\": \"https://$AZURE_STORAGE_ACCOUNT.blob.core.windows.net/$AZUREML_DEFAULT_CONTAINER/testjob\"
}
}" | jq -r '.id')
クラスターがトレーニング スクリプトの実行に使用する環境を作成します。 この例では、AzureML-lightgbm-3.2-ubuntu18.04-py37-cpu
と呼ばれる Azure Machine Learning によって提供されるキュレーション済みまたは既製の環境を使用します。 次のコマンドは、最新のバージョンがコレクションの一番上にある環境バージョンの一覧を取得します。 jq
は、最新の ([0]
) バージョンの ID を取得するために使用され、 $ENVIRONMENT
変数に格納されます。
ENVIRONMENT=$(curl --location --request GET "https://management.azure.com/subscriptions/$SUBSCRIPTION_ID/resourceGroups/$RESOURCE_GROUP/providers/Microsoft.MachineLearningServices/workspaces/$WORKSPACE/environments/AzureML-lightgbm-3.2-ubuntu18.04-py37-cpu?api-version=$API_VERSION" --header "Authorization: Bearer $TOKEN" | jq -r .id)
最後に、ジョブを送信します。 次の例では、ジョブの送信方法、トレーニング コード ID、環境 ID、入力データの URL、コンピューティング クラスターの ID を参照する方法を示します。 ジョブ出力の場所は、 $JOB_OUTPUT
変数に格納されます:
ヒント
ジョブ名は一意である必要があります。 この例では、 uuidgen
は名前の一意の値を生成するために使用されます。
run_id=$(uuidgen)
curl --location --request PUT "https://management.azure.com/subscriptions/$SUBSCRIPTION_ID/resourceGroups/$RESOURCE_GROUP/providers/Microsoft.MachineLearningServices/workspaces/$WORKSPACE/jobs/$run_id?api-version=$API_VERSION" \
--header "Authorization: Bearer $TOKEN" \
--header "Content-Type: application/json" \
--data-raw "{
\"properties\": {
\"jobType\": \"Command\",
\"codeId\": \"$TRAIN_CODE\",
\"command\": \"python main.py --iris-csv \$AZURE_ML_INPUT_iris\",
\"environmentId\": \"$ENVIRONMENT\",
\"inputs\": {
\"iris\": {
\"jobInputType\": \"uri_file\",
\"uri\": \"https://azuremlexamples.blob.core.windows.net/datasets/iris.csv\"
}
},
\"experimentName\": \"lightgbm-iris\",
\"computeId\": \"/subscriptions/$SUBSCRIPTION_ID/resourceGroups/$RESOURCE_GROUP/providers/Microsoft.MachineLearningServices/workspaces/$WORKSPACE/computes/$COMPUTE_NAME\"
}
}"
トレーニングされたモデルを登録します
次の例では、Azure Machine Learning ワークスペースにモデルを登録する方法が示されています。
ヒント
トレーニング ジョブによって返される name
プロパティは、モデルへのパスの一部として使用されます。
from azure.ai.ml.entities import Model
from azure.ai.ml.constants import AssetTypes
run_model = Model(
path="azureml://jobs/{}/outputs/artifacts/paths/model/".format(returned_job.name),
name="run-model-example",
description="Model created from run.",
type=AssetTypes.MLFLOW_MODEL
)
ml_client.models.create_or_update(run_model)
ヒント
名前 ( $run_id
変数に格納) は、モデルへのパスの一部として使用されます。
az ml model create -n sklearn-iris-example -v 1 -p runs:/$run_id/model --type mlflow_model
ヒント
名前 ( $run_id
変数に格納) は、モデルへのパスの一部として使用されます。
curl --location --request PUT "https://management.azure.com/subscriptions/$SUBSCRIPTION_ID/resourceGroups/$RESOURCE_GROUP/providers/Microsoft.MachineLearningServices/workspaces/$WORKSPACE/models/sklearn/versions/1?api-version=$API_VERSION" \
--header "Authorization: Bearer $TOKEN" \
--header "Content-Type: application/json" \
--data-raw "{
\"properties\": {
\"modelType\": \"mlflow_model\",
\"modelUri\":\"runs:/$run_id/model\"
}
}"
次の手順
トレーニング済みのモデルを作成したら、 オンライン エンドポイントを使用してモデルをデプロイする方法 について説明します。
その他の例については、Azure Machine Learning の例 で GitHub リポジトリを参照してください。
この記事で使用する Azure CLI コマンド、Python SDK クラス、または REST API の詳細については、次のリファレンス ドキュメントを参照してください: