チュートリアル: クラウドワークステーションでのモデル開発

[アーティクル]
11/28/2023

Azure Machine Learning のクラウドワークステーションでノートブックを使用してトレーニングスクリプトを開発する方法について説明します。このチュートリアルでは、次のことを開始するために必要な基本について説明します。

クラウドワークステーションを設定して構成する。クラウドワークステーションには Azure Machine Learning コンピューティングインスタンスが備わっており、さまざまなモデル開発ニーズをサポートするための環境が事前に構成されています。
クラウドベースの開発環境を使用する。
MLflow を使用して、ノートブック内からすべてのモデルメトリックを追跡する。

前提条件

Azure Machine Learning を使用するには、まずワークスペースが必要です。まだない場合は、作業を開始するために必要なリソースの作成を完了し、ワークスペースを作成してその使用方法の詳細を確認してください。

ノートブックを開始する

Azure Machine Learning とその機能について学習するには、ワークスペースの [ノートブック] セクションから始めることをお勧めします。ここでは、コンピューティングリソースに接続し、ターミナルを操作し、Jupyter Notebook とスクリプトを編集して実行することができます。

Azure Machine Learning Studio にサインインします。
まだ開いていない場合は、ワークスペースを選びます。
左側のナビゲーションで [ノートブック] を選択します。
コンピューティングインスタンスがない場合は、画面の中央に [コンピューティングの作成] が表示されます。 [コンピューティングの作成] を選択し、フォームに入力します。すべての既定値を使用できます。 (コンピューティングインスタンスが既にある場合は、代わりにその場所にターミナルが表示されます。ターミナルは、このチュートリアルの後半で使用します)。

プロトタイプ作成用の新しい環境を設定する (省略可能)

スクリプトを実行するには、コードで想定される依存関係とライブラリを使用して構成された環境で作業する必要があります。このセクションは、使用するコードに合わせた環境を作成するのに役立ちます。ノートブックが接続する新しい Jupyter カーネルを作成するには、依存関係を定義する YAML ファイルを使用します。

ファイルをアップロードします。

アップロードしたファイルは Azure ファイル共有に保存されます。これらのファイルは各コンピューティングインスタンスにマウントされ、ワークスペース内で共有されます。
1. 右上にある [Download raw file] (生ファイルのダウンロード) ボタンを使って、この conda 環境ファイル workstation_env.yml をお使いのコンピューターにダウンロードします。
1. [ファイルの追加] を選択し、[ファイルのアップロード] を選択してそれをワークスペースにアップロードします。
2. [クリックしてファイルを参照して選択します] を選択します。
3. ダウンロードした workstation_env.yml ファイルを選択します。
4. [アップロード] を選択します。
[ファイル] タブのユーザー名フォルダーの下に、workstation_env.yml ファイルが表示されます。このファイルを選択してプレビューし、指定されている依存関係を確認します。次のような内容が表示されます。
```
name: workstation_env
# This file serves as an example - you can update packages or versions to fit your use case
dependencies:
  - python=3.8
  - pip=21.2.4
  - scikit-learn=0.24.2
  - scipy=1.7.1
  - pandas>=1.1,<1.2
  - pip:
    - mlflow-skinny 
    - azureml-mlflow
    - psutil>=5.8,<5.9
    - ipykernel~=6.0
    - matplotlib
```
カーネルを作成します。

次に、Azure Machine Learning ターミナルを使用して、workstation_env.yml ファイルに基づいて新しい Jupyter カーネルを作成します。
1. [ターミナル] を選択してターミナルウィンドウを開きます。左側のコマンドバーからターミナルを開くこともできます。
2. コンピューティングインスタンスが停止している場合は、[コンピューティングの開始] を選択して、実行されるまで待ちます。
3. コンピューティングが実行されると、ターミナルにウェルカムメッセージが表示され、コマンドの入力を開始できます。
4. 現在の conda 環境を表示します。アクティブな環境は * でマークされます。
```
conda env list
```
5. このチュートリアル用のサブフォルダーを作成した場合は、ここで、そのフォルダーに cd を使用して移動します。
6. 提供された conda ファイルに基づいて環境を作成します。この環境を構築するには数分かかります。
```
conda env create -f workstation_env.yml
```
7. 新しい環境をアクティブにします。
```
 conda activate workstation_env
```
8. 正しい環境がアクティブであることを検証し、* でマークされた環境をもう一度探します。
```
conda env list
```
9. アクティブな環境に基づいて新しい Jupyter カーネルを作成します。
```
python -m ipykernel install --user --name workstation_env --display-name "Tutorial Workstation Env" 
```
10. ターミナルウィンドウを閉じます。

これで新しいカーネルが作成されました。次に、ノートブックを開き、このカーネルを使用します。

ノートブックを作成する

[ファイルの追加] を選択し、[新しいファイルの作成] を選択します。
新しいノートブックに develop-tutorial.ipynb という名前を付けます (または、任意の名前を入力します)。
コンピューティングインスタンスが停止している場合は、[コンピューティングの開始] を選択して、実行されるまで待ちます。
ノートブックが既定のカーネルに接続されていることが右上でわかります。カーネルを作成した場合は、Tutorial Workstation Env カーネルを使うように切り替えます。

トレーニングスクリプトを開発する

このセクションでは、UCI データセットから準備されたテストとトレーニングの各データセットを使用して、クレジットカードの既定の支払いを予測する Python トレーニングスクリプトを開発します。

このコードでは、トレーニングには sklearn を使用して、メトリックのログ記録には MLflow を使用します。

まず、トレーニングスクリプトで使用するパッケージとライブラリをインポートするコードから始めます。

import os
import argparse
import pandas as pd
import mlflow
import mlflow.sklearn
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.metrics import classification_report
from sklearn.model_selection import train_test_split

次に、この実験用のデータを読み込んで処理します。このチュートリアルでは、インターネット上のファイルからデータを読み取ります。

# load the data
credit_df = pd.read_csv(
    "https://azuremlexamples.blob.core.windows.net/datasets/credit_card/default_of_credit_card_clients.csv",
    header=1,
    index_col=0,
)

train_df, test_df = train_test_split(
    credit_df,
    test_size=0.25,
)

トレーニング用のデータを準備します。

# Extracting the label column
y_train = train_df.pop("default payment next month")

# convert the dataframe values to array
X_train = train_df.values

# Extracting the label column
y_test = test_df.pop("default payment next month")

# convert the dataframe values to array
X_test = test_df.values

MLflow に自動ログ記録を開始するコードを追加して、メトリックと結果を追跡できるようにします。モデル開発の反復的な性質により、MLflow は、モデルのパラメーターと結果をログに記録するのに役立ちます。これらの実行を参照して、モデルのパフォーマンスを比較して理解します。ログには、Azure Machine Learning 内のワークフローの開発フェーズからトレーニングフェーズに移行する準備ができた場合のコンテキストも提供されます。
```
# set name for logging
mlflow.set_experiment("Develop on cloud tutorial")
# enable autologging with MLflow
mlflow.sklearn.autolog()
```

モデルをトレーニングします。

# Train Gradient Boosting Classifier
print(f"Training with data of shape {X_train.shape}")

mlflow.start_run()
clf = GradientBoostingClassifier(n_estimators=100, learning_rate=0.1)
clf.fit(X_train, y_train)

y_pred = clf.predict(X_test)

print(classification_report(y_test, y_pred))
# Stop logging for this model
mlflow.end_run()

Note

mlflow の警告は無視できます。追跡する必要があるすべての結果は引き続き受け取ります。

繰り返す

これで、モデルの結果が得られました。何かを変更して、もう一度試してみることをお勧めします。たとえば、別の分類子の手法を試してみてください。

# Train  AdaBoost Classifier
from sklearn.ensemble import AdaBoostClassifier

print(f"Training with data of shape {X_train.shape}")

mlflow.start_run()
ada = AdaBoostClassifier()

ada.fit(X_train, y_train)

y_pred = ada.predict(X_test)

print(classification_report(y_test, y_pred))
# Stop logging for this model
mlflow.end_run()

Note

mlflow の警告は無視できます。追跡する必要があるすべての結果は引き続き受け取ります。

結果を検証する

2 つの異なるモデルを試したので、MLFfow で追跡した結果を使用して、どちらのモデルが優れているかを判断します。正確性などのメトリックや、シナリオの最も重要なその他のインジケーターを参照できます。 MLflow によって作成されたジョブを確認することで、これらの結果をさらに詳しく調べることができます。

左側のナビゲーションで、[ジョブ] を選択します。
[Develop on cloud tutorial] (クラウドでの開発チュートリアル) のリンクを選択します。
2 つの異なるジョブが表示されます。試した各モデルごとに 1 つです。これらの名前は自動生成されます。名前を変更する場合は、名前の上にマウスポインターを置き、名前の横にある鉛筆ツールを使用します。
最初のジョブのリンクを選択します。名前が上部に表示されます。鉛筆ツールを使用してここで名前を変更することもできます。
ページには、プロパティ、出力、タグ、パラメーターなど、ジョブの詳細が表示されます。 [タグ] の下に、モデルの種類を説明する estimator_name が表示されます。
[メトリック] タブを選択して、MLflow によってログに記録されたメトリックを表示します (異なるトレーニングセットを使用するため、結果が異なることを想定してください)。
[イメージ] タブを選択して、MLflow によって生成されたイメージを表示します。
他のモデルのメトリックとイメージを戻って確認します。

Python スクリプトを作成する

次に、モデルトレーニング用にノートブックから Python スクリプトを作成します。

ノートブックツールバー上で、メニューを選択します。
[Export as] (名前をつけてエクスポート) > [Python] を選択します。
ファイルに train.py という名前を付けます。
このファイルを確認し、トレーニングスクリプトに不要なコードを削除します。たとえば、使用するモデルのコードを保持し、不要なモデルのコードを削除します。
- 自動ログを開始するコードは保持するようにします (mlflow.sklearn.autolog())。
- 自動生成されたコメントを削除し、独自のコメントをさらに追加することができます。
- Python スクリプトを対話形式で (ターミナルまたはノートブックで) 実行する場合は、実験名を定義する行を保持します (mlflow.set_experiment("Develop on cloud tutorial"))。または、別の名前を付けて、[ジョブ] セクションの別のエントリとして表示することもできます。ただし、トレーニングジョブのスクリプトを準備する場合、その行は機能しないため、省略する必要があります。ジョブ定義には実験名が含まれます。
- 1 つのモデルをトレーニングする場合、実行開始と終了の各行 (mlflow.start_run() と mlflow.end_run()) も必要ありません (効果はありません)。ただし、必要に応じて残すことができます。
編集が完了したら、ファイルを保存します。

これで、希望するモデルのトレーニングに使用する Python スクリプトが作成されました。

Python スクリプトを実行する

ここでは、Azure Machine Learning 開発環境であるコンピューティングインスタンスでこのコードを実行しています。チュートリアル: モデルのトレーニングでは、より強力なコンピューティングリソースに対して、よりスケーラブルな方法でトレーニングスクリプトを実行する方法について説明します。

左側の [ターミナルを開く] を選択して、ターミナルウィンドウを開きます。
現在の conda 環境を表示します。アクティブな環境は * でマークされます。
```
conda env list
```
新しいカーネルを作成した場合は、ここでアクティブにします。
```
conda activate workstation_env
```
このチュートリアル用のサブフォルダーを作成した場合は、ここで、そのフォルダーに cd を使用して移動します。
トレーニングスクリプトを実行します。
```
python train.py
```

Note

mlflow の警告は無視できます。自動ログからのすべてのメトリックと画像は引き続き受け取ります。

スクリプトの結果を確認する

[ジョブ] に戻り、トレーニングスクリプトの結果を確認します。トレーニングデータは分割ごとに変化するため、実行間でも結果が異なることに注意してください。

リソースをクリーンアップする

引き続き他のチュートリアルに取り組む場合は、「次のステップ」に進んでください。

コンピューティングインスタンスを停止する

コンピューティングインスタンスをすぐに使用しない場合は、停止してください。

スタジオの左側のナビゲーション領域で、[コンピューティング] を選択します。
上部のタブで、 [コンピューティングインスタンス] を選択します
一覧からコンピューティングインスタンスを選択します。
上部のツールバーで、 [停止] を選択します。

すべてのリソースの削除

重要

作成したリソースは、Azure Machine Learning に関連したその他のチュートリアルおよびハウツー記事の前提条件として使用できます。

作成したどのリソースも今後使用する予定がない場合は、課金が発生しないように削除します。

Azure Portal で、左端にある [リソースグループ] を選択します。
一覧から、作成したリソースグループを選択します。
[リソースグループの削除] を選択します。
リソースグループ名を入力します。次に、 [削除] を選択します。

次のステップ

各項目の詳細情報

このチュートリアルでは、コードが存在するのと同じコンピューターでプロトタイプを作成して、モデルを作成する初期の手順について説明しました。運用トレーニングでは、より強力なリモートコンピューティングリソースでそのトレーニングスクリプトを使用する方法について説明します。

モデルをトレーニングする

チュートリアル: クラウド ワークステーションでのモデル開発

前提条件

ノートブックを開始する

プロトタイプ作成用の新しい環境を設定する (省略可能)

ノートブックを作成する

トレーニング スクリプトを開発する

繰り返す

結果を検証する

Python スクリプトを作成する

Python スクリプトを実行する

スクリプトの結果を確認する

リソースをクリーンアップする

コンピューティング インスタンスを停止する

すべてのリソースの削除

次のステップ

その他のリソース

チュートリアル: クラウドワークステーションでのモデル開発

トレーニングスクリプトを開発する

コンピューティングインスタンスを停止する