Azure Machine Learning 用に MLflow を構成する

[アーティクル]
09/03/2024

この記事では、追跡、レジストリ、デプロイのために Azure Machine Learning ワークスペースに接続するように MLflow を構成する方法について説明します。

Azure Machine Learning ワークスペースは、MLflow と互換性があります。つまり、追加の構成なしで MLflow サーバーとして機能できます。各ワークスペースには、MLflow によってワークスペースに接続するために使用される MLflow 追跡 URI があります。 Azure Machine Learning ワークスペースは、MLflow と連携するように既に構成されているため、追加の構成は不要です。

ただし、Azure Machine Learning の外部 (ローカルコンピューター、Azure Synapse Analytics、Azure Databricks など) で作業する場合は、そのワークスペースを指すように MLflow を構成する必要があります。

重要

Azure Compute で実行する場合 (Azure Machine Learning Notebooks、Azure Machine Learning コンピューティングインスタンスでホストされている Jupyter Notebook、または Azure Machine Learning コンピューティングクラスターで実行中のジョブ)、追跡 URI を構成する必要はありません。 これは、自動的に構成されます。

前提条件

このチュートリアルで従う前提条件は、次の通りです。

MLflow SDK パッケージ mlflow と MLflow 用の Azure Machine Learning azureml-mlflow プラグインをインストールします。
```
pip install mlflow azureml-mlflow
```
ヒント

SQL ストレージ、サーバー、UI、またはデータサイエンスの依存関係のない軽量 MLflow パッケージであるパッケージ mlflow-skinny を使用できます。主に必要とするのは MLflow の追跡およびログ機能であり、デプロイを含め、完全な機能のスイートのインポートは必要としないユーザーには mlflow-skinny が推奨されます。
Azure Machine Learning ワークスペース。ワークスペースを作成するには、「機械学習リソースの作成チュートリアル」を参照してください。ワークスペース内で MLflow 操作を実行するために必要なアクセス許可を確認します。
リモート追跡 (つまり、Azure Machine Learning の外部で実行されている実験の追跡) を実行する場合は、Azure Machine Learning ワークスペースの追跡 URI を指すように MLflow を構成します。 MLflow をワークスペースに接続する方法の詳細については、「Azure Machine Learning 用に MLflow を構成する」を参照してください。

MLflow の追跡 URI を構成する

MLflow を Azure Machine Learning ワークスペースに接続するには、ワークスペースの追跡 URI が必要です。各ワークスペースには独自の追跡 URI があり、プロトコル azureml:// があります。

ワークスペースの追跡 URI を取得します。
- Azure CLI
- Python
- [スタジオ](#tab/azure-studio)
- 手動
適用対象: Azure CLI ml 拡張機能 v2 (現行)
1. ログインとワークスペースの構成:
```
az account set --subscription <subscription>
az configure --defaults workspace=<workspace> group=<resource-group> location=<location> 
```
2. az ml workspace コマンドを使って追跡 URI を取得できます。
```
az ml workspace show --query mlflow_tracking_uri
```
適用対象: Python SDK azure-ai-ml v2 (現行)

Azure ML MLflow 追跡 URI は、Azure Machine Learning SDK v2 for Python を使って取得できます。使用しているコンピューティングにライブラリ azure-ai-ml がインストールされていることを確認します。次の例では、ワークスペースに関連付けられている一意の MLFLow 追跡 URI を取得します。
1. MLClient を使ってワークスペースにログインします。これを行う簡単な方法は、ワークスペースの構成ファイルを使うことです。
```
from azure.ai.ml import MLClient
from azure.identity import DefaultAzureCredential

ml_client = MLClient.from_config(credential=DefaultAzureCredential())
```
  ヒント
  
  ワークスペース構成ファイルは、次の方法でダウンロードできます。
  
  Azure ML スタジオに移動します
  
  ページの右上 -> [構成ファイルをダウンロードする] をクリックします。
  
  作業しているのと同じディレクトリにファイル config.json を保存します。
2. または、サブスクリプション ID、リソースグループ名、ワークスペース名を使って取得することもできます。
```
from azure.ai.ml import MLClient
from azure.identity import DefaultAzureCredential

#Enter details of your AzureML workspace
subscription_id = '<SUBSCRIPTION_ID>'
resource_group = '<RESOURCE_GROUP>'
workspace_name = '<WORKSPACE_NAME>'

ml_client = MLClient(credential=DefaultAzureCredential(),
                        subscription_id=subscription_id, 
                        resource_group_name=resource_group,
                        workspace_name=workspace_name)
```
  重要
  
  DefaultAzureCredential では、使用可能なコンテキストから資格情報のプルが試行されます。別の方法で資格情報を指定する場合 (たとえば、対話型の方法で Web ブラウザーを使用する場合)、InteractiveBrowserCredential または azure.identity パッケージで使用できるその他のメソッドを使用できます。
3. Azure Machine Learning 追跡 URI の取得:
```
mlflow_tracking_uri = ml_client.workspaces.get(ml_client.workspace_name).mlflow_tracking_uri
```
Azure Machine Learning ポータルを使って、追跡 URI を取得します。
1. Azure Machine Learning スタジオポータルを開き、資格情報を使ってログインします。
2. 右上隅で、ワークスペースの名前をクリックして、[ディレクトリ + サブスクリプション + ワークスペース] ブレードを表示します。
3. [Azure portal ですべてのプロパティを表示する] をクリックします。
4. [要点] セクションで、プロパティ MLflow 追跡 URI が表示されます。
Azure Machine Learning Tracking URI は、サブスクリプション ID、リソースがデプロイされているリージョン、リソースグループ名、ワークスペース名を使って構築できます。次のコードサンプルは、その方法を示しています。

警告

プライベートリンク対応ワークスペースで作業している場合、MLflow エンドポイントもプライベートリンクを使って Azure Machine Learning と通信します。その結果、追跡 URI はここで提案されているものとは異なるものになります。そのような場合は、Azure ML SDK または CLI v2 を使って追跡 URI を取得する必要があります。
```
region = "<LOCATION>"
subscription_id = '<SUBSCRIPTION_ID>'
resource_group = '<RESOURCE_GROUP>'
workspace_name = '<AML_WORKSPACE_NAME>'

mlflow_tracking_uri = f"azureml://{region}.api.azureml.ms/mlflow/v1.0/subscriptions/{subscription_id}/resourceGroups/{resource_group}/providers/Microsoft.MachineLearningServices/workspaces/{workspace_name}"
```
追跡 URI の構成:
- MLFlow SDK の使用
- 環境変数の使用
次に、メソッド set_tracking_uri() では、MLflow 追跡 URI をその URI にポイントします。
```
import mlflow

mlflow.set_tracking_uri(mlflow_tracking_uri)
```
MLflow の環境変数 MLFLOW_TRACKING_URI をコンピューティングに設定することで、そのコンピューティングでの MLflow とのやり取りが、既定で Azure Machine Learning を指すようにできます。
```
MLFLOW_TRACKING_URI=$(az ml workspace show --query mlflow_tracking_uri | sed 's/"//g') 
```
ヒント

Azure Databricks クラスターや Azure Synapse Analytics クラスターなどの共有環境で作業する場合は、クラスターレベルで環境変数 MLFLOW_TRACKING_URI を設定し、セッションごとに実行するのではなく、クラスターで実行されているすべてのセッションについて Azure Machine Learning を指すように MLflow 追跡 URI を自動的に構成すると便利です。

認証を構成する

追跡を設定したら、関連付けられているワークスペースの認証方法も構成する必要があります。既定では、MLflow 用の Azure Machine Learning プラグインは、既定のブラウザーを開いて資格情報の入力を求める対話型認証を実行します。

MLflow 用の Azure Machine Learning プラグインでは、プラグイン azureml-mlflow の依存関係としてインストールされている、パッケージ azure-identity を通じたいくつかの認証メカニズムがサポートされています。いずれかが成功するまで、次の認証方法が 1 つずつ試行されます。

環境: 環境変数で指定されたアカウント情報を読み取り、それを使用して認証を行います。
マネージド ID: マネージド ID が有効な Azure ホストにアプリケーションがデプロイされている場合、それを使用して認証されます。
Azure CLI: ユーザーが Azure CLI az login コマンドを使用してサインインする場合、そのユーザーとして認証されます。
Azure PowerShell: ユーザーが Azure PowerShell の Connect-AzAccount コマンドを使用してサインインする場合、そのユーザーとして認証されます。
対話型ブラウザー: 既定のブラウザーを使用してユーザーを対話形式で認証します。

セッションに接続されているユーザーがいる対話型ジョブの場合は、対話型認証を使用できるため、これ以上の操作は必要ありません。

警告

"対話型ブラウザー" 認証は資格情報の入力を求める際にコード実行をブロックします。このアプローチはトレーニングジョブなどの無人環境での認証には適しません。別の認証モードを構成することをお勧めします。

無人実行が必要なシナリオでは、Azure Machine Learning と通信するようにサービスプリンシパルを構成する必要があります。

MLflow SDK
環境変数の使用

import os

os.environ["AZURE_TENANT_ID"] = "<AZURE_TENANT_ID>"
os.environ["AZURE_CLIENT_ID"] = "<AZURE_CLIENT_ID>"
os.environ["AZURE_CLIENT_SECRET"] = "<AZURE_CLIENT_SECRET>"

export AZURE_TENANT_ID="<AZURE_TENANT_ID>"
export AZURE_CLIENT_ID="<AZURE_CLIENT_ID>"
export AZURE_CLIENT_SECRET="<AZURE_CLIENT_SECRET>"

ヒント

共有環境で作業する場合は、コンピューティング上でこれらの環境変数を構成することをお勧めします。ベストプラクティスとして、それらを Azure Key Vault のインスタンス内のシークレットとして管理します。

たとえば、Azure Databricks では、クラスター構成で AZURE_CLIENT_SECRET={{secrets/<scope-name>/<secret-name>}} のようにして環境変数でシークレットを使用できます。 Azure Databricks でのこのアプローチの実装について詳しくは、「環境変数でシークレットを参照する」を確認するか、プラットフォームのドキュメントを参照してください。

シークレットの代わりに証明書を使用する場合は、環境変数 AZURE_CLIENT_CERTIFICATE_PATH を PEM または PKCS12 証明書ファイルへのパス (秘密キーを含む) に構成し、AZURE_CLIENT_CERTIFICATE_PASSWORD を証明書ファイルのパスワード (存在する場合) に構成することができます。

認可とアクセス許可のレベルを構成する

AzureML データ科学者や共同作成者などの一部の既定のロールは、Azure Machine Learning ワークスペースで MLflow 操作を実行するために事前に構成されています。カスタム役割を使用する場合は、次のアクセス許可が必要です。

MLflow 追跡を使用するには:
- Microsoft.MachineLearningServices/workspaces/experiments/*
- Microsoft.MachineLearningServices/workspaces/jobs/*
MLflow モデルレジストリを使用するには:
- Microsoft.MachineLearningServices/workspaces/models/*/*

作成したサービスプリンシパル、またはユーザーアカウントのアクセス権をワークスペースに付与する方法については、「アクセス権の付与」を参照してください。

認証のトラブルシューティング

MLflow は、mlflow.set_experiment() や mlflow.start_run() など、サービスとやり取りする最初の操作時に Azure Machine Learning に対する認証を試みます。このプロセス中に、問題または予期しない認証プロンプトが表示された場合は、ログレベルを上げて、エラーの詳細を取得することができます。

import logging

logging.getLogger("azure").setLevel(logging.DEBUG)

実験名を設定する (省略可能)

すべての MLflow 実行は、アクティブな実験にログが記録されます。既定では、実行のログは、自動的に作成される Default という名前の実験に記録されます。追跡が行われるエクスペリエンスを構成できます。

ヒント

Azure Machine Learning CLI v2 を使ってジョブを送信する場合、ジョブの YAML 定義の experiment_name のプロパティを使って、実験の名前を設定できます。トレーニングスクリプトでそれを構成する必要はありません。詳しくは、「YAML: 表示名、実験名、説明、タグ」をご覧ください。

MLflow SDK
環境変数の使用

MLflow コマンド mlflow.set_experiment() を使用して実験を構成します。

experiment_name = 'experiment_with_mlflow'
mlflow.set_experiment(experiment_name)

実験名を使用して MLflow 環境変数 MLFLOW_EXPERIMENT_NAME or MLFLOW_EXPERIMENT_ID の 1 つを設定できます。

export MLFLOW_EXPERIMENT_NAME="experiment_with_mlflow"

パブリック以外の Azure クラウドのサポート

MLflow 用の Azure Machine Learning プラグインは、既定でグローバル Azure クラウドで動作するように構成されています。ただし、環境変数 AZUREML_CURRENT_CLOUD を設定して、お使いの Azure クラウドを構成できます。

MLflow SDK
環境変数の使用

import os

os.environ["AZUREML_CURRENT_CLOUD"] = "AzureChinaCloud"

export AZUREML_CURRENT_CLOUD="AzureChinaCloud"

お使いのクラウドは、次の Azure CLI コマンドで特定できます。

az cloud list

現在のクラウドの値 IsActive は True に設定されています。

次のステップ

環境が Azure Machine Learning のワークスペースに接続されたので、操作を開始できます。

次の方法で共有