Azure Machine Learning で Spark ジョブを送信する

[アーティクル]
09/30/2024

適用対象:Azure CLI ml extension v2 (現行)Python SDK azure-ai-ml v2 (現行)

Azure Machine Learning は、スタンドアロンの機械学習ジョブの送信、複数の機械学習ワークフロー手順を伴う機械学習パイプラインの作成をサポートしています。 Azure Machine Learning は、スタンドアロンの Spark ジョブの作成と、Azure Machine Learning パイプラインが使用できる再利用可能な Spark コンポーネントの作成の両方を処理します。この記事では、以下を使って Spark ジョブを送信する方法について説明します。

Azure Machine Learning スタジオ UI
Azure Machine Learning CLI
Azure Machine Learning SDK

Azure Machine Learning での Apache Spark の概念の詳細については、こちらのリソースを参照してください。

前提条件

適用対象: Azure CLI ml 拡張機能 v2 (現行)

Azure サブスクリプション。Azure サブスクリプションをお持ちでない場合は、開始する前に無料アカウントを作成してください。
Azure Machine Learning ワークスペース。詳細については、ワークスペースリソースの作成に関する記事を参照してください。
Azure Machine Learning コンピューティングインスタンスを作成してください。
Azure Machine Learning CLI をインストールしてください。
(省略可能): Azure Machine Learning ワークスペースにアタッチされた Synapse Spark プール。

Note

Azure Machine Learning サーバーレス Spark コンピューティングおよびアタッチされている Synapse Spark プールを使用する際のリソースアクセスの詳細については、「Spark ジョブのリソースアクセスを確認する」を参照してください。
Azure Machine Learning には、共有クォータプールが用意されています。すべてのユーザーは、ここからコンピューティングクォータにアクセスして、限られた時間テストを実行できます。サーバーレス Spark コンピューティングを使用する場合、Azure Machine Learning では、この共有クォータに短時間アクセスできます。

CLI v2 を使ってユーザー割り当てマネージド ID をアタッチする

ワークスペースにアタッチする必要があるユーザー割り当てマネージド ID が定義されている YAML ファイルを作成します。

identity:
  type: system_assigned,user_assigned
  tenant_id: <TENANT_ID>
  user_assigned_identities:
    '/subscriptions/<SUBSCRIPTION_ID/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.ManagedIdentity/userAssignedIdentities/<AML_USER_MANAGED_ID>':
      {}

az ml workspace update コマンドで --file パラメーターを指定して YAML ファイルを使い、ユーザー割り当てマネージド ID をアタッチします。
```
az ml workspace update --subscription <SUBSCRIPTION_ID> --resource-group <RESOURCE_GROUP> --name <AML_WORKSPACE_NAME> --file <YAML_FILE_NAME>.yaml
```

`ARMClient` を使ってユーザー割り当てマネージド ID をアタッチする

ARMClient をインストールします。これは、Azure Resource Manager API を呼び出すシンプルなコマンドラインツールです。

ワークスペースにアタッチする必要があるユーザー割り当てマネージド ID が定義されている JSON ファイルを作成します。

{
    "properties":{
    },
    "location": "<AZURE_REGION>",
    "identity":{
        "type":"SystemAssigned,UserAssigned",
        "userAssignedIdentities":{
            "/subscriptions/<SUBSCRIPTION_ID/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.ManagedIdentity/userAssignedIdentities/<AML_USER_MANAGED_ID>": { }
        }
    }
}

ユーザー割り当てマネージド ID をワークスペースにアタッチするには、PowerShell プロンプトまたはコマンドプロンプトで次のコマンドを実行します。

armclient PATCH https://management.azure.com/subscriptions/<SUBSCRIPTION_ID>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.MachineLearningServices/workspaces/<AML_WORKSPACE_NAME>?api-version=2022-05-01 '@<JSON_FILE_NAME>.json'

Note

Spark ジョブが正常に実行されるようにするには、データの入力と出力に使われる Azure ストレージアカウントでの共同作成者と Storage Blob データ共同作成者のロールを、Spark ジョブに使われる ID に割り当てる必要があります。
アタッチされた Synapse Spark プールを使用して Spark ジョブが正常に実行されるようにするには、Azure Synapse ワークスペースでパブリックネットワークアクセスを有効にする必要があります。
マネージド仮想ネットワークが関連付けられている Azure Synapse ワークスペースでは、アタッチされた Synapse Spark プールが Synapse Spark プールを指している場合、データアクセスを確保するために、ストレージアカウントへのマネージドプライベートエンドポイントを構成する必要があります。
サーバーレス Spark コンピューティングでは、Azure Machine Learning マネージド仮想ネットワークがサポートされます。サーバーレス Spark コンピューティング用にマネージドネットワークがプロビジョニングされている場合は、データアクセスを確保するために、ストレージアカウントの対応するプライベートエンドポイントもプロビジョニングする必要があります。

スタンドアロン Spark ジョブを送信する

Python スクリプトのパラメーター化に必要な変更を加えた後、対話型データラングリングで開発された Python スクリプトを使用して、大量のデータを処理するバッチジョブを送信できます。データラングリングバッチジョブをスタンドアロンの Spark ジョブとして送信できます。

Spark ジョブには、引数を受け取る Python スクリプトが必要です。このスクリプトを開発するために、対話型データラングリングから開発された Python コードを変更できます。サンプルの Python スクリプトを次に示します。

# titanic.py
import argparse
from operator import add
import pyspark.pandas as pd
from pyspark.ml.feature import Imputer

parser = argparse.ArgumentParser()
parser.add_argument("--titanic_data")
parser.add_argument("--wrangled_data")

args = parser.parse_args()
print(args.wrangled_data)
print(args.titanic_data)

df = pd.read_csv(args.titanic_data, index_col="PassengerId")
imputer = Imputer(inputCols=["Age"], outputCol="Age").setStrategy(
    "mean"
)  # Replace missing values in Age column with the mean value
df.fillna(
    value={"Cabin": "None"}, inplace=True
)  # Fill Cabin column with value "None" if missing
df.dropna(inplace=True)  # Drop the rows which still have any missing value
df.to_csv(args.wrangled_data, index_col="PassengerId")

Note

この Python コードサンプルでは、pyspark.pandas を使用します。これは、Spark ランタイムバージョン 3.2 以降でのみサポートされます。

このスクリプトは、入力データと出力フォルダーのパスを渡す 2 つの引数を受け取ります。

--titanic_data
--wrangled_data

適用対象: Azure CLI ml 拡張機能 v2 (現行)

ジョブを作成するには、スタンドアロンの Spark ジョブを YAML 仕様ファイルとして定義します。これを az ml job create コマンドの --file パラメーターで使用できます。 YAML ファイルでこれらのプロパティを定義します。

Spark ジョブ仕様での YAML プロパティ

type - spark に設定します。
code - このジョブのソースコードとスクリプトを含むフォルダーの場所を定義します。
entry - ジョブのエントリポイントを定義します。次のプロパティのいずれかを含む必要があります。
- file - ジョブのエントリポイントとして機能する Python スクリプトの名前を定義します。
- class_name - ジョブのエントリポイントとして機能するクラスの名前を定義します。
py_files - ジョブを正常に実行するために PYTHONPATH に配置する、.zip、.egg、または .py ファイルの一覧を定義します。このプロパティは省略可能です。
jars - ジョブを正常に実行するために、Spark ドライバーに含める .jar ファイルの一覧と、Executor の CLASSPATH を定義します。このプロパティは省略可能です。
files - ジョブの実行を成功させるために、各 Executor の作業ディレクトリにコピーする必要があるファイルの一覧を定義します。このプロパティは省略可能です。
archives - ジョブの実行を成功させるために、各 Executor の作業ディレクトリに抽出する必要があるアーカイブの一覧を定義します。このプロパティは省略可能です。
conf - Spark ドライバーと Executor の次のプロパティを定義します。
- spark.driver.cores: Spark ドライバー用のコアの数。
- spark.driver.memory: Spark ドライバー用に割り当てるメモリ (ギガバイト (GB) 単位)。
- spark.executor.cores: Spark Executor 用のコアの数。
- spark.executor.memory: Spark Executor 用のメモリの割り当て (ギガバイト (GB) 単位)。
- spark.dynamicAllocation.enabled- Executor を動的に割り当てる必要があるかどうか。値は True または False。
- Executor の動的割り当てを有効にする場合は、次のプロパティを定義します。
  - spark.dynamicAllocation.minExecutors - 動的割り当て用の Spark Executor インスタンスの最小数。
  - spark.dynamicAllocation.maxExecutors - 動的割り当て用の Spark Executor インスタンスの最大数。
- Executor の動的割り当てを無効にする場合は、次のプロパティを定義します。
  - spark.executor.instances - Spark Executor インスタンスの数。
environment - ジョブを実行するための Azure Machine Learning 環境。
args - ジョブのエントリポイントの Python スクリプトまたはクラスに渡す必要があるコマンドライン引数。例については、以下に示す YAML 仕様ファイルを参照してください。
resources - このプロパティでは、Azure Machine Learning サーバーレス Spark コンピューティングで使われるリソースを定義します。次のプロパティを使います。
- instance_type - Spark プールに使われるコンピューティングインスタンスの種類。現在は、次のインスタンスの種類がサポートされています。
  - standard_e4s_v3
  - standard_e8s_v3
  - standard_e16s_v3
  - standard_e32s_v3
  - standard_e64s_v3
- runtime_version - Spark ランタイムのバージョンを定義します。現在は、次の Spark ランタイムのバージョンがサポートされています。
  - 3.3
  - 3.4
    重要
    
    Azure Synapse Runtime for Apache Spark: お知らせ
    - Azure Synapse Runtime for Apache Spark 3.3:
      
      EOLA のお知らせ日: 2024 年 7 月 12 日
      
      サポート終了日: 2025 年 3 月 31 日。この日付を過ぎると、ランタイムは無効になります。
    - 継続的なサポートと最適なパフォーマンスを得るには、Apache Spark 3.4 への移行をお勧めします。
次に、YAML ファイルの例を示します。
```
resources:
  instance_type: standard_e8s_v3
  runtime_version: "3.4"
```
compute - このプロパティでは、次の例に示すように、アタッチされる Synapse Spark プールの名前を定義します。
```
compute: mysparkpool
```
inputs - このプロパティでは、Spark ジョブに対する入力を定義します。 Spark ジョブに入力できるのは、リテラル値、またはファイルやフォルダーに格納されているデータです。
- リテラル値には、数値、ブール値、または文字列を指定できます。いくつかの例を次に示します。
```
inputs:
  sampling_rate: 0.02 # a number
  hello_number: 42 # an integer
  hello_string: "Hello world" # a string
  hello_boolean: True # a boolean value
```
- ファイルまたはフォルダーに格納されているデータは、次のプロパティを使って定義する必要があります。
  - type - 入力データがファイルまたはフォルダーに含まれる場合は、このプロパティをそれぞれ uri_file または uri_folder に設定します。
  - path - 入力データの URI (azureml://、abfss://、wasbs:// など)。
  - mode - このプロパティを direct に設定します。このサンプルでは、$${inputs.titanic_data}} として参照できるジョブ入力の定義を示します。
```
inputs:
  titanic_data:
    type: uri_file
    path: azureml://datastores/workspaceblobstore/paths/data/titanic.csv
    mode: direct
```
outputs - このプロパティでは、Spark ジョブの出力を定義します。 Spark ジョブの出力は、次の 3 つのプロパティを使って定義される、ファイルまたはフォルダーの場所に書き込むことができます。
- type - このプロパティを uri_file または uri_folder に設定して、出力データをそれぞれファイルまたはフォルダーに書き込むことができます。
- path - このプロパティでは、出力場所の URI を定義します (azureml://、abfss://、wasbs:// など)。
- mode - このプロパティを direct に設定します。このサンプルでは、${{outputs.wrangled_data}} として参照できるジョブ出力の定義を示します。
```
outputs:
  wrangled_data:
    type: uri_folder
    path: azureml://datastores/workspaceblobstore/paths/data/wrangled/
    mode: direct
```
identity - この省略可能なプロパティでは、このジョブの送信に使われる ID を定義します。指定できる値は user_identity または managed です。 YAML 仕様で ID が定義されていない場合、Spark ジョブでは既定の ID が使用されます。

スタンドアロン Spark ジョブ

この YAML 仕様の例では、スタンドアロンの Spark ジョブを示します。 Azure Machine Learning サーバーレス Spark コンピューティングを使用します。

$schema: http://azureml/sdk-2-0/SparkJob.json
type: spark

code: ./ 
entry:
  file: titanic.py

conf:
  spark.driver.cores: 1
  spark.driver.memory: 2g
  spark.executor.cores: 2
  spark.executor.memory: 2g
  spark.executor.instances: 2

inputs:
  titanic_data:
    type: uri_file
    path: azureml://datastores/workspaceblobstore/paths/data/titanic.csv
    mode: direct

outputs:
  wrangled_data:
    type: uri_folder
    path: azureml://datastores/workspaceblobstore/paths/data/wrangled/
    mode: direct

args: >-
  --titanic_data ${{inputs.titanic_data}}
  --wrangled_data ${{outputs.wrangled_data}}

identity:
  type: user_identity

resources:
  instance_type: standard_e4s_v3
  runtime_version: "3.4"

Note

アタッチされた Synapse Spark プールを使用するには、resources プロパティではなく、前述のサンプル YAML 仕様ファイルで compute プロパティを定義します。

次のように、前述の YAML ファイルを az ml job create コマンドの --file パラメーターで使用して、スタンドアロン Spark ジョブを作成できます。

az ml job create --file <YAML_SPECIFICATION_FILE_NAME>.yaml --subscription <SUBSCRIPTION_ID> --resource-group <RESOURCE_GROUP> --workspace-name <AML_WORKSPACE_NAME>

上のコマンドは以下から実行できます。

Azure Machine Learning コンピューティングインスタンスのターミナル。
Azure Machine Learning コンピューティングインスタンスに接続された Visual Studio Code ターミナル。
Azure Machine Learning CLI がインストールされているローカルコンピューター。

適用対象: Python SDK azure-ai-ml v2 (現行)

Python SDK を使用したスタンドアロン Spark ジョブ

スタンドアロン Spark ジョブを作成するには、azure.ai.ml.spark 関数と次のパラメーターを使います。

name - Spark ジョブの名前。
display_name - UI や他の場所に表示する必要がある Spark ジョブの表示名。
code - このジョブのソースコードとスクリプトを含むフォルダーの場所。
entry - ジョブのエントリポイント。ファイルのエントリポイントを定義するディクショナリである必要があります。
py_files - ジョブを正常に実行するために PYTHONPATH に配置する、.zip、.egg、または .py ファイルの一覧。このパラメーターは省略可能です。
jars - ジョブを正常に実行するために、Spark ドライバーに含める .jar ファイルの一覧と、Executor の CLASSPATH。このパラメーターは省略可能です。
files - ジョブの実行を成功させるために、各 Executor の作業ディレクトリにコピーする必要があるファイルの一覧。このパラメーターは省略可能です。
archives - ジョブの実行を成功させるために、各 Executor の作業ディレクトリに自動的に抽出されて配置されるアーカイブの一覧。このパラメーターは省略可能です。
conf - 定義済みの Spark 構成のキーと値のペアを含むディクショナリ。
driver_cores: Spark ドライバーに割り当てるコアの数。
driver_memory: Spark ドライバーに割り当てるメモリ。サイズ単位のサフィックス k、m、g、または t を使用します (例: 512m、2g)。
executor_cores: Spark Executor に割り当てるコアの数。
executor_memory: Spark Executor に割り当てるメモリ。サイズ単位のサフィックス k、m、g、または t を使用します (例: 512m、2g)。
dynamic_allocation_enabled - Executor を動的に割り当てるかどうかを定義するブール型パラメーター。
- Executor の動的割り当てを有効にする場合は、次のパラメーターを定義します。
  - dynamic_allocation_min_executors - 動的割り当て用の Spark Executor インスタンスの最小数。
  - dynamic_allocation_max_executors - 動的割り当て用の Spark Executor インスタンスの最大数。
- Executor の動的割り当てを無効にする場合は、次のパラメーターを定義します。
  - executor_instances - Spark Executor インスタンスの数。
  - environment - ジョブを実行する Azure Machine Learning 環境。このパラメーターでは、次のものを渡す必要があります。
    - azure.ai.ml.entities.Environment のオブジェクト、または Azure Machine Learning の環境名 (文字列)。
args - ジョブのエントリポイントの Python スクリプトまたはクラスに渡す必要があるコマンドライン引数。例については、以下に示すサンプルコードを参照してください。
resources - Azure Machine Learning サーバーレス Spark コンピューティングで使われるリソース。このパラメーターでは、次のようにしてディクショナリを渡す必要があります。
- instance_type - サーバーレス Spark コンピューティングに使われるコンピューティングインスタンスの種類を定義するキー。現在は、次のインスタンスの種類がサポートされています。
  - Standard_E4S_V3
  - Standard_E8S_V3
  - Standard_E16S_V3
  - Standard_E32S_V3
  - Standard_E64S_V3
- runtime_version - Spark ランタイムのバージョンを定義するキー。現在は、次の Spark ランタイムのバージョンがサポートされています。
  - 3.3.0
  - 3.4.0
    重要
    
    Azure Synapse Runtime for Apache Spark: お知らせ
    - Azure Synapse Runtime for Apache Spark 3.3:
      
      EOLA のお知らせ日: 2024 年 7 月 12 日
      
      サポート終了日: 2025 年 3 月 31 日。この日付を過ぎると、ランタイムは無効になります。
    - 継続的なサポートと最適なパフォーマンスを得るには、Apache Spark 3.4 への移行をお勧めします。
compute - アタッチする Synapse Spark プールの名前。
inputs - Spark ジョブの入力。このパラメーターでは、ジョブで使われる入力データバインディングのマッピングを含むディクショナリを渡す必要があります。このディクショナリには、次の値が含まれます。
- ディクショナリキーは入力名を定義します
- 対応する値は次のいずれかです。
  - リテラル値: 整数、数値、ブール値、または文字列。
  - 次のパラメーターを持つ azure.ai.ml.Input クラスのオブジェクト。
    - type - 入力データがファイルまたはフォルダーに含まれる場合は、このパラメーターをそれぞれ uri_file または uri_folder に設定します。
    - path - 入力データの URI (azureml://、abfss://、wasbs:// など)。
    - mode - このパラメーターは direct に設定します。
outputs - Spark ジョブの出力。このパラメーターでは、ジョブで使われる出力データバインディングのマッピングを含むディクショナリを渡す必要があります。このディクショナリには、次の値が含まれます。
- ディクショナリキーは出力名を定義します
- 対応する値は、次のパラメーターを含む azure.ai.ml.Output クラスのオブジェクトです。
  - type - このパラメーターは、出力データがファイルの場合は uri_file に、フォルダーの場合は uri_folder に設定します。
  - path - 出力データの URI (azureml://、abfss://、wasbs:// など)。
  - mode - このパラメーターは direct に設定します。
identity - このジョブの送信に使われる ID を定義する省略可能なパラメーター。使用できる値は、次のいずれかのクラスのオブジェクトです
- azure.ai.ml.entities.UserIdentityConfiguration または
- azure.ai.ml.entities.ManagedIdentityConfiguration: それぞれ、ユーザー ID とマネージド ID の場合。 ID が定義されていない場合、Spark ジョブは既定の ID を使います。

スタンドアロンの Spark ジョブは、以下から送信できます。

Azure Machine Learning コンピューティングインスタンスに接続された Azure Machine Learning ノートブック。
Azure Machine Learning コンピューティングインスタンスに接続された Visual Studio Code。
Azure Machine Learning SDK for Python がインストールされているローカルコンピューター。

この Python コードスニペットは、ユーザー ID を使った、Azure Machine Learning サーバーレス Spark コンピューティングでのスタンドアロン Spark ジョブの作成を示しています。

from azure.ai.ml import MLClient, spark, Input, Output
from azure.identity import DefaultAzureCredential
from azure.ai.ml.entities import UserIdentityConfiguration

subscription_id = "<SUBSCRIPTION_ID>"
resource_group = "<RESOURCE_GROUP>"
workspace_name = "<AML_WORKSPACE_NAME>"
ml_client = MLClient(
    DefaultAzureCredential(), subscription_id, resource_group, workspace_name
)

spark_job = spark(
    display_name="Titanic-Spark-Job-SDK",
    code="./src",
    entry={"file": "titanic.py"},
    driver_cores=1,
    driver_memory="2g",
    executor_cores=2,
    executor_memory="2g",
    executor_instances=2,
    resources={
        "instance_type": "Standard_E8S_V3",
        "runtime_version": "3.4.0",
    },
    inputs={
        "titanic_data": Input(
            type="uri_file",
            path="azureml://datastores/workspaceblobstore/paths/data/titanic.csv",
            mode="direct",
        ),
    },
    outputs={
        "wrangled_data": Output(
            type="uri_folder",
            path="azureml://datastores/workspaceblobstore/paths/data/wrangled/",
            mode="direct",
        ),
    },
    identity=UserIdentityConfiguration(),
    args="--titanic_data ${{inputs.titanic_data}} --wrangled_data ${{outputs.wrangled_data}}",
)

returned_spark_job = ml_client.jobs.create_or_update(spark_job)

# Wait until the job completes
ml_client.jobs.stream(returned_spark_job.name)

注意

アタッチされた Synapse Spark プールを使うには、azure.ai.ml.spark 関数で resources ではなく compute パラメーターを定義します。

Azure Machine Learning スタジオの UI からスタンドアロン Spark ジョブを送信する (プレビュー)

重要

現在、この機能はパブリックプレビュー段階にあります。このプレビューバージョンはサービスレベルアグリーメントなしで提供されており、運用環境のワークロードに使用することは推奨されません。特定の機能はサポート対象ではなく、機能が制限されることがあります。

詳しくは、Microsoft Azure プレビューの追加使用条件に関するページをご覧ください。

Azure Machine Learning スタジオの UI を使ってスタンドアロン Spark ジョブを送信するには:

Azure Machine Learning スタジオ UI での新しい Spark ジョブの作成を示すスクリーンショット。

画面の右上付近にある [+ 新規] を選択します。
[Spark ジョブ (プレビュー)] を選択びます。
[コンピューティング] 画面で:

Azure Machine Learning スタジオ UI での新しい Spark ジョブのコンピューティング選択画面を示すスクリーンショット。

[コンピューティングの種類を選択] で、サーバーレス Spark コンピューティングの場合は [Spark サーバーレス]、アタッチされた Synapse Spark プールの場合は [アタッチされたコンピューティング] を選びます。
[Spark サーバーレス] を選択した場合:
1. [仮想マシンサイズ] を選びます。
2. [Spark ランタイムのバージョン] を選びます。
  重要
  
  Azure Synapse Runtime for Apache Spark: お知らせ
  - Azure Synapse Runtime for Apache Spark 3.3:
    - EOLA のお知らせ日: 2024 年 7 月 12 日
    - サポート終了日: 2025 年 3 月 31 日。この日付を過ぎると、ランタイムは無効になります。
  - 継続的なサポートと最適なパフォーマンスを得るには、Apache Spark 3.4 への移行をお勧めします。
[アタッチされたコンピューティング] を選んだ場合:
1. [Azure Machine Learning にアタッチされたコンピューティングの選択] メニューから、アタッチされた Synapse Spark プールを選びます。
[次へ] を選択します。
[環境] 画面で:
1. 一覧から使用可能な環境のいずれかを選びます。環境の選択は省略できます。
2. [次へ] を選択します。
[ジョブの設定] 画面で、次のようにします。
1. ジョブの [名前] を指定します。既定で生成されるジョブの名前を使用できます。
2. ドロップダウンメニューから [実験名] を選びます。
3. [タグの追加] で、[名前] と [値] を指定してから、[追加] を選びます。タグの追加は省略できます。
4. [コード] セクションで:
  1. [コードの場所の選択] ドロップダウンからオプションを選びます。 [ローカルファイルのアップロード] または [Azure Machine Learning ワークスペースの既定の BLOB ストレージ] を選びます。
  2. [コードの場所の選択] を選んだ場合:
    - [参照] を選んで、ローカルコンピューター上の 1 つまたは複数のコードファイルが格納されている場所に移動します。
  3. [Azure Machine Learning ワークスペースの既定の BLOB ストレージ] を選んだ場合:
    1. [アップロードするコードファイルへのパス] で、[参照] を選びます。
    2. [パスの選択] というタイトルのポップアップ画面で、ワークスペースの既定の BLOB ストレージ上のコードファイルのパスを選びます。
    3. [保存] を選択します。
  4. スタンドアロンジョブの Entry ファイルの名前を入力します。このファイルには、引数を受け取る Python コードが含まれている必要があります。
  5. スタンドアロンジョブで実行時に必要な 1 つまたは複数の Python ファイルをさらに追加するには、[Py ファイル] で [+ ファイルの追加] を選び、ジョブを正常に実行するために PYTHONPATH に配置する必要のある .zip、.egg、または .py ファイルの名前を入力します。複数のファイルを追加できます。
  6. スタンドアロンジョブで実行時に必要な 1 つまたは複数の Jar ファイルを追加するには、[Jar] で [+ ファイルの追加] を選び、Spark ドライバーに含める .jar ファイルの名前を入力します。また、ジョブの実行を成功させるために Executor CLASSPATH を追加します。複数のファイルを追加できます。
  7. ジョブを正常に実行するために各 Executor の作業ディレクトリに抽出する必要のある 1 つまたは複数のアーカイブを追加するには、[アーカイブ] で [+ ファイルの追加] を選んで、アーカイブの名前を入力します。複数のアーカイブを追加できます。
  8. [Py ファイル]、[Jar]、[アーカイブ] の追加は省略できます。
  9. 入力を追加するには、[入力] で [+ 入力の追加] を選んで、次のようにします
    1. [入力名] を入力します。入力は、後の手順の [引数] でこの名前を参照する必要があります。
    2. [入力のタイプ] を選びます。
    3. タイプが [データ] の場合:
      1. [データの種類] として [ファイル] または [フォルダー] を選びます。
      2. [データソース] として [ローカルからアップロード]、[URI]、または [データストア] を選びます。
        
        [ローカルからアップロード] の場合は、[アップロードへのパス] で [参照] を選んで、入力のファイルまたはフォルダーを選びます。
        
        [URI] の場合は、ストレージデータの URI (例: abfss:// または wasbs:// URI) を入力するか、データ資産 azureml:// を入力します。
        
        [データストア] の場合:
        
        ドロップダウンメニューから [データストアの選択] を選びます。
        
        [データへのパス] で、[参照] を選びます。
        
        [パスの選択] というタイトルのポップアップ画面で、ワークスペースの既定の BLOB ストレージ上のコードファイルのパスを選びます。
        
        [保存] を選択します。
      3. 型が [整数] の場合は、[入力値] として整数値を入力します。
      4. 型が [数値] の場合は、[入力値] として数値を入力します。
      5. [ブール型] の場合は、[入力値] として [True] または [False] を選びます。
      6. 型が [文字列] の場合は、[入力値] として文字列を入力します。
    4. 入力を追加するには、[出力] で [+ 出力の追加] を選んで、次のようにします
      1. [出力名] を入力します。出力は、後の手順の [引数] でこの名前を参照する必要があります。
      2. [出力の種類] として [ファイル] または [フォルダー] を選びます。
      3. [出力 URI の宛先] の場合は、ストレージデータの URI (例: abfss:// または wasbs:// URI) を入力するか、データ資産 azureml:// を入力します。
    5. 前の手順の [入力名] と [出力名] フィールドで定義した名前と、Python スクリプトの Entry ファイルで使われている入力と出力の引数の名前を使って、[引数] を入力します。たとえば、[入力名] と [出力名] が job_input および job_output と定義されていて、引数が Entry ファイルで次のように追加されているとします。
```
import argparse

parser = argparse.ArgumentParser()
parser.add_argument("--input_param")
parser.add_argument("--output_param")
```
    このような場合は、[引数] に --input_param ${{inputs.job_input}} --output_param ${{outputs.job_output}} と入力します。
    1. [Spark の構成] セクションで:
      1. [Executor のサイズ] で:
        
        Executor の [コア] の数と Executor の [メモリ (GB)] のギガバイト数を入力します。
        
        [Dynamically allocated executors] (Executor の動的な割り当て) で、[無効] または [有効] オプションを選びます。
        
        Executor の動的割り当てが [無効] の場合は、[Executor インスタンス] の数を入力します。
        
        Executor の動的割り当てが [有効] の場合は、スライダーを使って Executor の最小数と最大数を選びます。
      2. [ドライバーのサイズ] で:
        
        ドライバーの [コア] の数とドライバーの [メモリ (GB)] のギガバイト数を入力します。
        
        [追加の構成] に [名前] と [値] のペアを入力して、[追加] を選びます。必要に応じて、[追加の構成] を指定できます。
      3. [次へ] を選択します。
  10. [レビュー] 画面で:
    1. 送信する前にジョブの仕様を確認します。
    2. [作成] を選んで、スタンドアロンの Spark ジョブを送信します。

パイプラインジョブ内の Spark コンポーネント

Spark コンポーネントには、複数の Azure Machine Learning パイプラインのパイプラインステップとして同じコンポーネントを使用できる柔軟性があります。

適用対象: Azure CLI ml 拡張機能 v2 (現行)

Spark コンポーネントの YAML 構文のほとんどは、Spark ジョブ仕様の YAML 構文に似ています。次のプロパティは、Spark コンポーネントの YAML 仕様では定義が異なります。

name - Spark コンポーネントの名前。
version - Spark コンポーネントのバージョン。
display_name - UI や他の場所に表示する Spark コンポーネントの名前。
description - Spark コンポーネントの説明。
inputs - このプロパティは、Spark ジョブ仕様の YAML 構文で記述される inputs プロパティに似ていますが、path プロパティが定義されない点が異なります。次のコードスニペットでは、Spark コンポーネントの inputs プロパティの例を示します。
```
inputs:
  titanic_data:
    type: uri_file
    mode: direct
```
outputs - このプロパティは、Spark ジョブ仕様の YAML 構文で記述される outputs プロパティに似ていますが、path プロパティが定義されない点が異なります。次のコードスニペットでは、Spark コンポーネントの outputs プロパティの例を示します。
```
outputs:
  wrangled_data:
    type: uri_folder
    mode: direct
```

Note

Spark コンポーネントでは、identity、compute、または resources プロパティは定義されません。パイプラインの YAML 仕様ファイルにはこれらのプロパティが定義されています。

次に示す YAML 仕様ファイルは、Spark コンポーネントの例です。

$schema: http://azureml/sdk-2-0/SparkComponent.json
name: titanic_spark_component
type: spark
version: 1
display_name: Titanic-Spark-Component
description: Spark component for Titanic data

code: ./src
entry:
  file: titanic.py

inputs:
  titanic_data:
    type: uri_file
    mode: direct

outputs:
  wrangled_data:
    type: uri_folder
    mode: direct

args: >-
  --titanic_data ${{inputs.titanic_data}}
  --wrangled_data ${{outputs.wrangled_data}}

conf:
  spark.driver.cores: 1
  spark.driver.memory: 2g
  spark.executor.cores: 2
  spark.executor.memory: 2g
  spark.dynamicAllocation.enabled: True
  spark.dynamicAllocation.minExecutors: 1
  spark.dynamicAllocation.maxExecutors: 4

上記の YAML 仕様ファイルで定義されている Spark コンポーネントは、Azure Machine Learning パイプラインジョブで使用できます。パイプラインジョブを定義する YAML 構文の詳細については、パイプラインジョブの YAML スキーマに関する参照資料を参照してください。この例は、Spark コンポーネントと、Azure Machine Learning サーバーレス Spark コンピューティングを使った、パイプラインジョブの YAML 仕様ファイルを示しています。

$schema: http://azureml/sdk-2-0/PipelineJob.json
type: pipeline
display_name: Titanic-Spark-CLI-Pipeline
description: Spark component for Titanic data in Pipeline

jobs:
  spark_job:
    type: spark
    component: ./spark-job-component.yaml
    inputs:
      titanic_data: 
        type: uri_file
        path: azureml://datastores/workspaceblobstore/paths/data/titanic.csv
        mode: direct

    outputs:
      wrangled_data:
        type: uri_folder
        path: azureml://datastores/workspaceblobstore/paths/data/wrangled/
        mode: direct

    identity:
      type: managed

    resources:
      instance_type: standard_e8s_v3
      runtime_version: "3.4"

注意

アタッチされた Synapse Spark プールを使うには、前述のサンプル YAML 仕様ファイルで resources プロパティではなく compute プロパティを定義します。

上記の YAML 仕様ファイルは、次のように az ml job create コマンドで --file パラメーターを使用してパイプラインジョブを作成するために使用できます。

az ml job create --file <YAML_SPECIFICATION_FILE_NAME>.yaml --subscription <SUBSCRIPTION_ID> --resource-group <RESOURCE_GROUP> --workspace-name <AML_WORKSPACE_NAME>

上のコマンドは以下から実行できます。

Azure Machine Learning コンピューティングインスタンスのターミナル。
Azure Machine Learning コンピューティングインスタンスに接続された Visual Studio Code のターミナル。
Azure Machine Learning CLI がインストールされているローカルコンピューター。

適用対象: Python SDK azure-ai-ml v2 (現行)

Spark コンポーネントを使用して Azure Machine Learning パイプラインを作成するには、Python SDK を使って、コンポーネントから Azure Machine Learning パイプラインを作成する必要があります。 Spark コンポーネントは、azure.ai.ml.spark 関数を使って作成します。この関数のパラメーターは、スタンドアロン Spark ジョブの場合とほぼ同じ方法で定義します。次のパラメーターについては、Spark コンポーネントでは定義が異なります。

name - Spark コンポーネントの名前。
display_name - UI や他の場所に表示される Spark コンポーネントの名前。
inputs - このパラメーターは、azure.ai.ml.Input クラスが path パラメーターなしでインスタンス化される点を除き、スタンドアロン Spark ジョブで説明されている inputs パラメーターに似ています。
outputs - このパラメーターは、azure.ai.ml.Output クラスが path パラメーターなしでインスタンス化される点を除き、スタンドアロン Spark ジョブで説明されている outputs パラメーターに似ています。

Note

azure.ai.ml.spark 関数を使用して作成された Spark コンポーネントでは、identity、compute、resources パラメーターは定義されません。 Azure Machine Learning パイプラインにはこれらのパラメーターが定義されています。

Spark コンポーネントを使ったパイプラインジョブは、以下から送信できます。

Azure Machine Learning コンピューティングインスタンスに接続された Azure Machine Learning ノートブック。
Azure Machine Learning コンピューティングインスタンスに接続された Visual Studio Code。
Azure Machine Learning SDK for Python がインストールされているローカルコンピューター。

この Python コードスニペットは、マネージド ID の使用と、Azure Machine Learning パイプラインジョブの作成を示しています。さらに、Spark コンポーネントと Azure Machine Learning Managed (Automatic) Synapse コンピューティングの使用も示しています。

from azure.ai.ml import MLClient, dsl, spark, Input, Output
from azure.identity import DefaultAzureCredential
from azure.ai.ml.entities import ManagedIdentityConfiguration
from azure.ai.ml.constants import InputOutputModes

subscription_id = "<SUBSCRIPTION_ID>"
resource_group = "<RESOURCE_GROUP>"
workspace_name = "<AML_WORKSPACE_NAME>"
ml_client = MLClient(
    DefaultAzureCredential(), subscription_id, resource_group, workspace_name
)

spark_component = spark(
    name="Spark Component",
    inputs={
        "titanic_data": Input(type="uri_file", mode="direct"),
    },
    outputs={
        "wrangled_data": Output(type="uri_folder", mode="direct"),
    },
    # The source folder of the component
    code="./src",
    entry={"file": "titanic.py"},
    driver_cores=1,
    driver_memory="2g",
    executor_cores=2,
    executor_memory="2g",
    executor_instances=2,
    args="--titanic_data ${{inputs.titanic_data}} --wrangled_data ${{outputs.wrangled_data}}",
)


@dsl.pipeline(
    description="Sample Pipeline with Spark component",
)
def spark_pipeline(spark_input_data):
    spark_step = spark_component(titanic_data=spark_input_data)
    spark_step.inputs.titanic_data.mode = InputOutputModes.DIRECT
    spark_step.outputs.wrangled_data = Output(
        type="uri_folder",
        path="azureml://datastores/workspaceblobstore/paths/data/wrangled/",
    )
    spark_step.outputs.wrangled_data.mode = InputOutputModes.DIRECT
    spark_step.identity = ManagedIdentityConfiguration()
    spark_step.resources = {
        "instance_type": "Standard_E8S_V3",
        "runtime_version": "3.4.0",
    }

pipeline = spark_pipeline(
    spark_input_data=Input(
        type="uri_file",
        path="azureml://datastores/workspaceblobstore/paths/data/titanic.csv",
    )
)

pipeline_job = ml_client.jobs.create_or_update(
    pipeline,
    experiment_name="Titanic-Spark-Pipeline-SDK",
)

# Wait until the job completes
ml_client.jobs.stream(pipeline_job.name)

Note

アタッチされた Synapse Spark プールを使用するには、azure.ai.ml.spark 関数で resources パラメーターではなく compute パラメーターを定義します。たとえば、前述のコードサンプルでは、spark_step.resources を定義するのではなく spark_step.compute = "<ATTACHED_SPARK_POOL_NAME>" を定義します。

Spark ジョブのトラブルシューティング

Spark ジョブのトラブルシューティングを行うために、Azure Machine Learning スタジオでそのジョブに対して生成されたログにアクセスできます。 Spark ジョブのログを表示するには、次のようにします。

Azure Machine Learning スタジオ UI の左側のパネルから [Jobs] (ジョブ) に移動します
[すべてのジョブ] タブを選択します
そのジョブの [表示名] の値を選択します
ジョブの詳細ページで、[Output + logs] (出力 + ログ) タブを選択します
エクスプローラーで [ログ] フォルダーを展開し、[azureml] フォルダーを展開します
[ドライバー] および[ライブラリマネージャー] のフォルダー内の Spark ジョブログにアクセスします

Note

ノートブックセッションで対話型データラングリング中に作成された Spark ジョブのトラブルシューティングを行うには、ノートブック UI の右上隅付近にある [ジョブの詳細] を選択します。対話型ノートブックセッションの Spark ジョブが notebook-runs という実験名で作成されます。

次の方法で共有

Azure Machine Learning で Spark ジョブを送信する

前提条件

CLI v2 を使ってユーザー割り当てマネージド ID をアタッチする

`ARMClient` を使ってユーザー割り当てマネージド ID をアタッチする

スタンドアロン Spark ジョブを送信する

Spark ジョブ仕様での YAML プロパティ

スタンドアロン Spark ジョブ

Python SDK を使用したスタンドアロン Spark ジョブ

Azure Machine Learning スタジオの UI からスタンドアロン Spark ジョブを送信する (プレビュー)

パイプラインジョブ内の Spark コンポーネント

Spark ジョブのトラブルシューティング

次のステップ

フィードバック

その他のリソース

次の方法で共有

Azure Machine Learning で Spark ジョブを送信する

前提条件

CLI v2 を使ってユーザー割り当てマネージド ID をアタッチする

ARMClient を使ってユーザー割り当てマネージド ID をアタッチする

スタンドアロン Spark ジョブを送信する

Spark ジョブ仕様での YAML プロパティ

スタンドアロン Spark ジョブ

パイプライン ジョブ内の Spark コンポーネント

Spark ジョブのトラブルシューティング

次のステップ

フィードバック

その他のリソース

`ARMClient` を使ってユーザー割り当てマネージド ID をアタッチする

パイプラインジョブ内の Spark コンポーネント