ml パッケージ

パッケージ

automl

Azure Machine Learning SDKv2 用の自動機械学習クラスが含まれています。

主な領域は、AutoML タスクの管理です。

constants

このパッケージでは、Azure Machine Learning SDKv2 で使用される定数を定義します。

data_transfer
dsl
entities

Azure Machine Learning SDKv2 のエンティティと SDK オブジェクトが含まれています。

主な領域は、コンピューティング 先の管理、ワークスペースとジョブの作成/管理、モデルの送信/アクセス、実行、出力/ログ記録などです。

identity

Azure Machine Learning SDKv2 の ID 構成が含まれています。

operations

Azure Machine Learning SDKv2 でサポートされている操作が含まれています。

操作は、バックエンド サービス (通常は自動生成された操作呼び出し) と対話するロジックを含むクラスです。

parallel
sweep

モジュール

exceptions

Azure Machine Learning SDKv2 の例外モジュールが含まれています。

これには、例外の列挙型とクラスが含まれます。

クラス

AmlTokenConfiguration

AzureML トークン ID の構成。

Input

Input オブジェクトを初期化します。

MLClient

Azure ML サービスと対話するためのクライアント クラス。

このクライアントを使用して、ワークスペース、ジョブ、モデルなどの Azure ML リソースを管理します。

ManagedIdentityConfiguration

マネージド ID 資格情報の構成。

MpiDistribution

MPI 配布の構成。

Output
PyTorchDistribution

PyTorch ディストリビューションの構成。

RayDistribution

Note

これは試験段階のクラスであり、いつでも変更される可能性があります。 詳細については、https://aka.ms/azuremlexperimental を参照してください。

レイ分布の構成。

TensorFlowDistribution

TensorFlow 分散の構成。

UserIdentityConfiguration

ユーザー ID の構成。

機能

command

dsl.pipeline 関数内で使用したり、スタンドアロンの Command ジョブとして使用したりできる Command オブジェクトを作成します。

command(*, name: str | None = None, description: str | None = None, tags: Dict | None = None, properties: Dict | None = None, display_name: str | None = None, command: str | None = None, experiment_name: str | None = None, environment: str | Environment | None = None, environment_variables: Dict | None = None, distribution: Dict | MpiDistribution | TensorFlowDistribution | PyTorchDistribution | RayDistribution | None = None, compute: str | None = None, inputs: Dict | None = None, outputs: Dict | None = None, instance_count: int | None = None, instance_type: str | None = None, locations: List[str] | None = None, docker_args: str | None = None, shm_size: str | None = None, timeout: int | None = None, code: PathLike | str | None = None, identity: ManagedIdentityConfiguration | AmlTokenConfiguration | UserIdentityConfiguration | None = None, is_deterministic: bool = True, services: Dict[str, JobService | JupyterLabJobService | SshJobService | TensorBoardJobService | VsCodeJobService] | None = None, job_tier: str | None = None, priority: str | None = None, **kwargs) -> Command

パラメーター

name
Optional[str]

コマンド ジョブまたはコンポーネントの名前。

description
Optional[str]

コマンドの説明。 既定値は None です。

tags
Optional[dict[str, str]]

タグ辞書。 タグは追加、削除、更新できます。 既定値は None です。

properties
Optional[dict[str, str]]

ジョブ プロパティ ディクショナリ。 既定値は None です。

display_name
Optional[str]

ジョブの表示名。 既定値はランダムに生成された名前です。

command
Optional[str]

実行するコマンド。 既定値は None です。

experiment_name
Optional[str]

ジョブが作成される実験の名前。 既定値は現在のディレクトリ名です。

environment
Optional[Union[str, Environment]]

ジョブが実行される環境。

environment_variables
Optional[dict[str, str]]

環境変数の名前と値のディクショナリ。 これらの環境変数は、ユーザー スクリプトが実行されるプロセスで設定されます。 既定値は None です。

distribution
Optional[Union[dict, PyTorchDistribution, MpiDistribution, TensorFlowDistribution, RayDistribution]]

分散ジョブの構成。 既定値は None です。

compute
Optional[str]

ジョブが実行されるコンピューティング 先。 既定値は既定のコンピューティングです。

inputs
Optional[dict[str, Union[Input, str, bool, int, float, <xref:Enum>]]]

ジョブで使用される入力データ ソースへの入力名のマッピング。 既定値は None です。

outputs
Optional[dict[str, Union[str, Output]]]

ジョブで使用される出力データ ソースへの出力名のマッピング。 既定値は None です。

instance_count
Optional[int]

コンピューティング 先で使用されるインスタンスまたはノードの数。 既定値は 1 です。

instance_type
Optional[str]

コンピューティング 先で使用される VM の種類。

locations
Optional[list[str]]

ジョブが実行される場所の一覧。

docker_args
Optional[str]

Docker 実行コマンドに渡す追加の引数。 これにより、システムまたはこのセクションで既に設定されているパラメーターがオーバーライドされます。 このパラメーターは、Azure ML コンピューティングの種類でのみサポートされています。 既定値は None です。

shm_size
Optional[str]

Docker コンテナーの共有メモリ ブロックのサイズ。 この形式は (number)(unit) で、数値は 0 より大きくする必要があり、単位には b(バイト)、k(キロバイト)、m(メガバイト)、g(ギガバイト) のいずれかを指定できます。

timeout
Optional[int]

ジョブが取り消される秒数。

code
Optional[Union[str, PathLike]]

ジョブを実行するソース コード。 リモートの場所を指すローカル パスまたは "http:"、"https:"、または "azureml:" URL を指定できます。

identity
Optional[Union[ ManagedIdentityConfiguration, AmlTokenConfiguration, UserIdentityConfiguration]]

コンピューティングでの実行中にコマンド ジョブが使用する ID。

is_deterministic
bool

同じ入力を指定して、コマンドが同じ出力を返すかどうかを指定します。 既定値は True です。 True の場合、コマンド コンポーネントが決定論的であり、同じ入力と設定を使用して現在のワークスペースで以前に実行されていた場合、パイプラインのノードまたはステップとして使用されたときに、以前に送信されたジョブの結果が再利用されます。 そのシナリオでは、コンピューティング リソースは使用されません。

services
Optional[dict[str, Union[JobService, JupyterLabJobService, SshJobService, TensorBoardJobService, VsCodeJobService]]]

ノードの対話型サービス。 既定値は None です。 これは試験的なパラメーターであり、いつでも変更される可能性があります。 詳細については、https://aka.ms/azuremlexperimental を参照してください。

job_tier
Optional[str]

ジョブレベル。 指定できる値は、"Spot"、"Basic"、"Standard"、または "Premium" です。

priority
Optional[str]

コンピューティング上のジョブの優先順位。 指定できる値は、"low"、"medium"、"high" です。 既定値は "medium" です。

戻り値

Command オブジェクト。

の戻り値の型 :

command() ビルダー メソッドを使用してコマンド ジョブを作成する。


   from azure.ai.ml import Input, Output, command

   train_func = command(
       environment="AzureML-sklearn-1.0-ubuntu20.04-py38-cpu:33",
       command='echo "hello world"',
       distribution={"type": "Pytorch", "process_count_per_instance": 2},
       inputs={
           "training_data": Input(type="uri_folder"),
           "max_epochs": 20,
           "learning_rate": 1.8,
           "learning_rate_schedule": "time-based",
       },
       outputs={"model_output": Output(type="uri_folder")},
   )

load_batch_deployment

yaml ファイルからバッチ デプロイ オブジェクトを構築します。

load_batch_deployment(source: str | PathLike | IO, *, relative_origin: str | None = None, **kwargs) -> BatchDeployment

パラメーター

source
Union[<xref:PathLike>, str, TextIOWrapper]
必須

バッチ デプロイ オブジェクトのローカル yaml ソース。 ローカル ファイルへのパス、または既に開いているファイルである必要があります。 ソースがパスの場合は、開いて読み取られます。 ファイルが存在しない場合は例外が発生します。 ソースが開いているファイルの場合、ファイルは直接読み取られ、ファイルが読み取り可能でない場合は例外が発生します。

relative_origin
str

解析された yaml で参照されているファイルの相対位置を指定するときに使用される配信元。 ファイルまたはファイル パスの入力である場合は、入力されたソースのディレクトリが既定値になります。 ソースが名前値のないストリーム入力の場合、既定値は "./" です。

params_override
List[Dict]

yaml ファイルの上に上書きするフィールド。 書式は [{"field1": "value1"}, {"field2": "value2"}]

戻り値

構築されたバッチ 配置オブジェクト。

の戻り値の型 :

load_batch_endpoint

yaml ファイルからバッチ エンドポイント オブジェクトを構築します。

load_batch_endpoint(source: str | PathLike | IO, relative_origin: str | None = None, **kwargs) -> BatchEndpoint

パラメーター

source
Union[<xref:PathLike>, str, TextIOWrapper]
必須

バッチ エンドポイント オブジェクトのローカル yaml ソース。 ローカル ファイルへのパス、または既に開いているファイルである必要があります。 ソースがパスの場合は、開いて読み取られます。 ファイルが存在しない場合は例外が発生します。 ソースが開いているファイルの場合、ファイルは直接読み取られ、ファイルが読み取り可能でない場合は例外が発生します。

relative_origin
str
既定値: None

解析された yaml で参照されているファイルの相対位置を指定するときに使用される配信元。 ファイルまたはファイル パスの入力である場合は、入力されたソースのディレクトリが既定値になります。 ソースが名前値のないストリーム入力の場合、既定値は "./" です。

params_override
List[Dict]

yaml ファイルの上に上書きするフィールド。 書式は [{"field1": "value1"}, {"field2": "value2"}]

戻り値

構築されたバッチ エンドポイント オブジェクト。

の戻り値の型 :

load_component

コンポーネントをローカルまたはリモートからコンポーネント関数に読み込みます。

load_component(source: str | PathLike | IO | None = None, *, relative_origin: str | None = None, **kwargs) -> CommandComponent | ParallelComponent | PipelineComponent

パラメーター

source
Union[<xref:PathLike>, str, TextIOWrapper]
既定値: None

コンポーネントのローカル yaml ソース。 ローカル ファイルへのパス、または既に開いているファイルである必要があります。 ソースがパスの場合は、開いて読み取られます。 ファイルが存在しない場合は例外が発生します。 ソースが開いているファイルの場合、ファイルは直接読み取られ、ファイルが読み取り可能でない場合は例外が発生します。

relative_origin
str

解析された yaml で参照されているファイルの相対位置を指定するときに使用される配信元。 ファイルまたはファイル パスの入力である場合は、入力されたソースのディレクトリが既定値になります。 ソースが名前値のないストリーム入力の場合、既定値は "./" です。

params_override
List[Dict]

yaml ファイルの上に上書きするフィールド。 書式は [{"field1": "value1"}, {"field2": "value2"}]

戻り値

Component オブジェクト

の戻り値の型 :

YAML ファイルから Component オブジェクトを読み込み、そのバージョンを "1.0.2" にオーバーライドし、リモートで登録します。


   from azure.ai.ml import load_component

   component = load_component(
       source="./sdk/ml/azure-ai-ml/tests/test_configs/components/helloworld_component.yml",
       params_override=[{"version": "1.0.2"}],
   )
   registered_component = ml_client.components.create_or_update(component)

load_compute

yaml ファイルからコンピューティング オブジェクトを構築します。

load_compute(source: str | PathLike | IO, *, relative_origin: str | None = None, params_override: List[Dict[str, str]] | None = None, **kwargs) -> Compute

パラメーター

source
Union[<xref:PathLike>, str, TextIOWrapper]
必須

コンピューティングのローカル yaml ソース。 ローカル ファイルへのパス、または既に開いているファイルである必要があります。 ソースがパスの場合は、開いて読み取られます。 ファイルが存在しない場合は例外が発生します。 ソースが開いているファイルの場合、ファイルは直接読み取られ、ファイルが読み取り可能でない場合は例外が発生します。

relative_origin
Optional[str]

解析された yaml で参照されているファイルの相対位置を指定するときに使用される配信元。 ファイルまたはファイル パスの入力である場合は、入力されたソースのディレクトリが既定値になります。 ソースが名前値のないストリーム入力の場合、既定値は "./" です。

params_override
Optional[List[Dict]]

yaml ファイルの上に上書きするフィールド。 書式は [{"field1": "value1"}, {"field2": "value2"}]

戻り値

読み込まれたコンピューティング オブジェクト。

の戻り値の型 :

YAML ファイルから Compute オブジェクトを読み込み、その説明をオーバーライドします。


   from azure.ai.ml import load_compute

   compute = load_compute(
       "../tests/test_configs/compute/compute-vm.yaml",
       params_override=[{"description": "loaded from compute-vm.yaml"}],
   )

load_data

yaml ファイルからデータ オブジェクトを構築します。

load_data(source: str | PathLike | IO, *, relative_origin: str | None = None, **kwargs) -> Data

パラメーター

source
Union[<xref:PathLike>, str, TextIOWrapper]
必須

データ オブジェクトのローカル yaml ソース。 ローカル ファイルへのパス、または既に開いているファイルである必要があります。 ソースがパスの場合は、開いて読み取られます。 ファイルが存在しない場合は例外が発生します。 ソースが開いているファイルの場合、ファイルは直接読み取られ、ファイルが読み取り可能でない場合は例外が発生します。

relative_origin
str

解析された yaml で参照されているファイルの相対位置を指定するときに使用される配信元。 ファイルまたはファイル パスの入力である場合は、入力されたソースのディレクトリが既定値になります。 ソースが名前値のないストリーム入力の場合、既定値は "./" です。

params_override
List[Dict]

yaml ファイルの上に上書きするフィールド。 書式は [{"field1": "value1"}, {"field2": "value2"}]

戻り値

構築された Data オブジェクトまたは DataImport オブジェクト。

の戻り値の型 :

例外

データを正常に検証できない場合に発生します。 詳細はエラー メッセージに表示されます。

load_datastore

yaml ファイルからデータストア オブジェクトを構築します。

load_datastore(source: str | PathLike | IO, *, relative_origin: str | None = None, **kwargs) -> Datastore

パラメーター

source
Union[<xref:PathLike>, str, TextIOWrapper]
必須

データストアのローカル yaml ソース。 ローカル ファイルへのパス、または既に開いているファイルである必要があります。 ソースがパスの場合は、開いて読み取られます。 ファイルが存在しない場合は例外が発生します。 ソースが開いているファイルの場合、ファイルは直接読み取られ、ファイルが読み取り可能でない場合は例外が発生します。

relative_origin
str

解析された yaml で参照されているファイルの相対位置を指定するときに使用される配信元。 ファイルまたはファイル パスの入力である場合は、入力されたソースのディレクトリが既定値になります。 ソースが名前値のないストリーム入力の場合、既定値は "./" です。

params_override
List[Dict]

yaml ファイルの上に上書きするフィールド。 書式は [{"field1": "value1"}, {"field2": "value2"}]

戻り値

読み込まれたデータストア オブジェクト。

の戻り値の型 :

例外

データストアを正常に検証できない場合に発生します。 詳細はエラー メッセージに表示されます。

load_environment

yaml ファイルから環境オブジェクトを構築します。

load_environment(source: str | PathLike | IO, *, relative_origin: str | None = None, **kwargs) -> Environment

パラメーター

source
Union[<xref:PathLike>, str, TextIOWrapper]
必須

環境のローカル yaml ソース。 ローカル ファイルへのパス、または既に開いているファイルである必要があります。 ソースがパスの場合は、開いて読み取られます。 ファイルが存在しない場合は例外が発生します。 ソースが開いているファイルの場合、ファイルは直接読み取られ、ファイルが読み取り可能でない場合は例外が発生します。

relative_origin
str

解析された yaml で参照されているファイルの相対位置を指定するときに使用される配信元。 ファイルまたはファイル パスの入力である場合は、入力されたソースのディレクトリが既定値になります。 ソースが名前値のないストリーム入力の場合、既定値は "./" です。

params_override
List[Dict]

yaml ファイルの上に上書きするフィールド。 書式は [{"field1": "value1"}, {"field2": "value2"}]

戻り値

構築された環境オブジェクト。

の戻り値の型 :

例外

環境を正常に検証できない場合に発生します。 詳細はエラー メッセージに表示されます。

load_job

YAML ファイルから Job オブジェクトを構築します。

load_job(source: str | PathLike | IO, *, relative_origin: str | None = None, **kwargs) -> Job

パラメーター

source
Union[<xref:PathLike>, str, TextIOWrapper]
必須

ローカル YAML ファイルへのパス、またはジョブ構成を含む既に開いているファイル オブジェクト。 ソースがパスの場合は、開いて読み取ります。 ソースが開いているファイルの場合、ファイルは直接読み取られます。

relative_origin
Optional[str]

YAML のルート ディレクトリ。 このディレクトリは、解析された YAML で参照されるファイルの相対位置を削除するための配信元として使用されます。 source がファイルまたはファイル パスの入力である場合、既定では source と同じディレクトリになります。 ソースが名前値のないストリーム入力の場合、既定値は "./" です。

params_override
Optional[list[dict]]

YAML ファイル内の値を上書きするパラメーター フィールド。

戻り値

読み込まれた Job オブジェクト。

の戻り値の型 :

Job

例外

Job が正常に検証できない場合に発生します。 詳細はエラー メッセージに表示されます。

YAML 構成ファイルからジョブを読み込む。


   from azure.ai.ml import load_job

   job = load_job(source="./sdk/ml/azure-ai-ml/tests/test_configs/command_job/command_job_test_local_env.yml")

load_model

YAML ファイルから Model オブジェクトを構築します。

load_model(source: str | PathLike | IO, *, relative_origin: str | None = None, **kwargs) -> Model

パラメーター

source
Union[<xref:PathLike>, str, TextIOWrapper]
必須

ローカル YAML ファイルへのパス、またはジョブ構成を含む既に開いているファイル オブジェクト。 ソースがパスの場合は、開いて読み取ります。 ソースが開いているファイルの場合、ファイルは直接読み取られます。

relative_origin
Optional[str]

YAML のルート ディレクトリ。 このディレクトリは、解析された YAML で参照されるファイルの相対位置を削除するための配信元として使用されます。 source がファイルまたはファイル パスの入力である場合、既定では source と同じディレクトリになります。 ソースが名前値のないストリーム入力の場合、既定値は "./" です。

params_override
Optional[list[dict]]

YAML ファイル内の値を上書きするパラメーター フィールド。

戻り値

読み込まれた Model オブジェクト。

の戻り値の型 :

例外

Job が正常に検証できない場合に発生します。 詳細はエラー メッセージに表示されます。

YAML 構成ファイルからモデルを読み込み、名前とバージョンのパラメーターをオーバーライドします。


   from azure.ai.ml import load_model

   model = load_model(
       source="./sdk/ml/azure-ai-ml/tests/test_configs/model/model_with_stage.yml",
       params_override=[{"name": "new_model_name"}, {"version": "1"}],
   )

load_model_package

Note

これは試験的なメソッドであり、いつでも変更される可能性があります。 詳細については、https://aka.ms/azuremlexperimental を参照してください。

YAML ファイルから ModelPackage オブジェクトを構築します。

load_model_package(source: str | PathLike | IO, *, relative_origin: str | None = None, **kwargs) -> ModelPackage

パラメーター

source
Union[<xref:PathLike>, str, TextIOWrapper]
必須

ローカル YAML ファイルへのパス、またはジョブ構成を含む既に開いているファイル オブジェクト。 ソースがパスの場合は、開いて読み取られます。 ソースが開いているファイルの場合、ファイルは直接読み取られます。

relative_origin
Optional[str]

YAML のルート ディレクトリ。 このディレクトリは、解析された YAML で参照されるファイルの相対位置を指定するための配信元として使用されます。 source がファイルまたはファイル パスの入力の場合、既定では source と同じディレクトリになります。 ソースが名前値のないストリーム入力の場合、既定値は "./" です。

params_override
Optional[list[dict]]

YAML ファイル内の値を上書きするパラメーター フィールド。

戻り値

読み込まれた ModelPackage オブジェクト。

の戻り値の型 :

例外

Job が正常に検証できない場合に発生します。 詳細はエラー メッセージに表示されます。

YAML 構成ファイルから ModelPackage を読み込む。


   from azure.ai.ml import load_model_package

   model_package = load_model_package(
       "./sdk/ml/azure-ai-ml/tests/test_configs/model_package/model_package_simple.yml"
   )

load_online_deployment

yaml ファイルからオンライン デプロイ オブジェクトを構築します。

load_online_deployment(source: str | PathLike | IO, *, relative_origin: str | None = None, **kwargs) -> OnlineDeployment

パラメーター

source
Union[<xref:PathLike>, str, TextIOWrapper]
必須

オンライン デプロイ オブジェクトのローカル yaml ソース。 ローカル ファイルへのパス、または既に開いているファイルである必要があります。 ソースがパスの場合は、開いて読み取られます。 ファイルが存在しない場合は例外が発生します。 ソースが開いているファイルの場合、ファイルは直接読み取られ、ファイルが読み取り可能でない場合は例外が発生します。

relative_origin
str

解析された yaml で参照されるファイルの相対的な場所を指定するときに使用される配信元。 ファイルまたはファイル パスの入力である場合は、入力されたソースのディレクトリが既定値になります。 ソースが名前値のないストリーム入力の場合、既定値は "./" です。

params_override
List[Dict]

yaml ファイルの上に上書きするフィールド。 書式は [{"field1": "value1"}, {"field2": "value2"}]

戻り値

オンライン 展開オブジェクトを構築しました。

の戻り値の型 :

例外

オンライン展開を正常に検証できない場合に発生します。 詳細はエラー メッセージに表示されます。

load_online_endpoint

yaml ファイルからオンライン エンドポイント オブジェクトを構築します。

load_online_endpoint(source: str | PathLike | IO, *, relative_origin: str | None = None, **kwargs) -> OnlineEndpoint

パラメーター

source
Union[<xref:PathLike>, str, TextIOWrapper]
必須

オンライン エンドポイント オブジェクトのローカル yaml ソース。 ローカル ファイルへのパス、または既に開いているファイルである必要があります。 ソースがパスの場合は、開いて読み取られます。 ファイルが存在しない場合は例外が発生します。 ソースが開いているファイルの場合、ファイルは直接読み取られ、ファイルが読み取り可能でない場合は例外が発生します。

relative_origin
str

解析された yaml で参照されるファイルの相対的な場所を指定するときに使用される配信元。 ファイルまたはファイル パスの入力である場合は、入力されたソースのディレクトリが既定値になります。 ソースが名前値のないストリーム入力の場合、既定値は "./" です。

params_override
List[Dict]

yaml ファイルの上に上書きするフィールド。 書式は [{"field1": "value1"}, {"field2": "value2"}]

戻り値

オンライン エンドポイント オブジェクトを構築しました。

の戻り値の型 :

例外

オンライン エンドポイントを正常に検証できない場合に発生します。 詳細はエラー メッセージに表示されます。

load_registry

yaml ファイルからレジストリ オブジェクトを読み込みます。

load_registry(source: str | PathLike | IO, *, relative_origin: str | None = None, **kwargs) -> Registry

パラメーター

source
Union[<xref:PathLike>, str, TextIOWrapper]
必須

レジストリのローカル yaml ソース。 ローカル ファイルへのパス、または既に開いているファイルである必要があります。 ソースがパスの場合は、開いて読み取られます。 ファイルが存在しない場合は例外が発生します。 ソースが開いているファイルの場合、ファイルは直接読み取られ、ファイルが読み取り可能でない場合は例外が発生します。

relative_origin
str

解析された yaml で参照されるファイルの相対的な場所を指定するときに使用される配信元。 ファイルまたはファイル パスの入力である場合は、入力されたソースのディレクトリが既定値になります。 ソースが名前値のないストリーム入力の場合、既定値は "./" です。

params_override
List[Dict]

yaml ファイルの上に上書きするフィールド。 書式は [{"field1": "value1"}, {"field2": "value2"}]

戻り値

読み込まれたレジストリ オブジェクト。

の戻り値の型 :

load_workspace

yaml ファイルからワークスペース オブジェクトを読み込みます。

load_workspace(source: str | PathLike | IO, *, relative_origin: str | None = None, **kwargs) -> Workspace

パラメーター

source
Union[<xref:PathLike>, str, TextIOWrapper]
必須

ワークスペースのローカル yaml ソース。 ローカル ファイルへのパス、または既に開いているファイルである必要があります。 ソースがパスの場合は、開いて読み取られます。 ファイルが存在しない場合は例外が発生します。 ソースが開いているファイルの場合、ファイルは直接読み取られ、ファイルが読み取り可能でない場合は例外が発生します。

relative_origin
str

解析された yaml で参照されるファイルの相対的な場所を指定するときに使用される配信元。 ファイルまたはファイル パスの入力である場合は、入力されたソースのディレクトリが既定値になります。 ソースが名前値のないストリーム入力の場合、既定値は "./" です。

params_override
List[Dict]

yaml ファイルの上に上書きするフィールド。 書式は [{"field1": "value1"}, {"field2": "value2"}]

戻り値

読み込まれたワークスペース オブジェクト。

の戻り値の型 :

load_workspace_connection

yaml ファイルからワークスペース接続オブジェクトを構築します。

load_workspace_connection(source: str | PathLike | IO, *, relative_origin: str | None = None, **kwargs) -> WorkspaceConnection

パラメーター

source
Union[<xref:PathLike>, str, TextIOWrapper]
必須

ワークスペース接続オブジェクトのローカル yaml ソース。 ローカル ファイルへのパス、または既に開いているファイルである必要があります。 ソースがパスの場合は、開いて読み取られます。 ファイルが存在しない場合は例外が発生します。 ソースが開いているファイルの場合、ファイルは直接読み取られ、ファイルが読み取り可能でない場合は例外が発生します。

relative_origin
str

解析された yaml で参照されるファイルの相対的な場所を指定するときに使用される配信元。 ファイルまたはファイル パスの入力である場合は、入力されたソースのディレクトリが既定値になります。 ソースが名前値のないストリーム入力の場合、既定値は "./" です。

params_override
List[Dict]

yaml ファイルの上に上書きするフィールド。 書式は [{"field1": "value1"}, {"field2": "value2"}]

戻り値

構築されたワークスペース接続オブジェクト。

の戻り値の型 :

load_workspace_hub

Note

これは試験的なメソッドであり、いつでも変更される可能性があります。 詳細については、https://aka.ms/azuremlexperimental を参照してください。

yaml ファイルから WorkspaceHub オブジェクトを読み込みます。

load_workspace_hub(source: str | PathLike | IO, *, relative_origin: str | None = None, **kwargs) -> WorkspaceHub

パラメーター

source
Union[<xref:PathLike>, str, TextIOWrapper]
必須

WorkspaceHub のローカル yaml ソース。 ローカル ファイルへのパス、または既に開いているファイルである必要があります。 ソースがパスの場合は、開いて読み取られます。 ファイルが存在しない場合は例外が発生します。 ソースが開いているファイルの場合、ファイルは直接読み取られ、ファイルが読み取り可能でない場合は例外が発生します。

relative_origin
str

解析された yaml で参照されるファイルの相対的な場所を指定するときに使用される配信元。 ファイルまたはファイル パスの入力である場合は、入力されたソースのディレクトリが既定値になります。 ソースが名前値のないストリーム入力の場合、既定値は "./" です。

params_override
List[Dict]

yaml ファイルの上に上書きするフィールド。 書式は [{"field1": "value1"}, {"field2": "value2"}]

戻り値

WorkspaceHub オブジェクトが読み込まれました。

の戻り値の型 :

spark

dsl.pipeline 関数内で使用したり、スタンドアロンの Spark ジョブとして使用したりできる Spark オブジェクトを作成します。

spark(*, experiment_name: str | None = None, name: str | None = None, display_name: str | None = None, description: str | None = None, tags: Dict | None = None, code: PathLike | str | None = None, entry: Dict[str, str] | SparkJobEntry | None = None, py_files: List[str] | None = None, jars: List[str] | None = None, files: List[str] | None = None, archives: List[str] | None = None, identity: Dict[str, str] | ManagedIdentity | AmlToken | UserIdentity | None = None, driver_cores: int | None = None, driver_memory: str | None = None, executor_cores: int | None = None, executor_memory: str | None = None, executor_instances: int | None = None, dynamic_allocation_enabled: bool | None = None, dynamic_allocation_min_executors: int | None = None, dynamic_allocation_max_executors: int | None = None, conf: Dict[str, str] | None = None, environment: str | Environment | None = None, inputs: Dict | None = None, outputs: Dict | None = None, args: str | None = None, compute: str | None = None, resources: Dict | SparkResourceConfiguration | None = None, **kwargs) -> Spark

パラメーター

experiment_name
Optional[str]

ジョブが作成される実験の名前。

name
Optional[str]

ジョブの名前。

display_name
Optional[str]

ジョブの表示名。

description
Optional[str]

ジョブの説明。 既定値は None です。

tags
Optional[dict[str, str]]

ジョブのタグのディクショナリ。 タグは追加、削除、更新できます。 既定値は None です。

code

ジョブを実行するソース コード。 リモートの場所を指すローカル パスまたは "http:"、"https:"、または "azureml:" URL を指定できます。

entry
Optional[Union[dict[str, str], SparkJobEntry]]

ファイルまたはクラスのエントリ ポイント。

py_files
Optional[list[str]]

Python アプリの PYTHONPATH に配置する .zip、.egg、または .py ファイルの一覧。 既定値は None です。

jars
Optional[list[str]]

の一覧。ドライバーと Executor クラスパスに含める JAR ファイル。 既定値は None です。

files
Optional[list[str]]

各 Executor の作業ディレクトリに配置するファイルの一覧。 既定値は None です。

archives
Optional[list[str]]

各 Executor の作業ディレクトリに抽出されるアーカイブの一覧。 既定値は None です。

identity
Optional[Union[ dict[str, str], ManagedIdentityConfiguration, AmlTokenConfiguration, UserIdentityConfiguration]]

コンピューティングでの実行中に Spark ジョブが使用する ID。

driver_cores
Optional[int]

クラスター モードでのみ、ドライバー プロセスに使用するコアの数。

driver_memory
Optional[str]

ドライバー プロセスに使用するメモリの量。サイズ単位サフィックス ("k"、"m"、"g"、または "t") (例: "512m"、"2g") を含む文字列として書式設定されます。

executor_cores
Optional[int]

Executor ごとに使用するコアの数。

executor_memory
Optional[str]

Executor プロセスごとに使用するメモリの量。サイズ単位サフィックス ("k"、"m"、"g"、または "t") (例: "512m"、"2g") を含む文字列として書式設定されます。

executor_instances
Optional[int]

Executor の初期数。

dynamic_allocation_enabled
Optional[bool]

動的リソース割り当てを使用するかどうか。このアプリケーションに登録されている Executor の数をワークロードに基づいてスケールアップおよびスケールダウンします。

dynamic_allocation_min_executors
Optional[int]

動的割り当てが有効になっている場合の Executor の数の下限。

dynamic_allocation_max_executors
Optional[int]

動的割り当てが有効になっている場合の Executor の数の上限。

conf
Optional[dict[str, str]]

事前に定義された Spark 構成キーと値を含むディクショナリ。 既定値は None です。

environment
Optional[Union[str, Environment]]

ジョブを実行する Azure ML 環境。

inputs
Optional[dict[str, Input]]

ジョブで使用される入力データへの入力名のマッピング。 既定値は None です。

outputs
Optional[dict[str, Output]]

ジョブで使用される出力データへの出力名のマッピング。 既定値は None です。

args
Optional[str]

ジョブの引数。

compute
Optional[str]

ジョブが実行されるコンピューティング リソース。

resources
Optional[Union[dict, SparkResourceConfiguration]]

ジョブのコンピューティング リソース構成。

戻り値

Spark オブジェクト。

の戻り値の型 :

DSL パイプライン デコレーターを使用した Spark パイプラインの構築


   from azure.ai.ml import Input, Output, dsl, spark
   from azure.ai.ml.constants import AssetTypes, InputOutputModes

   # define the spark task
   first_step = spark(
       code="/src",
       entry={"file": "add_greeting_column.py"},
       py_files=["utils.zip"],
       files=["my_files.txt"],
       driver_cores=2,
       driver_memory="1g",
       executor_cores=1,
       executor_memory="1g",
       executor_instances=1,
       inputs=dict(
           file_input=Input(path="/dataset/iris.csv", type=AssetTypes.URI_FILE, mode=InputOutputModes.DIRECT)
       ),
       args="--file_input ${{inputs.file_input}}",
       resources={"instance_type": "standard_e4s_v3", "runtime_version": "3.2.0"},
   )

   second_step = spark(
       code="/src",
       entry={"file": "count_by_row.py"},
       jars=["scala_project.jar"],
       files=["my_files.txt"],
       driver_cores=2,
       driver_memory="1g",
       executor_cores=1,
       executor_memory="1g",
       executor_instances=1,
       inputs=dict(
           file_input=Input(path="/dataset/iris.csv", type=AssetTypes.URI_FILE, mode=InputOutputModes.DIRECT)
       ),
       outputs=dict(output=Output(type="uri_folder", mode=InputOutputModes.DIRECT)),
       args="--file_input ${{inputs.file_input}} --output ${{outputs.output}}",
       resources={"instance_type": "standard_e4s_v3", "runtime_version": "3.2.0"},
   )

   # Define pipeline
   @dsl.pipeline(description="submit a pipeline with spark job")
   def spark_pipeline_from_builder(data):
       add_greeting_column = first_step(file_input=data)
       count_by_row = second_step(file_input=data)
       return {"output": count_by_row.outputs.output}

   pipeline = spark_pipeline_from_builder(
       data=Input(path="/dataset/iris.csv", type=AssetTypes.URI_FILE, mode=InputOutputModes.DIRECT),
   )