AdlaStep クラス

リファレンス

Azure Data Lake Analytics で U-SQL スクリプトを実行するための Azure ML パイプラインステップを作成します。

この AdlaStep の使用例については、ノートブック https://aka.ms/pl-adla を参照してください。

Azure DATA LAKE ANALYTICSを使用して U-SQL スクリプトを実行する Azure ML パイプラインステップを作成します。

継承: azureml.pipeline.core._adla_step_base._AdlaStepBase

AdlaStep

コンストラクター

AdlaStep(script_name, name=None, inputs=None, outputs=None, params=None, degree_of_parallelism=None, priority=None, runtime_version=None, compute_target=None, source_directory=None, allow_reuse=True, version=None, hash_paths=None)

パラメーター

script_name: str

必須

[必須] source_directory を基準にした U-SQL スクリプトの名前。

name: str

既定値: None

ステップの名前。指定されなかった場合は、script_name が使用されます。

inputs: list[Union[InputPortBinding, DataReference, PortDataReference, PipelineData]]

既定値: None

入力ポートバインドのリスト。

outputs: list[Union[PipelineData, PipelineOutputAbstractDataset, OutputPortBinding]]

既定値: None

出力ポートバインドのリスト。

params: dict

既定値: None

名前と値のペアのディクショナリ。

degree_of_parallelism: int

既定値: None

このジョブに使用する並列処理の次数。これは 0 よりも大きな値にする必要があります。 0 未満に設定されている場合、既定の 1 になります。

priority: int

既定値: None

現在のジョブに使用する優先度の値。数値が小さいほど優先度が高くなります。既定では、ジョブの優先度は 1000 です。 0 よりも大きい値を指定する必要があります。

runtime_version: str

既定値: None

Data Lake Analytics エンジンのランタイムバージョン。

compute_target: AdlaCompute, str

既定値: None

[必須] このジョブに使用する ADLA コンピューティング。

source_directory: str

既定値: None

スクリプトやアセンブリなどを格納するフォルダー。

allow_reuse: bool

既定値: True

同じ設定で再実行されたときに、ステップで前の結果を再利用するかどうかを示します。再利用は既定で有効になっています。ステップの内容 (スクリプトや依存関係) だけでなく、入力とパラメーターも変更されていない場合は、このステップの前の実行からの出力が再利用されます。ステップを再利用する場合、計算するジョブを送信する代わりに、前の実行の結果を後続のステップですぐに利用できるようにします。 Azure Machine Learning データセットを入力として使用する場合、再利用は、基になるデータが変更されたかどうかではなく、データセットの定義が変更されたかどうかによって決まります。

version: str

既定値: None

ステップの機能変更を示す省略可能なバージョンタグ。

hash_paths: list

既定値: None

非推奨: 不要になりました。

ステップの内容の変更を確認するときにハッシュするパスのリスト。変更が検出されない場合、パイプラインは以前の実行のステップの内容を再利用します。既定では、source_directory の内容は .amlignore または .gitignore に示されているファイルを除いてハッシュされます。

script_name: str

必須

[必須] source_directory を基準にした U-SQL スクリプトの名前。

name: str

必須

ステップの名前。指定されなかった場合は、script_name が使用されます。

inputs: list[Union[InputPortBinding, DataReference, PortDataReference, PipelineData]]

必須

入力ポートバインドの一覧

outputs: list[Union[PipelineData, <xref:azureml.pipeline.core.pipeline_output_dataset.PipelineAbstractOutputDataset>, OutputPortBinding]]

必須

出力ポートバインドのリスト。

params: dict

必須

名前と値のペアのディクショナリ。

degree_of_parallelism: int

必須

このジョブに使用する並列処理の次数。これは 0 よりも大きな値にする必要があります。 0 未満に設定されている場合、既定の 1 になります。

priority: int

必須

runtime_version: str

必須

Data Lake Analytics エンジンのランタイムバージョン。

compute_target: AdlaCompute, str

必須

[必須] このジョブに使用する ADLA コンピューティング。

source_directory: str

必須

スクリプトやアセンブリなどを格納するフォルダー。

allow_reuse: bool

必須

version: str

必須

ステップの機能変更を示す省略可能なバージョンタグ。

hash_paths: list

必須

非推奨: 不要になりました。

注釈

スクリプトで @@name@@ 構文を使用して、入力、出力、およびパラメーターを参照できます。

name が入力または出力ポートバインドの名前である場合、スクリプト内で出現する @@name@@ はすべて、対応するポートバインドの実際のデータパスに置き換えられます。
name が params ディクショナリのいずれかのキーと一致する場合、出現する @@name@@ はすべて、ディクショナリ内の対応する値に置き換えられます。

AdlaStep は、Data Lake Analytics アカウントの既定の Data Lake Storage の格納データでのみ機能します。データが既定以外のストレージにある場合は、DataTransferStep を使用して既定のストレージにデータをコピーします。既定のストレージを見つけるには、Azure portal で Data Lake Analytics アカウントを開き、左側のウィンドウの [設定] にある [データソース] 項目に移動します。

次の例では、Azure Machine Learning パイプラインで AdlaStep を使用する方法を示しています。


   adla_step = AdlaStep(
       name='extract_employee_names',
       script_name='sample_script.usql',
       source_directory=sample_folder,
       inputs=[sample_input],
       outputs=[sample_output],
       compute_target=adla_compute)

完全なサンプルは、https://github.com/Azure/MachineLearningNotebooks/blob/master/how-to-use-azureml/machine-learning-pipelines/intro-to-pipelines/aml-pipelines-use-adla-as-compute-target.ipynb から入手できます

メソッド

create_node

AdlaStep ステップからノードを作成し、指定したグラフに追加します。

このメソッドは直接使用するためのものではありません。このステップでパイプラインがインスタンス化されると、Azure ML は、ワークフローを表すパイプライングラフにステップを追加できるように、このメソッドで必要なパラメーターを自動的に渡します。

create_node

AdlaStep ステップからノードを作成し、指定したグラフに追加します。

create_node(graph, default_datastore, context)

パラメーター

graph: Graph

必須

グラフオブジェクト。

default_datastore: Union[AbstractAzureStorageDatastore, AzureDataLakeDatastore]

必須

既定のデータストア。

context: <xref:azureml.pipeline.core._GraphContext>

必須

グラフコンテキスト。

戻り値

ノードオブジェクト。

の戻り値の型 :

Node

Share via

AdlaStep クラス

コンストラクター

パラメーター

注釈

メソッド

create_node

パラメーター

戻り値

の戻り値の型 :

フィードバック

フィードバック

その他のリソース