AdlaStep クラス
Azure Data Lake Analytics で U-SQL スクリプトを実行するための Azure ML パイプライン ステップを作成します。
この AdlaStep の使用例については、ノートブック https://aka.ms/pl-adla を参照してください。
Azure Data Lake Analyticsを使用して U-SQL スクリプトを実行する Azure ML パイプライン ステップを作成します。
- 継承
-
azureml.pipeline.core._adla_step_base._AdlaStepBaseAdlaStep
コンストラクター
AdlaStep(script_name, name=None, inputs=None, outputs=None, params=None, degree_of_parallelism=None, priority=None, runtime_version=None, compute_target=None, source_directory=None, allow_reuse=True, version=None, hash_paths=None)
パラメーター
名前 | 説明 |
---|---|
script_name
必須
|
[必須] |
name
|
ステップの名前。 指定されなかった場合は、 既定値: None
|
inputs
|
入力ポート バインドのリスト。 既定値: None
|
outputs
|
出力ポート バインドのリスト。 既定値: None
|
params
|
名前と値のペアのディクショナリ。 既定値: None
|
degree_of_parallelism
|
このジョブに使用する並列処理の次数。 これは 0 よりも大きな値にする必要があります。 0 未満に設定されている場合、既定の 1 になります。 既定値: None
|
priority
|
現在のジョブに使用する優先度の値。 数値が小さいほど優先度が高くなります。 既定では、ジョブの優先度は 1000 です。 0 よりも大きい値を指定する必要があります。 既定値: None
|
runtime_version
|
Data Lake Analytics エンジンのランタイム バージョン。 既定値: None
|
compute_target
|
[必須] このジョブに使用する ADLA コンピューティング。 既定値: None
|
source_directory
|
スクリプトやアセンブリなどを格納するフォルダー。 既定値: None
|
allow_reuse
|
同じ設定で再実行されたときに、ステップで前の結果を再利用するかどうかを示します。 再利用は既定で有効になっています。 ステップの内容 (スクリプトや依存関係) だけでなく、入力とパラメーターも変更されていない場合は、このステップの前の実行からの出力が再利用されます。 ステップを再利用する場合、計算するジョブを送信する代わりに、前の実行の結果を後続のステップですぐに利用できるようにします。 Azure Machine Learning データセットを入力として使用する場合、再利用は、基になるデータが変更されたかどうかではなく、データセットの定義が変更されたかどうかによって決まります。 既定値: True
|
version
|
ステップの機能変更を示す省略可能なバージョン タグ。 既定値: None
|
hash_paths
|
非推奨: 不要になりました。 ステップの内容の変更を確認するときにハッシュするパスのリスト。 変更が検出されない場合、パイプラインは以前の実行のステップの内容を再利用します。 既定では、 既定値: None
|
script_name
必須
|
[必須] |
name
必須
|
ステップの名前。 指定されなかった場合は、 |
inputs
必須
|
入力ポート バインドの一覧 |
outputs
必須
|
list[Union[PipelineData, <xref:azureml.pipeline.core.pipeline_output_dataset.PipelineAbstractOutputDataset>, OutputPortBinding]]
出力ポート バインドのリスト。 |
params
必須
|
名前と値のペアのディクショナリ。 |
degree_of_parallelism
必須
|
このジョブに使用する並列処理の次数。 これは 0 よりも大きな値にする必要があります。 0 未満に設定されている場合、既定の 1 になります。 |
priority
必須
|
現在のジョブに使用する優先度の値。 数値が小さいほど優先度が高くなります。 既定では、ジョブの優先度は 1000 です。 0 よりも大きい値を指定する必要があります。 |
runtime_version
必須
|
Data Lake Analytics エンジンのランタイム バージョン。 |
compute_target
必須
|
[必須] このジョブに使用する ADLA コンピューティング。 |
source_directory
必須
|
スクリプトやアセンブリなどを格納するフォルダー。 |
allow_reuse
必須
|
同じ設定で再実行されたときに、ステップで前の結果を再利用するかどうかを示します。 再利用は既定で有効になっています。 ステップの内容 (スクリプトや依存関係) だけでなく、入力とパラメーターも変更されていない場合は、このステップの前の実行からの出力が再利用されます。 ステップを再利用する場合、計算するジョブを送信する代わりに、前の実行の結果を後続のステップですぐに利用できるようにします。 Azure Machine Learning データセットを入力として使用する場合、再利用は、基になるデータが変更されたかどうかではなく、データセットの定義が変更されたかどうかによって決まります。 |
version
必須
|
ステップの機能変更を示す省略可能なバージョン タグ。 |
hash_paths
必須
|
非推奨: 不要になりました。 ステップの内容の変更を確認するときにハッシュするパスのリスト。 変更が検出されない場合、パイプラインは以前の実行のステップの内容を再利用します。 既定では、 |
注釈
スクリプトで @@name@@ 構文を使用して、入力、出力、およびパラメーターを参照できます。
name が入力または出力ポート バインドの名前である場合、スクリプト内で出現する @@name@@ はすべて、対応するポート バインドの実際のデータ パスに置き換えられます。
name が params ディクショナリのいずれかのキーと一致する場合、出現する @@name@@ はすべて、ディクショナリ内の対応する値に置き換えられます。
AdlaStep は、Data Lake Analytics アカウントの既定の Data Lake Storage の格納データでのみ機能します。 データが既定以外のストレージにある場合は、DataTransferStep を使用して既定のストレージにデータをコピーします。 既定のストレージを見つけるには、Azure portal で Data Lake Analytics アカウントを開き、左側のウィンドウの [設定] にある [データ ソース] 項目に移動します。
次の例では、Azure Machine Learning パイプラインで AdlaStep を使用する方法を示しています。
adla_step = AdlaStep(
name='extract_employee_names',
script_name='sample_script.usql',
source_directory=sample_folder,
inputs=[sample_input],
outputs=[sample_output],
compute_target=adla_compute)
メソッド
create_node |
AdlaStep ステップからノードを作成し、指定したグラフに追加します。 このメソッドは直接使用するためのものではありません。 このステップでパイプラインがインスタンス化されると、Azure ML は、ワークフローを表すパイプライン グラフにステップを追加できるように、このメソッドで必要なパラメーターを自動的に渡します。 |
create_node
AdlaStep ステップからノードを作成し、指定したグラフに追加します。
このメソッドは直接使用するためのものではありません。 このステップでパイプラインがインスタンス化されると、Azure ML は、ワークフローを表すパイプライン グラフにステップを追加できるように、このメソッドで必要なパラメーターを自動的に渡します。
create_node(graph, default_datastore, context)
パラメーター
名前 | 説明 |
---|---|
graph
必須
|
グラフ オブジェクト。 |
default_datastore
必須
|
既定のデータストア。 |
context
必須
|
<xref:azureml.pipeline.core._GraphContext>
グラフ コンテキスト。 |
戻り値
型 | 説明 |
---|---|
ノード オブジェクト。 |
フィードバック
https://aka.ms/ContentUserFeedback」を参照してください。
以下は間もなく提供いたします。2024 年を通じて、コンテンツのフィードバック メカニズムとして GitHub の issue を段階的に廃止し、新しいフィードバック システムに置き換えます。 詳細については、「フィードバックの送信と表示