AdlaStep 類別

參考

建立 Azure ML 管線步驟，以使用 Azure Data Lake Analytics執行 U-SQL 腳本。

如需使用此 AdlaStep 的範例，請參閱筆記本 https://aka.ms/pl-adla 。

建立 Azure ML 管線步驟，以使用 Azure Data Lake Analytics執行 U-SQL 腳本。

繼承: azureml.pipeline.core._adla_step_base._AdlaStepBase

AdlaStep

建構函式

AdlaStep(script_name, name=None, inputs=None, outputs=None, params=None, degree_of_parallelism=None, priority=None, runtime_version=None, compute_target=None, source_directory=None, allow_reuse=True, version=None, hash_paths=None)

參數

script_name: str

必要

[必要]相對於的 U-SQL 腳本 source_directory 名稱。

name: str

預設值: None

步驟的名稱。如果未指定， script_name 則會使用。

inputs: list[Union[InputPortBinding, DataReference, PortDataReference, PipelineData]]

預設值: None

輸入埠系結的清單。

outputs: list[Union[PipelineData, PipelineOutputAbstractDataset, OutputPortBinding]]

預設值: None

輸出埠系結的清單。

params: dict

預設值: None

名稱/值組的字典。

degree_of_parallelism: int

預設值: None

要用於此作業的平行處理原則程度。這必須大於 0。如果設定為小於 0，則預設為 1。

priority: int

預設值: None

要用於目前作業的優先順序值。數位越低，優先順序就越高。根據預設，作業的優先順序為 1000。您指定的值必須大於 0。

runtime_version: str

預設值: None

Data Lake Analytics 引擎的執行階段版本。

compute_target: AdlaCompute, str

預設值: None

[必要]要用於此作業的 ADLA 計算。

source_directory: str

預設值: None

包含腳本、元件等的資料夾。

allow_reuse: bool

預設值: True

指出當使用相同的設定重新執行時，此步驟是否應該重複使用先前的結果。預設會啟用重複使用。如果步驟內容 (腳本/相依性) 以及輸入和參數保持不變，則會重複使用此步驟上一次執行的輸出。重複使用步驟時，不會提交要計算的作業，而是立即提供給任何後續步驟使用上一次執行的結果。如果您使用 Azure Machine Learning 資料集作為輸入，重複使用取決於資料集的定義是否已變更，而不是基礎資料是否已變更。

version: str

預設值: None

選擇性版本戳記，表示步驟的功能變更。

hash_paths: list

預設值: None

已淘汰：不再需要。

檢查步驟內容的變更時，雜湊的路徑清單。如果未偵測到任何變更，管線將會重複使用上一次執行的步驟內容。根據預設，的內容 source_directory 會雜湊，但 .amlignore 或 .gitignore 中列出的檔案除外。

script_name: str

必要

[必要]相對於的 U-SQL 腳本 source_directory 名稱。

name: str

必要

步驟的名稱。如果未指定， script_name 則會使用。

inputs: list[Union[InputPortBinding, DataReference, PortDataReference, PipelineData]]

必要

輸入埠系結的清單

outputs: list[Union[PipelineData, <xref:azureml.pipeline.core.pipeline_output_dataset.PipelineAbstractOutputDataset>, OutputPortBinding]]

必要

輸出埠系結的清單。

params: dict

必要

名稱/值組的字典。

degree_of_parallelism: int

必要

要用於此作業的平行處理原則程度。這必須大於 0。如果設定為小於 0，則預設為 1。

priority: int

必要

要用於目前作業的優先順序值。數位越低，優先順序就越高。根據預設，作業的優先順序為 1000。您指定的值必須大於 0。

runtime_version: str

必要

Data Lake Analytics 引擎的執行階段版本。

compute_target: AdlaCompute, str

必要

[必要]要用於此作業的 ADLA 計算。

source_directory: str

必要

包含腳本、元件等的資料夾。

allow_reuse: bool

必要

version: str

必要

選擇性版本戳記，表示步驟的功能變更。

hash_paths: list

必要

已淘汰：不再需要。

備註

您可以在腳本中使用 @@name@@ 語法來參考輸入、輸出和參數。

如果 name 是輸入或輸出埠系結的名稱，腳本中任何出現的 @@name@@ ，就會取代為對應埠系結的實際資料路徑。
如果 name 符合 params 聽寫中的任何索引鍵，則任何出現的 @@name@@ 都會取代為聽寫中的對應值。

AdlaStep 僅適用于儲存在Data Lake Analytics帳戶之預設Data Lake Storage中的資料。如果資料位於非預設儲存體中，請使用 DataTransferStep 將資料複製到預設儲存體。您可以在Azure 入口網站中開啟Data Lake Analytics帳戶，然後流覽至左窗格中 [設定] 底下的 [資料來源] 專案，以尋找預設儲存體。

下列範例示範如何在 Azure Machine Learning 管線中使用 AdlaStep。


   adla_step = AdlaStep(
       name='extract_employee_names',
       script_name='sample_script.usql',
       source_directory=sample_folder,
       inputs=[sample_input],
       outputs=[sample_output],
       compute_target=adla_compute)

完整範例可從 https://github.com/Azure/MachineLearningNotebooks/blob/master/how-to-use-azureml/machine-learning-pipelines/intro-to-pipelines/aml-pipelines-use-adla-as-compute-target.ipynb

方法

create_node

從 AdlaStep 步驟建立節點，並將其新增至指定的圖形。

這個方法不適合直接使用。使用此步驟具現化管線時，Azure ML 會自動傳遞透過此方法所需的參數，以便將步驟新增至代表工作流程的管線圖形。

create_node

從 AdlaStep 步驟建立節點，並將其新增至指定的圖形。

這個方法不適合直接使用。使用此步驟具現化管線時，Azure ML 會自動傳遞透過此方法所需的參數，以便將步驟新增至代表工作流程的管線圖形。

create_node(graph, default_datastore, context)

參數

graph: Graph

必要

繪圖物件。

default_datastore: Union[AbstractAzureStorageDatastore, AzureDataLakeDatastore]

必要

預設資料存放區。

context: <xref:azureml.pipeline.core._GraphContext>

必要

圖形內容。

傳回

node 物件。

傳回類型

Node

共用方式為

AdlaStep 類別

建構函式

參數

備註

方法

create_node

參數

傳回

傳回類型

意見反應

意見反應

其他資源