SynapseSparkStep 类

注释

这是一个实验类，随时可能会更改。有关详细信息，请参阅 https://aka.ms/azuremlexperimental。

创建提交和执行 Python 脚本的 Azure ML Synapse 步骤。

创建在 synapse spark 池上运行 Spark 作业的 Azure ML 管道步骤。

构造函数

SynapseSparkStep(file, source_directory, compute_target, driver_memory, driver_cores, executor_memory, executor_cores, num_executors, name=None, app_name=None, environment=None, arguments=None, inputs=None, outputs=None, conf=None, py_files=None, jars=None, files=None, allow_reuse=True, version=None)

参数

名称	说明
file 必需	str 相对于 source_directory 的 synapse 脚本的名称。
source_directory 必需	str 包含步骤中使用的 Python 脚本、conda env 和其他资源的文件夹。
compute_target 必需	SynapseCompute 或 str 要使用的计算目标。
driver_memory 必需	str 要用于驱动程序进程的内存量。
driver_cores 必需	int 用于驱动程序进程的内核数。
executor_memory 必需	str 每个执行程序进程要使用的内存量。
executor_cores 必需	int 要用于每个执行程序的核心数。
num_executors 必需	int 要为此会话启动的执行程序数。
name 必需	str 步骤的名称。如果未指定，则使用 `file`。
app_name 必需	str 用于提交 Spark 作业的应用名称。
environment 必需	Environment 稍后版本将支持 AML 环境。
arguments 必需	list Synapse 脚本文件的命令行参数。
inputs 必需	list[DatasetConsumptionConfig] 输入列表。
outputs 必需	list[HDFSOutputDatasetConfig] 输出列表。
conf 必需	dict Spark 配置属性。
py_files 必需	list 要在此会话中使用的 Python 文件，livy API 的参数。
files 必需	list 要在此会话中使用的文件，livy API 的参数。
allow_reuse 必需	bool 指示使用相同设置重新运行时，该步骤是否应重复使用以前的结果。
version 必需	str 用于表示步骤功能更改的可选版本标记。
file 必需	str 相对于 . 的 Synapse 脚本 `source_directory`的名称。
source_directory 必需	str 包含步骤中使用的 Python 脚本、conda env 和其他资源的文件夹。
compute_target 必需	SynapseCompute 或 str 要使用的计算目标。
driver_memory 必需	str 要用于驱动程序进程的内存量。
driver_cores 必需	int 用于驱动程序进程的内核数。
executor_memory 必需	str 每个执行程序进程要使用的内存量。
executor_cores 必需	int 要用于每个执行程序的核心数。
num_executors 必需	int 要为此会话启动的执行程序数。
name 必需	str 步骤的名称。如果未指定，则使用 `file`。
app_name 必需	str 用于提交 Apache Spark 作业的应用名称。
environment 必需	Environment 此 SynapseSparkStep 中将利用的 AML 环境。
arguments 必需	list Synapse 脚本文件的命令行参数。
inputs 必需	list[DatasetConsumptionConfig] 输入列表。
outputs 必需	list[HDFSOutputDatasetConfig] 输出列表。
conf 必需	dict Spark 配置属性。
py_files 必需	list 要在此会话中使用的 Python 文件，livy API 的参数。
jars 必需	list 要在此会话中使用的 Jar 文件，livy API 的参数。
files 必需	list 要在此会话中使用的文件，livy API 的参数。
allow_reuse 必需	bool 指示使用相同设置重新运行时，该步骤是否应重复使用以前的结果。
version 必需	str 用于表示步骤功能更改的可选版本标记。

注解

SynapseSparkStep 是一个基本的内置步骤，用于在 synapse Spark 池上运行 Python Spark 作业。它采用主文件名和其他可选参数，例如脚本、计算目标、输入和输出的参数。

使用 SynapseSparkStep 的最佳做法是对脚本和与步骤关联的任何依赖文件使用单独的文件夹，并使用参数指定该文件夹 source_directory 。遵循此最佳做法有两个好处。首先，它有助于减小为步骤创建的快照的大小，因为仅快照了步骤所需的快照。其次，如果没有对触发重新上传快照的更改 source_directory ，则可以重复使用上一次运行中的步骤输出。


   from azureml.core import Dataset
   from azureml.pipeline.steps import SynapseSparkStep
   from azureml.data import HDFSOutputDatasetConfig

   # get input dataset
   input_ds = Dataset.get_by_name(workspace, "weather_ds").as_named_input("weather_ds")

   # register pipeline output as dataset
   output_ds = HDFSOutputDatasetConfig("synapse_step_output",
                                       destination=(ws.datastores['datastore'],"dir")
                                       ).register_on_complete(name="registered_dataset")

   step_1 = SynapseSparkStep(
       name = "synapse_step",
       file = "pyspark_job.py",
       source_directory="./script",
       inputs=[input_ds],
       outputs=[output_ds],
       compute_target = "synapse",
       driver_memory = "7g",
       driver_cores = 4,
       executor_memory = "7g",
       executor_cores = 2,
       num_executors = 1,
       conf = {})

SynapseSparkStep 仅支持 DatasetConsumptionConfig 作为输入，HDFSOutputDatasetConfig 作为输出。

方法

create_node

为 Synapse 脚本步骤创建节点。

此方法不用于直接使用。使用此步骤实例化管道时，Azure ML 会自动传递通过此方法所需的参数，以便可以将该步骤添加到表示工作流的管道图中。

create_node

为 Synapse 脚本步骤创建节点。

此方法不用于直接使用。使用此步骤实例化管道时，Azure ML 会自动传递通过此方法所需的参数，以便可以将该步骤添加到表示工作流的管道图中。

create_node(graph, default_datastore, context)

参数

名称	说明
graph 必需	Graph 要向其添加节点的图形对象。
default_datastore 必需	Union[AbstractAzureStorageDatastore, AzureDataLakeDatastore] 默认数据存储。
context 必需	<xref:azureml.pipeline.core._GraphContext> 图形上下文。

类型	说明
Node	创建的节点。

反馈

此页面是否有帮助？

通过

SynapseSparkStep 类

构造函数

参数

注解

方法

create_node

参数

返回

反馈