ParallelRunStep 类

参考

创建 Azure 机器学习管道步骤异步并行处理大量数据。

有关使用 ParallelRunStep 的示例，请参阅笔记本 https://aka.ms/batch-inference-notebooks。

有关故障排除指南，请参阅 https://aka.ms/prstsg。可在此处找到更多参考资料。

创建 Azure ML Pipeline 步骤以异步和并行方式处理大量数据。

有关使用 ParallelRunStep 的示例，请参阅笔记本链接 https://aka.ms/batch-inference-notebooks。

继承: azureml.pipeline.core._parallel_run_step_base._ParallelRunStepBase

ParallelRunStep

构造函数

ParallelRunStep(name, parallel_run_config, inputs, output=None, side_inputs=None, arguments=None, allow_reuse=True)

参数

名称	说明
name 必需	str 步骤的名称。对于工作区，必须是唯一的，仅包含小写字母、数字或短划线，以字母开头，且长度在 3 到 32 个字符之间。
parallel_run_config 必需	ParallelRunConfig 用于确定所需运行属性的 ParallelRunConfig 对象。
inputs 必需	list[Union[DatasetConsumptionConfig, PipelineOutputFileDataset, PipelineOutputTabularDataset]] 输入数据集的列表。列表中的所有数据集应属于同一类型。将对输入数据进行分区以便并行处理。列表中的每个数据集都单独分区为微型批处理，并且在并行处理中，每个微型批处理将被同等对待。
output	Union[PipelineData, OutputPortBinding, OutputDatasetConfig] 输出端口绑定，可供后面的管道步骤使用。默认值: None
side_inputs	list[Union[InputPortBinding, DataReference, PortDataReference, PipelineData, PipelineOutputFileDataset, PipelineOutputTabularDataset, DatasetConsumptionConfig]] 侧输入引用数据的列表。不会将侧输入分区为输入数据。默认值: None
arguments	list[str] 要传递到 Python entry_script 的命令行参数的列表。默认值: None
allow_reuse	bool 当使用相同的设置/输入运行时，该步骤是否应重用以前的结果。如果为 false，则在管道执行过程中将始终为此步骤生成新的运行。默认值: True
name 必需	str 步骤的名称。对于工作区，必须是唯一的，仅包含小写字母、数字或短划线，以字母开头，且长度在 3 到 32 个字符之间。
parallel_run_config 必需	ParallelRunConfig 用于确定所需运行属性的 ParallelRunConfig 对象。
inputs 必需	list[Union[DatasetConsumptionConfig, PipelineOutputFileDataset, PipelineOutputTabularDataset]] 输入数据集的列表。列表中的所有数据集应属于同一类型。将对输入数据进行分区以便并行处理。列表中的每个数据集都单独分区为微型批处理，并且在并行处理中，每个微型批处理将被同等对待。
output 必需	PipelineData, OutputPortBinding 输出端口绑定，可供后面的管道步骤使用。
side_inputs 必需	list[Union[InputPortBinding, DataReference, PortDataReference, PipelineData, PipelineOutputFileDataset, PipelineOutputTabularDataset, DatasetConsumptionConfig]] 侧输入引用数据的列表。不会将侧输入分区为输入数据。
arguments 必需	list[str] 要传递到 Python entry_script 的命令行参数的列表。
allow_reuse 必需	bool 当使用相同的设置/输入运行时，该步骤是否应重用以前的结果。如果为 false，则在管道执行过程中将始终为此步骤生成新的运行。

注解

ParallelRunStep 可用于并行处理大量数据。常见的用例是训练 ML 模型或运行脱机推理，以根据一批观察数据来生成预测。 ParallelRunStep 的工作原理是将数据分解成并行处理的批处理。可以通过 ParallelRunConfig 类控制批大小节点计数和其他可优化参数以加快并行处理速度。 ParallelRunStep 可以作为输入用于 TabularDataset 或 FileDataset。

如需使用 ParallelRunStep：

创建一个 ParallelRunConfig 对象用于指定批处理的执行方式，该对象的参数可控制批大小、每个计算目标的节点数，以及对自定义 Python 脚本的引用。
创建使用 ParallelRunConfig 对象的 ParallelRunStep 对象，并定义该步骤的输入和输出。
像使用其他管道步骤类型一样，在Pipeline中使用已配置的 ParallelRunStep 对象。

以下文章讨论了使用 ParallelRunStep 和 ParallelRunConfig 类进行批量推理的示例：

教程：生成用于批量评分的 Azure 机器学习管道。本文介绍如何在管道中将这两个类用于异步批评分，并使 REST 终结点能够运行管道。
使用 Azure 机器学习对大量数据运行批处理推理。本文介绍如何通过自定义推理脚本和 MNIST 数据集上预先训练的图像分类模型库以异步和并行方式处理大量数据。


   from azureml.pipeline.steps import ParallelRunStep, ParallelRunConfig

   parallel_run_config = ParallelRunConfig(
       source_directory=scripts_folder,
       entry_script=script_file,
       mini_batch_size="5",
       error_threshold=10,         # Optional, allowed failed count on mini batch items
       allowed_failed_count=15,    # Optional, allowed failed count on mini batches
       allowed_failed_percent=10,  # Optional, allowed failed percent on mini batches
       output_action="append_row",
       environment=batch_env,
       compute_target=compute_target,
       node_count=2)

   parallelrun_step = ParallelRunStep(
       name="predict-digits-mnist",
       parallel_run_config=parallel_run_config,
       inputs=[ named_mnist_ds ],
       output=output_dir,
       arguments=[ "--extra_arg", "example_value" ],
       allow_reuse=True
   )

有关此示例详细信息，请参阅笔记本 https://aka.ms/batch-inference-notebooks。

方法

create_module_def

创建描述步骤的模块定义对象。

此方法不能直接使用。

create_node

为 PythonScriptStep 创建节点并将其添加到指定的图。

此方法不能直接使用。通过 ParallelRunStep 实例化管道时，Azure 机器学习会自动通过此方法传递所需的参数，以便可以将步骤添加到表示工作流的管道图形中。

create_module_def

创建描述步骤的模块定义对象。

此方法不能直接使用。

create_module_def(execution_type, input_bindings, output_bindings, param_defs=None, create_sequencing_ports=True, allow_reuse=True, version=None, arguments=None)

参数

名称	说明
execution_type 必需	str 模块的执行类型。
input_bindings 必需	list 步骤输入绑定。
output_bindings 必需	list 步骤输出绑定。
param_defs	list 步骤参数定义。默认值: None
create_sequencing_ports	bool 如果为 true，则将为模块创建有序端口。默认值: True
allow_reuse	bool 如果为 true，则在将来的管道中可重用该模块。默认值: True
version	str 模块的版本。默认值: None
arguments	list 调用此模块时使用的批注参数列表。默认值: None

类型	说明
ModuleDef	模块定义对象。

create_node

为 PythonScriptStep 创建节点并将其添加到指定的图。

create_node(graph, default_datastore, context)

参数

名称	说明
graph 必需	Graph 图对象。
default_datastore 必需	AbstractAzureStorageDatastore 或 AzureDataLakeDatastore 默认数据存储。
context 必需	<xref:azureml.pipeline.core._GraphContext> 上下文。

类型	说明
Node	创建的节点。

通过

ParallelRunStep 类

构造函数

参数

注解

方法

create_module_def

参数

返回

create_node

参数

返回

反馈

反馈

其他资源