PipelineOutputTabularDataset 类

表示提升为 Azure 机器学习表格数据集的中间管道数据。

将某个中间数据提升为 Azure 机器学习数据集后,还可以在后续步骤中将它用作数据集而不是 DataReference。

创建将提升为 Azure 机器学习数据集的中间数据。

继承
PipelineOutputTabularDataset

构造函数

PipelineOutputTabularDataset(pipeline_output_dataset, additional_transformations)

参数

pipeline_output_dataset
PipelineOutputFileDataset
必需

表示将转换为表格数据集的中间输出的文件数据集。

additional_transformations
<xref:azureml.dataprep.Dataflow>
必需

将在文件数据集上应用的其他转换。

pipeline_output_dataset
PipelineOutputFileDataset
必需

表示将转换为表格数据集的中间输出的文件数据集。

additional_transformations
<xref:azureml.dataprep.Dataflow>
必需

将在文件数据集上应用的其他转换。

方法

create_input_binding

创建输入绑定。

drop_columns

从数据集中删除指定列。

keep_columns

保留指定列并从数据集中删除所有其他列。

random_split

按指定百分比随机地将数据集中的记录大致拆分为两个部分。

create_input_binding

创建输入绑定。

create_input_binding()

返回

以此 PipelineData 作为源的 InputPortBinding。

返回类型

drop_columns

从数据集中删除指定列。

drop_columns(columns)

参数

columns
strlist[str]
必需

要删除的列的名称或名称列表。

返回

返回新的中间数据,仅删除指定的列。

返回类型

keep_columns

保留指定列并从数据集中删除所有其他列。

keep_columns(columns)

参数

columns
strlist[str]
必需

要保留的列的名称或名称列表。

返回

返回新的中间数据,仅保留指定的列。

返回类型

random_split

按指定百分比随机地将数据集中的记录大致拆分为两个部分。

random_split(percentage, seed=None)

参数

percentage
float
必需

要拆分数据集的大致百分比。 这必须是介于 0.0 和 1.0 之间的数字。

seed
int
默认值: None

用于随机生成器的可选种子。

返回

返回表示拆分后的两个数据集的新 TabularDataset 对象的元组。

返回类型