PipelineOutputTabularDataset 类

参考

表示提升为 Azure 机器学习表格数据集的中间管道数据。

将某个中间数据提升为 Azure 机器学习数据集后，还可以在后续步骤中将它用作数据集而不是 DataReference。

创建将提升为 Azure 机器学习数据集的中间数据。

继承: PipelineOutputAbstractDataset

PipelineOutputTabularDataset

构造函数

PipelineOutputTabularDataset(pipeline_output_dataset, additional_transformations)

参数

pipeline_output_dataset: PipelineOutputFileDataset

必需

表示将转换为表格数据集的中间输出的文件数据集。

additional_transformations: <xref:azureml.dataprep.Dataflow>

必需

将在文件数据集上应用的其他转换。

pipeline_output_dataset: PipelineOutputFileDataset

必需

表示将转换为表格数据集的中间输出的文件数据集。

additional_transformations: <xref:azureml.dataprep.Dataflow>

必需

将在文件数据集上应用的其他转换。

方法

create_input_binding	创建输入绑定。
drop_columns	从数据集中删除指定列。
keep_columns	保留指定列并从数据集中删除所有其他列。
random_split	按指定百分比随机地将数据集中的记录大致拆分为两个部分。

create_input_binding

创建输入绑定。

create_input_binding()

以此 PipelineData 作为源的 InputPortBinding。

返回类型

InputPortBinding

drop_columns

从数据集中删除指定列。

drop_columns(columns)

参数

columns: str 或 list[str]

必需

要删除的列的名称或名称列表。

返回新的中间数据，仅删除指定的列。

返回类型

PipelineOutputTabularDataset

keep_columns

保留指定列并从数据集中删除所有其他列。

keep_columns(columns)

参数

columns: str 或 list[str]

必需

要保留的列的名称或名称列表。

返回新的中间数据，仅保留指定的列。

返回类型

PipelineOutputTabularDataset

random_split

按指定百分比随机地将数据集中的记录大致拆分为两个部分。

random_split(percentage, seed=None)

参数

percentage: float

必需

要拆分数据集的大致百分比。这必须是介于 0.0 和 1.0 之间的数字。

seed: int

默认值: None

用于随机生成器的可选种子。

返回表示拆分后的两个数据集的新 TabularDataset 对象的元组。

返回类型

(TabularDataset, TabularDataset)

通过

PipelineOutputTabularDataset 类

构造函数

参数

方法

create_input_binding

返回

返回类型

drop_columns

参数

返回

返回类型

keep_columns

参数

返回

返回类型

random_split

参数

返回

返回类型

反馈

反馈

其他资源