PipelineOutputFileDataset 类

参考

表示提升为 Azure 机器学习文件数据集的中间管道数据。

将某个中间数据提升为 Azure 机器学习数据集后，还可以在后续步骤中将它用作数据集而不是 DataReference。

创建将提升为 Azure 机器学习数据集的中间数据。

继承: PipelineOutputAbstractDataset

PipelineOutputFileDataset

构造函数

PipelineOutputFileDataset(pipeline_data)

参数

pipeline_data: PipelineData

必需

表示将提升为数据集的中间输出的 PipelineData。

pipeline_data: PipelineData

必需

表示将提升为数据集的中间输出的 PipelineData。

方法

as_direct	将输入数据集的使用模式设置为直接。在此模式下，你将获取数据集的 ID，并可以在脚本中调用 Dataset.get_by_id 来检索数据集。 run.input_datasets['{dataset_name}'] 将返回数据集。
as_download	将数据集的使用模式设置为下载。
as_mount	将数据集的使用模式设置为装载。
parse_delimited_files	将中间文件数据集转换为表格数据集。表格数据集是通过分析中间输出指向的分隔文件创建的。
parse_parquet_files	将中间文件数据集转换为表格数据集。表格数据集是通过分析中间输出指向的 parquet 文件创建的。

as_direct

将输入数据集的使用模式设置为直接。

在此模式下，你将获取数据集的 ID，并可以在脚本中调用 Dataset.get_by_id 来检索数据集。 run.input_datasets['{dataset_name}'] 将返回数据集。

as_direct()

修改的 PipelineOutputDataset。

返回类型

PipelineOutputFileDataset

as_download

将数据集的使用模式设置为下载。

as_download(path_on_compute=None)

参数

path_on_compute: str

默认值: None

要将数据集下载到的计算的路径。默认值为 None，表示 Azure 机器学习将为你选择一个路径。

修改的 PipelineOutputDataset。

返回类型

PipelineOutputFileDataset

as_mount

将数据集的使用模式设置为装载。

as_mount(path_on_compute=None)

参数

path_on_compute: str

默认值: None

要将数据集装载到的计算的路径。默认值为 None，表示 Azure 机器学习将为你选择一个路径。

修改的 PipelineOutputDataset。

返回类型

PipelineOutputFileDataset

parse_delimited_files

将中间文件数据集转换为表格数据集。

表格数据集是通过分析中间输出指向的分隔文件创建的。

parse_delimited_files(include_path=False, separator=',', header=PromoteHeadersBehavior.ALL_FILES_HAVE_SAME_HEADERS, partition_format=None, file_extension='', set_column_types=None, quoted_line_breaks=False)

参数

include_path: bool

默认值: False

将路径信息保留为数据集中的列的布尔值。默认为 False。在读取多个文件，并且想要知道特定记录源自哪个文件，或者想要在文件路径中保留有用的信息时，这非常有用。

separator: str

默认值: ,

用于拆分列的分隔符。

header: PromoteHeadersBehavior

默认值: PromoteHeadersBehavior.ALL_FILES_HAVE_SAME_HEADERS

控制在读取文件时如何提升列标题。默认假定所有文件都具有相同的标题。

partition_format: str

默认值: None

指定路径的分区格式。默认值为“None”。将会基于指定的格式将每个路径的分区信息提取到列中。格式部分“{column_name}”创建字符串列，“{column_name:yyyy/MM/dd/HH/mm/ss}”创建日期/时间列，其中“yyyy”、“MM”、“dd”、“HH”、“mm”和“ss”分别用于提取日期/时间类型的年、月、日、小时、分钟和秒。格式应从文件路径结束之前的第一个分区键位置开始。例如，给定路径“../Accounts/2019/01/01/data.csv”，其中分区是按部门名称和时间划分的；partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.csv' 具有值为“Accounts”的“Department”和值为“2019-01-01”的日期/时间列“PartitionDate”。

file_extension: str

必需

要读取的文件的文件扩展名。只会从目录中读取具有此扩展名的文件。当分隔符为“,”时，默认值为“.csv”；当分隔符为制表符时，默认值为“.tsv”；否则为 None。如果传递了 None，则读取所有文件，而不管其扩展名如何（或缺少扩展名）。

set_column_types: dict[str, DataType]

默认值: None

用于设置列数据类型的字典，其中键是列名称，值为 DataType。不在字典中的列将保留为字符串类型。传递 None 将导致不进行转换。源数据中找不到的列的条目不会导致错误，将被忽略。

quoted_line_breaks: bool

默认值: False

指定如何处理引号中的新行字符。此选项可能会影响性能。

返回表格数据集形式的中间数据。

返回类型

PipelineOutputTabularDataset

注解

仅当中间数据用作后续步骤的输入时，才会应用此转换。即使将它传递给输出，也不会对输出产生影响。

parse_parquet_files

将中间文件数据集转换为表格数据集。

表格数据集是通过分析中间输出指向的 parquet 文件创建的。

parse_parquet_files(include_path=False, partition_format=None, file_extension='.parquet', set_column_types=None)

参数

include_path: bool

默认值: False

partition_format: str

默认值: None

指定路径的分区格式。默认值为“None”。将会基于指定的格式将每个路径的分区信息提取到列中。格式部分“{column_name}”创建字符串列，“{column_name:yyyy/MM/dd/HH/mm/ss}”创建日期/时间列，其中“yyyy”、“MM”、“dd”、“HH”、“mm”和“ss”分别用于提取日期/时间类型的年、月、日、小时、分钟和秒。格式应从文件路径结束之前的第一个分区键位置开始。例如，给定路径“../Accounts/2019/01/01/data.parquet”，其中分区是按部门名称和时间划分的；partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet' 创建值为“Accounts”的字符串列“Department”和值为“2019-01-01”的日期/时间列“PartitionDate”。

file_extension: str

默认值: .parquet

要读取的文件的文件扩展名。只会从目录中读取具有此扩展名的文件。默认值为“.parquet”。如果将其设置为 None，则读取所有文件，而不管其扩展名如何（或缺少扩展名）。

set_column_types: dict[str, DataType]

默认值: None

用于设置列数据类型的字典，其中键是列名称，值为 DataType。不在字典中的列将保持从 parquet 文件加载的类型。传递 None 将导致不进行转换。源数据中找不到的列的条目不会导致错误，将被忽略。

返回表格数据集形式的中间数据。

返回类型

PipelineOutputTabularDataset

注解

仅当中间数据用作后续步骤的输入时，才会应用此转换。即使将它传递给输出，也不会对输出产生影响。

通过

PipelineOutputFileDataset 类

构造函数

参数

方法

as_direct

返回

返回类型

as_download

参数

返回

返回类型

as_mount

参数

返回

返回类型

parse_delimited_files

参数

返回

返回类型

注解

parse_parquet_files

参数

返回

返回类型

注解

反馈

反馈

其他资源