PipelineOutputFileDataset 类

表示提升为 Azure 机器学习文件数据集的中间管道数据。

将某个中间数据提升为 Azure 机器学习数据集后,还可以在后续步骤中将它用作数据集而不是 DataReference。

创建将提升为 Azure 机器学习数据集的中间数据。

继承
PipelineOutputFileDataset

构造函数

PipelineOutputFileDataset(pipeline_data)

参数

pipeline_data
PipelineData
必需

表示将提升为数据集的中间输出的 PipelineData。

pipeline_data
PipelineData
必需

表示将提升为数据集的中间输出的 PipelineData。

方法

as_direct

将输入数据集的使用模式设置为直接。

在此模式下,你将获取数据集的 ID,并可以在脚本中调用 Dataset.get_by_id 来检索数据集。 run.input_datasets['{dataset_name}'] 将返回数据集。

as_download

将数据集的使用模式设置为下载。

as_mount

将数据集的使用模式设置为装载。

parse_delimited_files

将中间文件数据集转换为表格数据集。

表格数据集是通过分析中间输出指向的分隔文件创建的。

parse_parquet_files

将中间文件数据集转换为表格数据集。

表格数据集是通过分析中间输出指向的 parquet 文件创建的。

as_direct

将输入数据集的使用模式设置为直接。

在此模式下,你将获取数据集的 ID,并可以在脚本中调用 Dataset.get_by_id 来检索数据集。 run.input_datasets['{dataset_name}'] 将返回数据集。

as_direct()

返回

修改的 PipelineOutputDataset。

返回类型

as_download

将数据集的使用模式设置为下载。

as_download(path_on_compute=None)

参数

path_on_compute
str
默认值: None

要将数据集下载到的计算的路径。 默认值为 None,表示 Azure 机器学习将为你选择一个路径。

返回

修改的 PipelineOutputDataset。

返回类型

as_mount

将数据集的使用模式设置为装载。

as_mount(path_on_compute=None)

参数

path_on_compute
str
默认值: None

要将数据集装载到的计算的路径。 默认值为 None,表示 Azure 机器学习将为你选择一个路径。

返回

修改的 PipelineOutputDataset。

返回类型

parse_delimited_files

将中间文件数据集转换为表格数据集。

表格数据集是通过分析中间输出指向的分隔文件创建的。

parse_delimited_files(include_path=False, separator=',', header=PromoteHeadersBehavior.ALL_FILES_HAVE_SAME_HEADERS, partition_format=None, file_extension='', set_column_types=None, quoted_line_breaks=False)

参数

include_path
bool
默认值: False

将路径信息保留为数据集中的列的布尔值。 默认为 False。 在读取多个文件,并且想要知道特定记录源自哪个文件,或者想要在文件路径中保留有用的信息时,这非常有用。

separator
str
默认值: ,

用于拆分列的分隔符。

header
PromoteHeadersBehavior
默认值: PromoteHeadersBehavior.ALL_FILES_HAVE_SAME_HEADERS

控制在读取文件时如何提升列标题。 默认假定所有文件都具有相同的标题。

partition_format
str
默认值: None

指定路径的分区格式。 默认值为“None”。 将会基于指定的格式将每个路径的分区信息提取到列中。 格式部分“{column_name}”创建字符串列,“{column_name:yyyy/MM/dd/HH/mm/ss}”创建日期/时间列,其中“yyyy”、“MM”、“dd”、“HH”、“mm”和“ss”分别用于提取日期/时间类型的年、月、日、小时、分钟和秒。 格式应从文件路径结束之前的第一个分区键位置开始。 例如,给定路径“../Accounts/2019/01/01/data.csv”,其中分区是按部门名称和时间划分的;partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.csv' 具有值为“Accounts”的“Department”和值为“2019-01-01”的日期/时间列“PartitionDate”。

file_extension
str
必需

要读取的文件的文件扩展名。 只会从目录中读取具有此扩展名的文件。 当分隔符为“,”时,默认值为“.csv”;当分隔符为制表符时,默认值为“.tsv”;否则为 None。 如果传递了 None,则读取所有文件,而不管其扩展名如何(或缺少扩展名)。

set_column_types
dict[str, DataType]
默认值: None

用于设置列数据类型的字典,其中键是列名称,值为 DataType。 不在字典中的列将保留为字符串类型。 传递 None 将导致不进行转换。 源数据中找不到的列的条目不会导致错误,将被忽略。

quoted_line_breaks
bool
默认值: False

指定如何处理引号中的新行字符。 此选项可能会影响性能。

返回

返回表格数据集形式的中间数据。

返回类型

注解

仅当中间数据用作后续步骤的输入时,才会应用此转换。 即使将它传递给输出,也不会对输出产生影响。

parse_parquet_files

将中间文件数据集转换为表格数据集。

表格数据集是通过分析中间输出指向的 parquet 文件创建的。

parse_parquet_files(include_path=False, partition_format=None, file_extension='.parquet', set_column_types=None)

参数

include_path
bool
默认值: False

将路径信息保留为数据集中的列的布尔值。 默认为 False。 在读取多个文件,并且想要知道特定记录源自哪个文件,或者想要在文件路径中保留有用的信息时,这非常有用。

partition_format
str
默认值: None

指定路径的分区格式。 默认值为“None”。 将会基于指定的格式将每个路径的分区信息提取到列中。 格式部分“{column_name}”创建字符串列,“{column_name:yyyy/MM/dd/HH/mm/ss}”创建日期/时间列,其中“yyyy”、“MM”、“dd”、“HH”、“mm”和“ss”分别用于提取日期/时间类型的年、月、日、小时、分钟和秒。 格式应从文件路径结束之前的第一个分区键位置开始。 例如,给定路径“../Accounts/2019/01/01/data.parquet”,其中分区是按部门名称和时间划分的;partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet' 创建值为“Accounts”的字符串列“Department”和值为“2019-01-01”的日期/时间列“PartitionDate”。

file_extension
str
默认值: .parquet

要读取的文件的文件扩展名。 只会从目录中读取具有此扩展名的文件。 默认值为“.parquet”。 如果将其设置为 None,则读取所有文件,而不管其扩展名如何(或缺少扩展名)。

set_column_types
dict[str, DataType]
默认值: None

用于设置列数据类型的字典,其中键是列名称,值为 DataType。 不在字典中的列将保持从 parquet 文件加载的类型。 传递 None 将导致不进行转换。 源数据中找不到的列的条目不会导致错误,将被忽略。

返回

返回表格数据集形式的中间数据。

返回类型

注解

仅当中间数据用作后续步骤的输入时,才会应用此转换。 即使将它传递给输出,也不会对输出产生影响。