PipelineOutputFileDataset 类
表示提升为 Azure 机器学习文件数据集的中间管道数据。
将某个中间数据提升为 Azure 机器学习数据集后,还可以在后续步骤中将它用作数据集而不是 DataReference。
创建将提升为 Azure 机器学习数据集的中间数据。
- 继承
-
PipelineOutputFileDataset
构造函数
PipelineOutputFileDataset(pipeline_data)
参数
方法
as_direct |
将输入数据集的使用模式设置为直接。 在此模式下,你将获取数据集的 ID,并可以在脚本中调用 Dataset.get_by_id 来检索数据集。 run.input_datasets['{dataset_name}'] 将返回数据集。 |
as_download |
将数据集的使用模式设置为下载。 |
as_mount |
将数据集的使用模式设置为装载。 |
parse_delimited_files |
将中间文件数据集转换为表格数据集。 表格数据集是通过分析中间输出指向的分隔文件创建的。 |
parse_parquet_files |
将中间文件数据集转换为表格数据集。 表格数据集是通过分析中间输出指向的 parquet 文件创建的。 |
as_direct
将输入数据集的使用模式设置为直接。
在此模式下,你将获取数据集的 ID,并可以在脚本中调用 Dataset.get_by_id 来检索数据集。 run.input_datasets['{dataset_name}'] 将返回数据集。
as_direct()
返回
修改的 PipelineOutputDataset。
返回类型
as_download
将数据集的使用模式设置为下载。
as_download(path_on_compute=None)
参数
返回
修改的 PipelineOutputDataset。
返回类型
as_mount
将数据集的使用模式设置为装载。
as_mount(path_on_compute=None)
参数
返回
修改的 PipelineOutputDataset。
返回类型
parse_delimited_files
将中间文件数据集转换为表格数据集。
表格数据集是通过分析中间输出指向的分隔文件创建的。
parse_delimited_files(include_path=False, separator=',', header=PromoteHeadersBehavior.ALL_FILES_HAVE_SAME_HEADERS, partition_format=None, file_extension='', set_column_types=None, quoted_line_breaks=False)
参数
- include_path
- bool
将路径信息保留为数据集中的列的布尔值。 默认为 False。 在读取多个文件,并且想要知道特定记录源自哪个文件,或者想要在文件路径中保留有用的信息时,这非常有用。
- header
- PromoteHeadersBehavior
控制在读取文件时如何提升列标题。 默认假定所有文件都具有相同的标题。
- partition_format
- str
指定路径的分区格式。 默认值为“None”。 将会基于指定的格式将每个路径的分区信息提取到列中。 格式部分“{column_name}”创建字符串列,“{column_name:yyyy/MM/dd/HH/mm/ss}”创建日期/时间列,其中“yyyy”、“MM”、“dd”、“HH”、“mm”和“ss”分别用于提取日期/时间类型的年、月、日、小时、分钟和秒。 格式应从文件路径结束之前的第一个分区键位置开始。 例如,给定路径“../Accounts/2019/01/01/data.csv”,其中分区是按部门名称和时间划分的;partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.csv' 具有值为“Accounts”的“Department”和值为“2019-01-01”的日期/时间列“PartitionDate”。
- file_extension
- str
要读取的文件的文件扩展名。 只会从目录中读取具有此扩展名的文件。 当分隔符为“,”时,默认值为“.csv”;当分隔符为制表符时,默认值为“.tsv”;否则为 None。 如果传递了 None,则读取所有文件,而不管其扩展名如何(或缺少扩展名)。
用于设置列数据类型的字典,其中键是列名称,值为 DataType。 不在字典中的列将保留为字符串类型。 传递 None 将导致不进行转换。 源数据中找不到的列的条目不会导致错误,将被忽略。
返回
返回表格数据集形式的中间数据。
返回类型
注解
仅当中间数据用作后续步骤的输入时,才会应用此转换。 即使将它传递给输出,也不会对输出产生影响。
parse_parquet_files
将中间文件数据集转换为表格数据集。
表格数据集是通过分析中间输出指向的 parquet 文件创建的。
parse_parquet_files(include_path=False, partition_format=None, file_extension='.parquet', set_column_types=None)
参数
- include_path
- bool
将路径信息保留为数据集中的列的布尔值。 默认为 False。 在读取多个文件,并且想要知道特定记录源自哪个文件,或者想要在文件路径中保留有用的信息时,这非常有用。
- partition_format
- str
指定路径的分区格式。 默认值为“None”。 将会基于指定的格式将每个路径的分区信息提取到列中。 格式部分“{column_name}”创建字符串列,“{column_name:yyyy/MM/dd/HH/mm/ss}”创建日期/时间列,其中“yyyy”、“MM”、“dd”、“HH”、“mm”和“ss”分别用于提取日期/时间类型的年、月、日、小时、分钟和秒。 格式应从文件路径结束之前的第一个分区键位置开始。 例如,给定路径“../Accounts/2019/01/01/data.parquet”,其中分区是按部门名称和时间划分的;partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet' 创建值为“Accounts”的字符串列“Department”和值为“2019-01-01”的日期/时间列“PartitionDate”。
- file_extension
- str
要读取的文件的文件扩展名。 只会从目录中读取具有此扩展名的文件。 默认值为“.parquet”。 如果将其设置为 None,则读取所有文件,而不管其扩展名如何(或缺少扩展名)。
用于设置列数据类型的字典,其中键是列名称,值为 DataType。 不在字典中的列将保持从 parquet 文件加载的类型。 传递 None 将导致不进行转换。 源数据中找不到的列的条目不会导致错误,将被忽略。
返回
返回表格数据集形式的中间数据。
返回类型
注解
仅当中间数据用作后续步骤的输入时,才会应用此转换。 即使将它传递给输出,也不会对输出产生影响。
反馈
https://aka.ms/ContentUserFeedback。
即将发布:在整个 2024 年,我们将逐步淘汰作为内容反馈机制的“GitHub 问题”,并将其取代为新的反馈系统。 有关详细信息,请参阅:提交和查看相关反馈