AbstractDataset 类
Azure 机器学习中的数据集的基类。
请引用 TabularDatasetFactory 类和 FileDatasetFactory 类以创建数据集的实例。
类 AbstractDataset 构造函数。
不应直接调用此构造函数。 数据集旨在使用 TabularDatasetFactory 类和 FileDatasetFactory 类创建。
- 继承
-
builtins.objectAbstractDataset
构造函数
AbstractDataset()
方法
add_tags |
将键值对添加到此数据集的标记字典。 |
as_named_input |
为此数据集提供一个名称,该名称将用于检索运行中的具体化数据集。 |
get_all |
获取工作区中所有已注册的数据集。 |
get_by_id |
获取保存到工作区的 Dataset。 |
get_by_name |
按注册名称从工作区获取已注册的数据集。 |
get_partition_key_values |
返回 partition_keys 的唯一键值。 验证 partition_keys 是否是完整分区键集的有效子集,返回 partition_keys 的唯一键值,默认通过采用此数据集的完整分区键集返回唯一键组合(如果 partition_keys 为 None)
|
register |
将数据集注册到提供的工作区。 |
remove_tags |
从此数据集的标记字典中删除指定的键。 |
unregister_all_versions |
从工作区中注销此数据集的注册名称下的所有版本。 |
update |
对数据集执行就地更新。 |
add_tags
将键值对添加到此数据集的标记字典。
add_tags(tags=None)
参数
名称 | 说明 |
---|---|
tags
必需
|
要添加的标记字典。 |
返回
类型 | 说明 |
---|---|
已更新的数据集对象。 |
as_named_input
为此数据集提供一个名称,该名称将用于检索运行中的具体化数据集。
as_named_input(name)
参数
名称 | 说明 |
---|---|
name
必需
|
运行的数据集的名称。 |
返回
类型 | 说明 |
---|---|
描述如何在运行中具体化数据集的配置对象。 |
注解
此处的名称仅在 Azure 机器学习运行内适用。 名称必须仅包含字母数字和下划线字符,以便可以用作环境变量。 可以使用此名称通过两种方法在运行的上下文中检索数据集:
环境变量:
名称将是环境变量名称,并且具体化数据集将可用作环境变量的值。 如果已下载或已装载数据集,则值将是已下载/已装载的路径。 例如:
# in your job submission notebook/script:
dataset.as_named_input('foo').as_download('/tmp/dataset')
# in the script that will be executed in the run
import os
path = os.environ['foo'] # path will be /tmp/dataset
注意
如果数据集设置为直接模式,则值将是数据集 ID。 然后,可以
通过 Dataset.get_by_id(os.environ['foo']) 检索数据集对象
Run.input_datasets:
这是一个字典,其中键将是在此方法中指定的数据集名称,值将是具体化数据集。 对于已下载和已装载的数据集,值将是已下载/已装载的路径。 对于直接模式,值将是作业提交脚本中指定的同一数据集对象。
# in your job submission notebook/script:
dataset.as_named_input('foo') # direct mode
# in the script that will be executed in the run
run = Run.get_context()
run.input_datasets['foo'] # this returns the dataset object from above.
get_all
获取工作区中所有已注册的数据集。
static get_all(workspace)
参数
名称 | 说明 |
---|---|
workspace
必需
|
注册数据集的现有 AzureML 工作区。 |
返回
类型 | 说明 |
---|---|
以其注册名称作为键的 TabularDataset 和 FileDataset 对象的字典。 |
get_by_id
获取保存到工作区的 Dataset。
static get_by_id(workspace, id, **kwargs)
参数
名称 | 说明 |
---|---|
workspace
必需
|
保存数据集的现有 AzureML 工作区。 |
id
必需
|
数据集的 ID。 |
返回
类型 | 说明 |
---|---|
数据集对象。 如果注册了数据集,则还将返回其注册名称和版本。 |
get_by_name
按注册名称从工作区获取已注册的数据集。
static get_by_name(workspace, name, version='latest', **kwargs)
参数
名称 | 说明 |
---|---|
workspace
必需
|
在其中注册了 Dataset 的现有 AzureML 工作区。 |
name
必需
|
注册名称。 |
version
必需
|
注册版本。 默认为“最新”。 |
返回
类型 | 说明 |
---|---|
已注册的数据集对象。 |
get_partition_key_values
返回 partition_keys 的唯一键值。
验证 partition_keys 是否是完整分区键集的有效子集,返回 partition_keys 的唯一键值,默认通过采用此数据集的完整分区键集返回唯一键组合(如果 partition_keys 为 None)
# get all partition key value pairs
partitions = ds.get_partition_key_values()
# Return [{'country': 'US', 'state': 'WA', 'partition_date': datetime('2020-1-1')}]
partitions = ds.get_partition_key_values(['country'])
# Return [{'country': 'US'}]
get_partition_key_values(partition_keys=None)
参数
名称 | 说明 |
---|---|
partition_keys
必需
|
分区键 |
register
将数据集注册到提供的工作区。
register(workspace, name, description=None, tags=None, create_new_version=False)
参数
名称 | 说明 |
---|---|
workspace
必需
|
要注册数据集的工作区。 |
name
必需
|
注册数据集所用的名称。 |
description
必需
|
数据集的文本说明。 默认为“无”。 |
tags
必需
|
提供数据集的键值标记的字典。 默认为“无”。 |
create_new_version
必需
|
用于将数据集注册为指定名称下的新版本的布尔值。 |
返回
类型 | 说明 |
---|---|
已注册的数据集对象。 |
remove_tags
从此数据集的标记字典中删除指定的键。
remove_tags(tags=None)
参数
名称 | 说明 |
---|---|
tags
必需
|
要删除的键的列表。 |
返回
类型 | 说明 |
---|---|
已更新的数据集对象。 |
unregister_all_versions
从工作区中注销此数据集的注册名称下的所有版本。
unregister_all_versions()
注解
该操作不会更改任何源数据。
update
对数据集执行就地更新。
update(description=None, tags=None)
参数
名称 | 说明 |
---|---|
description
必需
|
用于数据集的新说明。 此说明将替换现有说明。 默认为现有说明。 若要清除说明,请输入空字符串。 |
tags
必需
|
用于更新数据集的标记的字典。 这些标记将替换数据集的现有标记。 默认为现有标记。 若要清除标记,请输入空字典。 |
返回
类型 | 说明 |
---|---|
已更新的数据集对象。 |