AbstractDataset 类

Azure 机器学习中的数据集的基类。

请引用 TabularDatasetFactory 类和 FileDatasetFactory 类以创建数据集的实例。

类 AbstractDataset 构造函数。

不应直接调用此构造函数。 数据集旨在使用 TabularDatasetFactory 类和 FileDatasetFactory 类创建。

继承
builtins.object
AbstractDataset

构造函数

AbstractDataset()

方法

add_tags

将键值对添加到此数据集的标记字典。

as_named_input

为此数据集提供一个名称,该名称将用于检索运行中的具体化数据集。

get_all

获取工作区中所有已注册的数据集。

get_by_id

获取保存到工作区的 Dataset。

get_by_name

按注册名称从工作区获取已注册的数据集。

get_partition_key_values

返回 partition_keys 的唯一键值。

验证 partition_keys 是否是完整分区键集的有效子集,返回 partition_keys 的唯一键值,默认通过采用此数据集的完整分区键集返回唯一键组合(如果 partition_keys 为 None)


   # get all partition key value pairs
   partitions = ds.get_partition_key_values()
   # Return [{'country': 'US', 'state': 'WA', 'partition_date': datetime('2020-1-1')}]

   partitions = ds.get_partition_key_values(['country'])
   # Return [{'country': 'US'}]
register

将数据集注册到提供的工作区。

remove_tags

从此数据集的标记字典中删除指定的键。

unregister_all_versions

从工作区中注销此数据集的注册名称下的所有版本。

update

对数据集执行就地更新。

add_tags

将键值对添加到此数据集的标记字典。

add_tags(tags=None)

参数

名称 说明
tags
必需

要添加的标记字典。

返回

类型 说明

已更新的数据集对象。

as_named_input

为此数据集提供一个名称,该名称将用于检索运行中的具体化数据集。

as_named_input(name)

参数

名称 说明
name
必需
str

运行的数据集的名称。

返回

类型 说明

描述如何在运行中具体化数据集的配置对象。

注解

此处的名称仅在 Azure 机器学习运行内适用。 名称必须仅包含字母数字和下划线字符,以便可以用作环境变量。 可以使用此名称通过两种方法在运行的上下文中检索数据集:

  • 环境变量:

    名称将是环境变量名称,并且具体化数据集将可用作环境变量的值。 如果已下载或已装载数据集,则值将是已下载/已装载的路径。 例如:


   # in your job submission notebook/script:
   dataset.as_named_input('foo').as_download('/tmp/dataset')

   # in the script that will be executed in the run
   import os
   path = os.environ['foo'] # path will be /tmp/dataset

注意

如果数据集设置为直接模式,则值将是数据集 ID。 然后,可以

通过 Dataset.get_by_id(os.environ['foo']) 检索数据集对象

  • Run.input_datasets:

    这是一个字典,其中键将是在此方法中指定的数据集名称,值将是具体化数据集。 对于已下载和已装载的数据集,值将是已下载/已装载的路径。 对于直接模式,值将是作业提交脚本中指定的同一数据集对象。


   # in your job submission notebook/script:
   dataset.as_named_input('foo') # direct mode

   # in the script that will be executed in the run
   run = Run.get_context()
   run.input_datasets['foo'] # this returns the dataset object from above.

get_all

获取工作区中所有已注册的数据集。

static get_all(workspace)

参数

名称 说明
workspace
必需

注册数据集的现有 AzureML 工作区。

返回

类型 说明

以其注册名称作为键的 TabularDataset 和 FileDataset 对象的字典。

get_by_id

获取保存到工作区的 Dataset。

static get_by_id(workspace, id, **kwargs)

参数

名称 说明
workspace
必需

保存数据集的现有 AzureML 工作区。

id
必需
str

数据集的 ID。

返回

类型 说明

数据集对象。 如果注册了数据集,则还将返回其注册名称和版本。

get_by_name

按注册名称从工作区获取已注册的数据集。

static get_by_name(workspace, name, version='latest', **kwargs)

参数

名称 说明
workspace
必需

在其中注册了 Dataset 的现有 AzureML 工作区。

name
必需
str

注册名称。

version
必需
int

注册版本。 默认为“最新”。

返回

类型 说明

已注册的数据集对象。

get_partition_key_values

返回 partition_keys 的唯一键值。

验证 partition_keys 是否是完整分区键集的有效子集,返回 partition_keys 的唯一键值,默认通过采用此数据集的完整分区键集返回唯一键组合(如果 partition_keys 为 None)


   # get all partition key value pairs
   partitions = ds.get_partition_key_values()
   # Return [{'country': 'US', 'state': 'WA', 'partition_date': datetime('2020-1-1')}]

   partitions = ds.get_partition_key_values(['country'])
   # Return [{'country': 'US'}]
get_partition_key_values(partition_keys=None)

参数

名称 说明
partition_keys
必需

分区键

register

将数据集注册到提供的工作区。

register(workspace, name, description=None, tags=None, create_new_version=False)

参数

名称 说明
workspace
必需

要注册数据集的工作区。

name
必需
str

注册数据集所用的名称。

description
必需
str

数据集的文本说明。 默认为“无”。

tags
必需

提供数据集的键值标记的字典。 默认为“无”。

create_new_version
必需

用于将数据集注册为指定名称下的新版本的布尔值。

返回

类型 说明

已注册的数据集对象。

remove_tags

从此数据集的标记字典中删除指定的键。

remove_tags(tags=None)

参数

名称 说明
tags
必需

要删除的键的列表。

返回

类型 说明

已更新的数据集对象。

unregister_all_versions

从工作区中注销此数据集的注册名称下的所有版本。

unregister_all_versions()

注解

该操作不会更改任何源数据。

update

对数据集执行就地更新。

update(description=None, tags=None)

参数

名称 说明
description
必需
str

用于数据集的新说明。 此说明将替换现有说明。 默认为现有说明。 若要清除说明,请输入空字符串。

tags
必需

用于更新数据集的标记的字典。 这些标记将替换数据集的现有标记。 默认为现有标记。 若要清除标记,请输入空字典。

返回

类型 说明

已更新的数据集对象。

属性

data_changed_time

返回源数据更改时间。

返回

类型 说明

源数据发生最新更改的时间。

注解

数据更改时间适用于基于文件的数据源。 如果发生更改时不支持检查数据源,则不会返回任何数据。

description

返回注册说明。

返回

类型 说明
str

数据集说明。

id

返回数据集的标识符。

返回

类型 说明
str

数据集 ID。如果数据集未保存到任何工作区,则 ID 将为“无”。

name

返回注册名称。

返回

类型 说明
str

数据集名称。

partition_keys

返回分区键。

返回

类型 说明

分区键

tags

返回注册标记。

返回

类型 说明
str

数据集标记。

version

返回注册版本。

返回

类型 说明
int

数据集版本。