DatasetDefinition 类

定义一系列步骤,用于指定如何读取和转换数据集中的数据。

注意

此类已弃用。 有关详细信息,请参阅 https://aka.ms/dataset-deprecation

在 Azure 机器学习工作区中注册的数据集可以有多个定义,每个定义是通过调用 update_definition 创建的。 每个定义都具有唯一的标识符。 当前定义是最新创建的定义。

对于未注册的数据集,仅存在一个定义。

数据集定义支持针对 <xref:azureml.dataprep.Dataflow> 类列出的所有转换:请参阅 http://aka.ms/azureml/howto/transformdata。 若要详细了解数据集定义,请转到 https://aka.ms/azureml/howto/versiondata

初始化 Dataset 定义对象。

继承
azureml.dataprep.api.engineless_dataflow.EnginelessDataflow
DatasetDefinition

构造函数

DatasetDefinition(workspace=None, dataset_id=None, version_id=None, dataflow=None, dataflow_json=None, notes=None, etag=None, created_time=None, modified_time=None, state=None, deprecated_by_dataset_id=None, deprecated_by_definition_version=None, data_path=None, dataset=None, file_type='Unknown')

参数

名称 说明
workspace
必需
str

数据集注册到的工作区。

dataset_id
必需
str

数据集标识符。

version_id
必需
str

定义版本。

dataflow
必需
str

数据流对象。

dataflow_json
必需

数据流 json。

notes
必需
str

有关定义的可选信息。

etag
必需
str

Etag。

created_time
必需

定义的创建时间。

modified_time
必需

定义的上次修改时间。

deprecated_by_dataset_id
必需
str

弃用此定义的数据集的 ID。

deprecated_by_definition_version
必需
str

弃用此定义的定义的版本。

data_path
必需

数据路径。

dataset
必需

父数据集对象。

方法

archive

存档数据集定义。

create_snapshot

创建已注册数据集的快照。

deprecate

使用指向新数据集的指针弃用某个数据集。

reactivate

重新激活数据集定义。

适用于已弃用或存档的数据集定义。

to_pandas_dataframe

通过执行此数据集定义所定义的转换管道来创建 Pandas 数据帧。

to_spark_dataframe

创建可执行此数据流定义的转换管道的 Spark 数据帧。

archive

存档数据集定义。

archive()

返回

类型 说明

无。

注解

存档后,尝试检索数据集会导致出错。 如果意外存档了数据集定义,请使用 reactivate 激活它。

create_snapshot

创建已注册数据集的快照。

create_snapshot(snapshot_name, compute_target=None, create_data_snapshot=False, target_datastore=None)

参数

名称 说明
snapshot_name
必需
str

快照名称。 快照名称在数据集中应是唯一的。

compute_target

用于执行快照配置文件创建操作的计算目标。 如果省略,则使用本地计算。

默认值: None
create_data_snapshot

如果为 True,则创建数据的具体化副本。

默认值: False
target_datastore

要将快照保存到的目标数据存储。 如果省略,将在工作区的默认存储中创建快照。

默认值: None

返回

类型 说明

DatasetSnapshot 对象。

注解

快照捕获基础数据的时间点摘要统计信息和数据本身的可选副本。 若要详细了解如何创建快照,请转到 https://aka.ms/azureml/howto/createsnapshots

deprecate

使用指向新数据集的指针弃用某个数据集。

deprecate(deprecate_by_dataset_id, deprecated_by_definition_version=None)

参数

名称 说明
deprecate_by_dataset_id
必需

导致弃用当前数据集的数据集 ID。

deprecated_by_definition_version
str

导致弃用当前数据集定义的数据集定义版本。

默认值: None

返回

类型 说明

无。

注解

使用已弃用的数据集定义时记录警告。 若要完全阻止使用某个数据集定义,请将其存档。

如果意外弃用了某个数据集定义,请使用 reactivate 激活它。

reactivate

重新激活数据集定义。

适用于已弃用或存档的数据集定义。

reactivate()

返回

类型 说明

无。

to_pandas_dataframe

通过执行此数据集定义所定义的转换管道来创建 Pandas 数据帧。

to_pandas_dataframe()

返回

类型 说明

Pandas DataFrame。

注解

在内存中返回完全具体化的 Pandas DataFrame。

to_spark_dataframe

创建可执行此数据流定义的转换管道的 Spark 数据帧。

to_spark_dataframe()

返回

类型 说明

Spark DataFrame。

注解

Spark Dataframe 返回的只是一个执行计划,并不实际包含任何数据,因为 Spark Dataframe 是被延迟计算的。