DatasetDefinition 类
定义一系列步骤,用于指定如何读取和转换数据集中的数据。
注意
此类已弃用。 有关详细信息,请参阅 https://aka.ms/dataset-deprecation。
在 Azure 机器学习工作区中注册的数据集可以有多个定义,每个定义是通过调用 update_definition 创建的。 每个定义都具有唯一的标识符。 当前定义是最新创建的定义。
对于未注册的数据集,仅存在一个定义。
数据集定义支持针对 <xref:azureml.dataprep.Dataflow> 类列出的所有转换:请参阅 http://aka.ms/azureml/howto/transformdata。 若要详细了解数据集定义,请转到 https://aka.ms/azureml/howto/versiondata。
初始化 Dataset 定义对象。
- 继承
-
azureml.dataprep.api.engineless_dataflow.EnginelessDataflowDatasetDefinition
构造函数
DatasetDefinition(workspace=None, dataset_id=None, version_id=None, dataflow=None, dataflow_json=None, notes=None, etag=None, created_time=None, modified_time=None, state=None, deprecated_by_dataset_id=None, deprecated_by_definition_version=None, data_path=None, dataset=None, file_type='Unknown')
参数
名称 | 说明 |
---|---|
workspace
必需
|
数据集注册到的工作区。 |
dataset_id
必需
|
数据集标识符。 |
version_id
必需
|
定义版本。 |
dataflow
必需
|
数据流对象。 |
dataflow_json
必需
|
数据流 json。 |
notes
必需
|
有关定义的可选信息。 |
etag
必需
|
Etag。 |
created_time
必需
|
定义的创建时间。 |
modified_time
必需
|
定义的上次修改时间。 |
deprecated_by_dataset_id
必需
|
弃用此定义的数据集的 ID。 |
deprecated_by_definition_version
必需
|
弃用此定义的定义的版本。 |
data_path
必需
|
数据路径。 |
dataset
必需
|
父数据集对象。 |
方法
archive |
存档数据集定义。 |
create_snapshot |
创建已注册数据集的快照。 |
deprecate |
使用指向新数据集的指针弃用某个数据集。 |
reactivate |
重新激活数据集定义。 适用于已弃用或存档的数据集定义。 |
to_pandas_dataframe |
通过执行此数据集定义所定义的转换管道来创建 Pandas 数据帧。 |
to_spark_dataframe |
创建可执行此数据流定义的转换管道的 Spark 数据帧。 |
archive
create_snapshot
创建已注册数据集的快照。
create_snapshot(snapshot_name, compute_target=None, create_data_snapshot=False, target_datastore=None)
参数
名称 | 说明 |
---|---|
snapshot_name
必需
|
快照名称。 快照名称在数据集中应是唯一的。 |
compute_target
|
用于执行快照配置文件创建操作的计算目标。 如果省略,则使用本地计算。 默认值: None
|
create_data_snapshot
|
如果为 True,则创建数据的具体化副本。 默认值: False
|
target_datastore
|
要将快照保存到的目标数据存储。 如果省略,将在工作区的默认存储中创建快照。 默认值: None
|
返回
类型 | 说明 |
---|---|
DatasetSnapshot 对象。 |
注解
快照捕获基础数据的时间点摘要统计信息和数据本身的可选副本。 若要详细了解如何创建快照,请转到 https://aka.ms/azureml/howto/createsnapshots。
deprecate
使用指向新数据集的指针弃用某个数据集。
deprecate(deprecate_by_dataset_id, deprecated_by_definition_version=None)
参数
名称 | 说明 |
---|---|
deprecate_by_dataset_id
必需
|
导致弃用当前数据集的数据集 ID。 |
deprecated_by_definition_version
|
导致弃用当前数据集定义的数据集定义版本。 默认值: None
|
返回
类型 | 说明 |
---|---|
无。 |
注解
使用已弃用的数据集定义时记录警告。 若要完全阻止使用某个数据集定义,请将其存档。
如果意外弃用了某个数据集定义,请使用 reactivate 激活它。
reactivate
to_pandas_dataframe
通过执行此数据集定义所定义的转换管道来创建 Pandas 数据帧。
to_pandas_dataframe()
返回
类型 | 说明 |
---|---|
Pandas DataFrame。 |
注解
在内存中返回完全具体化的 Pandas DataFrame。
to_spark_dataframe
创建可执行此数据流定义的转换管道的 Spark 数据帧。
to_spark_dataframe()
返回
类型 | 说明 |
---|---|
Spark DataFrame。 |
注解
Spark Dataframe 返回的只是一个执行计划,并不实际包含任何数据,因为 Spark Dataframe 是被延迟计算的。