DatasetDefinition 类
定义一系列步骤,用于指定如何读取和转换数据集中的数据。
注意
此类已弃用。 有关详细信息,请参阅 https://aka.ms/dataset-deprecation。
在 Azure 机器学习工作区中注册的数据集可以有多个定义,每个定义是通过调用 update_definition 创建的。 每个定义都具有唯一的标识符。 当前定义是最新创建的定义。
对于未注册的数据集,仅存在一个定义。
数据集定义支持针对 <xref:azureml.dataprep.Dataflow> 类列出的所有转换:请参阅 http://aka.ms/azureml/howto/transformdata。 若要详细了解数据集定义,请转到 https://aka.ms/azureml/howto/versiondata。
初始化 Dataset 定义对象。
- 继承
-
azureml.dataprep.api.engineless_dataflow.EnginelessDataflowDatasetDefinition
构造函数
DatasetDefinition(workspace=None, dataset_id=None, version_id=None, dataflow=None, dataflow_json=None, notes=None, etag=None, created_time=None, modified_time=None, state=None, deprecated_by_dataset_id=None, deprecated_by_definition_version=None, data_path=None, dataset=None, file_type='Unknown')
参数
- dataflow_json
数据流 json。
方法
archive |
存档数据集定义。 |
create_snapshot |
创建已注册数据集的快照。 |
deprecate |
使用指向新数据集的指针弃用某个数据集。 |
reactivate |
重新激活数据集定义。 适用于已弃用或存档的数据集定义。 |
to_pandas_dataframe |
通过执行此数据集定义所定义的转换管道来创建 Pandas 数据帧。 |
to_spark_dataframe |
创建可执行此数据流定义的转换管道的 Spark 数据帧。 |
archive
create_snapshot
创建已注册数据集的快照。
create_snapshot(snapshot_name, compute_target=None, create_data_snapshot=False, target_datastore=None)
参数
- target_datastore
- Union[AbstractAzureStorageDatastore, str]
要将快照保存到的目标数据存储。 如果省略,将在工作区的默认存储中创建快照。
返回
DatasetSnapshot 对象。
返回类型
注解
快照捕获基础数据的时间点摘要统计信息和数据本身的可选副本。 若要详细了解如何创建快照,请转到 https://aka.ms/azureml/howto/createsnapshots。
deprecate
使用指向新数据集的指针弃用某个数据集。
deprecate(deprecate_by_dataset_id, deprecated_by_definition_version=None)
参数
返回
无。
返回类型
注解
使用已弃用的数据集定义时记录警告。 若要完全阻止使用某个数据集定义,请将其存档。
如果意外弃用了某个数据集定义,请使用 reactivate 激活它。
reactivate
to_pandas_dataframe
通过执行此数据集定义所定义的转换管道来创建 Pandas 数据帧。
to_pandas_dataframe()
返回
Pandas DataFrame。
返回类型
注解
在内存中返回完全具体化的 Pandas DataFrame。
to_spark_dataframe
创建可执行此数据流定义的转换管道的 Spark 数据帧。
to_spark_dataframe()
返回
Spark DataFrame。
返回类型
注解
Spark Dataframe 返回的只是一个执行计划,并不实际包含任何数据,因为 Spark Dataframe 是被延迟计算的。
反馈
https://aka.ms/ContentUserFeedback。
即将发布:在整个 2024 年,我们将逐步淘汰作为内容反馈机制的“GitHub 问题”,并将其取代为新的反馈系统。 有关详细信息,请参阅:提交和查看相关反馈