DatasetSnapshot 类

参考

使用操作管理数据集快照以获取快照，返回其状态，并将其转换为数据帧。

注意

此类已弃用。有关详细信息，请参阅 https://aka.ms/dataset-deprecation。

从 Dataset 类的方法 create_snapshot 返回 DataSnapshot 对象。

数据集快照是配置文件和数据可选具体化副本的组合。

若要详细了解数据集快照，请转到 https://aka.ms/azureml/howto/createsnapshots

继承: builtins.object

DatasetSnapshot

构造函数

DatasetSnapshot(workspace, snapshot_name, dataset_id, definition_version=None, time_stamp=None, profile_action_id=None, datastore_name=None, relative_path=None, dataset_name=None)

参数

名称	说明
workspace 必需	<xref:azureml.core.Workspace.> 数据集注册到的工作区。
snapshot_name 必需	str 数据集快照的名称。
dataset_id 必需	str 返回数据集的标识符。
definition_version 必需	str 数据集的定义版本。
time_stamp 必需	datetime 快照创建时间。
profile_action_id 必需	str 快照配置文件操作 ID。
datastore_name 必需	str 快照数据存储名称。
relative_path 必需	str 快照数据的相对路径。
dataset_name 必需	str 数据集的名称。

方法

compare_profiles	将当前数据集配置文件与 rhs_dataset 配置文件进行比较。如果配置文件不存在，则此方法将引发异常。
get	按快照名称获取数据集的快照。
get_all	获取给定数据集的所有快照。
get_profile	获取数据集快照的配置文件。
get_status	获取数据集快照创建状态。
is_data_snapshot_available	检查快照的具体化副本是否可用。
to_pandas_dataframe	通过加载随快照一起保存的数据，创建 Pandas 数据帧。
to_spark_dataframe	通过加载随快照一起保存的数据，创建 Spark 数据帧。
wait_for_completion	等待 DatasetSnapshot 生成完成。

compare_profiles

将当前数据集配置文件与 rhs_dataset 配置文件进行比较。

如果配置文件不存在，则此方法将引发异常。

compare_profiles(rhs_dataset_snapshot, include_columns=None, exclude_columns=None, histogram_compare_method=HistogramCompareMethod.WASSERSTEIN)

参数

名称	说明
rhs_dataset_snapshot 必需	DatasetSnapshot 要进行比较的数据集快照。
include_columns	list[str] 要包括在比较中的列名列表。默认值: None
exclude_columns	list[str] 要从比较中排除的列名列表。默认值: None
histogram_compare_method	HistogramCompareMethod 描述比较方法的枚举，例如：WASSERSTEIN 或 ENERGY。默认值: HistogramCompareMethod.WASSERSTEIN

类型	说明
<xref:azureml.dataprep.api.engineapi.typedefinitions.DataProfileDifference>	配置文件之间的差异。

get

按快照名称获取数据集的快照。

static get(workspace, snapshot_name, dataset_name=None, dataset_id=None)

参数

名称	说明
workspace 必需	Workspace 数据集注册到的工作区。
snapshot_name 必需	str 数据集快照的名称。
dataset_name 必需	数据集的名称。
dataset_id 必需	uuid 返回数据集的标识符。

类型	说明
DatasetSnapshot	DatasetSnapshot 对象。

get_all

获取给定数据集的所有快照。

static get_all(workspace, dataset_name)

参数

名称	说明
workspace 必需	Workspace 数据集注册到的工作区。
dataset_name 必需	数据集的名称。

类型	说明
list[DatasetSnapshot]	数据集快照列表

get_profile

获取数据集快照的配置文件。

get_profile()

类型	说明
<xref:azureml.dataprep.DataProfile>	数据集快照的数据配置文件

get_status

获取数据集快照创建状态。

get_status()

类型	说明
str	数据集快照的状态。

is_data_snapshot_available

检查快照的具体化副本是否可用。

is_data_snapshot_available()

类型	说明
bool	如果数据快照可用，则为 True。

to_pandas_dataframe

通过加载随快照一起保存的数据，创建 Pandas 数据帧。

to_pandas_dataframe()

类型	说明
DataFrame	Pandas DataFrame。

注解

Pandas 数据帧在内存中完全具体化。如果快照是使用 create_data_snapshot=False 创建的，则会引发异常。若要检查快照是否包含数据，请使用函数 is_data_snapshot_available。

to_spark_dataframe

通过加载随快照一起保存的数据，创建 Spark 数据帧。

to_spark_dataframe()

类型	说明
DataFrame	Spark DataFrame。

注解

Spark Dataframe 返回的只是一个执行计划，并不实际包含任何数据，因为 Spark Dataframe 是被延迟计算的。如果快照是使用 create_data_snapshot=False 创建的，则当你尝试访问数据时会引发异常。若要检查快照是否包含数据，请使用 is_data_snapshot_available。

wait_for_completion

等待 DatasetSnapshot 生成完成。

wait_for_completion(show_output=True, status_update_frequency=10)

参数

名称	说明
show_output	bool 指示该方法是否将列显输出。默认值: True
status_update_frequency	int 操作运行状态更新频率（以秒为单位）。默认值: 10

属性

dataset_id

获取数据集标识符。

类型	说明
str	数据集 ID。

name

获取数据集快照名称。

类型	说明
str	数据集快照名称。

workspace

获取注册了数据集的 Azure 机器学习工作区。

类型	说明
Workspace	数据集注册到的工作区。

通过