DatasetSnapshot 类
使用操作管理数据集快照以获取快照,返回其状态,并将其转换为数据帧。
注意
此类已弃用。 有关详细信息,请参阅 https://aka.ms/dataset-deprecation。
从 Dataset 类的方法 create_snapshot 返回 DataSnapshot 对象。
数据集快照是配置文件和数据可选具体化副本的组合。
若要详细了解数据集快照,请转到 https://aka.ms/azureml/howto/createsnapshots
- 继承
-
builtins.objectDatasetSnapshot
构造函数
DatasetSnapshot(workspace, snapshot_name, dataset_id, definition_version=None, time_stamp=None, profile_action_id=None, datastore_name=None, relative_path=None, dataset_name=None)
参数
名称 | 说明 |
---|---|
workspace
必需
|
<xref:azureml.core.Workspace.>
数据集注册到的工作区。 |
snapshot_name
必需
|
数据集快照的名称。 |
dataset_id
必需
|
返回数据集的标识符。 |
definition_version
必需
|
数据集的定义版本。 |
time_stamp
必需
|
快照创建时间。 |
profile_action_id
必需
|
快照配置文件操作 ID。 |
datastore_name
必需
|
快照数据存储名称。 |
relative_path
必需
|
快照数据的相对路径。 |
dataset_name
必需
|
数据集的名称。 |
方法
compare_profiles |
将当前数据集配置文件与 rhs_dataset 配置文件进行比较。 如果配置文件不存在,则此方法将引发异常。 |
get |
按快照名称获取数据集的快照。 |
get_all |
获取给定数据集的所有快照。 |
get_profile |
获取数据集快照的配置文件。 |
get_status |
获取数据集快照创建状态。 |
is_data_snapshot_available |
检查快照的具体化副本是否可用。 |
to_pandas_dataframe |
通过加载随快照一起保存的数据,创建 Pandas 数据帧。 |
to_spark_dataframe |
通过加载随快照一起保存的数据,创建 Spark 数据帧。 |
wait_for_completion |
等待 DatasetSnapshot 生成完成。 |
compare_profiles
将当前数据集配置文件与 rhs_dataset 配置文件进行比较。
如果配置文件不存在,则此方法将引发异常。
compare_profiles(rhs_dataset_snapshot, include_columns=None, exclude_columns=None, histogram_compare_method=HistogramCompareMethod.WASSERSTEIN)
参数
名称 | 说明 |
---|---|
rhs_dataset_snapshot
必需
|
要进行比较的数据集快照。 |
include_columns
|
要包括在比较中的列名列表。 默认值: None
|
exclude_columns
|
要从比较中排除的列名列表。 默认值: None
|
histogram_compare_method
|
描述比较方法的枚举,例如:WASSERSTEIN 或 ENERGY。 默认值: HistogramCompareMethod.WASSERSTEIN
|
返回
类型 | 说明 |
---|---|
<xref:azureml.dataprep.api.engineapi.typedefinitions.DataProfileDifference>
|
配置文件之间的差异。 |
get
按快照名称获取数据集的快照。
static get(workspace, snapshot_name, dataset_name=None, dataset_id=None)
参数
名称 | 说明 |
---|---|
workspace
必需
|
数据集注册到的工作区。 |
snapshot_name
必需
|
数据集快照的名称。 |
dataset_name
必需
|
数据集的名称。 |
dataset_id
必需
|
返回数据集的标识符。 |
返回
类型 | 说明 |
---|---|
DatasetSnapshot 对象。 |
get_all
获取给定数据集的所有快照。
static get_all(workspace, dataset_name)
参数
名称 | 说明 |
---|---|
workspace
必需
|
数据集注册到的工作区。 |
dataset_name
必需
|
数据集的名称。 |
返回
类型 | 说明 |
---|---|
数据集快照列表 |
get_profile
获取数据集快照的配置文件。
get_profile()
返回
类型 | 说明 |
---|---|
<xref:azureml.dataprep.DataProfile>
|
数据集快照的数据配置文件 |
get_status
is_data_snapshot_available
to_pandas_dataframe
通过加载随快照一起保存的数据,创建 Pandas 数据帧。
to_pandas_dataframe()
返回
类型 | 说明 |
---|---|
Pandas DataFrame。 |
注解
Pandas 数据帧在内存中完全具体化。 如果快照是使用 create_data_snapshot=False
创建的,则会引发异常。 若要检查快照是否包含数据,请使用函数 is_data_snapshot_available。
to_spark_dataframe
通过加载随快照一起保存的数据,创建 Spark 数据帧。
to_spark_dataframe()
返回
类型 | 说明 |
---|---|
Spark DataFrame。 |
注解
Spark Dataframe 返回的只是一个执行计划,并不实际包含任何数据,因为 Spark Dataframe 是被延迟计算的。 如果快照是使用 create_data_snapshot=False
创建的,则当你尝试访问数据时会引发异常。 若要检查快照是否包含数据,请使用 is_data_snapshot_available。
wait_for_completion
等待 DatasetSnapshot 生成完成。
wait_for_completion(show_output=True, status_update_frequency=10)
参数
名称 | 说明 |
---|---|
show_output
|
指示该方法是否将列显输出。 默认值: True
|
status_update_frequency
|
操作运行状态更新频率(以秒为单位)。 默认值: 10
|