DatasetSnapshot クラス

スナップショットを取得し、その状態を返し、データフレームに変換する操作を使用してデータセットスナップショットを管理します。

注

このクラスは非推奨です。詳細については、https://aka.ms/dataset-deprecationを参照してください。

DataSnapshot オブジェクトは、create_snapshot クラスのDataset メソッドから返されます。

データセットスナップショットは、プロファイルとデータのオプションの具体化されたコピーの組み合わせです。

データセットスナップショットの詳細については、以下を参照してください。 https://aka.ms/azureml/howto/createsnapshots

コンストラクター

DatasetSnapshot(workspace, snapshot_name, dataset_id, definition_version=None, time_stamp=None, profile_action_id=None, datastore_name=None, relative_path=None, dataset_name=None)

パラメーター

名前	説明
workspace 必須	<xref:azureml.core.Workspace.> データセットが登録されているワークスペース。
snapshot_name 必須	str データセットスナップショットの名前。
dataset_id 必須	str データセットの識別子。
definition_version 必須	str データセットの定義バージョン。
time_stamp 必須	datetime スナップショットの作成時刻。
profile_action_id 必須	str スナップショットプロファイルアクション ID。
datastore_name 必須	str スナップショットデータストア名。
relative_path 必須	str スナップショットデータへの相対パス。
dataset_name 必須	str データセットの名前。

メソッド

compare_profiles	現在のデータセットプロファイルとrhs_dataset プロファイルを比較します。プロファイルが存在しない場合、このメソッドは例外を発生させます。
get	スナップショット名でデータセットのスナップショットを取得します。
get_all	指定されたデータセットのすべてのスナップショットを取得します。
get_profile	データセットスナップショットのプロファイルを取得します。
get_status	データセットスナップショットの作成状態を取得します。
is_data_snapshot_available	スナップショットの具体化されたコピーが使用可能かどうかを確認します。
to_pandas_dataframe	スナップショットと共に保存されたデータを読み込んで Pandas DataFrame を作成します。
to_spark_dataframe	スナップショットと共に保存されたデータを読み込んで Spark DataFrame を作成します。
wait_for_completion	DatasetSnapshot 生成が完了するまで待ちます。

compare_profiles

現在のデータセットプロファイルとrhs_dataset プロファイルを比較します。

プロファイルが存在しない場合、このメソッドは例外を発生させます。

compare_profiles(rhs_dataset_snapshot, include_columns=None, exclude_columns=None, histogram_compare_method=HistogramCompareMethod.WASSERSTEIN)

パラメーター

名前	説明
rhs_dataset_snapshot 必須	DatasetSnapshot 比較するデータセットスナップショット。
include_columns	list[str] 比較に含める列名の一覧。規定値: None
exclude_columns	list[str] 比較で除外する列名の一覧。規定値: None
histogram_compare_method	HistogramCompareMethod 比較方法を記述する列挙型 (WASSERSTEIN や ENERGY など)。規定値: HistogramCompareMethod.WASSERSTEIN

戻り値

型	説明
<xref:azureml.dataprep.api.engineapi.typedefinitions.DataProfileDifference>	プロファイル間の違い。

get

スナップショット名でデータセットのスナップショットを取得します。

static get(workspace, snapshot_name, dataset_name=None, dataset_id=None)

パラメーター

名前	説明
workspace 必須	Workspace データセットが登録されているワークスペース。
snapshot_name 必須	str データセットスナップショットの名前。
dataset_name 必須	データセットの名前。
dataset_id 必須	uuid データセットの識別子。

戻り値

型	説明
DatasetSnapshot	DatasetSnapshot オブジェクト。

get_all

指定されたデータセットのすべてのスナップショットを取得します。

static get_all(workspace, dataset_name)

パラメーター

名前	説明
workspace 必須	Workspace データセットが登録されているワークスペース。
dataset_name 必須	データセットの名前。

戻り値

型	説明
list[DatasetSnapshot]	データセットスナップショットの一覧

get_profile

データセットスナップショットのプロファイルを取得します。

get_profile()

戻り値

型	説明
<xref:azureml.dataprep.DataProfile>	データセットスナップショットの DataProfile

get_status

データセットスナップショットの作成状態を取得します。

get_status()

戻り値

型	説明
str	データセットスナップショットの状態。

is_data_snapshot_available

スナップショットの具体化されたコピーが使用可能かどうかを確認します。

is_data_snapshot_available()

戻り値

型	説明
bool	True の場合は、データスナップショットが使用可能です。

to_pandas_dataframe

スナップショットと共に保存されたデータを読み込んで Pandas DataFrame を作成します。

to_pandas_dataframe()

戻り値

型	説明
DataFrame	Pandas DataFrame。

注釈

Pandas DataFrame はメモリ内で完全に具体化されます。スナップショットが create_data_snapshot=Falseで作成された場合は、例外がスローされます。スナップショットにデータが含まれているかどうかを確認するには、関数 is_data_snapshot_availableを使用します。

to_spark_dataframe

スナップショットと共に保存されたデータを読み込んで Spark DataFrame を作成します。

to_spark_dataframe()

戻り値

型	説明
DataFrame	Spark DataFrame。

注釈

返される Spark データフレームは実行プランに過ぎず、Spark データフレームは遅延評価されるため、実際にはデータは含まれません。スナップショットが create_data_snapshot=Falseで作成された場合、データにアクセスしようとすると例外がスローされます。スナップショットにデータが含まれているかどうかを確認するには、 is_data_snapshot_availableを使用します。

wait_for_completion

DatasetSnapshot 生成が完了するまで待ちます。

wait_for_completion(show_output=True, status_update_frequency=10)

パラメーター

名前	説明
show_output	bool メソッドが出力を出力するかどうかを示します。規定値: True
status_update_frequency	int アクションの実行状態の更新頻度 (秒単位)。規定値: 10

属性

dataset_id

データセット識別子を取得します。

戻り値

型	説明
str	データセット ID。

name

データセットスナップショット名を取得します。

戻り値

型	説明
str	データセットスナップショット名。

workspace

データセットが登録されている Azure Machine Learning ワークスペースを取得します。

戻り値

型	説明
Workspace	データセットが登録されているワークスペース。

フィードバック

このページはお役に立ちましたか?

次の方法で共有

DatasetSnapshot クラス

コンストラクター

パラメーター

メソッド

compare_profiles

パラメーター

戻り値

get

パラメーター

戻り値

get_all

パラメーター

戻り値

get_profile

戻り値

get_status

戻り値

is_data_snapshot_available

戻り値

to_pandas_dataframe

戻り値

注釈

to_spark_dataframe

戻り値

注釈

wait_for_completion

パラメーター

属性

dataset_id

戻り値

name

戻り値

workspace

戻り値

フィードバック