DatasetSnapshot クラス
スナップショットを取得し、その状態を返し、データフレームに変換する操作を使用してデータセット スナップショットを管理します。
注
このクラスは非推奨です。 詳細については、https://aka.ms/dataset-deprecationを参照してください。
DataSnapshot オブジェクトは、create_snapshot クラスのDataset メソッドから返されます。
データセット スナップショットは、プロファイルとデータのオプションの具体化されたコピーの組み合わせです。
データセット スナップショットの詳細については、以下を参照してください。 https://aka.ms/azureml/howto/createsnapshots
コンストラクター
DatasetSnapshot(workspace, snapshot_name, dataset_id, definition_version=None, time_stamp=None, profile_action_id=None, datastore_name=None, relative_path=None, dataset_name=None)
パラメーター
| 名前 | 説明 |
|---|---|
|
workspace
必須
|
<xref:azureml.core.Workspace.>
データセットが登録されているワークスペース。 |
|
snapshot_name
必須
|
データセット スナップショットの名前。 |
|
dataset_id
必須
|
データセットの識別子。 |
|
definition_version
必須
|
データセットの定義バージョン。 |
|
time_stamp
必須
|
スナップショットの作成時刻。 |
|
profile_action_id
必須
|
スナップショット プロファイルアクション ID。 |
|
datastore_name
必須
|
スナップショット データ ストア名。 |
|
relative_path
必須
|
スナップショット データへの相対パス。 |
|
dataset_name
必須
|
データセットの名前。 |
メソッド
| compare_profiles |
現在のデータセット プロファイルとrhs_dataset プロファイルを比較します。 プロファイルが存在しない場合、このメソッドは例外を発生させます。 |
| get |
スナップショット名でデータセットのスナップショットを取得します。 |
| get_all |
指定されたデータセットのすべてのスナップショットを取得します。 |
| get_profile |
データセット スナップショットのプロファイルを取得します。 |
| get_status |
データセット スナップショットの作成状態を取得します。 |
| is_data_snapshot_available |
スナップショットの具体化されたコピーが使用可能かどうかを確認します。 |
| to_pandas_dataframe |
スナップショットと共に保存されたデータを読み込んで Pandas DataFrame を作成します。 |
| to_spark_dataframe |
スナップショットと共に保存されたデータを読み込んで Spark DataFrame を作成します。 |
| wait_for_completion |
DatasetSnapshot 生成が完了するまで待ちます。 |
compare_profiles
現在のデータセット プロファイルとrhs_dataset プロファイルを比較します。
プロファイルが存在しない場合、このメソッドは例外を発生させます。
compare_profiles(rhs_dataset_snapshot, include_columns=None, exclude_columns=None, histogram_compare_method=HistogramCompareMethod.WASSERSTEIN)
パラメーター
| 名前 | 説明 |
|---|---|
|
rhs_dataset_snapshot
必須
|
比較するデータセット スナップショット。 |
|
include_columns
|
比較に含める列名の一覧。 規定値: None
|
|
exclude_columns
|
比較で除外する列名の一覧。 規定値: None
|
|
histogram_compare_method
|
比較方法を記述する列挙型 (WASSERSTEIN や ENERGY など)。 規定値: HistogramCompareMethod.WASSERSTEIN
|
戻り値
| 型 | 説明 |
|---|---|
|
<xref:azureml.dataprep.api.engineapi.typedefinitions.DataProfileDifference>
|
プロファイル間の違い。 |
get
スナップショット名でデータセットのスナップショットを取得します。
static get(workspace, snapshot_name, dataset_name=None, dataset_id=None)
パラメーター
| 名前 | 説明 |
|---|---|
|
workspace
必須
|
データセットが登録されているワークスペース。 |
|
snapshot_name
必須
|
データセット スナップショットの名前。 |
|
dataset_name
必須
|
データセットの名前。 |
|
dataset_id
必須
|
データセットの識別子。 |
戻り値
| 型 | 説明 |
|---|---|
|
DatasetSnapshot オブジェクト。 |
get_all
指定されたデータセットのすべてのスナップショットを取得します。
static get_all(workspace, dataset_name)
パラメーター
| 名前 | 説明 |
|---|---|
|
workspace
必須
|
データセットが登録されているワークスペース。 |
|
dataset_name
必須
|
データセットの名前。 |
戻り値
| 型 | 説明 |
|---|---|
|
データセット スナップショットの一覧 |
get_profile
データセット スナップショットのプロファイルを取得します。
get_profile()
戻り値
| 型 | 説明 |
|---|---|
|
<xref:azureml.dataprep.DataProfile>
|
データセット スナップショットの DataProfile |
get_status
is_data_snapshot_available
スナップショットの具体化されたコピーが使用可能かどうかを確認します。
is_data_snapshot_available()
戻り値
| 型 | 説明 |
|---|---|
|
True の 場合は、データ スナップショットが使用可能です。 |
to_pandas_dataframe
スナップショットと共に保存されたデータを読み込んで Pandas DataFrame を作成します。
to_pandas_dataframe()
戻り値
| 型 | 説明 |
|---|---|
|
Pandas DataFrame。 |
注釈
Pandas DataFrame はメモリ内で完全に具体化されます。 スナップショットが create_data_snapshot=Falseで作成された場合は、例外がスローされます。 スナップショットにデータが含まれているかどうかを確認するには、関数 is_data_snapshot_availableを使用します。
to_spark_dataframe
スナップショットと共に保存されたデータを読み込んで Spark DataFrame を作成します。
to_spark_dataframe()
戻り値
| 型 | 説明 |
|---|---|
|
Spark DataFrame。 |
注釈
返される Spark データフレームは実行プランに過ぎず、Spark データフレームは遅延評価されるため、実際にはデータは含まれません。 スナップショットが create_data_snapshot=Falseで作成された場合、データにアクセスしようとすると例外がスローされます。 スナップショットにデータが含まれているかどうかを確認するには、 is_data_snapshot_availableを使用します。