DatasetSnapshot クラス
スナップを取得して、その状態を返し、データフレームに変換する操作を使用して、データセット スナップショットを管理します。
Note
このクラスは非推奨とされます。 詳細については、「https://aka.ms/dataset-deprecation」を参照してください。
DataSnapshot オブジェクトは、Dataset クラスの create_snapshot メソッドから返されます。
データセット スナップショットは、プロファイルとデータのオプションの具体化されたコピーの組み合わせです。
データセット スナップショットの詳細については、以下を参照してください。 https://aka.ms/azureml/howto/createsnapshots
- 継承
-
builtins.objectDatasetSnapshot
コンストラクター
DatasetSnapshot(workspace, snapshot_name, dataset_id, definition_version=None, time_stamp=None, profile_action_id=None, datastore_name=None, relative_path=None, dataset_name=None)
パラメーター
- workspace
- <xref:azureml.core.Workspace.>
データセットが登録されるワークスペース。
メソッド
compare_profiles |
現在のデータセットのプロファイルを rhs_dataset プロファイルと比較します。 プロファイルが存在しない場合、このメソッドは例外を発生させます。 |
get |
スナップショット名でデータセットのスナップショットを取得します。 |
get_all |
指定されたデータセットのすべてのスナップショットを取得します。 |
get_profile |
データセット スナップショットのプロファイルを取得します。 |
get_status |
データセット スナップショットの作成状態を取得します。 |
is_data_snapshot_available |
スナップショットの具体化されたコピーが使用可能かどうかをチェックします。 |
to_pandas_dataframe |
スナップショットと一緒に保存されたデータを読み込むことで、Pandas データフレームを作成します。 |
to_spark_dataframe |
スナップショットと一緒に保存されたデータを読み込むことで、Spark データフレームを作成します。 |
wait_for_completion |
DatasetSnapshot の生成が完了するまで待ちます。 |
compare_profiles
現在のデータセットのプロファイルを rhs_dataset プロファイルと比較します。
プロファイルが存在しない場合、このメソッドは例外を発生させます。
compare_profiles(rhs_dataset_snapshot, include_columns=None, exclude_columns=None, histogram_compare_method=HistogramCompareMethod.WASSERSTEIN)
パラメーター
- histogram_compare_method
- HistogramCompareMethod
比較方法を記述する列挙型 (例: WASSERSTEIN または ENERGY)。
戻り値
プロファイルの違い。
の戻り値の型 :
get
スナップショット名でデータセットのスナップショットを取得します。
static get(workspace, snapshot_name, dataset_name=None, dataset_id=None)
パラメーター
- dataset_name
データセットの名前です。
戻り値
DatasetSnapshot オブジェクト。
の戻り値の型 :
get_all
指定されたデータセットのすべてのスナップショットを取得します。
static get_all(workspace, dataset_name)
パラメーター
- dataset_name
データセットの名前です。
戻り値
データセット スナップショットの一覧。
の戻り値の型 :
get_profile
データセット スナップショットのプロファイルを取得します。
get_profile()
戻り値
データセット スナップショットの DataProfile
の戻り値の型 :
get_status
is_data_snapshot_available
スナップショットの具体化されたコピーが使用可能かどうかをチェックします。
is_data_snapshot_available()
戻り値
データ スナップショットが使用可能な場合は True です。
の戻り値の型 :
to_pandas_dataframe
スナップショットと一緒に保存されたデータを読み込むことで、Pandas データフレームを作成します。
to_pandas_dataframe()
戻り値
Pandas データフレーム。
の戻り値の型 :
注釈
メモリ内で完全に具体化された Pandas データフレーム。 スナップショットが create_data_snapshot=False
で作成された場合は、例外がスローされます。 スナップショットにデータが含まれているかどうかを確認するには、is_data_snapshot_available 関数を使用します。
to_spark_dataframe
スナップショットと一緒に保存されたデータを読み込むことで、Spark データフレームを作成します。
to_spark_dataframe()
戻り値
Spark データフレーム。
の戻り値の型 :
注釈
返される Spark データフレームは実行プランに限定され、Spark データフレームは遅延評価されるので、実際にはデータを含みません。 スナップショットが create_data_snapshot=False
で作成された場合 は、データにアクセスしようとするときに例外がスローされます。 スナップショットにデータが含まれているかどうかを確認するには、is_data_snapshot_available を使用します。
wait_for_completion
DatasetSnapshot の生成が完了するまで待ちます。
wait_for_completion(show_output=True, status_update_frequency=10)
パラメーター
属性
dataset_id
name
workspace
フィードバック
https://aka.ms/ContentUserFeedback」を参照してください。
以下は間もなく提供いたします。2024 年を通じて、コンテンツのフィードバック メカニズムとして GitHub の issue を段階的に廃止し、新しいフィードバック システムに置き換えます。 詳細については、「フィードバックの送信と表示