DatasetSnapshot クラス

スナップを取得して、その状態を返し、データフレームに変換する操作を使用して、データセット スナップショットを管理します。

Note

このクラスは非推奨とされます。 詳細については、「https://aka.ms/dataset-deprecation」を参照してください。

DataSnapshot オブジェクトは、Dataset クラスの create_snapshot メソッドから返されます。

データセット スナップショットは、プロファイルとデータのオプションの具体化されたコピーの組み合わせです。

データセット スナップショットの詳細については、以下を参照してください。 https://aka.ms/azureml/howto/createsnapshots

継承
builtins.object
DatasetSnapshot

コンストラクター

DatasetSnapshot(workspace, snapshot_name, dataset_id, definition_version=None, time_stamp=None, profile_action_id=None, datastore_name=None, relative_path=None, dataset_name=None)

パラメーター

workspace
<xref:azureml.core.Workspace.>
必須

データセットが登録されるワークスペース。

snapshot_name
str
必須

データセット スナップショットの名前。

dataset_id
str
必須

データセットの ID。

definition_version
str
必須

データセットの定義バージョン。

time_stamp
datetime
必須

スナップショットの作成時刻。

profile_action_id
str
必須

スナップショット プロファイル アクション ID。

datastore_name
str
必須

スナップショット データ ストア名。

relative_path
str
必須

スナップショット データへの相対パス。

dataset_name
str
必須

データセットの名前です。

メソッド

compare_profiles

現在のデータセットのプロファイルを rhs_dataset プロファイルと比較します。

プロファイルが存在しない場合、このメソッドは例外を発生させます。

get

スナップショット名でデータセットのスナップショットを取得します。

get_all

指定されたデータセットのすべてのスナップショットを取得します。

get_profile

データセット スナップショットのプロファイルを取得します。

get_status

データセット スナップショットの作成状態を取得します。

is_data_snapshot_available

スナップショットの具体化されたコピーが使用可能かどうかをチェックします。

to_pandas_dataframe

スナップショットと一緒に保存されたデータを読み込むことで、Pandas データフレームを作成します。

to_spark_dataframe

スナップショットと一緒に保存されたデータを読み込むことで、Spark データフレームを作成します。

wait_for_completion

DatasetSnapshot の生成が完了するまで待ちます。

compare_profiles

現在のデータセットのプロファイルを rhs_dataset プロファイルと比較します。

プロファイルが存在しない場合、このメソッドは例外を発生させます。

compare_profiles(rhs_dataset_snapshot, include_columns=None, exclude_columns=None, histogram_compare_method=HistogramCompareMethod.WASSERSTEIN)

パラメーター

rhs_dataset_snapshot
DatasetSnapshot
必須

比較対象のデータセット スナップショット。

include_columns
list[str]
既定値: None

比較対象の列名の一覧。

exclude_columns
list[str]
既定値: None

比較対象外の列名の一覧。

histogram_compare_method
HistogramCompareMethod
既定値: HistogramCompareMethod.WASSERSTEIN

比較方法を記述する列挙型 (例: WASSERSTEIN または ENERGY)。

戻り値

プロファイルの違い。

の戻り値の型 :

<xref:azureml.dataprep.api.engineapi.typedefinitions.DataProfileDifference>

get

スナップショット名でデータセットのスナップショットを取得します。

static get(workspace, snapshot_name, dataset_name=None, dataset_id=None)

パラメーター

workspace
Workspace
必須

データセットが登録されるワークスペース。

snapshot_name
str
必須

データセット スナップショットの名前。

dataset_name
必須

データセットの名前です。

dataset_id
uuid
必須

データセットの ID。

戻り値

DatasetSnapshot オブジェクト。

の戻り値の型 :

get_all

指定されたデータセットのすべてのスナップショットを取得します。

static get_all(workspace, dataset_name)

パラメーター

workspace
Workspace
必須

データセットが登録されるワークスペース。

dataset_name
必須

データセットの名前です。

戻り値

データセット スナップショットの一覧。

の戻り値の型 :

get_profile

データセット スナップショットのプロファイルを取得します。

get_profile()

戻り値

データセット スナップショットの DataProfile

の戻り値の型 :

<xref:azureml.dataprep.DataProfile>

get_status

データセット スナップショットの作成状態を取得します。

get_status()

戻り値

データセット スナップショットの状態。

の戻り値の型 :

str

is_data_snapshot_available

スナップショットの具体化されたコピーが使用可能かどうかをチェックします。

is_data_snapshot_available()

戻り値

データ スナップショットが使用可能な場合は True です。

の戻り値の型 :

to_pandas_dataframe

スナップショットと一緒に保存されたデータを読み込むことで、Pandas データフレームを作成します。

to_pandas_dataframe()

戻り値

Pandas データフレーム。

の戻り値の型 :

注釈

メモリ内で完全に具体化された Pandas データフレーム。 スナップショットが create_data_snapshot=False で作成された場合は、例外がスローされます。 スナップショットにデータが含まれているかどうかを確認するには、is_data_snapshot_available 関数を使用します。

to_spark_dataframe

スナップショットと一緒に保存されたデータを読み込むことで、Spark データフレームを作成します。

to_spark_dataframe()

戻り値

Spark データフレーム。

の戻り値の型 :

注釈

返される Spark データフレームは実行プランに限定され、Spark データフレームは遅延評価されるので、実際にはデータを含みません。 スナップショットが create_data_snapshot=False で作成された場合 は、データにアクセスしようとするときに例外がスローされます。 スナップショットにデータが含まれているかどうかを確認するには、is_data_snapshot_available を使用します。

wait_for_completion

DatasetSnapshot の生成が完了するまで待ちます。

wait_for_completion(show_output=True, status_update_frequency=10)

パラメーター

show_output
bool
既定値: True

メソッドが出力を出力するかどうかを示します。

status_update_frequency
int
既定値: 10

アクションの実行状態の更新間隔 (秒単位)。

属性

dataset_id

データセット ID を取得します。

戻り値

データセット ID。

の戻り値の型 :

str

name

データセット スナップショット名を取得します。

戻り値

データセット スナップショット名。

の戻り値の型 :

str

workspace

データセットが登録される Azure Machine Learning ワークスペースを取得します。

戻り値

データセットが登録されるワークスペース。

の戻り値の型 :