次の方法で共有


DatasetSnapshot クラス

スナップショットを取得し、その状態を返し、データフレームに変換する操作を使用してデータセット スナップショットを管理します。

このクラスは非推奨です。 詳細については、https://aka.ms/dataset-deprecationを参照してください。

DataSnapshot オブジェクトは、create_snapshot クラスのDataset メソッドから返されます。

データセット スナップショットは、プロファイルとデータのオプションの具体化されたコピーの組み合わせです。

データセット スナップショットの詳細については、以下を参照してください。 https://aka.ms/azureml/howto/createsnapshots

コンストラクター

DatasetSnapshot(workspace, snapshot_name, dataset_id, definition_version=None, time_stamp=None, profile_action_id=None, datastore_name=None, relative_path=None, dataset_name=None)

パラメーター

名前 説明
workspace
必須
<xref:azureml.core.Workspace.>

データセットが登録されているワークスペース。

snapshot_name
必須
str

データセット スナップショットの名前。

dataset_id
必須
str

データセットの識別子。

definition_version
必須
str

データセットの定義バージョン。

time_stamp
必須

スナップショットの作成時刻。

profile_action_id
必須
str

スナップショット プロファイルアクション ID。

datastore_name
必須
str

スナップショット データ ストア名。

relative_path
必須
str

スナップショット データへの相対パス。

dataset_name
必須
str

データセットの名前。

メソッド

compare_profiles

現在のデータセット プロファイルとrhs_dataset プロファイルを比較します。

プロファイルが存在しない場合、このメソッドは例外を発生させます。

get

スナップショット名でデータセットのスナップショットを取得します。

get_all

指定されたデータセットのすべてのスナップショットを取得します。

get_profile

データセット スナップショットのプロファイルを取得します。

get_status

データセット スナップショットの作成状態を取得します。

is_data_snapshot_available

スナップショットの具体化されたコピーが使用可能かどうかを確認します。

to_pandas_dataframe

スナップショットと共に保存されたデータを読み込んで Pandas DataFrame を作成します。

to_spark_dataframe

スナップショットと共に保存されたデータを読み込んで Spark DataFrame を作成します。

wait_for_completion

DatasetSnapshot 生成が完了するまで待ちます。

compare_profiles

現在のデータセット プロファイルとrhs_dataset プロファイルを比較します。

プロファイルが存在しない場合、このメソッドは例外を発生させます。

compare_profiles(rhs_dataset_snapshot, include_columns=None, exclude_columns=None, histogram_compare_method=HistogramCompareMethod.WASSERSTEIN)

パラメーター

名前 説明
rhs_dataset_snapshot
必須

比較するデータセット スナップショット。

include_columns

比較に含める列名の一覧。

規定値: None
exclude_columns

比較で除外する列名の一覧。

規定値: None
histogram_compare_method

比較方法を記述する列挙型 (WASSERSTEIN や ENERGY など)。

規定値: HistogramCompareMethod.WASSERSTEIN

戻り値

説明
<xref:azureml.dataprep.api.engineapi.typedefinitions.DataProfileDifference>

プロファイル間の違い。

get

スナップショット名でデータセットのスナップショットを取得します。

static get(workspace, snapshot_name, dataset_name=None, dataset_id=None)

パラメーター

名前 説明
workspace
必須

データセットが登録されているワークスペース。

snapshot_name
必須
str

データセット スナップショットの名前。

dataset_name
必須

データセットの名前。

dataset_id
必須

データセットの識別子。

戻り値

説明

DatasetSnapshot オブジェクト。

get_all

指定されたデータセットのすべてのスナップショットを取得します。

static get_all(workspace, dataset_name)

パラメーター

名前 説明
workspace
必須

データセットが登録されているワークスペース。

dataset_name
必須

データセットの名前。

戻り値

説明

データセット スナップショットの一覧

get_profile

データセット スナップショットのプロファイルを取得します。

get_profile()

戻り値

説明
<xref:azureml.dataprep.DataProfile>

データセット スナップショットの DataProfile

get_status

データセット スナップショットの作成状態を取得します。

get_status()

戻り値

説明
str

データセット スナップショットの状態。

is_data_snapshot_available

スナップショットの具体化されたコピーが使用可能かどうかを確認します。

is_data_snapshot_available()

戻り値

説明

True の 場合は、データ スナップショットが使用可能です。

to_pandas_dataframe

スナップショットと共に保存されたデータを読み込んで Pandas DataFrame を作成します。

to_pandas_dataframe()

戻り値

説明

Pandas DataFrame。

注釈

Pandas DataFrame はメモリ内で完全に具体化されます。 スナップショットが create_data_snapshot=Falseで作成された場合は、例外がスローされます。 スナップショットにデータが含まれているかどうかを確認するには、関数 is_data_snapshot_availableを使用します。

to_spark_dataframe

スナップショットと共に保存されたデータを読み込んで Spark DataFrame を作成します。

to_spark_dataframe()

戻り値

説明

Spark DataFrame。

注釈

返される Spark データフレームは実行プランに過ぎず、Spark データフレームは遅延評価されるため、実際にはデータは含まれません。 スナップショットが create_data_snapshot=Falseで作成された場合、データにアクセスしようとすると例外がスローされます。 スナップショットにデータが含まれているかどうかを確認するには、 is_data_snapshot_availableを使用します。

wait_for_completion

DatasetSnapshot 生成が完了するまで待ちます。

wait_for_completion(show_output=True, status_update_frequency=10)

パラメーター

名前 説明
show_output

メソッドが出力を出力するかどうかを示します。

規定値: True
status_update_frequency
int

アクションの実行状態の更新頻度 (秒単位)。

規定値: 10

属性

dataset_id

データセット識別子を取得します。

戻り値

説明
str

データセット ID。

name

データセット スナップショット名を取得します。

戻り値

説明
str

データセット スナップショット名。

workspace

データセットが登録されている Azure Machine Learning ワークスペースを取得します。

戻り値

説明

データセットが登録されているワークスペース。