DatasetDefinition クラス

リファレンス

データセット内のデータの読み取りおよび変換方法を指定する一連の手順を定義します。

Note

このクラスは非推奨とされます。詳細については、「https://aka.ms/dataset-deprecation」を参照してください。

Azure Machine Learning ワークスペースに登録されているデータセットには、update_definition を呼び出すことによって作成される複数の定義を含めることができます。各定義には一意の識別子があります。現在の定義は、最後に作成されたものです。

登録されていないデータセットに対して、定義は 1 つしか存在しません。

データセット定義では、<xref:azureml.dataprep.Dataflow> クラスのすべての変換がサポートされています。http://aka.ms/azureml/howto/transformdata を参照してください。データセット定義の詳細については、https://aka.ms/azureml/howto/versiondata を参照してください。

データセット定義オブジェクトを初期化します。

継承: azureml.dataprep.api.engineless_dataflow.EnginelessDataflow

DatasetDefinition

コンストラクター

DatasetDefinition(workspace=None, dataset_id=None, version_id=None, dataflow=None, dataflow_json=None, notes=None, etag=None, created_time=None, modified_time=None, state=None, deprecated_by_dataset_id=None, deprecated_by_definition_version=None, data_path=None, dataset=None, file_type='Unknown')

パラメーター

workspace: str

必須

データセットが登録されるワークスペース。

dataset_id: str

必須

データセット識別子。

version_id: str

必須

定義バージョン。

dataflow: str

必須

Dataflow オブジェクト。

dataflow_json

必須

データフロー json。

notes: str

必須

定義に関するオプションの情報。

etag: str

必須

Etag。

created_time: datetime

必須

定義の作成時刻。

modified_time: datetime

必須

定義の最終変更時刻。

deprecated_by_dataset_id: str

必須

この定義を非推奨とするデータセットの ID。

deprecated_by_definition_version: str

必須

この定義を非推奨とする定義のバージョン。

data_path: DataPath

必須

データパス。

dataset: Dataset

必須

親 Dataset オブジェクト。

メソッド

archive	データセット定義をアーカイブします。
create_snapshot	登録されているデータセットのスナップショットを作成します。
deprecate	新しいデータセットへのポインターを使用して、データセットを非推奨にします。
reactivate	データセット定義を再度有効にします。非推奨またはアーカイブされたデータセット定義に対して機能します。
to_pandas_dataframe	このデータセット定義によって定義された変換パイプラインを実行して、Pandas データフレームを作成します。
to_spark_dataframe	このデータフローによって定義された変換パイプラインを実行できる Spark データフレームを作成します。

create_snapshot

登録されているデータセットのスナップショットを作成します。

create_snapshot(snapshot_name, compute_target=None, create_data_snapshot=False, target_datastore=None)

パラメーター

snapshot_name: str

必須

スナップショット名。スナップショット名は、データセット内で一意である必要があります。

compute_target: ComputeTarget または str

既定値: None

スナップショットプロファイルの作成を実行するためのコンピューティング先。省略した場合は、ローカルコンピューティングが使用されます。

create_data_snapshot: bool

既定値: False

True の場合、データの具体化されたコピーが作成されます。

target_datastore: Union[AbstractAzureStorageDatastore, str]

既定値: None

スナップショットを保存するターゲットデータストア。省略した場合、スナップショットはワークスペースの既定のストレージに作成されます。

戻り値

DatasetSnapshot オブジェクト。

の戻り値の型 :

DatasetSnapshot

注釈

スナップショットは、基になるデータの特定の時点の概要統計情報と、データ自体のオプションのコピーがキャプチャします。スナップショットの作成の詳細については、「https://aka.ms/azureml/howto/createsnapshots」を参照してください。

deprecate

新しいデータセットへのポインターを使用して、データセットを非推奨にします。

deprecate(deprecate_by_dataset_id, deprecated_by_definition_version=None)

パラメーター

deprecate_by_dataset_id: uuid

必須

現在のデータセットの非推奨の原因となるデータセット ID。

deprecated_by_definition_version: str

既定値: None

現在のデータセット定義の非推奨の原因となるデータセット定義バージョン。

戻り値

なし。

の戻り値の型 :

None

注釈

非推奨のデータセット定義は、使用されたときにログに警告が記録されます。データセット定義の使用を完全にブロックするには、それをアーカイブします。

データセット定義が誤って非推奨になった場合は、reactivate を使用してアクティブ化します。

reactivate

データセット定義を再度有効にします。

非推奨またはアーカイブされたデータセット定義に対して機能します。

reactivate()

戻り値

なし。

の戻り値の型 :

None

to_pandas_dataframe

このデータセット定義によって定義された変換パイプラインを実行して、Pandas データフレームを作成します。

to_pandas_dataframe()

戻り値

Pandas データフレーム。

の戻り値の型 :

DataFrame

注釈

メモリ内で完全に具体化された Pandas データフレームを返します。

to_spark_dataframe

このデータフローによって定義された変換パイプラインを実行できる Spark データフレームを作成します。

to_spark_dataframe()

戻り値

Spark データフレーム。

の戻り値の型 :

DataFrame

注釈

返される Spark データフレームは実行プランに限定され、Spark データフレームは遅延評価されるので、実際にはデータを含みません。

DatasetDefinition クラス

コンストラクター

パラメーター

メソッド

archive

戻り値

の戻り値の型 :

注釈

create_snapshot

パラメーター

戻り値

の戻り値の型 :

注釈

deprecate

パラメーター

戻り値

の戻り値の型 :

注釈

reactivate

戻り値

の戻り値の型 :

to_pandas_dataframe

戻り値

の戻り値の型 :

注釈

to_spark_dataframe

戻り値

の戻り値の型 :

注釈

フィードバック

フィードバック

その他のリソース