DatasetDefinition クラス
データセット内のデータの読み取りおよび変換方法を指定する一連の手順を定義します。
Note
このクラスは非推奨とされます。 詳細については、「https://aka.ms/dataset-deprecation」を参照してください。
Azure Machine Learning ワークスペースに登録されているデータセットには、update_definition を呼び出すことによって作成される複数の定義を含めることができます。 各定義には一意の識別子があります。 現在の定義は、最後に作成されたものです。
登録されていないデータセットに対して、定義は 1 つしか存在しません。
データセット定義では、<xref:azureml.dataprep.Dataflow> クラスのすべての変換がサポートされています。http://aka.ms/azureml/howto/transformdata を参照してください。 データセット定義の詳細については、https://aka.ms/azureml/howto/versiondata を参照してください。
データセット定義オブジェクトを初期化します。
- 継承
-
azureml.dataprep.api.engineless_dataflow.EnginelessDataflowDatasetDefinition
コンストラクター
DatasetDefinition(workspace=None, dataset_id=None, version_id=None, dataflow=None, dataflow_json=None, notes=None, etag=None, created_time=None, modified_time=None, state=None, deprecated_by_dataset_id=None, deprecated_by_definition_version=None, data_path=None, dataset=None, file_type='Unknown')
パラメーター
- dataflow_json
データフロー json。
メソッド
archive |
データセット定義をアーカイブします。 |
create_snapshot |
登録されているデータセットのスナップショットを作成します。 |
deprecate |
新しいデータセットへのポインターを使用して、データセットを非推奨にします。 |
reactivate |
データセット定義を再度有効にします。 非推奨またはアーカイブされたデータセット定義に対して機能します。 |
to_pandas_dataframe |
このデータセット定義によって定義された変換パイプラインを実行して、Pandas データフレームを作成します。 |
to_spark_dataframe |
このデータフローによって定義された変換パイプラインを実行できる Spark データフレームを作成します。 |
archive
データセット定義をアーカイブします。
archive()
戻り値
なし。
の戻り値の型 :
注釈
アーカイブ後にデータセットを取得しようとすると、エラーが発生します。 誤ってアーカイブされた場合は、reactivate を使用してアクティブ化します。
create_snapshot
登録されているデータセットのスナップショットを作成します。
create_snapshot(snapshot_name, compute_target=None, create_data_snapshot=False, target_datastore=None)
パラメーター
- compute_target
- ComputeTarget または str
スナップショット プロファイルの作成を実行するためのコンピューティング先。 省略した場合は、ローカル コンピューティングが使用されます。
- target_datastore
- Union[AbstractAzureStorageDatastore, str]
スナップショットを保存するターゲット データストア。 省略した場合、スナップショットはワークスペースの既定のストレージに作成されます。
戻り値
DatasetSnapshot オブジェクト。
の戻り値の型 :
注釈
スナップショットは、基になるデータの特定の時点の概要統計情報と、データ自体のオプションのコピーがキャプチャします。 スナップショットの作成の詳細については、「https://aka.ms/azureml/howto/createsnapshots」を参照 してください。
deprecate
新しいデータセットへのポインターを使用して、データセットを非推奨にします。
deprecate(deprecate_by_dataset_id, deprecated_by_definition_version=None)
パラメーター
戻り値
なし。
の戻り値の型 :
注釈
非推奨のデータセット定義は、使用されたときにログに警告が記録されます。 データセット定義の使用を完全にブロックするには、それをアーカイブします。
データセット定義が誤って非推奨になった場合は、reactivate を使用してアクティブ化します。
reactivate
to_pandas_dataframe
このデータセット定義によって定義された変換パイプラインを実行して、Pandas データフレームを作成します。
to_pandas_dataframe()
戻り値
Pandas データフレーム。
の戻り値の型 :
注釈
メモリ内で完全に具体化された Pandas データフレームを返します。
to_spark_dataframe
このデータフローによって定義された変換パイプラインを実行できる Spark データフレームを作成します。
to_spark_dataframe()
戻り値
Spark データフレーム。
の戻り値の型 :
注釈
返される Spark データフレームは実行プランに限定され、Spark データフレームは遅延評価されるので、実際にはデータを含みません。
フィードバック
https://aka.ms/ContentUserFeedback」を参照してください。
以下は間もなく提供いたします。2024 年を通じて、コンテンツのフィードバック メカニズムとして GitHub の issue を段階的に廃止し、新しいフィードバック システムに置き換えます。 詳細については、「フィードバックの送信と表示