DatasetDefinition 類別

定義一系列步驟,指定如何讀取和轉換資料集中的資料。

注意

這個類別已被取代。 如需詳細資訊,請參閱 https://aka.ms/dataset-deprecation

在 Azure Machine Learning 工作區中註冊的資料集可以有多個定義,每個定義都是藉由呼叫 update_definition 來建立。 每個定義都有唯一識別碼。 目前的定義是最新建立的定義。

對於未註冊的資料集,只有一個定義存在。

資料集定義支援針對 <xref:azureml.dataprep.Dataflow> 類別列出的所有轉換:請參閱 http://aka.ms/azureml/howto/transformdata 。 若要深入瞭解資料集定義,請移至 https://aka.ms/azureml/howto/versiondata

初始化資料集定義物件。

繼承
azureml.dataprep.api.engineless_dataflow.EnginelessDataflow
DatasetDefinition

建構函式

DatasetDefinition(workspace=None, dataset_id=None, version_id=None, dataflow=None, dataflow_json=None, notes=None, etag=None, created_time=None, modified_time=None, state=None, deprecated_by_dataset_id=None, deprecated_by_definition_version=None, data_path=None, dataset=None, file_type='Unknown')

參數

workspace
str
必要

資料集註冊所在的工作區。

dataset_id
str
必要

資料集識別碼。

version_id
str
必要

定義版本。

dataflow
str
必要

Dataflow 物件。

dataflow_json
必要

資料流程 json。

notes
str
必要

關於定義的選擇性資訊。

etag
str
必要

Etag。

created_time
datetime
必要

定義的建立時間。

modified_time
datetime
必要

定義的上次修改時間。

deprecated_by_dataset_id
str
必要

取代此定義的資料集識別碼。

deprecated_by_definition_version
str
必要

取代此定義的定義版本。

data_path
DataPath
必要

資料路徑。

dataset
Dataset
必要

父資料集物件。

方法

archive

封存資料集定義。

create_snapshot

建立已註冊資料集的快照集。

deprecate

使用新資料集的指標取代資料集。

reactivate

重新啟用資料集定義。

適用于已淘汰或封存的資料集定義。

to_pandas_dataframe

執行此資料集定義所定義的轉換管線,以建立 Pandas 資料框架。

to_spark_dataframe

建立 Spark DataFrame,以執行此資料流程所定義的轉換管線。

archive

封存資料集定義。

archive()

傳回

無。

傳回類型

備註

封存之後,任何擷取資料集的嘗試都會導致錯誤。 如果意外封存,請使用 reactivate 來啟用它。

create_snapshot

建立已註冊資料集的快照集。

create_snapshot(snapshot_name, compute_target=None, create_data_snapshot=False, target_datastore=None)

參數

snapshot_name
str
必要

快照集名稱。 快照集名稱在資料集內應該是唯一的。

compute_target
ComputeTargetstr
預設值: None

要執行快照集設定檔建立的計算目標。 如果省略,則會使用本機計算。

create_data_snapshot
bool
預設值: False

如果為 True,則會建立資料的具體化複本。

target_datastore
Union[AbstractAzureStorageDatastore, str]
預設值: None

要儲存快照集的目標資料存放區。 如果省略,則會在工作區的預設儲存體中建立快照集。

傳回

DatasetSnapshot 物件。

傳回類型

備註

快照集擷取基礎資料的時間點摘要統計資料,以及資料本身的選擇性複本。 若要深入瞭解如何建立快照集,請移至 https://aka.ms/azureml/howto/createsnapshots

deprecate

使用新資料集的指標取代資料集。

deprecate(deprecate_by_dataset_id, deprecated_by_definition_version=None)

參數

deprecate_by_dataset_id
uuid
必要

負責取代目前資料集的資料集識別碼。

deprecated_by_definition_version
str
預設值: None

負責取代目前資料集定義的資料集定義版本。

傳回

無。

傳回類型

備註

已取代的資料集定義會在取用時記錄警告。 若要完全禁止取用資料集定義,請將其封存。

如果意外取代資料集定義,請使用 reactivate 來啟動它。

reactivate

重新啟用資料集定義。

適用于已淘汰或封存的資料集定義。

reactivate()

傳回

無。

傳回類型

to_pandas_dataframe

執行此資料集定義所定義的轉換管線,以建立 Pandas 資料框架。

to_pandas_dataframe()

傳回

Pandas 資料框架。

傳回類型

備註

傳回記憶體中完全具體化的 Pandas DataFrame。

to_spark_dataframe

建立 Spark DataFrame,以執行此資料流程所定義的轉換管線。

to_spark_dataframe()

傳回

Spark DataFrame。

傳回類型

備註

傳回的 Spark 資料框架只是執行計畫,而且實際上不包含任何資料,因為 Spark 資料框架會延遲評估。