PipelineOutputTabularDataset 類別

代表升級為 Azure Machine Learning 表格式資料集的中繼管線資料。

一旦將中繼資料升級為 Azure Machine Learning 資料集,後續步驟也會取用為資料集,而不是 DataReference。

建立將升階為 Azure Machine Learning 資料集的中繼資料。

繼承
PipelineOutputTabularDataset

建構函式

PipelineOutputTabularDataset(pipeline_output_dataset, additional_transformations)

參數

pipeline_output_dataset
PipelineOutputFileDataset
必要

表示要轉換成表格式資料集之中繼輸出的檔案資料集。

additional_transformations
<xref:azureml.dataprep.Dataflow>
必要

將在檔案資料集之上套用的其他轉換。

pipeline_output_dataset
PipelineOutputFileDataset
必要

表示要轉換成表格式資料集之中繼輸出的檔案資料集。

additional_transformations
<xref:azureml.dataprep.Dataflow>
必要

將在檔案資料集之上套用的其他轉換。

方法

create_input_binding

建立輸入系結。

drop_columns

從資料集卸載指定的資料行。

keep_columns

保留指定的資料行,並從資料集卸載所有其他資料行。

random_split

將資料集中的記錄隨機分割成兩個部分,大約依指定的百分比來分割。

create_input_binding

建立輸入系結。

create_input_binding()

傳回

InputPortBinding 使用此 PipelineData 作為來源。

傳回類型

drop_columns

從資料集卸載指定的資料行。

drop_columns(columns)

參數

columns
strlist[str]
必要

要卸載之資料行的名稱或名稱清單。

傳回

傳回只卸載指定資料行的新中繼資料。

傳回類型

keep_columns

保留指定的資料行,並從資料集卸載所有其他資料行。

keep_columns(columns)

參數

columns
strlist[str]
必要

要保留之資料行的名稱或名稱清單。

傳回

傳回只保留指定資料行的新中繼資料。

傳回類型

random_split

將資料集中的記錄隨機分割成兩個部分,大約依指定的百分比來分割。

random_split(percentage, seed=None)

參數

percentage
float
必要

分割資料集的大約百分比。 這必須是介於 0.0 到 1.0 之間的數位。

seed
int
預設值: None

要用於隨機產生器的選擇性種子。

傳回

傳回新的 TabularDataset 物件的 Tuple,代表分割之後的兩個資料集。

傳回類型