PipelineOutputFileDataset 類別

參考

表示升級至 Azure Machine Learning 檔案資料集的中繼管線資料。

一旦將中繼資料升階至 Azure Machine Learning 資料集，它也會在後續步驟中取用為資料集，而不是 DataReference。

建立將升階至 Azure Machine Learning 資料集的中繼資料。

繼承: PipelineOutputAbstractDataset

PipelineOutputFileDataset

建構函式

PipelineOutputFileDataset(pipeline_data)

參數

pipeline_data: PipelineData

必要

PipelineData，代表將升階為資料集的中繼輸出。

pipeline_data: PipelineData

必要

PipelineData，代表將升階為資料集的中繼輸出。

方法

as_direct	將資料集的耗用量模式設定為直接輸入。在此模式中，您將取得資料集的識別碼，並在腳本中呼叫 Dataset.get_by_id 來擷取資料集。 run.input_datasets['{dataset_name}'] 會傳回資料集。
as_download	設定要下載之資料集的取用模式。
as_mount	設定要掛接之資料集的取用模式。
parse_delimited_files	將中繼檔案資料集轉換成表格式資料集。表格式資料集是藉由剖析中間輸出所指向的分隔檔案 () 來建立。
parse_parquet_files	將中繼檔案資料集轉換成表格式資料集。表格式資料集是藉由剖析中間輸出所指向的 parquet 檔案 () 來建立。

as_direct

將資料集的耗用量模式設定為直接輸入。

在此模式中，您將取得資料集的識別碼，並在腳本中呼叫 Dataset.get_by_id 來擷取資料集。 run.input_datasets['{dataset_name}'] 會傳回資料集。

as_direct()

傳回

修改過的 PipelineOutputDataset。

傳回類型

PipelineOutputFileDataset

as_download

設定要下載之資料集的取用模式。

as_download(path_on_compute=None)

參數

path_on_compute: str

預設值: None

要下載資料集的計算路徑。預設為 [無]，這表示 Azure Machine Learning 會為您挑選路徑。

傳回

修改過的 PipelineOutputDataset。

傳回類型

PipelineOutputFileDataset

as_mount

設定要掛接之資料集的取用模式。

as_mount(path_on_compute=None)

參數

path_on_compute: str

預設值: None

要掛接資料集的計算路徑。預設為 [無]，這表示 Azure Machine Learning 會為您挑選路徑。

傳回

修改過的 PipelineOutputDataset。

傳回類型

PipelineOutputFileDataset

parse_delimited_files

將中繼檔案資料集轉換成表格式資料集。

表格式資料集是藉由剖析中間輸出所指向的分隔檔案 () 來建立。

parse_delimited_files(include_path=False, separator=',', header=PromoteHeadersBehavior.ALL_FILES_HAVE_SAME_HEADERS, partition_format=None, file_extension='', set_column_types=None, quoted_line_breaks=False)

參數

include_path: bool

預設值: False

布林值，將路徑資訊保留為資料集中的資料行。預設為 False。這在讀取多個檔案時很有用，而且想要知道特定記錄的來源檔案，或保留檔案路徑中的實用資訊。

separator: str

預設值: ,

用來分割資料行的分隔符號。

header: PromoteHeadersBehavior

預設值: PromoteHeadersBehavior.ALL_FILES_HAVE_SAME_HEADERS

控制從檔案讀取時，資料行標頭的升級方式。預設會假設所有檔案都有相同的標頭。

partition_format: str

預設值: None

指定路徑的資料分割格式。預設為 [無]。每個路徑的資料分割資訊都會根據指定的格式擷取到資料行中。格式部分 '{column_name}' 會建立字串資料行，而 '{column_name：yyyy/MM/dd/HH/mm/ss}' 會建立 datetime 資料行，其中 'yyyy'、'MM'、'dd'、'HH'、'mm' 和 'ss' 用來擷取日期時間類型的年、月、日、小時、分鐘和秒。格式應該從第一個分割區索引鍵的位置開始，直到檔案路徑的結尾為止。例如，假設路徑為 '.。/Accounts/2019/01/01/data.csv'，其中分割區是依部門名稱和時間，partition_format='/{Department}/{PartitionDate：yyyy/MM/dd}/data.csv' 'Department' 的值是 'Accounts' 和值為 '2019-01-01' 的 datetime 資料行 'PartitionDate'。

file_extension: str

必要

要讀取之檔案的副檔名。只有具有此副檔名的檔案會從目錄讀取。當分隔符號為 '、' 和 '.tsv' 為索引標籤時，預設值為 '.csv'，否則為 None。如果傳遞 None，則不論其副檔名 (或缺少副檔名) ，都會讀取所有檔案。

set_column_types: dict[str, DataType]

預設值: None

用來設定資料行資料類型的字典，其中索引鍵是資料行名稱，而值為 DataType 。不在字典中的資料行會保留字元串類型。傳遞 None 將不會產生任何轉換。在來源資料中找不到資料行的專案不會造成錯誤，而且會被忽略。

quoted_line_breaks: bool

預設值: False

是否要在引號內處理新的行字元。此選項可能會影響效能。

傳回

傳回將成為表格式資料集的中繼資料。

傳回類型

PipelineOutputTabularDataset

備註

只有在使用中繼資料做為後續步驟的輸入時，才會套用此轉換。即使輸出傳遞至輸出，它也不會對輸出產生任何影響。

parse_parquet_files

將中繼檔案資料集轉換成表格式資料集。

表格式資料集是藉由剖析中間輸出所指向的 parquet 檔案 () 來建立。

parse_parquet_files(include_path=False, partition_format=None, file_extension='.parquet', set_column_types=None)

參數

include_path: bool

預設值: False

partition_format: str

預設值: None

指定路徑的資料分割格式。預設為 [無]。每個路徑的資料分割資訊都會根據指定的格式擷取到資料行中。格式部分 '{column_name}' 會建立字串資料行，而 '{column_name：yyyy/MM/dd/HH/mm/ss}' 會建立 datetime 資料行，其中 'yyyy'、'MM'、'dd'、'HH'、'mm' 和 'ss' 用來擷取日期時間類型的年、月、日、小時、分鐘和秒。格式應該從第一個分割區索引鍵的位置開始，直到檔案路徑的結尾為止。例如，假設路徑為 '.。/Accounts/2019/01/01/data.parquet'，其中分割區是依部門名稱和時間，partition_format='/{Department}/{PartitionDate：yyyy/MM/dd}/data.parquet' 會建立字串資料行 'Department'，其值為 'Accounts' 和 datetime 資料行 'PartitionDate'，其值為 '2019-01-01'。

file_extension: str

預設值: .parquet

要讀取之檔案的副檔名。只有具有此副檔名的檔案會從目錄讀取。預設值為 '.parquet'。如果這設定為 [無]，則不論其副檔名 (或缺少副檔名) ，都會讀取所有檔案。

set_column_types: dict[str, DataType]

預設值: None

用來設定資料行資料類型的字典，其中索引鍵是資料行名稱，而值為 DataType 。不在字典中的資料行會維持從 parquet 檔案載入的類型。傳遞 None 將不會產生任何轉換。在來源資料中找不到資料行的專案不會造成錯誤，而且會被忽略。

傳回

傳回將成為表格式資料集的中繼資料。

傳回類型

PipelineOutputTabularDataset

備註

只有在使用中繼資料做為後續步驟的輸入時，才會套用此轉換。即使輸出傳遞至輸出，它也不會對輸出產生任何影響。

PipelineOutputFileDataset 類別

建構函式

參數

方法

as_direct

傳回

傳回類型

as_download

參數

傳回

傳回類型

as_mount

參數

傳回

傳回類型

parse_delimited_files

參數

傳回

傳回類型

備註

parse_parquet_files

參數

傳回

傳回類型

備註

意見反應

意見反應

其他資源