PipelineOutputFileDataset 類別

表示升級至 Azure Machine Learning 檔案資料集的中繼管線資料。

一旦將中繼資料升階至 Azure Machine Learning 資料集,它也會在後續步驟中取用為資料集,而不是 DataReference。

建立將升階至 Azure Machine Learning 資料集的中繼資料。

繼承
PipelineOutputFileDataset

建構函式

PipelineOutputFileDataset(pipeline_data)

參數

pipeline_data
PipelineData
必要

PipelineData,代表將升階為資料集的中繼輸出。

pipeline_data
PipelineData
必要

PipelineData,代表將升階為資料集的中繼輸出。

方法

as_direct

將資料集的耗用量模式設定為直接輸入。

在此模式中,您將取得資料集的識別碼,並在腳本中呼叫 Dataset.get_by_id 來擷取資料集。 run.input_datasets['{dataset_name}'] 會傳回資料集。

as_download

設定要下載之資料集的取用模式。

as_mount

設定要掛接之資料集的取用模式。

parse_delimited_files

將中繼檔案資料集轉換成表格式資料集。

表格式資料集是藉由剖析中間輸出所指向的分隔檔案 () 來建立。

parse_parquet_files

將中繼檔案資料集轉換成表格式資料集。

表格式資料集是藉由剖析中間輸出所指向的 parquet 檔案 () 來建立。

as_direct

將資料集的耗用量模式設定為直接輸入。

在此模式中,您將取得資料集的識別碼,並在腳本中呼叫 Dataset.get_by_id 來擷取資料集。 run.input_datasets['{dataset_name}'] 會傳回資料集。

as_direct()

傳回

修改過的 PipelineOutputDataset。

傳回類型

as_download

設定要下載之資料集的取用模式。

as_download(path_on_compute=None)

參數

path_on_compute
str
預設值: None

要下載資料集的計算路徑。 預設為 [無],這表示 Azure Machine Learning 會為您挑選路徑。

傳回

修改過的 PipelineOutputDataset。

傳回類型

as_mount

設定要掛接之資料集的取用模式。

as_mount(path_on_compute=None)

參數

path_on_compute
str
預設值: None

要掛接資料集的計算路徑。 預設為 [無],這表示 Azure Machine Learning 會為您挑選路徑。

傳回

修改過的 PipelineOutputDataset。

傳回類型

parse_delimited_files

將中繼檔案資料集轉換成表格式資料集。

表格式資料集是藉由剖析中間輸出所指向的分隔檔案 () 來建立。

parse_delimited_files(include_path=False, separator=',', header=PromoteHeadersBehavior.ALL_FILES_HAVE_SAME_HEADERS, partition_format=None, file_extension='', set_column_types=None, quoted_line_breaks=False)

參數

include_path
bool
預設值: False

布林值,將路徑資訊保留為資料集中的資料行。 預設為 False。 這在讀取多個檔案時很有用,而且想要知道特定記錄的來源檔案,或保留檔案路徑中的實用資訊。

separator
str
預設值: ,

用來分割資料行的分隔符號。

header
PromoteHeadersBehavior
預設值: PromoteHeadersBehavior.ALL_FILES_HAVE_SAME_HEADERS

控制從檔案讀取時,資料行標頭的升級方式。 預設會假設所有檔案都有相同的標頭。

partition_format
str
預設值: None

指定路徑的資料分割格式。 預設為 [無]。 每個路徑的資料分割資訊都會根據指定的格式擷取到資料行中。 格式部分 '{column_name}' 會建立字串資料行,而 '{column_name:yyyy/MM/dd/HH/mm/ss}' 會建立 datetime 資料行,其中 'yyyy'、'MM'、'dd'、'HH'、'mm' 和 'ss' 用來擷取日期時間類型的年、月、日、小時、分鐘和秒。 格式應該從第一個分割區索引鍵的位置開始,直到檔案路徑的結尾為止。 例如,假設路徑為 '.。/Accounts/2019/01/01/data.csv',其中分割區是依部門名稱和時間,partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.csv' 'Department' 的值是 'Accounts' 和值為 '2019-01-01' 的 datetime 資料行 'PartitionDate'。

file_extension
str
必要

要讀取之檔案的副檔名。 只有具有此副檔名的檔案會從目錄讀取。 當分隔符號為 '、' 和 '.tsv' 為索引標籤時,預設值為 '.csv',否則為 None。 如果傳遞 None,則不論其副檔名 (或缺少副檔名) ,都會讀取所有檔案。

set_column_types
dict[str, DataType]
預設值: None

用來設定資料行資料類型的字典,其中索引鍵是資料行名稱,而值為 DataType 。 不在字典中的資料行會保留字元串類型。 傳遞 None 將不會產生任何轉換。 在來源資料中找不到資料行的專案不會造成錯誤,而且會被忽略。

quoted_line_breaks
bool
預設值: False

是否要在引號內處理新的行字元。 此選項可能會影響效能。

傳回

傳回將成為表格式資料集的中繼資料。

傳回類型

備註

只有在使用中繼資料做為後續步驟的輸入時,才會套用此轉換。 即使輸出傳遞至輸出,它也不會對輸出產生任何影響。

parse_parquet_files

將中繼檔案資料集轉換成表格式資料集。

表格式資料集是藉由剖析中間輸出所指向的 parquet 檔案 () 來建立。

parse_parquet_files(include_path=False, partition_format=None, file_extension='.parquet', set_column_types=None)

參數

include_path
bool
預設值: False

布林值,將路徑資訊保留為資料集中的資料行。 預設為 False。 這在讀取多個檔案時很有用,而且想要知道特定記錄的來源檔案,或保留檔案路徑中的實用資訊。

partition_format
str
預設值: None

指定路徑的資料分割格式。 預設為 [無]。 每個路徑的資料分割資訊都會根據指定的格式擷取到資料行中。 格式部分 '{column_name}' 會建立字串資料行,而 '{column_name:yyyy/MM/dd/HH/mm/ss}' 會建立 datetime 資料行,其中 'yyyy'、'MM'、'dd'、'HH'、'mm' 和 'ss' 用來擷取日期時間類型的年、月、日、小時、分鐘和秒。 格式應該從第一個分割區索引鍵的位置開始,直到檔案路徑的結尾為止。 例如,假設路徑為 '.。/Accounts/2019/01/01/data.parquet',其中分割區是依部門名稱和時間,partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet' 會建立字串資料行 'Department',其值為 'Accounts' 和 datetime 資料行 'PartitionDate',其值為 '2019-01-01'。

file_extension
str
預設值: .parquet

要讀取之檔案的副檔名。 只有具有此副檔名的檔案會從目錄讀取。 預設值為 '.parquet'。 如果這設定為 [無],則不論其副檔名 (或缺少副檔名) ,都會讀取所有檔案。

set_column_types
dict[str, DataType]
預設值: None

用來設定資料行資料類型的字典,其中索引鍵是資料行名稱,而值為 DataType 。 不在字典中的資料行會維持從 parquet 檔案載入的類型。 傳遞 None 將不會產生任何轉換。 在來源資料中找不到資料行的專案不會造成錯誤,而且會被忽略。

傳回

傳回將成為表格式資料集的中繼資料。

傳回類型

備註

只有在使用中繼資料做為後續步驟的輸入時,才會套用此轉換。 即使輸出傳遞至輸出,它也不會對輸出產生任何影響。