PipelineOutputFileDataset 類別
表示升級至 Azure Machine Learning 檔案資料集的中繼管線資料。
一旦將中繼資料升階至 Azure Machine Learning 資料集,它也會在後續步驟中取用為資料集,而不是 DataReference。
建立將升階至 Azure Machine Learning 資料集的中繼資料。
- 繼承
-
PipelineOutputFileDataset
建構函式
PipelineOutputFileDataset(pipeline_data)
參數
方法
as_direct |
將資料集的耗用量模式設定為直接輸入。 在此模式中,您將取得資料集的識別碼,並在腳本中呼叫 Dataset.get_by_id 來擷取資料集。 run.input_datasets['{dataset_name}'] 會傳回資料集。 |
as_download |
設定要下載之資料集的取用模式。 |
as_mount |
設定要掛接之資料集的取用模式。 |
parse_delimited_files |
將中繼檔案資料集轉換成表格式資料集。 表格式資料集是藉由剖析中間輸出所指向的分隔檔案 () 來建立。 |
parse_parquet_files |
將中繼檔案資料集轉換成表格式資料集。 表格式資料集是藉由剖析中間輸出所指向的 parquet 檔案 () 來建立。 |
as_direct
將資料集的耗用量模式設定為直接輸入。
在此模式中,您將取得資料集的識別碼,並在腳本中呼叫 Dataset.get_by_id 來擷取資料集。 run.input_datasets['{dataset_name}'] 會傳回資料集。
as_direct()
傳回
修改過的 PipelineOutputDataset。
傳回類型
as_download
設定要下載之資料集的取用模式。
as_download(path_on_compute=None)
參數
傳回
修改過的 PipelineOutputDataset。
傳回類型
as_mount
設定要掛接之資料集的取用模式。
as_mount(path_on_compute=None)
參數
傳回
修改過的 PipelineOutputDataset。
傳回類型
parse_delimited_files
將中繼檔案資料集轉換成表格式資料集。
表格式資料集是藉由剖析中間輸出所指向的分隔檔案 () 來建立。
parse_delimited_files(include_path=False, separator=',', header=PromoteHeadersBehavior.ALL_FILES_HAVE_SAME_HEADERS, partition_format=None, file_extension='', set_column_types=None, quoted_line_breaks=False)
參數
- include_path
- bool
布林值,將路徑資訊保留為資料集中的資料行。 預設為 False。 這在讀取多個檔案時很有用,而且想要知道特定記錄的來源檔案,或保留檔案路徑中的實用資訊。
- header
- PromoteHeadersBehavior
控制從檔案讀取時,資料行標頭的升級方式。 預設會假設所有檔案都有相同的標頭。
- partition_format
- str
指定路徑的資料分割格式。 預設為 [無]。 每個路徑的資料分割資訊都會根據指定的格式擷取到資料行中。 格式部分 '{column_name}' 會建立字串資料行,而 '{column_name:yyyy/MM/dd/HH/mm/ss}' 會建立 datetime 資料行,其中 'yyyy'、'MM'、'dd'、'HH'、'mm' 和 'ss' 用來擷取日期時間類型的年、月、日、小時、分鐘和秒。 格式應該從第一個分割區索引鍵的位置開始,直到檔案路徑的結尾為止。 例如,假設路徑為 '.。/Accounts/2019/01/01/data.csv',其中分割區是依部門名稱和時間,partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.csv' 'Department' 的值是 'Accounts' 和值為 '2019-01-01' 的 datetime 資料行 'PartitionDate'。
- file_extension
- str
要讀取之檔案的副檔名。 只有具有此副檔名的檔案會從目錄讀取。 當分隔符號為 '、' 和 '.tsv' 為索引標籤時,預設值為 '.csv',否則為 None。 如果傳遞 None,則不論其副檔名 (或缺少副檔名) ,都會讀取所有檔案。
用來設定資料行資料類型的字典,其中索引鍵是資料行名稱,而值為 DataType 。 不在字典中的資料行會保留字元串類型。 傳遞 None 將不會產生任何轉換。 在來源資料中找不到資料行的專案不會造成錯誤,而且會被忽略。
傳回
傳回將成為表格式資料集的中繼資料。
傳回類型
備註
只有在使用中繼資料做為後續步驟的輸入時,才會套用此轉換。 即使輸出傳遞至輸出,它也不會對輸出產生任何影響。
parse_parquet_files
將中繼檔案資料集轉換成表格式資料集。
表格式資料集是藉由剖析中間輸出所指向的 parquet 檔案 () 來建立。
parse_parquet_files(include_path=False, partition_format=None, file_extension='.parquet', set_column_types=None)
參數
- include_path
- bool
布林值,將路徑資訊保留為資料集中的資料行。 預設為 False。 這在讀取多個檔案時很有用,而且想要知道特定記錄的來源檔案,或保留檔案路徑中的實用資訊。
- partition_format
- str
指定路徑的資料分割格式。 預設為 [無]。 每個路徑的資料分割資訊都會根據指定的格式擷取到資料行中。 格式部分 '{column_name}' 會建立字串資料行,而 '{column_name:yyyy/MM/dd/HH/mm/ss}' 會建立 datetime 資料行,其中 'yyyy'、'MM'、'dd'、'HH'、'mm' 和 'ss' 用來擷取日期時間類型的年、月、日、小時、分鐘和秒。 格式應該從第一個分割區索引鍵的位置開始,直到檔案路徑的結尾為止。 例如,假設路徑為 '.。/Accounts/2019/01/01/data.parquet',其中分割區是依部門名稱和時間,partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet' 會建立字串資料行 'Department',其值為 'Accounts' 和 datetime 資料行 'PartitionDate',其值為 '2019-01-01'。
- file_extension
- str
要讀取之檔案的副檔名。 只有具有此副檔名的檔案會從目錄讀取。 預設值為 '.parquet'。 如果這設定為 [無],則不論其副檔名 (或缺少副檔名) ,都會讀取所有檔案。
用來設定資料行資料類型的字典,其中索引鍵是資料行名稱,而值為 DataType 。 不在字典中的資料行會維持從 parquet 檔案載入的類型。 傳遞 None 將不會產生任何轉換。 在來源資料中找不到資料行的專案不會造成錯誤,而且會被忽略。
傳回
傳回將成為表格式資料集的中繼資料。
傳回類型
備註
只有在使用中繼資料做為後續步驟的輸入時,才會套用此轉換。 即使輸出傳遞至輸出,它也不會對輸出產生任何影響。
意見反應
https://aka.ms/ContentUserFeedback。
即將登場:在 2024 年,我們將逐步淘汰 GitHub 問題作為內容的意見反應機制,並將它取代為新的意見反應系統。 如需詳細資訊,請參閱:提交並檢視相關的意見反應