Microsoft Fabric 中 Data Factory 中的 Parquet 格式
本文概述如何在 Microsoft Fabric 中 Data Factory 的數據管線中設定 Parquet 格式。
支援的功能
下列活動和連接器支援 Parquet 格式做為來源和目的地。
類別 | 連線 or/活動 |
---|---|
支援的連接器 | Amazon S3 |
Azure Blob 儲存體 | |
Azure Data Lake Storage Gen1 | |
Azure Data Lake Storage Gen2 \(部分機器翻譯\) | |
Google Cloud 儲存體 | |
HTTP | |
支援的活動 | 複製活動 |
查閱活動 | |
GetMetadata 活動 | |
刪除活動 |
複製活動中的 Parquet 格式
若要設定 Parquet 格式,請在資料管線複製活動的來源或目的地中選擇您的連線,然後在 [檔案格式] 下拉式清單中選取 [Parquet]。 選取 [設定],以進一步設定此格式。
Parquet 格式作為來源
在 [檔案格式] 區段中選取 設定之後,快顯 [檔案格式設定] 對話框中會顯示下列屬性。
- 壓縮類型:選擇用來讀取下拉式清單中的 Parquet 檔案的壓縮編解碼器。 您可以選擇 None、gzip (.gz)、snappy、lzo、Brotli (.br)、Zstandard、lz4、lz4frame、bzip2 (.bz2)或 lz4hadoop。
Parquet 格式為目的地
選取 設定 之後,快顯 [檔案格式設定] 對話框中會顯示下列屬性。
壓縮類型:選擇用來在下拉式清單中寫入 Parquet 檔案的壓縮編解碼器。 您可以選擇 None、gzip (.gz)、snappy、lzo、Brotli (.br)、Zstandard、lz4、lz4frame、bzip2 (.bz2)或 lz4hadoop。
使用 V 順序:啟用 parquet 檔案格式的寫入時間優化。 如需詳細資訊,請參閱 Delta Lake 數據表優化和 V 順序。 默認會啟用它。
在 [目的地] 索引標籤的 [進階設定] 底下,會顯示下列 Parquet 格式相關屬性。
- 每個檔案的數據列數上限:將數據寫入資料夾時,您可以選擇寫入多個檔案,並指定每個檔案的數據列上限。 指定您想要為每個檔案寫入的最大資料列。
- 檔名前置詞:適用於設定每個檔案的數據列上限時。 將數據寫入多個檔案時,指定檔名前置詞,導致此模式:
<fileNamePrefix>_00000.<fileExtension>
。 如果未指定,則會自動產生檔名前置詞。 當來源是檔案型存放區或已啟用資料分割選項的數據存放區時,這個屬性不適用。
數據表摘要
Parquet 作為來源
使用 Parquet 格式時,複製活動 [來源 ] 區段支援下列屬性。
名稱 | 描述: | 值 | 必要 | JSON 腳本屬性 |
---|---|---|---|---|
檔案格式 | 您想要使用的檔案格式。 | Parquet | Yes | type (下 datasetSettings ):Parquet |
壓縮類型 | 用來讀取 Parquet 檔案的壓縮編解碼器。 | 從下列來源選擇: None gzip (.gz) 活潑 lzo 布羅特利 (.br) Zstandard lz4 lz4frame bzip2 (.bz2) lz4hadoop |
No | compressionCodec: gzip snappy lzo brotli zstd lz4 lz4frame bz2 lz4hadoop |
Parquet 作為目的地
使用 Parquet 格式時,複製活動 目的地 區段支援下列屬性。
名稱 | 描述: | 值 | 必要 | JSON 腳本屬性 |
---|---|---|---|---|
檔案格式 | 您想要使用的檔案格式。 | Parquet | Yes | type (下 datasetSettings ):Parquet |
使用 V 順序 | parquet 檔格式的寫入時間優化。 | 已選取或未選取 | No | enableVertiParquet |
壓縮類型 | 用來寫入 Parquet 檔案的壓縮編解碼器。 | 從下列來源選擇: None gzip (.gz) 活潑 lzo 布羅特利 (.br) Zstandard lz4 lz4frame bzip2 (.bz2) lz4hadoop |
No | compressionCodec: gzip snappy lzo brotli zstd lz4 lz4frame bz2 lz4hadoop |
每個檔案的數據列數上限 | 將數據寫入資料夾時,您可以選擇寫入多個檔案,並指定每個檔案的最大資料列。 指定您想要為每個檔案寫入的最大資料列。 | <每個檔案的最大數據列數> | No | maxRowsPerFile |
檔名前置詞 | 適用於設定 每個檔案 的數據列上限時。 將數據寫入多個檔案時,指定檔名前置詞,導致此模式: <fileNamePrefix>_00000.<fileExtension> 。 如果未指定,則會自動產生檔名前置詞。 當來源是檔案型存放區或已啟用資料分割選項的數據存放區時,這個屬性不適用。 |
<您的檔名前置詞> | No | fileNamePrefix |
相關內容
意見反應
https://aka.ms/ContentUserFeedback。
即將登場:在 2024 年,我們將逐步淘汰 GitHub 問題作為內容的意見反應機制,並將它取代為新的意見反應系統。 如需詳細資訊,請參閱:提交並檢視相關的意見反應