共用方式為


Microsoft Fabric 中 Data Factory 中的 Parquet 格式

本文概述如何在 Microsoft Fabric 中 Data Factory 的數據管線中設定 Parquet 格式。

支援的功能

下列活動和連接器支援 Parquet 格式做為來源和目的地。

類別 連線 or/活動
支援的連接器 Amazon S3
Azure Blob 儲存體
Azure Data Lake Storage Gen1
Azure Data Lake Storage Gen2 \(部分機器翻譯\)
Google Cloud 儲存體
HTTP
支援的活動 複製活動
查閱活動
GetMetadata 活動
刪除活動

複製活動中的 Parquet 格式

若要設定 Parquet 格式,請在資料管線複製活動的來源或目的地中選擇您的連線,然後在 [檔案格式] 下拉式清單中選取 [Parquet]。 選取 [設定],以進一步設定此格式。

Screenshot showing file format settings.

Parquet 格式作為來源

在 [檔案格式] 區段中選取 設定之後,快顯 [檔案格式設定] 對話框中會顯示下列屬性。

Screenshot showing parquet file format source.

  • 壓縮類型:選擇用來讀取下拉式清單中的 Parquet 檔案的壓縮編解碼器。 您可以選擇 None、gzip (.gz)、snappylzoBrotli (.br)Zstandardlz4lz4framebzip2 (.bz2)lz4hadoop。

Parquet 格式為目的地

選取 設定 之後,快顯 [檔案格式設定] 對話框中會顯示下列屬性。

Screenshot showing parquet file format destination.

  • 壓縮類型:選擇用來在下拉式清單中寫入 Parquet 檔案的壓縮編解碼器。 您可以選擇 None、gzip (.gz)、snappylzoBrotli (.br)Zstandardlz4lz4framebzip2 (.bz2)lz4hadoop。

  • 使用 V 順序:啟用 parquet 檔案格式的寫入時間優化。 如需詳細資訊,請參閱 Delta Lake 數據表優化和 V 順序。 默認會啟用它。

[目的地] 索引標籤的 [進階設定] 底下,會顯示下列 Parquet 格式相關屬性。

  • 每個檔案的數據列數上限:將數據寫入資料夾時,您可以選擇寫入多個檔案,並指定每個檔案的數據列上限。 指定您想要為每個檔案寫入的最大資料列。
  • 檔名前置詞:適用於設定每個檔案的數據列上限時。 將數據寫入多個檔案時,指定檔名前置詞,導致此模式: <fileNamePrefix>_00000.<fileExtension>。 如果未指定,則會自動產生檔名前置詞。 當來源是檔案型存放區或已啟用資料分割選項的數據存放區時,這個屬性不適用。

數據表摘要

Parquet 作為來源

使用 Parquet 格式時,複製活動 [來源 ] 區段支援下列屬性。

名稱 描述: 必要 JSON 腳本屬性
檔案格式 您想要使用的檔案格式。 Parquet Yes type (datasetSettings):
Parquet
壓縮類型 用來讀取 Parquet 檔案的壓縮編解碼器。 從下列來源選擇:
None
gzip (.gz)
活潑
lzo
布羅特利 (.br)
Zstandard
lz4
lz4frame
bzip2 (.bz2)
lz4hadoop
No compressionCodec:

gzip
snappy
lzo
brotli
zstd
lz4
lz4frame
bz2
lz4hadoop

Parquet 作為目的地

使用 Parquet 格式時,複製活動 目的地 區段支援下列屬性。

名稱 描述: 必要 JSON 腳本屬性
檔案格式 您想要使用的檔案格式。 Parquet Yes type (datasetSettings):
Parquet
使用 V 順序 parquet 檔格式的寫入時間優化。 已選取或未選取 No enableVertiParquet
壓縮類型 用來寫入 Parquet 檔案的壓縮編解碼器。 從下列來源選擇:
None
gzip (.gz)
活潑
lzo
布羅特利 (.br)
Zstandard
lz4
lz4frame
bzip2 (.bz2)
lz4hadoop
No compressionCodec:

gzip
snappy
lzo
brotli
zstd
lz4
lz4frame
bz2
lz4hadoop
每個檔案的數據列數上限 將數據寫入資料夾時,您可以選擇寫入多個檔案,並指定每個檔案的最大資料列。 指定您想要為每個檔案寫入的最大資料列。 <每個檔案的最大數據列數> No maxRowsPerFile
檔名前置詞 適用於設定 每個檔案 的數據列上限時。 將數據寫入多個檔案時,指定檔名前置詞,導致此模式: <fileNamePrefix>_00000.<fileExtension>。 如果未指定,則會自動產生檔名前置詞。 當來源是檔案型存放區或已啟用資料分割選項的數據存放區時,這個屬性不適用。 <您的檔名前置詞> No fileNamePrefix