共用方式為


Data Factory in Microsoft Fabric 中的 Parquet格式

本文概述如何在 Microsoft Fabric 的 Data Factory 資料管線中設定 Parquet 格式。

支援的功能

下列活動和連接器支援 Parquet 格式做為來源和目的地。

類別 連接器/活動
支援的連接器 Amazon S3
Amazon S3 相容
Azure Blob 儲存體
Azure Data Lake Storage Gen1
Azure Data Lake Storage Gen2 \(部分機器翻譯\)
Azure 檔案
檔案系統
FTP
Google Cloud Storage
HTTP
Lakehouse 檔案
Oracle 雲端儲存空間
SFTP
支援的活動 複製活動(來源/目的地)
查閱活動
GetMetadata 活動
刪除活動

複製活動中的 Parquet 格式

若要設定 Parquet 格式,請在資料管線複製活動的來源或目的地中選擇您的連線,然後在 [檔案格式] 下拉式清單中選取 [Parquet]。 選取 [設定 ] 以進一步設定此格式。

顯示檔案格式設定的螢幕快照。

Parquet 格式作為來源

選取 [檔案格式] 區段中的 [設定] 之後,快顯 [檔案格式設定] 對話框中會顯示下列屬性。

顯示 parquet 檔案格式來源的螢幕快照。

  • 壓縮類型:選擇用來讀取下拉式清單中的 Parquet 檔案的壓縮編解碼器。 您可以選擇 Nonegzip (.gz)snappylzoBrotli (.br)Zstandardlz4lz4framebzip2 (.bz2)lz4hadoop

Parquet 格式為目的地

選取 [ 設定] 之後,快顯 [檔案格式設定 ] 對話框中會顯示下列屬性。

顯示 parquet 檔案格式目的地的螢幕快照。

  • 壓縮類型:選擇用來寫入下拉式清單中的 Parquet 檔案的壓縮編解碼器。 您可以選擇 Nonegzip (.gz)snappylzoBrotli (.br)Zstandardlz4lz4framebzip2 (.bz2)lz4hadoop

  • 使用 V 順序:啟用 parquet 檔案格式的寫入時間優化。 如需詳細資訊,請參閱 Delta Lake 資料表最佳化和 V 順序。 預設會啟用此功能。

[目的地] 索引標籤的 [進階設定] 底下,會顯示下列 Parquet 格式相關屬性。

  • 每個檔案的資料列數上限:當您將資料寫入資料夾時,可以選擇寫入多個檔案,並指定每個檔案的資料列數上限。 指定您想要為每個檔案寫入的最大資料列。
  • 檔名前置詞:適用於設定每個檔案的資料列上限時。 當您將資料寫入多個檔案時,請指定檔案名稱前置詞,使系統進行此模式:<fileNamePrefix>_00000.<fileExtension>。 如果未指定,系統會自動產生檔案名稱前置詞。 當來源是以檔案為基礎的存放區,或啟用資料分割選項的資料存放區時,系統不會套用此屬性。

資料表摘要

Parquet 作為來源

使用 Parquet 格式時,複製活動 [來源 ] 區段支援下列屬性。

名稱 描述: 必要 JSON 腳本屬性
檔案格式 選取要使用的檔案格式。 Parquet Yes type (datasetSettings):
Parquet
壓縮類型 用來讀取 Parquet 檔案的壓縮編解碼器。 從下列項目中選擇:
None
gzip (.gz)
snappy
lzo
布羅特利 (.br)
Zstandard
lz4
lz4frame
bzip2 (.bz2)
lz4hadoop
No compressionCodec:

gzip
snappy
lzo
brotli
zstd
lz4
lz4frame
bz2
lz4hadoop

Parquet 作為目的地

使用 Parquet 格式時,複製活動 目的地 區段支援下列屬性。

名稱 描述: 必要 JSON 腳本屬性
檔案格式 選取要使用的檔案格式。 Parquet Yes type (datasetSettings):
Parquet
使用 V-Order parquet 檔格式的寫入時間優化。 已選取或未選取 No enableVertiParquet
壓縮類型 用來寫入 Parquet 檔案的壓縮編解碼器。 從下列項目中選擇:
None
gzip (.gz)
snappy
lzo
布羅特利 (.br)
Zstandard
lz4
lz4frame
bzip2 (.bz2)
lz4hadoop
No compressionCodec:

gzip
snappy
lzo
brotli
zstd
lz4
lz4frame
bz2
lz4hadoop
每個檔案的最大資料列 當您將資料寫入資料夾時,可以選擇寫入多個檔案,並指定每個檔案的資料列上限。 指定您想要為每個檔案寫入的最大資料列。 <每個檔案的資料列數上限> No maxRowsPerFile
檔名前置詞 適用於設定 每個檔案 的資料列上限時。 當您將資料寫入多個檔案時,請指定檔案名稱前置詞,使系統進行此模式:<fileNamePrefix>_00000.<fileExtension>。 如果未指定,系統會自動產生檔案名稱前置詞。 當來源是以檔案為基礎的存放區,或啟用資料分割選項的資料存放區時,系統不會套用此屬性。 <您的檔名前置詞> No fileNamePrefix