Data Factory in Microsoft Fabric 中的 Parquet格式

本文概述如何在 Microsoft Fabric 的 Data Factory 資料管線中設定 Parquet 格式。

支援的功能

下列活動和連接器支援 Parquet 格式做為來源和目的地。

類別	連接器/活動
支援的連接器	Amazon S3
	Amazon S3 相容
	Azure Blob 儲存體
	Azure Data Lake Storage Gen1
	Azure Data Lake Storage Gen2 \(部分機器翻譯\)
	Azure 檔案
	檔案系統
	FTP
	Google Cloud Storage
	HTTP
	Lakehouse 檔案
	Oracle 雲端儲存空間
	SFTP
支援的活動	複製活動（來源/目的地）
	查閱活動
	GetMetadata 活動
	刪除活動

若要設定 Parquet 格式，請在資料管線複製活動的來源或目的地中選擇您的連線，然後在 [檔案格式] 下拉式清單中選取 [Parquet]。選取 [設定 ] 以進一步設定此格式。

顯示檔案格式設定的螢幕快照。

選取 [檔案格式] 區段中的 [設定] 之後，快顯 [檔案格式設定] 對話框中會顯示下列屬性。

顯示 parquet 檔案格式來源的螢幕快照。

壓縮類型：選擇用來讀取下拉式清單中的 Parquet 檔案的壓縮編解碼器。您可以選擇 None、gzip (.gz)、snappy、lzo、Brotli (.br)、Zstandard、lz4、lz4frame、bzip2 (.bz2) 或 lz4hadoop。

選取 [ 設定] 之後，快顯 [檔案格式設定 ] 對話框中會顯示下列屬性。

顯示 parquet 檔案格式目的地的螢幕快照。

壓縮類型：選擇用來寫入下拉式清單中的 Parquet 檔案的壓縮編解碼器。您可以選擇 None、gzip (.gz)、snappy、lzo、Brotli (.br)、Zstandard、lz4、lz4frame、bzip2 (.bz2) 或 lz4hadoop。
使用 V 順序：啟用 parquet 檔案格式的寫入時間優化。如需詳細資訊，請參閱 Delta Lake 資料表最佳化和 V 順序。預設會啟用此功能。

在 [目的地] 索引標籤的 [進階設定] 底下，會顯示下列 Parquet 格式相關屬性。

每個檔案的資料列數上限：當您將資料寫入資料夾時，可以選擇寫入多個檔案，並指定每個檔案的資料列數上限。指定您想要為每個檔案寫入的最大資料列。
檔名前置詞：適用於設定每個檔案的資料列上限時。當您將資料寫入多個檔案時，請指定檔案名稱前置詞，使系統進行此模式：<fileNamePrefix>_00000.<fileExtension>。如果未指定，系統會自動產生檔案名稱前置詞。當來源是以檔案為基礎的存放區，或啟用資料分割選項的資料存放區時，系統不會套用此屬性。

使用 Parquet 格式時，複製活動 [來源 ] 區段支援下列屬性。

名稱	描述:	值	必要	JSON 腳本屬性
檔案格式	選取要使用的檔案格式。	Parquet	Yes	type (在 `datasetSettings` 下)： Parquet
壓縮類型	用來讀取 Parquet 檔案的壓縮編解碼器。	從下列項目中選擇： None gzip (.gz) snappy lzo 布羅特利（.br） Zstandard lz4 lz4frame bzip2 （.bz2） lz4hadoop	No	compressionCodec： gzip snappy lzo brotli zstd lz4 lz4frame bz2 lz4hadoop

使用 Parquet 格式時，複製活動 目的地 區段支援下列屬性。

名稱	描述:	值	必要	JSON 腳本屬性
檔案格式	選取要使用的檔案格式。	Parquet	Yes	type (在 `datasetSettings` 下)： Parquet
使用 V-Order	parquet 檔格式的寫入時間優化。	已選取或未選取	No	enableVertiParquet
壓縮類型	用來寫入 Parquet 檔案的壓縮編解碼器。	從下列項目中選擇： None gzip (.gz) snappy lzo 布羅特利（.br） Zstandard lz4 lz4frame bzip2 （.bz2） lz4hadoop	No	compressionCodec： gzip snappy lzo brotli zstd lz4 lz4frame bz2 lz4hadoop
每個檔案的最大資料列	當您將資料寫入資料夾時，可以選擇寫入多個檔案，並指定每個檔案的資料列上限。指定您想要為每個檔案寫入的最大資料列。	<每個檔案的資料列數上限>	No	maxRowsPerFile
檔名前置詞	適用於設定每個檔案的資料列上限時。當您將資料寫入多個檔案時，請指定檔案名稱前置詞，使系統進行此模式：`<fileNamePrefix>_00000.<fileExtension>`。如果未指定，系統會自動產生檔案名稱前置詞。當來源是以檔案為基礎的存放區，或啟用資料分割選項的資料存放區時，系統不會套用此屬性。	<您的檔名前置詞>	No	fileNamePrefix