Microsoft Fabric 数据工厂中的 Parquet 格式

本文概述了如何在 Microsoft Fabric 数据工厂的数据管道中配置 Parquet 格式。

支持的功能

以下活动和连接器支持使用 Parquet 格式作为源和目标。

若要配置 Parquet 格式，请在数据管道复制活动的源或目标中选择连接，然后在“文件格式”下拉列表中选择“Parquet”。选择“设置”以进一步配置此格式。

屏幕截图显示文件格式设置。

在“文件格式”部分选择“设置”后，弹出的“文件格式设置”对话框中将显示以下属性。

屏幕截图显示 parquet 文件格式源。

压缩类型：在下拉列表中选择用于读取 Parquet 文件的压缩编解码器。可以从“无”、“gzip (.gz)”、“snappy”、“lzo”、“Brotli (.br)”、“Zstandard”、“lz4”、“lz4frame”、“bzip2 (.bz2)”或“lz4hadoop”中选择。

选择“设置”后，弹出的“文件格式设置”对话框中将显示以下属性。

屏幕截图显示 parquet 文件格式目标。

压缩类型：在下拉列表中选择用于写入 Parquet 文件的压缩编解码器。可以从“无”、“gzip (.gz)”、“snappy”、“lzo”、“Brotli (.br)”、“Zstandard”、“lz4”、“lz4frame”、“bzip2 (.bz2)”或“lz4hadoop”中选择。
使用 V-Order：启用 parquet 文件格式的写入时间优化。有关详细信息，请参阅 Delta Lake 表优化和 V-Order。它默认为启用状态。

在“目标”选项卡中的“高级”设置下，将显示以下 Parquet 格式相关属性。

每个文件的最大行数：在将数据写入到文件夹时，可选择写入多个文件，并指定每个文件的最大行数。指定要为每个文件写入的最大行数。
文件名前缀：配置“每个文件的最大行数”时适用。在将数据写入多个文件时，指定文件名前缀，生成的模式为 <fileNamePrefix>_00000.<fileExtension>。如果未指定，将自动生成文件名前缀。如果源是基于文件的存储或已启用分区选项的数据存储，则此属性不适用。

使用 Parquet 格式时，复制活动“源”部分支持以下属性。

名称	描述	值	必选	JSON 脚本属性
文件格式	要使用的文件格式。	Parquet	是	类型（在 `datasetSettings` 下）： Parquet
压缩类型	用来读取 Parquet 文件的压缩编解码器。	从下列项中进行选择：无 gzip (.gz) snappy lzo Brotli (.br) Zstandard lz4 lz4frame bzip2 (.bz2) lz4hadoop	否	compressionCodec： gzip snappy lzo brotli zstd lz4 lz4frame bz2 lz4hadoop

使用 Parquet 格式时，复制活动“目标”部分支持以下属性。

名称	描述	值	必选	JSON 脚本属性
文件格式	要使用的文件格式。	Parquet	是	类型（在 `datasetSettings` 下）： Parquet
使用 V-Order	parquet 文件格式的写入时间优化。	已选择或未选择	否	enableVertiParquet
压缩类型	用来写入 Parquet 文件的压缩编解码器。	从下列项中进行选择：无 gzip (.gz) snappy lzo Brotli (.br) Zstandard lz4 lz4frame bzip2 (.bz2) lz4hadoop	否	compressionCodec： gzip snappy lzo brotli zstd lz4 lz4frame bz2 lz4hadoop
每个文件的最大行数	在将数据写入到文件夹时，可选择写入多个文件，并指定每个文件的最大行数。指定要为每个文件写入的最大行数。	<每个文件的最大行数>	否	maxRowsPerFile
文件名前缀	配置“每个文件的最大行数”时适用。在将数据写入多个文件时，指定文件名前缀，生成的模式为 `<fileNamePrefix>_00000.<fileExtension>`。如果未指定，将自动生成文件名前缀。如果源是基于文件的存储或已启用分区选项的数据存储，则此属性不适用。	<文件名前缀>	否	fileNamePrefix