Microsoft Fabric 数据工厂中的 Parquet 格式
本文概述了如何在 Microsoft Fabric 数据工厂的数据管道中配置 Parquet 格式。
支持的功能
以下活动和连接器支持使用 Parquet 格式作为源和目标。
复制活动中的 Parquet 格式
若要配置 Parquet 格式,请在数据管道复制活动的源或目标中选择连接,然后在“文件格式”下拉列表中选择“Parquet”。 选择“设置”以进一步配置此格式。
Parquet 格式作为源
在“文件格式”部分选择“设置”后,弹出的“文件格式设置”对话框中将显示以下属性。
- 压缩类型:在下拉列表中选择用于读取 Parquet 文件的压缩编解码器。 可以从“无”、“gzip (.gz)”、“snappy”、“lzo”、“Brotli (.br)”、“Zstandard”、“lz4”、“lz4frame”、“bzip2 (.bz2)”或“lz4hadoop”中选择。
Parquet 格式作为目标
选择“设置”后,弹出的“文件格式设置”对话框中将显示以下属性。
压缩类型:在下拉列表中选择用于写入 Parquet 文件的压缩编解码器。 可以从“无”、“gzip (.gz)”、“snappy”、“lzo”、“Brotli (.br)”、“Zstandard”、“lz4”、“lz4frame”、“bzip2 (.bz2)”或“lz4hadoop”中选择。
使用 V-Order:启用 parquet 文件格式的写入时间优化。 有关详细信息,请参阅 Delta Lake 表优化和 V-Order。 它默认为启用状态。
在“目标”选项卡中的“高级”设置下,将显示以下 Parquet 格式相关属性。
- 每个文件的最大行数:在将数据写入到文件夹时,可选择写入多个文件,并指定每个文件的最大行数。 指定要为每个文件写入的最大行数。
- 文件名前缀:配置“每个文件的最大行数”时适用。 在将数据写入多个文件时,指定文件名前缀,生成的模式为
<fileNamePrefix>_00000.<fileExtension>
。 如果未指定,将自动生成文件名前缀。 如果源是基于文件的存储或已启用分区选项的数据存储,则此属性不适用。
表摘要
Parquet 作为源
使用 Parquet 格式时,复制活动“源”部分支持以下属性。
名称 | 描述 | 值 | 必选 | JSON 脚本属性 |
---|---|---|---|---|
文件格式 | 要使用的文件格式。 | Parquet | 是 | 类型(在 datasetSettings 下):Parquet |
压缩类型 | 用来读取 Parquet 文件的压缩编解码器。 | 从下列项中进行选择: 无 gzip (.gz) snappy lzo Brotli (.br) Zstandard lz4 lz4frame bzip2 (.bz2) lz4hadoop |
否 | compressionCodec: gzip snappy lzo brotli zstd lz4 lz4frame bz2 lz4hadoop |
Parquet 作为目标
使用 Parquet 格式时,复制活动“目标”部分支持以下属性。
名称 | 描述 | 值 | 必选 | JSON 脚本属性 |
---|---|---|---|---|
文件格式 | 要使用的文件格式。 | Parquet | 是 | 类型(在 datasetSettings 下):Parquet |
使用 V-Order | parquet 文件格式的写入时间优化。 | 已选择或未选择 | 否 | enableVertiParquet |
压缩类型 | 用来写入 Parquet 文件的压缩编解码器。 | 从下列项中进行选择: 无 gzip (.gz) snappy lzo Brotli (.br) Zstandard lz4 lz4frame bzip2 (.bz2) lz4hadoop |
否 | compressionCodec: gzip snappy lzo brotli zstd lz4 lz4frame bz2 lz4hadoop |
每个文件的最大行数 | 在将数据写入到文件夹时,可选择写入多个文件,并指定每个文件的最大行数。 指定要为每个文件写入的最大行数。 | <每个文件的最大行数> | 否 | maxRowsPerFile |
文件名前缀 | 配置“每个文件的最大行数”时适用。 在将数据写入多个文件时,指定文件名前缀,生成的模式为 <fileNamePrefix>_00000.<fileExtension> 。 如果未指定,将自动生成文件名前缀。 如果源是基于文件的存储或已启用分区选项的数据存储,则此属性不适用。 |
<文件名前缀> | 否 | fileNamePrefix |