本文概述了如何在数据工厂中配置二进制格式。
支持的功能
以下活动和连接器支持使用二进制格式作为源和目标。
| 类别 | 连接器/活动 |
|---|---|
| 支持的连接器 | Amazon S3 |
| Amazon S3 兼容 | |
| Azure Blob 存储 | |
| Azure Data Lake Storage Gen2 | |
| Azure 文件 | |
| 文件系统 | |
| FTP | |
| Google 云存储 | |
| HTTP | |
| Lakehouse 文件 | |
| Oracle 云存储 | |
| SFTP | |
| 支持的活动 | 复制活动(源/目标) |
| GetMetadata 活动 | |
| 删除活动 |
复制活动中的二进制格式
若要配置二进制格式,请在管道复制活动的源或目标中选择连接,然后在文件格式的下拉列表中选择“二进制”。 选择“设置”以进一步配置此格式。
注意
在复制活动中使用二进制格式时,源和目标应都使用二进制格式。
二进制文件作为源
在“源”选项卡下的“文件格式”部分选择“设置”后,弹出的“文件格式设置”对话框中将显示以下属性。
压缩类型:用于读取二进制文件的压缩编解码器。 可以从下拉列表中选择“无”、“bzip2”、“gzip”、“deflate”、“ZipDeflate”、“TarGzip”或“tar”类型。
如果选择“ZipDeflate”作为压缩类型,则“将 zip 文件名保留为文件夹”将显示在“源”选项卡的“高级”设置”下。
-
将 zip 文件名保留为文件夹:指示是否在复制过程中以文件夹结构形式保留源 zip 文件名。
- 如果选中此框(默认),则服务会将解压缩的文件写入
<specified file path>/<folder named as source zip file>/。 - 如果未选中此框,则服务会将解压缩的文件直接写入
<specified file path>。 请确保不同的源 zip 文件中没有重复的文件名,以避免产生冲突或出现意外行为。
- 如果选中此框(默认),则服务会将解压缩的文件写入
如果选择“TarGzip/tar”作为压缩类型,则“将压缩文件名保留为文件夹”将显示在“源”选项卡的“高级”设置”下。
-
将压缩文件名保留为文件夹:指示是否在复制过程中以文件夹结构形式保留源压缩文件名。
- 如果选中此框(默认),则服务会将解压缩的文件写入
<specified file path>/<folder named as source compressed file>/。 - 如果未选中此框,则服务会将解压缩的文件直接写入
<specified file path>。 请确保不同的源 zip 文件中没有重复的文件名,以避免产生冲突或出现意外行为。
- 如果选中此框(默认),则服务会将解压缩的文件写入
-
将 zip 文件名保留为文件夹:指示是否在复制过程中以文件夹结构形式保留源 zip 文件名。
压缩级别:压缩比。 可以从“最佳”或“最快”中进行选择。
- 最快:压缩操作应尽可能快速完成,即使生成的文件未经过最佳压缩。
- 最佳:压缩操作应进行最佳压缩,即使这将耗费更长的时间来完成。 有关详细信息,请转到压缩级别文章。
在“源”选项卡中的“高级设置”下,将显示与二进制格式相关的其他属性。
- 完成后删除文件:指示是否会在二进制文件成功移到目标存储后将其从源存储中删除。 文件删除以每文件为单位。 因此,当复制活动失败时,一些文件已经复制到目标并从源中删除,而另一些文件仍保留在源存储中。
二进制作为目的地
在“目标”选项卡下的“文件格式”部分选择“设置”后,弹出的“文件格式设置”对话框中将显示以下属性。
压缩类型:用于写入二进制文件的压缩编解码器。 可以从下拉列表中选择“无”、“bzip2”、“gzip”、“deflate”、“ZipDeflate”、“TarGzip”或“tar”类型。
压缩级别:压缩比。 可以从“最佳”或“最快”中进行选择。
- 最快:压缩操作应尽可能快速完成,即使生成的文件未经过最佳压缩。
- 最佳:压缩操作应进行最佳压缩,即使这将耗费更长的时间来完成。 有关详细信息,请转到压缩级别文章。
表摘要
二进制文件作为源
使用二进制格式时,复制活动“源”部分支持以下属性。
| 名称 | 描述 | 值 | 必选 | JSON 脚本属性 |
|---|---|---|---|---|
| 文件格式 | 要使用的文件格式。 | 二进制 | 是 | 类型(在 datasetSettings 下):二进制 |
| 压缩类型 | 用于读取二进制文件的压缩编解码器。 | 从下列项中进行选择: 无 bzip2 gzip deflate ZipDeflate TarGzip tar |
否 | 类型(在 compression 下):bzip2 gzip 压缩 ZipDeflate TarGzip tar |
| 压缩级别 | 压缩率。 允许的值为 Optimal 或 Fastest。 | 最佳或最快 | 否 | 级别(在 compression 下):最快 最佳 |
| 将 zip 文件名保留为文件夹 | 指示是否在复制过程中以文件夹结构形式保留源 zip 文件名。 | 已选择或取消选择 | 否 | preserveZipFileNameAsFolder(保留Zip文件名作为文件夹) (在 compressionProperties->type 下为 ZipDeflateReadSettings) |
| 将压缩文件名保留为文件夹 | 指示是否在复制过程中以文件夹结构形式保留源压缩文件名。 | 已选择或取消选择 | 否 | preserveCompressionFileNameAsFolder (在 compressionProperties->type 下为 TarGZipReadSettings 或 TarReadSettings) |
| 完成后删除文件 | 指示是否会在二进制文件成功移到目标存储后将其从源存储中删除。 | 已选择或取消选择 | 否 | deleteFilesAfterCompletion(完成后删除文件) 真或假 |
二进制作为目的地
使用二进制格式时,复制活动“目标”部分支持以下属性。
| 名称 | 描述 | 值 | 必选 | JSON 脚本属性 |
|---|---|---|---|---|
| 文件格式 | 要使用的文件格式。 | 二进制 | 是 | 类型(在 datasetSettings 下):二进制 |
| 压缩类型 | 用于写入二进制文件的压缩编解码器。 | 从下列项中进行选择: 无 bzip2 gzip deflate ZipDeflate TarGzip tar |
否 | 类型(在 compression 下):bzip2 gzip 压缩 ZipDeflate TarGzip tar |
| 压缩级别 | 压缩率。 允许的值为 Optimal 或 Fastest。 | 最佳或最快 | 否 | 级别(在 compression 下):最快 最佳 |