在复制任务中配置 Azure 文件

本文概述了如何使用管道中的复制活动从/向 Azure 文件复制数据。

支持的格式

Azure 文件支持以下文件格式。 请参阅每一篇介绍基于格式的设置的文章。

支持的配置

有关复制活动下每个选项卡的配置,请分别转到以下部分。

概况

请参阅 常规 设置 指南,以配置 常规 设置选项卡。

来源

在复制活动的 “源”选项卡下,Azure Files 支持以下属性。

需要以下属性:

  • 连接:从连接列表中选择 Azure 文件连接。 如果不存在连接,则通过选择“ 新建”创建新的 Azure 文件存储连接。

  • 文件路径类型:可以选择 文件路径前缀通配符文件路径文件列表 作为文件路径类型。 每个设置的配置是:

    • 文件路径:如果选择此类型,则可以从指定的文件夹/文件路径复制数据。

    • 前缀:指定文件共享下的文件名前缀,用于筛选源文件。 选择名称开头 fileshare_in_connection/this_prefix 的文件。 它利用 Azure 文件的服务端筛选器,该筛选器比通配符筛选器提供更好的性能。

      显示前缀文件路径类型的屏幕截图。

    • 通配符文件路径:指定包含通配符的文件夹或文件路径,以筛选源文件夹或文件。

      允许的通配符是 * (匹配零个或多个字符)和 ? (匹配零或单个字符)。 如果文件夹名称中包含通配符或转义符,则使用^进行转义。 有关更多示例,请转到 文件夹和文件筛选器示例

      显示通配符文件路径的屏幕截图。

      通配符文件夹路径:指定包含通配符的文件夹路径以筛选源文件夹。

      通配符文件名:使用配置的文件夹/通配符文件夹路径下的通配符指定文件名以筛选源文件。

    • 文件列表:指示要复制到的给定文件集。 在 文件路径列表中,输入或浏览到包含要复制的文件列表的文本文件,每行一个文件,即每个文件的相对路径。

      使用此选项时,请勿指定文件名。 有关更多示例,请转到 文件列表示例

      显示文件列表路径的屏幕截图。

      • 文件夹路径:指定文件夹的路径。 它是必需的。

      • 文件列表的路径:指定要复制的文件列表的文本文件的路径。

  • 递归:指定数据是递归地从子文件夹读取,还是仅从指定文件夹读取。 请注意,在 选择“递归” 且目标为基于文件的存储时,不会在目标上复制或创建空文件夹或子文件夹。 默认情况下,此属性处于选中状态,在配置 文件列表路径时不适用。

  • 文件格式:从下拉列表中选择应用的文件格式。 选择 “设置” 以配置文件格式。 有关不同文件格式的设置,请参阅 支持格式 的文章以了解详细信息。

在“高级”下,可以指定以下字段:

  • 按上次修改日期进行筛选:根据上次修改日期筛选文件。 将文件路径类型配置为文件列表时,此属性不适用。

    • 开始时间(UTC):如果上次修改时间大于或等于配置的时间,则选择文件。

    • 结束时间(UTC):如果文件的上次修改时间小于配置的时间,则会选择这些文件。

      开始时间(UTC) 具有日期/时间值,但 结束时间(UTC) 为 NULL 时,表示将选择上次修改的属性大于或等于日期/时间值的文件。 当 结束时间(UTC) 具有日期/时间值但 开始时间(UTC) 为 NULL 时,这意味着将选择上次修改的属性小于日期/时间值的文件。 属性可以为 NULL,这意味着不会对数据应用任何文件属性筛选器。

  • 启用分区发现:指定是否分析文件路径中的分区,并将其添加为其他源列。 默认情况下,它处于未选中状态,在使用二进制文件格式时不受支持。

    • 分区根路径:启用分区发现时,请指定绝对根路径,以便将分区文件夹读取为数据列。

      如果未指定,则默认为

      • 使用源上的文件路径或文件列表时,分区根路径是你配置的路径。
      • 使用通配符文件夹筛选器时,分区根路径是第一个通配符之前的子路径。

      例如,假设将路径配置为 root/folder/year=2020/month=08/day=27

      • 如果将分区根路径指定为 root/folder/year=2020,除文件内的列外,复制活动还会分别生成两个包含值“08”和“27”的列月和日。
      • 如果未指定分区根路径,则不会生成额外的列。

    屏幕截图显示分区发现。

  • 最大并发连接数:此属性指示活动运行期间与数据存储建立的并发连接上限。 仅当想要限制并发连接时,才指定一个值。

  • 其他列:添加其他数据列以存储源文件的相对路径或静态值。 后者支持表达式。

目的地

复制活动的 “目标 ”选项卡下的 Azure 文件支持以下属性。

显示目标选项卡的屏幕截图。

需要以下属性:

  • 连接: 从连接列表中选择 Azure 文件连接。 如果连接不存在,则通过选择“ 新建”创建新的 Azure 文件存储连接。
  • 文件路径:选择 “浏览” 以选择要手动复制或填写路径的文件。
  • 文件格式:从下拉列表中选择应用的文件格式。 选择 “设置” 以配置文件格式。 有关不同文件格式的设置,请参阅 支持格式 的文章以了解详细信息。

在“高级”下,可以指定以下字段:

  • 复制行为:当源是基于文件的数据存储中的文件时,定义复制行为。 可以从下拉列表中选择行为。

    显示复制行为的屏幕截图。

    • 平展层次结构:源文件夹中的所有文件都位于目标文件夹的第一级。 目标文件具有自动生成的名称。
    • 合并文件:将所有文件从源文件夹合并到一个文件。 如果指定了文件名,则合并文件的名称为指定名称。 否则,它是自动生成的文件名。
    • 保留层次结构:保留目标文件夹中的文件层次结构。 源文件到源文件夹的相对路径与目标文件夹的目标文件的相对路径相同。
  • 最大并发连接:活动运行期间与数据存储建立的并发连接上限。 仅当想要限制并发连接时,才指定一个值。

  • 每个文件的最大行数:在将数据写入到文件夹时,可选择写入多个文件,并指定每个文件的最大行数。 指定要为每个文件写入的最大行数。

映射

对于 “映射 ”选项卡配置,请转到 “映射”选项卡下的“配置映射”。如果选择“二进制”作为文件格式,则不支持映射。

设置

有关 “设置” 选项卡配置,请参阅 “设置”选项卡下的“配置其他设置”。

表摘要

下表包含有关 Azure 文件中复制活动的详细信息。

源信息

Name Description 价值 必选 JSON 脚本属性
连接 与源数据存储的连接。 <Azure 文件存储连接> 是的 连接
文件路径类型 用于获取源数据的文件路径类型。 • 文件路径
•前缀
• 通配符文件路径
• 文件列表
是的 /
对于 文件路径
Directory 文件夹的路径。 <文件夹名称> folderPath
文件名 指定文件夹路径下的文件名。 <您的文件名> fileName
对于 前缀
前缀 指定文件共享下的文件名的前缀,用于筛选源文件。 <您的前缀> prefix
对于 通配符文件路径
通配符文件夹路径 带有通配符的文件夹路径,用于筛选源文件夹。 <包含通配符的文件夹路径> wildcardFolderPath
通配符文件名 在指定文件夹/通配符文件夹路径下具有通配符的文件名,用于筛选源文件。 <你的文件名包含通配符> 是的 wildcardFileName
文件 列表
文件夹路径 文件夹的路径。 <文件夹名称> 文件夹路径
文件列表的路径 指明复制给定文件集。 指向包含要复制的文件列表的文本文件,每行一个文件。 < 文件列表路径 > fileListPath
递归 以递归方式处理输入文件夹及其子文件夹中的所有文件,或仅处理所选文件夹中的文件。 选择单个文件时,将禁用此设置。 选择或取消选择 recursive
文件格式 源数据的文件格式。 有关不同文件格式的信息,请参阅 支持格式 的文章以获取详细信息。 / 是的 /
按最近修改筛选 在 [开始时间, 结束时间) 范围内具有上次修改时间的文件将被筛选为进一步处理。 时间将以格式 yyyy-mm-ddThh:mm:ss.fffZ 应用于 UTC 时区。 可以跳过这些属性,这意味着不会应用任何文件属性筛选器。 将文件路径类型配置为文件列表时,此属性不适用。 日期/时间 modifiedDatetimeStart
modifiedDatetimeEnd
启用分区发现 指示是否从文件路径分析分区,并将其添加为其他源列。 已选择或未选中(默认值) enablePartitionDiscovery:
true 或 false (默认值)
最大并发连接数 活动运行期间与数据存储建立的并发连接的上限。 仅当想要限制并发连接时,才指定一个值。 <最大并发连接数> maxConcurrentConnections
其他列 添加其他数据列以存储源文件的相对路径或静态值。 后者支持表达式。 • 姓名
•价值
附加列:
•名字
•价值

目的地信息

Name Description 价值 必选 JSON 脚本属性
连接 与目标数据存储的连接。 <连接> 是的 连接
文件路径 目标文件的文件夹/文件路径。 < 文件夹/文件路径 > 是的 /
Directory 指定存储桶下文件夹的路径。 <文件夹名称> 文件夹路径
文件名 指定存储桶和文件夹路径下的文件名。 <您的文件名> fileName
复制行为 定义以基于文件的数据存储中的文件为源时的复制行为。 简化层次结构
• 合并文件
• 保留层次结构
copyBehavior:
• FlattenHierarchy
• MergeFiles
• 保留层次结构
最大并发连接数 活动运行期间与数据存储建立的并发连接的上限。 仅当想要限制并发连接时,才指定一个值。 <最大并发连接数> maxConcurrentConnections
每个文件的最大行数 在将数据写入到文件夹时,可选择写入多个文件,并指定每个文件的最大行数。 指定要为每个文件写入的最大行数。 < 您的每个文件的最大行数 > maxRowsPerFile