了解如何在 Microsoft Fabric 的数据工厂中创建复制作业

数据工厂中的复制作业可以轻松地将数据从源移动到目标,而无需创建管道。 可以使用内置的批处理和增量复制模式设置数据传输,可以选择执行一次或按计划定期执行。 按照本文中的步骤开始从 数据库存储复制数据。

创建复制任务以从数据库引入数据

设置一个将数据从数据库迁移的拷贝作业,请按照以下步骤操作:

  1. 创建新的工作区或使用现有的工作区。

  2. 选择 “+ 新建项”,选择 “复制作业 ”图标,命名复制作业,然后选择“ 创建”。

    展示如何导航到数据工厂主页并创建新复制作业的屏幕截图。

  3. 选择要从中复制数据的数据库。 在此示例中,我们使用 Azure SQL DB

    显示在何处选择复制作业的数据源的屏幕截图。

  4. 对于 Azure SQL DB,请输入 服务器路径凭据。 可以使用本地网关或虚拟网络网关在虚拟网络环境中安全地复制数据。 对于其他数据库,连接详细信息将有所不同。

    显示输入凭据的位置的屏幕截图。

  5. 选择要复制的 。 使用搜索框标识要复制的特定表和列。

    屏幕截图显示在何处选择用于复制作业的表和列。

  6. 选择目标商店。 在此示例中,我们将使用另一个 Azure SQL DB

    屏幕截图显示如何选择复制作业的目标存储。

  7. (可选)选择 “更新”方法 以决定将数据写入目标的方式。 如果选择 “合并”,请选择标识每行的键列。

    显示更新方法位置的屏幕截图。

    显示如何更新方法的屏幕截图。

  8. (可选)配置 表或列映射 以重命名目标中的表或列,或应用数据类型转换。 默认情况下,使用与源相同的表名、列名和数据类型复制数据。

    显示指定表映射的位置的屏幕截图。

    显示指定列映射的位置的屏幕截图。

  9. 选择复制模式:完整数据复制或增量复制。 在此示例中,我们使用 增量复制。 为每个表选择增量列,以跟踪哪些行已更改。 可以使用预览按钮查找正确的列。 有关该列的详细信息,请参阅: 增量列

    备注

    选择增量复制模式时,复制作业最初会执行完整加载并在下一次运行中执行增量复制。

    显示选择复制作业模式的位置的屏幕截图。

  10. 查看作业摘要,选择运行选项以运行一次或按计划运行,然后选择“ 保存 + 运行”。

    显示查看和保存新创建的复制作业的位置的屏幕截图。

  11. 复制作业将立即启动,可以从内联监视面板中跟踪作业的状态,其中包含每个表的行计数和复制持续时间等信息。 详细了解如何监视复制作业

    显示“复制作业”面板的屏幕截图,可在其中监视运行历史记录。

  12. 您可以随时运行复制作业,即便设置为按计划运行,依然可以这样做。 只需随时选择 “运行 ”按钮,复制作业仅复制自上次运行以来更改的数据。

  13. 还可以随时编辑复制作业,包括添加或删除要复制的表和列、配置计划或调整高级设置。 某些更改(如更新增量列)将重置增量复制作业,在下一次运行时会进行初始完整加载。

    显示如何编辑复制作业的屏幕截图。

创建复制作业以从存储设备导入文件

按照以下步骤,设置一个从文件存储中复制数据的任务:

  1. 创建新的工作区或使用现有的工作区。

  2. 选择 “+ 新建项”,选择 “复制作业 ”图标,命名复制作业,然后选择“ 创建”。

    展示如何导航到数据工厂主页并创建新复制作业的屏幕截图。

  3. 选择要从中复制数据的数据存储。 在此示例中,我们使用了 Azure Data Lake Storage Gen2

    屏幕截图显示在何处选择用于复制作业的存储源。

  4. 若要连接到 Azure Data Lake Storage Gen2,请输入 存储 URL凭据 以连接到 Azure Data Lake Storage Gen2。 对于其他数据存储,连接详细信息将有所不同。 可以使用本地网关或虚拟网络网关在虚拟网络环境中安全地复制数据。

    屏幕截图显示在何处输入存储的凭据。

  5. 选择要复制 的文件夹文件 。 可以选择复制包含其所有文件或单个文件的整个文件夹。

    小窍门

    架构不可知(二进制副本) 将文件复制到另一个数据存储,而无需分析架构。 这可以显著提高复制性能。

    显示复制作业选择文件夹的位置的屏幕截图。

  6. 选择目标商店。 在此示例中,我们选择了 Lakehouse

    屏幕截图显示选择复制作业的存储目标位置的地方。

  7. 选择目标存储中的 文件夹路径 。 选择 “保留层次结构 ”以维护与源相同的文件夹结构,或 平展层次结构 将所有文件放在单个文件夹中。

    显示如何选择目标文件夹的屏幕截图。

  8. 选择复制模式:完整数据复制或增量复制。 在此示例中,我们使用 增量复制 ,以便复制作业将在第一次运行时复制所有文件,然后在下一次运行中仅复制新的或更新的文件。

    屏幕截图显示在何处选择用于存储的复制作业模式。

  9. 查看作业摘要,选择运行选项以运行一次或按计划运行,然后选择“ 保存 + 运行”。

    显示用于查看和保存新创建的复制作业的存储位置的屏幕截图。

  10. 复制作业将立即启动,可以从内联监视面板中跟踪作业的状态,其中包含每个表的行计数和复制持续时间等信息。 详细了解如何监视复制作业

    显示“复制作业”面板的屏幕截图,可在其中监视在存储之间移动数据的运行历史记录。

  11. 您可以随时重新运行复制任务,即使它设置为按计划运行也是如此。 只需随时选择 “运行 ”按钮,复制作业仅复制自上次运行以来更改的数据。

  12. 您还可以随时编辑复制任务,包括配置时间表或调整高级设置。

    屏幕截图显示如何编辑用于存储的复制作业。

已知限制

  • 目前,增量复制模式仅适用于某些源。 有关详细信息,请参阅 复制作业支持的连接器清单。
  • 无法从源存储中捕获行删除。
  • 将文件复制到存储位置时,如果未从源加载任何数据,则会在目标处创建空文件。