数据工厂中的复制作业可以轻松地将数据从源移动到目标,而无需创建管道。 可以使用内置的批处理和增量复制模式设置数据传输,可以选择执行一次或按计划定期执行。 按照本文中的步骤开始从 数据库 或 存储复制数据。
创建复制任务以从数据库引入数据
设置一个将数据从数据库迁移的拷贝作业,请按照以下步骤操作:
创建新的工作区或使用现有的工作区。
选择 “+ 新建项”,选择 “复制作业 ”图标,命名复制作业,然后选择“ 创建”。
选择要从中复制数据的数据库。 在此示例中,我们使用 Azure SQL DB。
对于 Azure SQL DB,请输入 服务器路径 和 凭据。 可以使用本地网关或虚拟网络网关在虚拟网络环境中安全地复制数据。 对于其他数据库,连接详细信息将有所不同。
选择要复制的 表 和 列 。 使用搜索框标识要复制的特定表和列。
选择目标商店。 在此示例中,我们将使用另一个 Azure SQL DB。
(可选)选择 “更新”方法 以决定将数据写入目标的方式。 如果选择 “合并”,请选择标识每行的键列。
(可选)配置 表或列映射 以重命名目标中的表或列,或应用数据类型转换。 默认情况下,使用与源相同的表名、列名和数据类型复制数据。
选择复制模式:完整数据复制或增量复制。 在此示例中,我们使用 增量复制。 为每个表选择增量列,以跟踪哪些行已更改。 可以使用预览按钮查找正确的列。 有关该列的详细信息,请参阅: 增量列。
备注
选择增量复制模式时,复制作业最初会执行完整加载并在下一次运行中执行增量复制。
查看作业摘要,选择运行选项以运行一次或按计划运行,然后选择“ 保存 + 运行”。
复制作业将立即启动,可以从内联监视面板中跟踪作业的状态,其中包含每个表的行计数和复制持续时间等信息。 详细了解如何监视复制作业
您可以随时运行复制作业,即便设置为按计划运行,依然可以这样做。 只需随时选择 “运行 ”按钮,复制作业仅复制自上次运行以来更改的数据。
还可以随时编辑复制作业,包括添加或删除要复制的表和列、配置计划或调整高级设置。 某些更改(如更新增量列)将重置增量复制作业,在下一次运行时会进行初始完整加载。
创建复制作业以从存储设备导入文件
按照以下步骤,设置一个从文件存储中复制数据的任务:
创建新的工作区或使用现有的工作区。
选择 “+ 新建项”,选择 “复制作业 ”图标,命名复制作业,然后选择“ 创建”。
选择要从中复制数据的数据存储。 在此示例中,我们使用了 Azure Data Lake Storage Gen2。
若要连接到 Azure Data Lake Storage Gen2,请输入 存储 URL 和 凭据 以连接到 Azure Data Lake Storage Gen2。 对于其他数据存储,连接详细信息将有所不同。 可以使用本地网关或虚拟网络网关在虚拟网络环境中安全地复制数据。
选择要复制 的文件夹 或 文件 。 可以选择复制包含其所有文件或单个文件的整个文件夹。
小窍门
架构不可知(二进制副本) 将文件复制到另一个数据存储,而无需分析架构。 这可以显著提高复制性能。
选择目标商店。 在此示例中,我们选择了 Lakehouse。
选择目标存储中的 文件夹路径 。 选择 “保留层次结构 ”以维护与源相同的文件夹结构,或 平展层次结构 将所有文件放在单个文件夹中。
选择复制模式:完整数据复制或增量复制。 在此示例中,我们使用 增量复制 ,以便复制作业将在第一次运行时复制所有文件,然后在下一次运行中仅复制新的或更新的文件。
查看作业摘要,选择运行选项以运行一次或按计划运行,然后选择“ 保存 + 运行”。
复制作业将立即启动,可以从内联监视面板中跟踪作业的状态,其中包含每个表的行计数和复制持续时间等信息。 详细了解如何监视复制作业
您可以随时重新运行复制任务,即使它设置为按计划运行也是如此。 只需随时选择 “运行 ”按钮,复制作业仅复制自上次运行以来更改的数据。
您还可以随时编辑复制任务,包括配置时间表或调整高级设置。
已知限制
- 目前,增量复制模式仅适用于某些源。 有关详细信息,请参阅 复制作业支持的连接器清单。
- 无法从源存储中捕获行删除。
- 将文件复制到存储位置时,如果未从源加载任何数据,则会在目标处创建空文件。