如何使用复制活动复制数据

项目
10/25/2024

在数据管道中，可以使用复制活动在云数据存储中复制数据。

复制数据后，可以使用其他活动进一步转换和分析数据。还可使用复制活动发布有关商业智能 (BI) 和应用程序消耗的转换和分析结果。

若要将数据从源复制到目标，运行复制活动的服务将执行以下步骤：

读取源数据存储中的数据。
执行序列化/反序列化、压缩/解压缩、列映射等。它根据配置执行这些操作。
将数据写入目标数据存储。

先决条件

若要开始，必须满足以下先决条件：

具有活动订阅的 Microsoft Fabric 租户帐户。免费创建帐户。
确保具有已启用 Microsoft Fabric 的工作区。

使用复制助手添加复制活动

按照以下步骤使用复制助手设置复制活动。

从复制助手开始

打开现有数据管道或创建新的数据管道。
选择画布上的“复制数据”，打开“复制助手”工具以开始使用。或者从功能区上“活动”选项卡下的“复制数据”下拉列表中选择“使用复制助手”。

配置源

从类别中选择数据源类型。你将使用 Azure Blob 存储作为示例。选择“Azure Blob 存储”，然后选择“下一步”。
通过选择“创建新连接”，创建与数据源的连接。

选择“创建新连接”后，填写所需的连接信息，然后选择“下一步”。有关为每种类型的数据源创建连接的详细信息，请参阅每个连接器文章。

如果有现有连接，则可以选择“现有连接”，然后从下拉列表中选择连接。
选择要在此源配置步骤中复制的文件或文件夹，然后选择“下一步”。

配置目标

从类别中选择数据源类型。你将使用 Azure Blob 存储作为示例。可以按照上一部分中的步骤创建链接到新 Azure Blob 存储帐户的新连接，也可以使用连接下拉列表中的现有连接。 测试连接和编辑功能可用于每个选定的连接。
配置源数据并将其映射到目标。然后选择“下一步”以完成目标配置。

注意

只能在同一个复制活动中使用单个本地数据网关。如果源和接收器都是本地数据源，则必须使用相同的网关。要在具有不同网关的本地数据源之间移动数据，必须在一个复制活动中使用第一个网关复制到中间云源。然后，可以使用另一个复制活动，通过第二个网关从中间云源复制数据。

查看并创建复制活动

在前面的步骤中查看复制活动设置，然后选择“确定”以完成。或者，如果需要，可以返回到上述步骤，在工具中编辑设置。

完成后，复制活动将添加到数据管道画布。选中后，所有设置（包括此复制活动的高级设置）都将位于选项卡下。

现在，可以使用此单一复制活动保存数据管道，也可以继续设计数据管道。

直接添加复制活动

请按照以下步骤直接添加复制活动。

添加“复制活动”

打开现有数据管道或创建新的数据管道。
通过选择“添加管道活动>复制活动”，或通过选择活动选项卡下的“复制数据>添加到画布”来添加复制活动。

在“常规”选项卡下配置常规设置

若要了解如何配置常规设置，请参阅常规。

在“源”选项卡下配置源

选择“连接”旁边的“+ 新建”以创建与数据源的连接。
1. 从弹出窗口中选择数据源类型。你将使用 Azure SQL Database 作为示例。选择“Azure SQL 数据库”，然后选择“继续” 。
2. 它会导航到连接创建页。在面板上填写所需的连接信息，然后选择创建。有关为每种类型的数据源创建连接的详细信息，请参阅每个连接器文章。
3. 成功创建连接后，它将返回到数据管道页。然后选择“刷新”以从下拉列表中提取创建的连接。也可以直接从下拉列表中选择现有的 Azure SQL 数据库连接（如果之前已创建该连接）。 测试连接和编辑功能可用于每个选定的连接。然后在“连接类型”中选择“Azure SQL 数据库”。
指定要复制的表。选择“预览数据”以预览源表。还可以使用查询和 存储过程 从源读取数据。
展开“高级”以获取更多高级设置。

在“目标”选项卡下配置目标

选择目标类型。它可以是工作区（如 Lakehouse）的内部一流数据存储，也可以是外部数据存储。你将使用 Lakehouse 作为示例。
选择在工作区数据存储类型中使用 Lakehouse。选择“+ 新建”，然后导航到 Lakehouse 创建页面。指定 Lakehouse 名称，然后选择“创建”。
成功创建连接后，它将返回到数据管道页。然后选择“刷新”以从下拉列表中提取创建的连接。也可以直接从下拉列表中选择现有的 Lakehouse 连接（如果之前已创建）。
指定表或设置文件路径，以将文件或文件夹定义为目标。在此处选择“表”并指定要写入数据的表。
展开“高级”以获取更多高级设置。

现在，可以使用此单一复制活动保存数据管道，也可以继续设计数据管道。

在“映射”选项卡下配置映射

如果应用的连接器支持映射，则可以转到“映射”选项卡来配置映射。

选择“导入架构”以导入数据架构。
可以看到自动映射已显示。指定源列和目标列。如果在目标中创建新表，则可以在此处自定义目标列名称。如果要将数据写入现有目标表，则无法修改现有目标列名称。还可以查看源列和目标列的类型。

此外，还可以选择“+ 新建映射”以添加新映射，选择“清除”以清除所有映射设置，选择“重置”以重置所有映射“源”列。

在“设置”选项卡下配置其他设置

设置选项卡包含性能、过渡等设置。

请参阅下表以了解每个设置的描述。

设置	说明	JSON 脚本属性
智能吞吐量优化	指定以优化吞吐量。可以选择： • 自动 • 标准 • 均衡 • 最大值选择“自动”时，将根据源-目标对和数据模式动态应用最佳设置。还可以自定义吞吐量，自定义值可以是 2-256，而值越高意味着收益越大。	dataIntegrationUnits
复制并行度	指定数据加载将使用的并行度。	parallelCopies
容错	选择此选项时，可以忽略复制过程中发生的一些错误。例如，源存储与目标存储之间的不兼容行、在数据移动期间删除的文件等。	• enableSkipIncompatibleRow • skipErrorFile： fileMissing fileForbidden invalidFileName
启用日志记录	选择此选项时，可以记录复制的文件、跳过的文件和行。	/
启用暂存	指定是否要通过过渡暂存存储复制数据。仅针对有利方案启用暂存。	enableStaging
数据存储类型	启用暂存时，可以选择“工作区”和“外部”作为数据存储类型。	/
对于工作区
工作区	指定使用内置暂存存储。	/
对于外部
暂存帐户连接	指定Azure Blob 存储或 Azure Data Lake Storage Gen2 的连接，该连接是指用作临时暂存存储的存储实例。如果没有暂存连接，请创建它。	连接（下 `externalReferences`）
存储路径	指定要包含此暂存数据的路径。如果不提供路径，该服务将创建容器以存储临时数据。只在使用具有共享访问签名的存储时，或者要求临时数据位于特定位置时才指定路径。	path
启用压缩	指定是否应先压缩数据，再将数据复制到目标。此设置可减少传输的数据量。	enableCompression

Preserve	指定在数据复制期间是否保留元数据/ACL。	保护区

注意

如果使用启用了压缩的暂存副本，则不支持暂存 Blob 连接的服务主体身份验证。

在复制活动中配置参数

参数可用于控制管道及其活动的行为。可以使用“添加动态内容”来指定复制活动属性的参数。让我们以指定 Lakehouse/Data Warehouse/KQL 数据库为例，了解如何使用它。

在源或目标中，在将“工作区”选择为数据存储类型，并将“Lakehouse”/“Data Warehouse”/“KQL 数据库”指定为工作区数据存储类型后，在“Lakehouse”或“Data Warehouse”或“KQL 数据库”下拉列表中选择“添加动态内容”。
在弹出窗格“添加动态内容”中的“参数”选项卡下，选择 +。
指定参数的名称，并根据需要为其指定默认值，也可以在管道中选择“运行”后指定参数的值。

请注意，参数值应为 Lakehouse/Data Warehouse/KQL 数据库对象 ID。若要获取 Lakehouse/数据仓库Data Warehouse/KQL 数据库对象 ID，请在工作区中打开 Lakehouse/Data Warehouse/KQL 数据库，并且 ID 位于 URL 中的 /lakehouses/ 或 /datawarehouses/ 或 /databases/ 之后。
- Lakehouse 对象 ID：
- Data Warehouse 对象 ID：
- KQL 数据库对象 ID：
选择“保存”，以返回到 添加动态内容 窗格。然后选择参数，使其显示在表达式框中。然后选择“确定”。你将返回到管道页，可以看到在 Lakehouse 对象 ID/Data Warehouse 对象 ID/KQL 数据库对象 ID 后指定参数表达式。

通过

如何使用复制活动复制数据

先决条件