使用数据管道将数据引入 Warehouse

适用于:✅Microsoft Fabric 中的 Warehouse

数据管道提供了通过图形用户界面使用 COPY 命令的替代方法。 数据管道是共同执行一项数据引入任务的逻辑活动组。 可以使用管道来管理提取、转换和加载 (ETL) 活动,而不必单独管理每个活动。

在本教程中,你将创建一个新管道,用于将示例数据加载到 Microsoft Fabric 中的 Warehouse 中。

注意

Azure 数据工厂中的某些功能在 Microsoft Fabric 中不可用,但概念是互通的。 可以在 Azure 数据工厂和 Azure Synapse Analytics 中的 Pipelines 和活动中详细了解 Azure 数据工厂和 Pipelines。 如需快速入门,请访问快速入门:创建你的第一个用于复制数据的管道

创建数据管道

  1. 若要创建新管道,请导航到工作区,选择“+新建”按钮,然后选择“数据管道”。 用户工作区顶部的屏幕截图,显示了新建按钮以及 Warehouse、数据管道和全部显示选项。

  2. 在“新建管道”对话框中,提供新管道的名称,然后选择“创建”。

  3. 你将进入管道画布区域,在其中可以看到三个启动选项:添加管道活动复制数据以及选择要启动的任务

    显示为启动引用可选择的三个选项的屏幕截图。

    每个选项都提供了不同的替代方法来创建管道:

    • 添加管道活动:此选项会启动管道编辑器,你可在其中使用管道活动从头开始创建新管道。
    • 复制数据:此选项会启动分步助手,帮助你选择数据源、目标以及配置数据加载选项(如列映射)。 完成后,它会创建一个新的管道活动,其中包含已为你配置好的“复制数据”任务。
    • 选择要启动的任务:此选项会启动一组预定义的模板,帮助你根据不同的方案开始使用管道。

    选择“复制数据”选项以启动“复制助手”。

  4. 复制数据助手的第一页可帮助你从各种数据源中选择自己的数据,或从所提供的示例之一中进行选择以开始使用。 在本教程中,我们将使用 COVID-19 Data Lake 示例。 选择此选项,然后选择“下一页”。

    显示使用样本数据或其他数据源的选项的屏幕截图。

  5. 在下一页中,你可以选择数据集、源文件格式并预览所选数据集。 选择“必应 COVID-19”和 CSV 格式,然后选择“下一页”。

    屏幕截图显示了 COVID-19 样本的不同数据集选项、文件格式以及显示数据预览的网格。

  6. 下一页“数据目标”让你能够配置目标工作区的类型。 我们会将数据加载到工作区中的仓库,因此请选择“Warehouse”选项卡和“Data Warehouse”选项。 选择“下一步” 。

    显示不同的目标选项的屏幕截图。

  7. 现在,可以选取要将数据加载到的仓库。 在下拉列表中选择所需的仓库,然后选择“下一步”

    显示下拉列表和选定的仓库的屏幕截图。

  8. 配置目标的最后一步是向目标表提供名称并配置列映射。 在这里,可以选择将数据加载到新表或现有表、提供架构和表名称、更改列名、删除列或更改其映射。 可以接受默认设置,也可以根据自己的偏好调整设置。

    屏幕截图显示了将数据加载到现有表或创建新表的选项。

    查看完选项后,选择“下一页”。

  9. 下一页提供了使用暂存的选项,还为数据复制操作(使用 T-SQL COPY 命令)提供了高级选项。 查看选项而不更改它们,然后选择“下一页”。

  10. 助手的最后一页提供了复制活动的摘要。 选择“立即开始数据传输”选项,然后选择“保存 + 运行”。

    屏幕截图显示了立即开始数据传输操作的选项,以及“返回”和“保存 + 运行”按钮。

  11. 系统会定向到管道画布区域,在那里已为你配置好了新的“复制数据”活动。 管道开始自动运行。 可以在“输出”窗格中监视管道的状态:

    显示管道画布的屏幕截图,中间有一个复制活动,管道执行状态显示当前状态为进行中。

  12. 几秒钟后,管道将成功完成。 导航回仓库后,可以选择你的表来预览数据并确认复制操作是否已结束。

    屏幕截图显示了一个选择了 bing_covid_19 表的仓库,以及一个显示表中数据预览的网格。

有关将数据引入到 Microsoft Fabric 中的 Warehouse 的详细信息,请访问:

后续步骤