湖屋教程:将数据引入湖屋

本教程介绍如何将 Wide World Importers (WWI) 中的更多维度和事实数据表引入到湖屋。

先决条件

引入数据

在本部分,使用 Azure 数据工厂管道的“复制数据活动”将 Azure 存储帐户中的示例数据引入先前创建的湖屋的“文件”部分。

  1. 在左侧导航窗格中选择“工作区”,然后从“工作区”菜单中选择新的工作区。 将会显示工作区的项视图。

  2. 从工作区功能区中的“+新建”菜单项中,选择“数据管道”

    显示如何创建新的数据管道的屏幕截图。

  3. 在“新建管道”对话框中,将名称指定为“IngestDataFromSourceToLakehouse”,然后选择“创建”。 将会创建并打开新的数据工厂管道。

  4. 在新创建的数据工厂管道上,选择“管道活动”向管道添加一个活动,然后选择“复制数据”。 此操作向管道画布添加复制数据活动。

    显示在哪里选择“管道活动”和“复制数据”的屏幕截图。

  5. 从画布选择新添加的复制数据活动。 画布下方的窗格中会显示活动属性(可能需要拖拽顶部边缘将窗格向上展开)。 在“属性”窗格中的“常规”选项卡上,在“名称”字段中键入“数据复制到湖屋”

    显示在“常规”选项卡的哪里添加复制活动名称的屏幕截图。

  6. 在所选的复制数据活动的“源”选项卡中,选择“外部”作为“数据存储类型”,然后选择“+新建”来创建与数据源的新连接。

    显示在“源”选项卡的哪里选择“外部”和“+新建”的屏幕截图。

  7. 可从 Azure Blob 存储的公共容器中获取本教程中使用的所有示例数据。 连接到此容器以从中复制数据。 在第一个“新建连接”屏幕中,搜索并选择“Azure Blob 存储”,然后选择“继续”

    “新建连接”向导屏幕截图,显示在哪里选择 Azure Blob 存储。

  8. 在“连接设置”屏幕中,输入以下详细信息并选择“创建”,以创建到数据源的连接。

    属性 Value
    帐户名或 URL https://azuresynapsestorage.blob.core.windows.net/sampledata
    连接 新建连接
    连接名称 wwisampledata
    身份验证种类 匿名

    连接设置屏幕的屏幕截图,显示在哪里输入详细信息并选择“创建”。

  9. 新建连接后,返回到复制数据活动的“”选项卡,此时默认会选择新建的连接。 在前往目标设置之前,请指定以下属性。

    属性 Value
    数据存储类型 外部
    连接 wwisampledata
    文件路径类型 文件路径
    文件路径 容器名称(第一个文本框):sampledata
    目录名称(第二个文本框):WideWorldImportersDW/parquet
    Recursively 已选中
    文件格式 二进制

    源选项卡屏幕截图,显示在哪里输入具体的详细信息。

  10. 在所选的复制数据活动的“目标”选项卡中,指定以下属性:

    属性 Value
    数据存储类型 工作区
    工作区数据存储类型 Lakehouse
    Lakehouse wwilakehouse
    根文件夹 文件
    文件路径 目录名称(第一个文本框):wwi-raw-data
    文件格式 二进制

    目标选项卡屏幕截图,显示在哪里输入具体的详细信息。

  11. 已配置复制数据活动。 在顶部功能区选择“保存”图标(在“主页”下)以保存更改,然后选择“运行”以执行管道及其活动。 此外,还可以定义的间隔安排管道刷新数据的时间,来满足业务需求。 在本教程中,我们通过选择“运行”,只运行一次管道。

    此操作触发从基础数据源到指定湖屋的数据复制,最多可能需要一分钟才能完成。 可在“输出”选项卡下监视管道及其活动的执行情况,点击画布上的任意位置就会显示此选项卡。 (可选)可以选择将鼠标悬停在名称上时出现的眼镜图标,仔细思考数据传输的详细信息。

    显示在“输出”选项卡上,在哪里选择“保存”和“运行”,可在此找到运行详细信息和眼镜图标。

  12. 复制数据后,转到工作区的项视图并选择要启动“资源管理器”视图的新湖屋 (wwilakehouse)。

    显示在哪里选择湖屋来启动资源管理器视图的屏幕截图。

  13. 验证新文件夹 wwi-raw-data 显示在“资源管理器”视图中,且所有表的数据都复制在此处。

    显示源数据复制到湖屋资源管理器中的屏幕截图。

要将增量数据加载到湖屋,请参阅将数据从数据仓库增量加载到湖屋

下一步