湖屋教程:将数据引入湖屋
本教程介绍如何将 Wide World Importers (WWI) 中的更多维度和事实数据表引入到湖屋。
先决条件
- 如果没有湖屋,则必须创建湖屋。
引入数据
在本部分,使用 Azure 数据工厂管道的“复制数据活动”将 Azure 存储帐户中的示例数据引入先前创建的湖屋的“文件”部分。
在左侧导航窗格中选择“工作区”,然后从“工作区”菜单中选择新的工作区。 将会显示工作区的项视图。
从工作区功能区中的“+新建”菜单项中,选择“数据管道”。
在“新建管道”对话框中,将名称指定为“IngestDataFromSourceToLakehouse”,然后选择“创建”。 将会创建并打开新的数据工厂管道。
在新创建的数据工厂管道上,选择“管道活动”向管道添加一个活动,然后选择“复制数据”。 此操作向管道画布添加复制数据活动。
从画布选择新添加的复制数据活动。 画布下方的窗格中会显示活动属性(可能需要拖拽顶部边缘将窗格向上展开)。 在“属性”窗格中的“常规”选项卡上,在“名称”字段中键入“数据复制到湖屋”。
在所选的复制数据活动的“源”选项卡中,选择“外部”作为“数据存储类型”,然后选择“+新建”来创建与数据源的新连接。
可从 Azure Blob 存储的公共容器中获取本教程中使用的所有示例数据。 连接到此容器以从中复制数据。 在第一个“新建连接”屏幕中,搜索并选择“Azure Blob 存储”,然后选择“继续”。
在“连接设置”屏幕中,输入以下详细信息并选择“创建”,以创建到数据源的连接。
属性 Value 帐户名或 URL https://azuresynapsestorage.blob.core.windows.net/sampledata
连接 新建连接 连接名称 wwisampledata 身份验证种类 匿名 新建连接后,返回到复制数据活动的“源”选项卡,此时默认会选择新建的连接。 在前往目标设置之前,请指定以下属性。
属性 Value 数据存储类型 外部 连接 wwisampledata 文件路径类型 文件路径 文件路径 容器名称(第一个文本框):sampledata
目录名称(第二个文本框):WideWorldImportersDW/parquetRecursively 已选中 文件格式 二进制 在所选的复制数据活动的“目标”选项卡中,指定以下属性:
属性 Value 数据存储类型 工作区 工作区数据存储类型 Lakehouse Lakehouse wwilakehouse 根文件夹 文件 文件路径 目录名称(第一个文本框):wwi-raw-data 文件格式 二进制 已配置复制数据活动。 在顶部功能区选择“保存”图标(在“主页”下)以保存更改,然后选择“运行”以执行管道及其活动。 此外,还可以定义的间隔安排管道刷新数据的时间,来满足业务需求。 在本教程中,我们通过选择“运行”,只运行一次管道。
此操作触发从基础数据源到指定湖屋的数据复制,最多可能需要一分钟才能完成。 可在“输出”选项卡下监视管道及其活动的执行情况,点击画布上的任意位置就会显示此选项卡。 (可选)可以选择将鼠标悬停在名称上时出现的眼镜图标,仔细思考数据传输的详细信息。
复制数据后,转到工作区的项视图并选择要启动“资源管理器”视图的新湖屋 (wwilakehouse)。
验证新文件夹 wwi-raw-data 显示在“资源管理器”视图中,且所有表的数据都复制在此处。
要将增量数据加载到湖屋,请参阅将数据从数据仓库增量加载到湖屋。