OneLake 是用于Microsoft Fabric的单一统一数据湖。 每个Fabric工作负荷都会通过 OneLake 读取和写入数据,因此只需加载一次数据即可在任何地方使用它。 可以通过多种方式将数据引入 OneLake:
- 将文件直接上传到湖仓或仓库。
- 使用管道、数据流或流式体验摄取数据。
- 使用快捷方式或镜像连接到外部数据。
在本快速入门中,你将数据引入 OneLake 两种方式:将 CSV 文件上传到 Lakehouse,并从第二个 Lakehouse 创建 OneLake 快捷方式,该快捷方式指向相同的数据,而无需复制它。 完成后,你将拥有一个可查询的 Delta 表和一个快捷方式,二者都可通过 OneLake 供每个 Fabric 引擎使用。
先决条件
- Fabric 许可证。 或者,注册免费的 Fabric 试用版。
- 一个 Fabric 工作区。
创建湖屋
当你创建 Fabric 项(例如湖仓、数据仓库或事件中心)时,该项会代表你在 OneLake 中预配存储。 在本快速入门中,你将创建 lakehouse,它为非结构化或半结构化数据提供文件区域(文件),以及结构化、可查询数据的 Delta 表区域(表)。 你放入任一区域的所有内容都会存储在 OneLake 中,并且可立即供其他 Fabric 工作负载访问。
登录到 Fabric 门户并选择工作区。
选择“新建项”。
在 “新建项 ”窗格中,搜索并选择 Lakehouse。
输入名称,例如
DataLakehouse,然后选择“ 创建”。Lakehouse 打开后会显示 资源管理器 视图,其中的 表 和 文件 部分均为空。 这两个部分都已由 OneLake 提供支持,并已准备好内容。
上传示例数据
在本快速入门中,你将从公开提供的Fabric示例数据集中使用 Dim_Products.csv。 它是来自示例咖啡零售商的一个小产品信息表。
- 打开浏览器并转到 https://fabrictutorialdata.blob.core.windows.net/sampledata/Coffee/Dim_Products.csv。
- 出现提示时,请将该文件另存为
Dim_Products.csv计算机上的文件夹。
在本节中,你将 Dim_Products.csv 上传到 文件,以便将原始源数据存放在 OneLake 中。 Lakehouse 的 Files 区域是 OneLake 中的通用存储区域。 可以将其视为原始数据的落地区,无论这些数据以何种格式到达。 您可以直接导入 CSV、JSON、Parquet、图像、日志或任何其他内容,而无需先定义架构。
在 Lakehouse Explorer 中,将鼠标悬停在文件上,选择“更多选项”(...)菜单,然后选择上传>上传文件。
在 “上传文件 ”窗格中,选择文件夹图标并浏览到
Dim_Products.csv计算机上。选择“ 上传”,然后关闭“上传”窗格。
选择 “文件” 文件夹以查看其内容并确认显示
Dim_Products.csv。选择
Dim_Products.csv以查看其数据。
该文件现在位于 OneLake 中,但作为原始 CSV,它尚不是 SQL 或 Spark 可以查询的表。
将文件加载到 Delta 表中
Fabric 在 OneLake 中统一采用 Delta Lake 作为表格式。 将文件加载到 Tables 区域中时,Fabric读取源文件、推断架构并将数据写入 Delta 表。 从此开始,每个Fabric引擎都可以查询同一个表,而无需再次复制或转换数据。
在 Lakehouse Explorer 中,打开 “文件” 文件夹。
将鼠标悬停在
Dim_Products.csv文件上并选择“更多选项”菜单,然后选择“加载到表>”。在 “加载到表 ”对话框中,输入
dim_products表名称,保留默认值,然后选择“ 加载”。加载完成后,展开 表 并选择
dim_products预览行。 文件中的原始 CSV 保持不变,而dim_products是基于它构建的一个新 Delta 表。
将鼠标悬停在上方
dim_products并选择更多选项(...)菜单,然后选择“ 属性”。Properties 屏幕显示表的各种详细信息,包括可用于在其他引擎中引用此表的 URL 和 Azure Blob 文件系统 (ABFS) 路径。
使用第二个 Lakehouse 中的快捷方式重用数据
上传和加载是将数据引入 OneLake 的一种方法。 另一个关键模式是引用已存在于其他位置的数据,而不复制它。 这就是快捷方式:它是 OneLake 中的一个指针,用于引用存储在另一个湖仓、另一个 Fabric 工作区,或 Fabric 外部受支持的数据源(如 Azure Data Lake Storage 或 Amazon S3)中的数据。 不会复制数据;它保留在源位置,但你可以通过 OneLake 读取它,就像它是本地一样。 源的任何更新都通过快捷方式立即可见,因此无需维护数据的副本。
在本部分中,你将创建第二个 Lakehouse,并在其中添加一个指向第一个 Lakehouse 中 dim_products 表的快捷方式。 这反映了团队通常的工作方式,其中一个团队拥有特选数据,而其他团队或项目通过自己的工作区中的快捷方式使用它。
- 在工作区中,选择“ 新建”项。
- 在 “新建项 ”窗格中,搜索并选择 Lakehouse。
- 输入名称,例如
ShortcutLakehouse,然后选择“ 创建”。 - 在新 Lakehouse 的资源管理器中,将鼠标悬停在 “表”上方,选择更多选项(...)菜单,然后选择“ 新建快捷方式”。
- 在新快捷方式页上,在Internal sources下,选择Microsoft OneLake。
- 在数据源浏览器中,选择在本快速入门中创建的第一个湖仓,然后选择下一步。
- 展开 “表”,选择
dim_products该表,然后选择“ 下一步”。 - 查看选择并选择“ 创建”。
- 展开 表格在
ShortcutLakehouse中,并确认dim_products显示为带有快捷方式图标(表格图标上叠加了一个小链接图像)。 选择该项即可预览这些行。 该表与原始湖屋相同,但未复制任何数据。 - 将鼠标悬停在
dim_products表上,选择更多选项(...),然后选择“ 管理快捷方式”。 在 “管理”快捷 窗格中,可以查看快捷方式详细信息,包括存储原始数据的快捷目标。
清理资源
如果您不打算继续进行其他 OneLake 快速入门,请删除这些湖屋,以避免 OneLake 存储费用计入 Fabric 容量。
- 在工作区中,将鼠标悬停在要删除的湖仓上。
- 选择 lakehouse 旁边的更多选项(...)菜单,选择“ 删除”,然后确认删除。
删除湖仓也会删除其中包含的内容:上传的文件、dim_products Delta 表和快捷方式。