快速入门:将数据引入 OneLake

OneLake 是用于Microsoft Fabric的单一统一数据湖。 每个Fabric工作负荷都会通过 OneLake 读取和写入数据,因此只需加载一次数据即可在任何地方使用它。 可以通过多种方式将数据引入 OneLake:

  • 将文件直接上传到湖仓或仓库。
  • 使用管道、数据流或流式体验摄取数据。
  • 使用快捷方式或镜像连接到外部数据。

在本快速入门中,你将数据引入 OneLake 两种方式:将 CSV 文件上传到 Lakehouse,并从第二个 Lakehouse 创建 OneLake 快捷方式,该快捷方式指向相同的数据,而无需复制它。 完成后,你将拥有一个可查询的 Delta 表和一个快捷方式,二者都可通过 OneLake 供每个 Fabric 引擎使用。

先决条件

创建湖屋

当你创建 Fabric 项(例如湖仓、数据仓库或事件中心)时,该项会代表你在 OneLake 中预配存储。 在本快速入门中,你将创建 lakehouse,它为非结构化或半结构化数据提供文件区域(文件),以及结构化、可查询数据的 Delta 表区域()。 你放入任一区域的所有内容都会存储在 OneLake 中,并且可立即供其他 Fabric 工作负载访问。

  1. 登录到 Fabric 门户并选择工作区。

  2. 选择“新建项”。

  3. “新建项 ”窗格中,搜索并选择 Lakehouse

  4. 输入名称,例如 DataLakehouse,然后选择“ 创建”。

    Lakehouse 打开后会显示 资源管理器 视图,其中的 文件 部分均为空。 这两个部分都已由 OneLake 提供支持,并已准备好内容。

上传示例数据

在本快速入门中,你将从公开提供的Fabric示例数据集中使用 Dim_Products.csv。 它是来自示例咖啡零售商的一个小产品信息表。

  1. 打开浏览器并转到 https://fabrictutorialdata.blob.core.windows.net/sampledata/Coffee/Dim_Products.csv
  2. 出现提示时,请将该文件另存为 Dim_Products.csv 计算机上的文件夹。

在本节中,你将 Dim_Products.csv 上传到 文件,以便将原始源数据存放在 OneLake 中。 Lakehouse 的 Files 区域是 OneLake 中的通用存储区域。 可以将其视为原始数据的落地区,无论这些数据以何种格式到达。 您可以直接导入 CSV、JSON、Parquet、图像、日志或任何其他内容,而无需先定义架构。

  1. 在 Lakehouse Explorer 中,将鼠标悬停在文件上,选择“更多选项”(...)菜单,然后选择上传>上传文件

  2. “上传文件 ”窗格中,选择文件夹图标并浏览到 Dim_Products.csv 计算机上。

  3. 选择“ 上传”,然后关闭“上传”窗格。

  4. 选择 “文件” 文件夹以查看其内容并确认显示 Dim_Products.csv

  5. 选择 Dim_Products.csv 以查看其数据。

    Fabric 门户的屏幕截图,其中显示了湖仓的“文件”部分中的非结构化 CSV 数据。

该文件现在位于 OneLake 中,但作为原始 CSV,它尚不是 SQL 或 Spark 可以查询的表。

将文件加载到 Delta 表中

Fabric 在 OneLake 中统一采用 Delta Lake 作为表格式。 将文件加载到 Tables 区域中时,Fabric读取源文件、推断架构并将数据写入 Delta 表。 从此开始,每个Fabric引擎都可以查询同一个表,而无需再次复制或转换数据。

  1. 在 Lakehouse Explorer 中,打开 “文件” 文件夹。

  2. 将鼠标悬停在Dim_Products.csv文件上并选择“更多选项”菜单,然后选择“加载到表>”。

  3. “加载到表 ”对话框中,输入 dim_products 表名称,保留默认值,然后选择“ 加载”。

  4. 加载完成后,展开 并选择 dim_products 预览行。 文件中的原始 CSV 保持不变,而 dim_products 是基于它构建的一个新 Delta 表。

    显示 Lakehouse 的“表”部分中结构化 Delta 表数据的屏幕截图。

  5. 将鼠标悬停在上方 dim_products 并选择更多选项(...)菜单,然后选择“ 属性”。

    Properties 屏幕显示表的各种详细信息,包括可用于在其他引擎中引用此表的 URL 和 Azure Blob 文件系统 (ABFS) 路径。

使用第二个 Lakehouse 中的快捷方式重用数据

上传和加载是将数据引入 OneLake 的一种方法。 另一个关键模式是引用已存在于其他位置的数据,而不复制它。 这就是快捷方式:它是 OneLake 中的一个指针,用于引用存储在另一个湖仓、另一个 Fabric 工作区,或 Fabric 外部受支持的数据源(如 Azure Data Lake Storage 或 Amazon S3)中的数据。 不会复制数据;它保留在源位置,但你可以通过 OneLake 读取它,就像它是本地一样。 源的任何更新都通过快捷方式立即可见,因此无需维护数据的副本。

在本部分中,你将创建第二个 Lakehouse,并在其中添加一个指向第一个 Lakehouse 中 dim_products 表的快捷方式。 这反映了团队通常的工作方式,其中一个团队拥有特选数据,而其他团队或项目通过自己的工作区中的快捷方式使用它。

  1. 在工作区中,选择“ 新建”项
  2. “新建项 ”窗格中,搜索并选择 Lakehouse
  3. 输入名称,例如 ShortcutLakehouse,然后选择“ 创建”。
  4. 在新 Lakehouse 的资源管理器中,将鼠标悬停在 “表”上方,选择更多选项(...)菜单,然后选择“ 新建快捷方式”。
  5. 新快捷方式页上,在Internal sources下,选择Microsoft OneLake
  6. 在数据源浏览器中,选择在本快速入门中创建的第一个湖仓,然后选择下一步
  7. 展开 “表”,选择 dim_products 该表,然后选择“ 下一步”。
  8. 查看选择并选择“ 创建”。
  9. 展开 表格ShortcutLakehouse 中,并确认 dim_products 显示为带有快捷方式图标(表格图标上叠加了一个小链接图像)。 选择该项即可预览这些行。 该表与原始湖屋相同,但未复制任何数据。
  10. 将鼠标悬停在 dim_products 表上,选择更多选项(...),然后选择“ 管理快捷方式”。 在 “管理”快捷 窗格中,可以查看快捷方式详细信息,包括存储原始数据的快捷目标。

清理资源

如果您不打算继续进行其他 OneLake 快速入门,请删除这些湖屋,以避免 OneLake 存储费用计入 Fabric 容量。

  1. 在工作区中,将鼠标悬停在要删除的湖仓上。
  2. 选择 lakehouse 旁边的更多选项(...)菜单,选择“ 删除”,然后确认删除。

删除湖仓也会删除其中包含的内容:上传的文件、dim_products Delta 表和快捷方式。