Lakehouse端到端场景：概述和架构

Microsoft Fabric 是面向企业的一体化分析解决方案，涵盖从数据移动到数据科学、实时分析和商业智能的所有内容。它提供一套全面的服务，包括数据湖、数据工程和数据集成，全部放在一个位置。有关详细信息，请参阅什么是 Microsoft Fabric？

本教程将引导你完成从数据获取到使用数据的端到端方案。它可以帮助你建立对 Fabric 的基本了解，包括不同的体验及其集成方式，以及在该平台上工作所带来的专业和平民开发者体验。本教程不是参考体系结构、特性和功能的详尽列表或具体最佳做法的建议。

Lakehouse 端到端方案

过去，组织一直在构建新式数据仓库，以满足其事务和结构化数据分析需求。此外，组织还构建数据湖仓（半结构化/非结构化）来满足大数据分析需求。这两个系统并行运行，造成了孤岛和数据重复并增加了总拥有成本。

Fabric 在 Delta Lake 格式上统一了数据存储和标准化，可消除孤岛、去除重复数据并大幅降低总拥有成本。

借助 Fabric 提供的灵活性，可以实施湖屋或数据仓库体系结构，或者将它们组合在一起，通过简单的实施来充分利用这两者。在本教程中，你将以零售组织为例，完成其湖屋构建的整个过程。它使用奖牌体系结构，其中青铜层具有原始数据，银层具有经过验证和重复数据删除的数据，黄金层具有高度精细的数据。可以采用相同的方法为任何行业中的任何组织构建数据湖仓。

本教程介绍来自零售领域的虚构 Wide World Importers 公司的开发人员如何完成以下步骤：

登录到 Power BI 帐户并注册免费的 Microsoft Fabric 试用版。如果没有 Power BI 许可证，请注册 Fabric 免费许可证，然后可以启动 Fabric 试用版。
为您的组织构建和实施一个端到端的 Lakehouse 系统：
- 创建 Fabric 工作区。
- 创建湖屋。
- 引入数据、转换数据并将其加载到湖屋中。您还可以在 Lakehouse 模式和 SQL 分析终结点模式中浏览 OneLake 和 OneCopy 数据的单个副本。
- 使用 SQL 分析终结点连接到 Lakehouse，并创建语义模型并生成报表以分析不同维度的销售数据。
- （可选）可以使用管道来协调和计划数据引入和转换流。管道包括以 Lakehouse 为中心的活动，例如 Lakehouse 维护活动（以自动化方式使用 OPTIMIZE 和 VACUUM 进行 Delta 表维护）和刷新 SQL 终结点活动（用于在数据加载后保持 SQL 分析终结点的同步）。管道表达式生成器还包括 Copilot 助理，以便更快、更准确地编写表达式。有关详细信息，请参阅 Lakehouse 维护活动。
通过删除工作区和其他项来清理资源。

体系结构

下图显示了湖屋端到端体系结构。以下列表中描述了所涉及的组件。

数据源：使用 Fabric 可以快速轻松地连接到 Azure 数据服务以及其他基于云的平台和本地数据源，从而简化数据引入。
数据摄取：可以使用 200 多个本机连接器快速为组织生成洞察。这些连接器被集成到"Fabric"管道中，并通过数据流工具利用直观的拖放数据转换功能。此外，借助 Fabric 中的快捷方式功能，可以连接到现有数据，而无需复制或移动数据。 OneLake 快捷方式还可以通过 OneLake 外部数据共享跨租户引用数据产品，从而无需复制或生成 ETL 管道即可访问实时、受治理的操作数据。 Fabric 还包括用于常见格式（如 CSV）的高性能矢量化文件读取器，以减少数据摄入延迟，并即将支持 JSON。
转换和存储：Fabric 对 Delta Lake 格式实施标准化。这意味着所有 Fabric 引擎都可以访问和操作 OneLake 中存储的相同数据集，而无需复制数据。 OneLake 的统一治理模型可确保通过快捷方式访问的数据参与与本地存储的数据相同的安全性和符合性策略，从而在整个组织中提供单个版本的真相。此存储系统提供了灵活性，可以根据组织需求采用勋章式体系结构或数据网格架构来构建数据湖屋。您可以在低代码或无代码数据转化体验之间进行选择，使用管道或数据流，或者通过笔记本和Spark实现代码优先体验。 Lakehouse 表还支持性能优化，例如 Z 排序和 Liquid 聚类分析，以提高查询性能并大规模管理数据布局。此外，物化视图可用于在湖仓数据上预计算和缓存结果，从而加快重复分析的速度。在操作化过程中，可能包括通过管道中的 Lakehouse 维护活动自动管理 Lakehouse Delta 表，并在加载后的步骤中触发 SQL 分析端点刷新。有关详细信息，请参阅上述方案概述中的可选管道编排步骤。
获取：Power BI 可以从湖屋中获取数据用于报告和可视化处理。每个 Lakehouse 都有一个内置的 TDS 终结点（SQL 分析终结点），用于从其他报告工具轻松连接和查询 Lakehouse 表中的数据。管道业务流程可以包括刷新 Lakehouse SQL 分析终结点的步骤，以确保架构和元数据在数据加载后是报表工具的当前状态，有关详细信息，请参阅上面的方案概述中的可选管道业务流程步骤。

通过跨租户数据共享、报表、语义模型和 AI/数据科学工作负载，还可以跨组织边界使用共享的 OneLake 数据，从而实现无需重复数据的协作。

示例数据集

本教程使用 Wide World Importers（WWI）示例数据库，该数据库将在下一个教程中导入到 Lakehouse 中。对于 Lakehouse 端到端方案，数据集包含足够的数据来探索 Fabric 平台的规模和性能功能。

Wide World Importers (WWI) 是一家在旧金山湾区运营的批发新奇商品进口商和分销商。作为一家批发商，WWI 的客户大多是向个人转售产品的公司。 WWI 向美国各地的零售客户销售产品，包括专卖店、超市、电脑商店、旅游景点商店和某些个人客户。 WWI 还通过代理网络向其他批发商销售产品，这些代理代表 WWI 推销他们的产品。若要了解有关其公司配置文件和运营的详细信息，请参阅适用于 Microsoft SQL 的 Wide World Importers 示例数据库。

通常，数据从事务系统或业务线应用程序引入湖仓。但是，为简单起见，请使用 WWI 提供的维度模型作为初始数据源。你将数据引入湖仓，并通过奖章架构的不同阶段（青铜、银牌和金牌）对其进行转换。

数据模型

虽然 WWI 维度模型包含许多事实数据表，但本教程使用 Sale 事实数据表及其相关维度。下面的示例对 WWI 数据模型进行了说明：

数据和转换流

如前所述，本教程使用 Wide World Importers（WWI）示例数据来生成端到端湖仓。在此实施中，所有表格的示例数据以 Parquet 文件格式存储在 Azure 数据存储帐户中。但是，在实际场景中，数据通常源自各种源和不同的格式。

下图显示了源、目标和数据转换：

数据源：源数据采用 Parquet 文件格式和未分区的结构。它存储在每个表的文件夹中。在本教程中，您将设置一个管道，用于将完整的历史数据或单次数据引入 Lakehouse。

在本教程中，你将使用 “销售 ”事实数据表，该表的父文件夹具有 11 个月的历史数据（每个月包含一个子文件夹），另一个文件夹包含三个月的增量数据（每个月包含一个子文件夹）。在初始数据引入期间，11 个月的数据将引入湖屋表。增量数据到达时，更新后的 10 月和 11 月数据与现有数据合并，新的 12 月数据将写入 Lakehouse 表，如下图所示：
湖屋：在本教程中，你将创建一个湖屋，将数据引入湖屋的文件部分，然后在湖屋的“表”部分创建 delta lake 表。
转换：对于数据准备和转换，本教程介绍了两种不同的方法：笔记本和 Spark 用于代码优先体验，以及用于低代码或无代码体验的管道和数据流。最新的 Fabric 运行时包含一个原生执行引擎，该引擎相对于开源 Spark 在笔记本和 Spark 作业工作负载上提供了显著的性能改进。管道表达式生成器包括 Copilot 帮助，帮助创作表达式和生成管道逻辑，以便生成更快速、更准确的表达式。
使用：Power BI 可以使用 Lakehouse 中的数据进行报告和可视化。每个 Lakehouse 都有一个名为 SQL 分析终结点 的内置 TDS 终结点，用于从其他报告工具轻松连接和查询 Lakehouse 表中的数据。还可以使用 Direct Lake over OneLake 让 Power BI 直接查询 Lakehouse 表，而无需导入或专用语义模型刷新周期。此外，您还可以通过使用 TDS/SQL 分析终结点，连接并运行 SQL 查询，将您的数据供非Microsoft的报告工具进行分析。

具体而言，对于 Spark SQL 工作负载，ODBC 兼容的客户端可以使用 Microsoft ODBC Driver for Microsoft Fabric 数据工程（预览）进行连接，并通过 Microsoft Entra ID 身份验证（交互式、Azure CLI、服务主体、证书或访问令牌）。

后续步骤

创建湖屋

反馈

此页面是否有帮助？

Last updated on 2026-04-27