什么是 Microsoft Fabric 中的数据仓库?

适用于:SQL 分析终结点和 Microsoft Fabric 中的仓库

Microsoft Fabric 为客户提供了一个统一的产品,它通过提供一个完整的 SaaS 化数据、分析和 AI 平台来处理其数据资产的各个方面,该平台以湖为中心,并且是开放的。 Microsoft Fabric 的基础使得从新手用户到经验丰富的专业人员都能够通过以 Microsoft OneLake 为核心的丰富易用的共享 SaaS 体验,来利用数据库、分析、消息传递、数据集成和商业智能工作负载。

为任何技能水平构建的以湖为中心的 SaaS 体验

Microsoft Fabric 引入了一个以湖为中心的数据仓库,该数据仓库基于企业级分布式处理引擎构建,可大规模实现行业领先的性能,同时无需进行配置和管理。 通过与 Power BI 紧密集成的易用型 SaaS 体验(可轻松分析和报告),Microsoft Fabric 中的仓库将数据湖和仓库的世界融合在一起,目标是大幅简化组织对其分析资产的投资。 数据仓库工作负载受益于 SQL 引擎在开放数据格式上丰富的功能,使客户能够专注于通过 Microsoft OneLake 中存储数据的单个副本进行数据准备、分析和报告。

仓库为任何技能水平构建 - 从平民开发者到专业开发人员、数据库管理员 (DBA) 或数据工程师都能使用。 通过 Microsoft Fabric 工作区中内置的一组丰富的体验,客户能够通过一个在 DirectLake 模式下与 Power BI 集成且易于使用、始终连接的语义模型来更快地获得见解。 这可实现首屈一指的行业领先性能,确保客户的报表始终具有用于分析和报告的最新数据。 可以利用跨数据库查询快速无缝地使用跨多个数据库的多个数据源,以便快速获得见解和零重复数据。

具有跨数据库查询的虚拟仓库

Microsoft Fabric 使客户能够使用快捷方式来建立虚拟仓库,其中包含来自几乎任何源的数据。 客户可以通过创建数据的快捷方式来构建虚拟仓库,而无论数据位于何处。 虚拟仓库可能包含来自 OneLake、Azure Data Lake Storage 或单个边界内的任何其他云供应商存储的数据,并且没有重复数据。

通过 Microsoft Fabric 中丰富的跨数据库查询功能,无缝解锁各种数据源的价值。 跨数据库查询使客户能够快速无缝地使用多个数据源来快速获得见解,且不会重复数据。 存储在不同源中的数据可以轻松地联接在一起,使客户能够提供丰富的见解,而以前需要数据集成和工程团队付出大量精力做到这一点。

可通过可视化查询编辑器创建跨数据库查询,该编辑器提供针对多个表的见解的无代码路径。 还可使用 SQL 查询编辑器或其他熟悉的工具(例如 SQL Server Management Studio (SSMS))来创建跨数据库查询。

自治工作负载管理

Microsoft Fabric 中的仓库利用行业领先的分布式查询处理引擎,为客户提供具有自然隔离边界的工作负载。 在自动分配和放弃资源方面,没有旋钮需要转动,使用内置的自动缩放和并发性提供最佳性能。 通过将具有不同特征的工作负载分离开来实现真正的隔离,确保 ETL 作业永远不会干扰其临时分析和报告工作负载。

开放格式,实现无缝引擎互操作性

仓库中的数据以 parquet 文件格式存储,并作为 Delta Lake 日志发布,从而实现 ACID 事务和跨引擎互操作性 - 可通过其他 Microsoft Fabric 工作负载(例如 Spark、Pipelines、Power BI 和 Azure 数据资源管理器)进行利用。 客户不再需要创建数据的多个副本来支持具有不同技能集的数据专业人员。 习惯使用 Python 的数据工程师可以轻松使用由习惯使用 SQL 的数据仓库专业人员建模和提供的相同数据。 同时,BI 专业人员可以快速轻松地使用相同的数据,在 Power BI 中创建一组丰富的可视化效果,同时拥有卓越的性能且无数据重复。

存储和计算相分离

计算和存储在仓库中分离,这使客户能够几乎即时地缩放来满足其业务需求。 这使得多个计算引擎能够从任何受支持的存储源进行读取,同时提供可靠的安全性和完整的 ACID 事务保证。

轻松大规模引入、加载和转换

可通过 Pipelines、Dataflows、跨数据库查询或 COPY INTO 命令将数据引入仓库。 引入后,多个业务组可以通过共享和跨数据库查询等功能对数据进行分析。 通过在仓库编辑器中对易于使用的 Web 查询体验进行图形数据建模,使用完全集成的 BI 体验缩短获取见解的时间。

Microsoft Fabric 中的数据仓库项

共有两个不同的数据仓库项:湖屋和仓库的 SQL 分析终结点。

湖屋的 SQL 分析终结点

SQL 分析终结点是从 Microsoft Fabric 中的湖屋自动生成的仓库。 客户可以从湖屋的“湖”视图(它支持数据工程和 Apache Spark)转换为同一湖屋中的“SQL”视图。 SQL 分析终结点是只读的,数据只能使用 Spark 通过湖屋的“湖”视图进行修改。

通过湖屋的 SQL 分析终结点,用户拥有一部分 SQL 命令,这些命令可以定义和查询数据对象,但不能操作数据。 可在 SQL 分析终结点中执行以下操作:

  • 查询引用湖中 Delta Lake 文件夹中的数据的表。
  • 创建视图、内联 TVF 和过程,以在 T-SQL 中封装语义和业务逻辑。
  • 管理对象的权限。

在 Microsoft Fabric 工作区中,SQL 分析终结点在“类型”列下标记为“SQL 分析终结点”。 每个湖屋都有一个自动生成的 SQL 分析终结点,可通过熟悉的 SQL 工具(例如 SQL Server Management StudioAzure Data StudioMicrosoft Fabric SQL 查询编辑器)来使用。

显示工作区中的 SQL 分析终结点类型的屏幕截图。

若要开始使用 SQL 分析终结点,请参阅结合使用效果更佳:Microsoft Fabric 中的湖屋和仓库

Synapse Data Warehouse

在 Microsoft Fabric 工作区中,Synapse 数据仓库或湖屋在“类型”列下标记为“仓库”。 仓库支持事务、DDL 和 DML 查询。

显示工作区中的仓库类型的屏幕截图。

SQL 分析终结点仅支持只读查询以及视图和 TVF 的创建,与之不同的是,仓库具有完整的事务 DDL 和 DML 支持,由客户创建。 仓库由受支持的数据引入方法(例如 COPY INTOPipelinesDataflows)或跨数据库引入选项(例如 CREATE TABLE AS SELECT (CTAS)INSERT..SELECTSELECT INTO)之一进行填充。

若要开始使用仓库,请参阅在 Microsoft Fabric 中创建仓库

比较仓库与湖屋的 SQL 分析终结点

本部分介绍 Microsoft Fabric 中的仓库和 SQL 分析终结点之间的区别。

数据仓库的 Fabric 工作区关系图,包括 SQL 分析终结点和仓库。

SQL 分析终结点是在从 Microsoft Fabric 中的湖屋进行创建时自动生成的一种只读仓库。 通过湖屋中的 Spark 创建的 Delta 表可在 SQL 分析终结点中自动发现为表。 SQL 分析终结点使数据工程师能够基于湖屋中的物理数据构建关系层,并使用 SQL 连接字符串将其公开给分析和报告工具。 然后,数据分析师可以通过 Synapse 数据仓库使用 T-SQL 访问湖屋数据。 使用 SQL 分析终结点设计仓库来满足 BI 需求和提供数据。

Synapse 数据仓库(也称为“仓库”)是一种“传统的”数据仓库,它像企业数据仓库一样支持完整事务性 T-SQL 功能。 与自动创建表和数据的 SQL 分析终结点不同,你可以使用 Microsoft Fabric 门户或 T-SQL 命令完全控制在数据仓库中创建表、加载、转换和查询数据的操作。

若要详细了解如何在 Microsoft Fabric 中查询数据,请参阅在 Microsoft Fabric 中查询 SQL 分析终结点或仓库

比较不同的仓库功能

为了更好地为分析用例提供服务,有各种功能供你使用。 通常,可以将仓库视为所有其他功能的超集,在提供 T-SQL 的所有其他分析产品/服务的基础上实现更卓越的性能。

在 Fabric 中,用户可能需要在仓库湖屋,甚至 Power BI 数据市场之间做出选择。

Microsoft Fabric 产品/服务

仓库

湖屋的 SQL 分析终结点

Power BI 数据市场


授权

Fabric 或 Power BI Premium

Fabric 或 Power BI Premium

仅 Power BI Premium


主要功能

与 ACID 兼容的完整数据仓库,具有 T-SQL 中的事务支持。

湖屋的由系统生成的只读 SQL 分析终结点,用于 T-SQL 查询和服务。 支持分析湖屋 Delta 表和通过快捷方式引用的 Delta Lake 文件夹。

无代码数据仓库和 T-SQL 查询


开发人员个人资料

SQL 开发人员或平民开发者

数据工程师或 SQL 开发人员

仅限平民开发者


推荐用例

  • 供企业使用的数据仓库
  • 支持部门、业务单位或自助服务使用的数据仓库
  • T-SQL 中的结构化数据分析,包含表、视图、过程和函数,以及针对 BI 的高级 SQL 支持
  • 从湖屋浏览和查询 delta 表
  • 用于分析的暂存数据和存档区域
  • 带有区域的奖牌湖屋体系结构,用于“青铜”、“白银”和“黄金”分析
  • 与仓库配对,用于企业分析用例
  • 小型部门或业务单位仓库用例
  • 自助数据仓库用例
  • Power BI 数据流的登陆区域和对 BI 的简单 SQL 支持

开发体验

  • 仓库编辑器,完全支持 T-SQL 数据引入、建模、开发和查询 UI 体验,用于数据引入、建模和查询
  • 对第一方和第三方工具的读/写支持
  • 湖屋 SQL 分析终结点,提供对视图、表值函数和 SQL 查询的有限 T-SQL 支持
  • 针对建模和查询的 UI 体验
  • 对第一方和第三方工具的有限 T-SQL 支持
  • 数据市场编辑器,具有 UI 体验和查询支持
  • 针对数据引入、建模和查询的 UI 体验
  • 对第一方和第三方工具的只读支持

T-SQL 功能

完整 DQL、DML 和 DDL T-SQL 支持,完全事务支持

完整 DQL,无 DML,有限的 DDL T-SQL 支持,例如 SQL 视图和 TVF

仅限完整 DQL


数据加载

SQL、管道、数据流

Spark、管道、数据流、快捷方式

仅限数据流


Delta 表支持

读取和写入 Delta 表

读取 Delta 表

NA


存储层

开放数据格式 - Delta

开放数据格式 - Delta

NA


湖屋的 SQL 分析终结点中自动生成的架构

SQL 分析终结点可管理自动生成的表,因此工作区用户无法修改这些表。 用户可通过添加自己的 SQL 架构、视图、过程和其他数据库对象来丰富数据库模型。

对于湖屋中的每个 Delta 表,SQL 分析终结点会自动生成一个表。

SQL 分析终结点中的表是延迟创建的。 在湖中创建或更新 Delta Lake 文件夹/表后,不会立即创建/刷新引用湖数据的仓库表。 会在 5-10 秒后在仓库中应用更改。

有关 SQL 分析终结点的自动生成的架构数据类型,请参阅 Microsoft Fabric 中的数据类型