什么是 Azure Databricks 上的数据仓库?

数据仓库是指从多个来源收集和存储数据,以便可以快速访问这些数据以获取业务见解和报表。 本文包含在数据湖屋中生成数据仓库的关键概念。

湖屋中的数据仓库

湖屋架构和 Databricks SQL 为数据湖带来了云数据仓库功能。 使用熟悉的数据结构、关系和管理工具,可以对直接在数据湖上运行的高性能、经济高效的数据仓库进行建模。 有关详细信息,请参阅什么是数据仓库?

Lakehouse 架构的顶层包括数据仓库、数据工程、数据流、数据科学和机器学习

与传统数据仓库一样,你也可以根据业务需求为数据建模,然后将其提供给最终用户进行分析和报告。 与传统数据仓库不同的是,你可以避免孤立业务分析数据或创建很快就会过时的冗余副本。

在湖屋内构建数据仓库可将所有数据整合到一个系统中,并可利用 Unity Catalog 和 Delta Lake 等功能。

Unity Catalog 添加了统一的治理模型,这使你可以保护和审核数据访问并提供下游表的世系信息。 Delta Lake 添加了 ACID 事务和架构演变以及其他强大的工具,可确保数据可靠、可扩展且具有高质量。

什么是 Databricks SQL?

注意

Databricks SQL 无服务器在 Azure 中国区域不可用。 Databricks SQL 在 Azure 政府区域不可用。

Databricks SQL 是为现有数据湖带来数据仓库功能和性能的服务集合。 Databricks SQL 支持开放格式和标准 ANSI SQL。 通过平台内的 SQL 编辑器和仪表板工具,团队成员可以直接在工作区中与其他 Databricks 用户协作。 Databricks SQL 还与各种工具集成,使分析师可以在他们喜欢的环境中编写查询和仪表板,而无需调整到新平台。

Databricks SQL 提供针对湖屋中的表执行的常规计算资源。 Databricks SQL 由 SQL 仓库提供支持,以前称为 SQL 终结点,提供与存储分离的可缩放 SQL 计算资源。

有关 SQL 仓库默认值和选项的详细信息,请参阅 “连接到 SQL 仓库 ”。

Databricks SQL 与 Unity Catalog 集成,这使你可以从一个位置发现、审核和管理数据资产。 要了解详情,请参阅什么是 Unity Catalog?

Azure Databricks 上的数据建模

湖屋支持多种建模样式。 下图显示了数据在湖屋不同层中移动时如何进行管理和建模。

该图显示了 Lakehouse 架构各个级别的各种数据模型。

奖牌体系结构

奖牌体系结构是一种数据设计模式,用于描述一系列增量细化的数据层,这些数据层提供了湖屋的基本结构。 青铜层、白银层和黄金层表示每个级别的数据质量不断提高,其中黄金层代表最高质量。 有关详细信息,请参阅什么是奖牌湖屋体系结构?

在湖屋内,每个层可以包含一个或多个表。 数据仓库在白银层建模,并为黄金层的专门数据集市提供数据。

青铜层

数据可以采用任何格式,并通过批处理或流式处理事务的任意组合输入湖屋。 青铜层为所有原始格式的原始数据提供了登陆空间。 该数据将转换为 Delta 表。

白银层

白银层将来自不同源的数据整合在一起。 对于专注于数据科学和机器学习应用程序的业务部分,你可以在此处开始策展有意义的数据资产。 这个过程通常以注重速度和敏捷性为标志。

在白银层中,你还可以仔细集成来自不同来源的数据,以构建与现有业务流程保持一致的数据仓库。 通常,此数据遵循第三范式 (3NF) 或数据保管库模型。 通过指定主键和外键约束,最终用户能够在使用 Unity Catalog 时了解表关系。 数据仓库应充当数据市场的单一事实来源。

数据仓库本身是写入时架构和原子架构。 它针对变化进行了优化,因此在业务流程发生变化或演变时,你可以快速修改数据仓库以满足当前需求。

黄金层

黄金层是表示层,可以包含一个或多个数据市场。 通常,数据集市是一组相关表形式的维度模型,用于捕获特定的业务透视。

黄金层还包含部门和数据科学沙盒,用于在整个企业中实现自助分析和数据科学。 提供这些沙盒及其自己的独立计算群集可以防止业务团队在湖屋之外创建数据副本。

下一步

若要详细了解有关使用 Databricks 实施和运营湖屋的原则和最佳做法,请参阅架构良好的数据湖屋简介