培训
学习路径
使用 Azure Databricks 实现数据湖屋分析解决方案 DP-3011 - Training
使用 Azure Databricks 实现数据湖屋分析解决方案。 (DP-3011)
认证
Microsoft Certified: Azure Data Engineer Associate - Certifications
演示如何了解使用多种 Azure 服务在 Microsoft Azure 上实现和管理数据工程工作负荷的常见数据工程任务。
数据湖屋是一个数据管理系统,它结合了数据湖和数据仓库的优势。 本文介绍湖屋的体系结构模式及其在 Azure Databricks 上的用途。
数据湖屋为希望避免独立系统处理机器学习 (ML) 和商业智能 (BI) 等不同工作负载的现代组织提供可缩放的存储和处理功能。 数据湖屋可以帮助建立单一事实来源,消除冗余成本,并确保数据新鲜度。
数据湖屋通常使用的数据设计模式可以在数据流经暂存层和转换层时以增量方式改进、扩充和优化数据。 湖屋的每一层可以包含一层或多层。 此模式通常称为奖牌体系结构。 有关详细信息,请参阅什么是奖牌湖屋体系结构?
Databricks 是基于 Apache Spark 构建的。 Apache Spark 实现了一个可大规模扩展的引擎,该引擎在与存储分离的计算资源上运行。 有关详细信息,请参阅 Azure Databricks 上的 Apache Spark
Databricks Lakehouse 使用另外两项关键技术:
来自各种源的、采用各种格式的批处理数据或流式处理数据进入引入层。 第一个逻辑层提供一个位置,数据以其原始格式进入该位置。 将这些文件转换为 Delta 表时,可以使用 Delta Lake 的架构实施功能来检查丢失或意外的数据。 可以使用 Unity Catalog 根据数据治理模型和所需的数据隔离边界来注册表。 Unity Catalog 支持你在转换和优化数据时跟踪数据的世系,并应用统一的治理模型来保持敏感数据的私密性和安全性。
验证后,可以开始管护和细化数据。 在此阶段,数据科学家和机器学习从业者经常使用数据来开始组合或创建新功能并完成数据清理。 彻底清理数据后,可将其集成并重新组织成符合特定业务需求的表。
将写时架构方法与 Delta 架构演变功能相结合,可以对此层进行更改,而无需重新编写为最终用户提供数据的下游逻辑。
最后一层为最终用户提供干净且经过扩充的数据。 最终的表应设计为针对所有用例提供数据。 统一治理模型意味着可以将数据世系追溯到单一事实来源。 针对不同任务进行优化的数据布局允许最终用户访问机器学习应用程序、数据工程以及商业智能和报告的数据。
若要详细了解 Delta Lake,请参阅什么是 Delta Lake?若要详细了解 Unity Catalog,请参阅什么是 Unity Catalog?
基于 Databricks 的数据湖屋消除了现代数据公司目前对数据湖和数据仓库的依赖。 可以执行的一些关键任务包括:
大约 30 年以来,数据仓库一直在驱动商业智能 (BI) 决策,现已发展成为数据流控制系统的一套设计准则。 企业数据仓库可以优化 BI 报表的查询,但可能需要几分钟甚至数小时才能生成结果。 数据仓库专为不太可能频繁更改的数据而设计,旨在防止并发运行的查询之间发生冲突。 许多数据仓库依赖于专有格式,这些格式通常限制了对机器学习的支持。 Azure Databricks 上的数据仓库利用 Databricks 湖屋和 Databricks SQL 的功能。 有关详细信息,请参阅什么是 Azure Databricks 上的数据仓库?。
得益于数据存储方面的技术进步以及数据类型和数量呈指数级的增长,数据湖在过去十年中已广泛使用。 数据湖存储高效且廉价地存储和处理数据。 数据湖通常是相对于数据仓库来定义的:数据仓库为 BI 分析提供干净的结构化数据,而数据湖永久且廉价地以任何格式存储任何性质的数据。 许多组织将数据湖用于数据科学和机器学习,但由于其未经验证的性质而无法用于 BI 报告。
数据湖屋结合了数据湖和数据仓库的优势,此外还提供以下优势:
通过将优化的元数据层与以标准格式存储在云对象存储中的经验证数据相结合,数据湖屋允许数据科学家和机器学习工程师从相同的数据驱动的 BI 报告生成模型。
若要详细了解有关使用 Databricks 实施和运营湖屋的原则和最佳做法,请参阅架构良好的数据湖屋简介
培训
学习路径
使用 Azure Databricks 实现数据湖屋分析解决方案 DP-3011 - Training
使用 Azure Databricks 实现数据湖屋分析解决方案。 (DP-3011)
认证
Microsoft Certified: Azure Data Engineer Associate - Certifications
演示如何了解使用多种 Azure 服务在 Microsoft Azure 上实现和管理数据工程工作负荷的常见数据工程任务。