什么是 Azure Databricks?

Azure Databricks Lakehouse 平台提供了一组统一的工具,用于大规模构建、部署、共享和维护企业级数据解决方案。 Azure Databricks 与云帐户中的云存储和安全性相集成,并代表你对云基础结构进行管理和部署。

具有开放源代码的托管集成

Databricks 对开源社区做出了坚定承诺。 Databricks 管理 Databricks Runtime 版本中开源集成的更新。 以下技术是 Databricks 员工创立的开源项目:

Azure Databricks 维护许多专有工具,这些工具对这些技术进行集成和扩展以优化性能和易用性,如下所示:

Azure Databricks 如何与 Azure 配合?

Azure Databricks 平台体系结构由两个主要部分组成:一部分基础结构由 Azure Databricks 使用,用于部署、配置和管理平台和服务;一部分基础结构由客户所有,由 Azure Databricks 和你的公司协作管理。

与许多企业数据库公司不同,Azure Databricks 不会强制将数据迁移到专有存储系统才能使用该平台。 相反,你可以通过配置 Azure Databricks 平台与云帐户之间的安全集成来配置 Azure Databricks 工作区,然后 Azure Databricks 使用你的帐户中的云资源部署临时计算群集,以处理和存储对象存储中的数据以及你控制的其他集成服务。

Unity Catalog 进一步扩展了此关系,允许你使用熟悉的 SQL 语法管理从 Azure Databricks 内部访问数据的权限。

Azure Databricks 为全球一些最大、最注重安全的公司部署了满足其安全和网络要求的工作区。 Azure Databricks 使新用户能够轻松开始使用平台,并消除了最终用户使用云基础结构的许多负担和顾虑,同时不限制经验丰富的数据、运营和安全团队所需的自定义和控制。

Azure Databricks 的用途是什么?

我们的客户使用 Azure Databricks 通过从 BI 到机器学习的解决方案来处理、存储、清理、共享、分析数据集,进行建模并实现盈利。 你可以使用 Azure Databricks 平台生成跨数据角色的许多不同应用程序。 完全接受 Lakehouse 的客户利用我们的统一平台来构建和部署数据工程工作流、机器学习模型和分析仪表板,为整个组织提供创新和见解。

Azure Databricks 工作区为许多核心数据任务提供用户界面,其中包括以下工具:

  • 交互式笔记本
  • 工作流计划程序和管理器
  • SQL 编辑器和仪表板
  • 数据引入和治理
  • 数据发现、注释和浏览
  • 计算管理
  • 机器学习 (ML) 试验跟踪
  • ML 模型服务
  • 特征存储
  • 使用 Git 进行源代码管理

除了工作区 UI 之外,还可以通过以下工具以编程方式与 Azure Databricks 交互:

  • REST API
  • CLI
  • Terraform

Azure Databricks 的常见用例有哪些?

Azure Databricks 上的用例如同平台上处理的数据以及工作核心部分为处理数据的许多员工角色一样多种多样。 以下用例重点介绍了组织中的用户如何利用 Azure Databricks 完成对处理、存储和分析驱动关键业务职能和决策的数据至关重要的任务。

构建企业数据湖屋

数据湖屋结合了数据仓库和数据湖的优势,可以加速、简化和统一企业数据解决方案。 数据工程师、数据科学家、分析师和生产系统都可以利用数据湖屋作为单一事实来源,从而及时访问一致的数据,并减少构建、维护和同步许多分布式数据系统的复杂性。 请参阅 Databricks Lakehouse 是什么?

ETL 和数据工程

无论是生成仪表板还是为人工智能应用程序提供支持,数据工程都能确保数据可用、干净并存储在便于高效发现和使用的数据模型中,从而为以数据为中心的公司提供支柱。 Azure Databricks 将 Apache Spark 的强大功能与 Delta Lake 和自定义工具相结合,提供卓越的 ETL(提取、转换、加载)体验。 你可以使用 SQL、Python 和 Scala 来编写 ETL 逻辑,然后只需单击几下即可编排计划的作业部署。

增量实时表通过智能管理数据集之间的依赖关系以及自动部署和缩放生产基础结构,进一步简化了 ETL,以确保根据规范及时准确地交付数据。

Azure Databricks 提供了一些用于数据引入的自定义工具,其中包括自动加载程序,这是一种高效且可缩放的工具,用于以增量方式和幂等方式将数据从云对象存储和数据湖加载到数据湖屋。

机器学习、AI 和数据科学

Azure Databricks 机器学习扩展了平台的核心功能,其中包含一套为数据科学家和 ML 工程师定制的工具,包括 MLflow用于机器学习的 Databricks Runtime。 请参阅 Databricks 机器学习指南

数据仓库、分析和 BI

Azure Databricks 将用户友好的 UI、经济高效的计算资源以及无限可缩放、负担得起的存储相结合,提供了一个运行分析查询的强大平台。 管理员将可缩放的计算群集配置为 SQL 仓库,使最终用户能够执行查询,而无需担心在云中工作的任何复杂性。 SQL 用户可以使用 SQL 查询编辑器在湖屋中针对数据运行查询,或在笔记本中运行查询。 笔记本除了支持 SQL 之外,还支持 Python、R 和 Scala,并允许用户在仪表板中嵌入相同的可视化效果,以及用 markdown 编写的链接、图像和评论。

数据治理和安全数据共享

Unity Catalog 为数据湖屋提供统一的数据治理模型。 云管理员为 Unity Catalog 配置和集成粗略的访问控制权限,然后 Azure Databricks 管理员可以管理团队和个人的权限。 通过用户友好的 UI 或 SQL 语法,与访问控制列表 (ACL) 相结合对特权进行管理,使数据库管理员无需在云原生标识访问管理 (IAM) 和网络上进行缩放就可以更轻松地保护对数据的访问。

Unity Catalog 使在云中运行安全分析变得简单,并提供了一个责任划分,这个划分有助于减少平台管理员和最终用户所必需的再培训或技能提升。 请参阅什么是 Unity Catalog?

湖屋使组织中的数据共享变得就像授予对表或视图的查询访问权限一样简单。 为了可以在安全环境之外共享,Unity Catalog 提供了增量共享的托管版本。

DevOps、CI/CD 和任务编排

ETL 管道、ML 模型和分析仪表板的开发生命周期都呈现出各自的独特挑战。 Azure Databricks 允许所有用户利用单个数据源,这样可以减少重复工作和不同步报告。 通过另外为版本控制、自动化、计划、部署代码和生产资源提供一套通用工具,你可以简化监视、编排和操作的开销。 工作流计划 Azure Databricks 笔记本、SQL 查询和其他任意代码。 使用存储库,你可以将 Azure Databricks 项目与许多常用 Git 提供程序同步。 有关工具的完整概述,请参阅开发人员工具和指南

实时分析和流式处理分析

Azure Databricks 利用 Apache Spark 结构化流式处理来处理流数据和增量数据更改。 结构化流式处理与 Delta Lake 紧密集成,这些技术为增量实时表和自动加载程序提供了基础。 请参阅什么是 Apache Spark 结构化流式处理?