Azure Databricks 体系结构概述

本文提供 Azure Databricks 体系结构的简要概述,包括其与 Azure 相结合的企业体系结构。

高级体系结构

Azure Databricks 在控制平面和计算平面上运行。

  • 控制平面包括 Azure Databricks 在 Azure Databricks 帐户中管理的后端服务。 该 Web 应用程序位于控制平面中。
  • 计算平面是处理数据的位置。 根据所使用的计算,存在两种类型的计算平面。
    • 对于无服务器计算,无服务器计算资源在 Azure Databricks 帐户的无服务器计算平面中运行
    • 对于经典 Azure Databricks 计算,计算资源位于 Azure 订阅中称为经典计算平面的部分中。 这是指 Azure 订阅及其资源中的网络。

每个 Azure Databricks 工作区都有关联的存储帐户,称为工作区存储帐户。 工作区存储帐户位于 Azure 订阅中。

下图描述了整个 Azure Databricks 体系结构。

示意图:Databricks 体系结构

无服务器计算平面

在无服务器计算平面中,Azure Databricks 计算资源在你的 Azure Databricks 帐户内的计算层中运行。 Azure Databricks 在工作区的经典计算平面所在的 Azure 区域中创建无服务器计算平面。

为保护无服务器计算平面内的客户数据,无服务器计算在工作区的网络边界内运行,提供各种安全层来隔离不同的 Azure Databricks 客户工作区,并在同一客户的群集之间提供额外的网络控制。

若要详细了解无服务器计算平面中的网络,请参阅无服务器计算平面网络

经典计算平面

在经典计算平面中,Azure Databricks 计算资源在你的 Azure 订阅中运行。 新计算资源是在客户 Azure 订阅内每个工作区的虚拟网络中创建的。

经典计算平面有天然的隔离,因为它在每个客户专属的 Azure 订阅中运行。 若要详细了解经典计算平面中的网络,请参阅经典计算平面网络

有关区域支持,请参阅 Azure Databricks 区域

工作区存储帐户

创建工作区时,Azure Databricks 会在 Azure 订阅中创建帐户,用作工作区存储帐户。

工作区存储帐户包含:

  • 工作区系统数据: 当你使用各种 Azure Databricks 功能(例如,创建笔记本)时,会生成工作区系统数据。 此存储桶包括笔记本修订、作业运行详细信息、命令结果和 Spark 日志
  • DBFS: DBFS(Databricks 文件系统)是 Azure Databricks 环境中的分布式文件系统,可在dbfs:/命名空间下访问。 DBFS 根和 DBFS 装载都位于dbfs:/命名空间中。 使用 DBFS 根或 DBFS 装载存储和访问数据是已弃用的模式,Databricks 不建议这样做。 有关详细信息,请参阅什么是 DBFS?
  • Unity 目录工作区目录: 如果工作区自动为 Unity Catalog 启用,则工作区存储帐户包含默认的工作区目录。 工作区中的所有用户都可以在此目录的默认架构中创建资产。 请参阅设置和管理 Unity Catalog

要限制仅从授权的资源和网络访问工作区存储帐户的权限,请参阅为工作区存储帐户启用防火墙支持