什么是 DBFS?

术语 DBFS 用于描述平台的两个部件:

  • DBFS 根
  • DBFS 装载

使用 DBFS 根或 DBFS 装载存储和访问数据是已弃用的模式,Databricks 不建议这样做。

什么是 Databricks 文件系统?

术语 DBFS 来自 Databricks 文件系统,它描述了 Azure Databricks 用来与基于云的存储进行交互的分布式文件系统。

与 DBFS 关联的基础技术仍然是 Azure Databricks 平台的一部分。 例如,与 Unity Catalog 卷交互时,dbfs:/ 是一种可选方案。

过去和当前关于 DBFS 的警告和告诫仅适用于 DBFS 根或 DBFS 装载。

DBFS 如何与 Unity Catalog 配合使用?

Databricks 建议使用 Unity Catalog 来管理对所有数据的访问。

Unity Catalog 添加了外部位置、存储凭据和卷的概念,以帮助组织提供对云对象存储中数据的最低特权访问权限。

一些安全配置提供对 Unity Catalog 托管资源和 DBFS 的直接访问,主要用于已完成迁移或已部分迁移到 Unity Catalog 的组织。 请参阅 DBFS 和 Unity Catalog 的最佳做法

什么是 DBFS 根?

DBFS 根是在包含 Azure Databricks 工作区的云帐户中创建工作区时预配的存储位置。 有关 DBFS 根配置和部署的详细信息,请参阅 Azure Databricks 快速入门

Databricks 不建议在 DBFS 根中存储任何生产数据、库或脚本。 请参阅有关使用 DBFS 根的建议

若要为包含 DBFS 根的存储帐户配置客户管理的密钥,请参阅 DBFS 根的客户管理的密钥

若要限制对包含 DBFS 根的存储帐户的网络访问,请参阅为工作区存储帐户启用防火墙支持

装载对象存储

注意

DBFS 装载已弃用。 Databricks 建议使用 Unity Catalog 卷。 请参阅创建和使用卷

通过将对象存储装载到 DBFS,可访问对象存储中的对象,就像它们在本地文件系统中一样。 装载会存储访问存储所需的 Hadoop 配置。 有关详细信息,请参阅在 Azure Databricks 上装载云对象存储