有关使用 DBFS 根的建议

Azure Databricks 使用 DBFS 根目录作为某些工作区操作的默认位置。 Databricks 不建议将任何生产数据或敏感信息存储在 DBFS 根中。 本文重点介绍避免意外泄露 DBFS 根上的敏感数据的建议做法。

注意

Azure Databricks 配置了一个单独的专用存储位置,用于在客户拥有的云存储(称为内部 DBFS)中保存数据和配置。 此位置不会向用户公开。

重要

从 2023 年 3 月 6 日开始,新的 Azure Databricks 工作区使用 Azure Data Lake Storage Gen2 存储帐户作为 DBFS 根。 以前预配的工作区使用 Blob 存储。

让用户不要在 DBFS 根上存储数据

由于工作区中的所有用户都可访问 DBFS 根,因此所有用户都可以访问此处存储的任何数据。 请务必指示用户避免使用此位置来存储敏感数据。 Azure Databricks 上的 Hive 元存储中托管表的默认位置是 DBFS 根;若要防止创建托管表的最终用户写入 DBFS 根,当在 Hive 元存储中创建数据库时,请在外部存储上声明位置。

默认情况下,Unity Catalog 托管表使用安全存储位置。 Databricks 建议对托管表使用 Unity Catalog。

使用审核日志记录监视活动

注意

有关 DBFS 审核事件的详细信息,请参阅 DBFS 事件

使用客户管理的密钥加密 DBFS 根数据

可使用客户管理的密钥加密 DBFS 根数据。 请参阅为 DBFS 根启用客户管理的密钥

重要

不要为支持 DBFS 根的存储帐户禁用 Storage account key access。 禁用此设置会导致意外行为和错误。