什麼是 Databricks 檔案系統 (DBFS)?

Databricks 檔案系統 (DBFS) 是掛接至 Azure Databricks 工作區的分散式檔案系統,可在 Azure Databricks 叢集上使用。 DBFS 是擴充物件儲存體之上的抽象概念,可將類似 Unix 的檔案系統呼叫對應至原生雲端儲存體 API 呼叫。

注意

Azure Databricks 工作區會使用 DBFS 根磁片區 進行部署,預設可供所有使用者存取。 Databricks 建議不要在此位置儲存生產資料。

您可以使用 DBFS 做什麼?

DBFS 藉由將雲端物件儲存體 URI 對應至相對路徑來提供便利性。

  • 可讓您 使用目錄和檔案語意來與物件儲存體 互動,而不是雲端特定的 API 命令。
  • 可讓您 掛接 雲端物件儲存位置,以便將儲存體認證對應至 Azure Databricks 工作區中的路徑。
  • 簡化將檔案保存到物件儲存體的程式,允許在叢集終止時安全地刪除虛擬機器和連結的磁片區儲存體。
  • 提供方便的位置來儲存 init 腳本、JAR、程式庫,以及叢集初始化的組態。
  • 針對使用 OSS 深度學習程式庫進行模型定型期間建立的檢查點檔案,提供方便的位置。

注意

DBFS 是 FUSE 的 Azure Databricks 實作。 請參閱 使用 Azure Databricks 上的檔案。

與雲端式物件儲存體中的檔案互動

DBFS 提供許多選項來與雲端物件儲存體中的檔案互動:

掛接物件儲存體

將物件儲存體掛接至 DBFS 可讓您存取物件儲存體中的物件,就像它們位於本機檔案系統上一樣。 掛接儲存存取儲存體所需的 Hadoop 組態,因此您不需要在程式碼或叢集設定期間指定這些設定。

如需詳細資訊,請參閱 在 Azure Databricks 上掛接雲端物件儲存體。

什麼是 DBFS 根目錄?

DBFS 根 目錄是 Azure Databricks 工作區的預設儲存體位置,會在包含 Azure Databricks 工作區的雲端帳戶中布建為工作區建立的一部分。 如需 DBFS 根設定和部署的詳細資訊,請參閱 Azure Databricks 快速入門

Azure Databricks 的某些使用者可能會將 DBFS 根目錄稱為 「DBFS」 或 「DBFS」;請務必區分 DBFS 是用來與雲端物件儲存體中的資料互動的檔案系統,而 DBFS 根目錄是雲端物件儲存位置。 您可以使用 DBFS 與 DBFS 根目錄互動,但它們是不同的概念,而 DBFS 在 DBFS 根目錄之外有許多應用程式。

DBFS 根目錄包含許多特殊位置,做為工作區中使用者所執行之各種動作的預設值。 如需詳細資訊,請參閱 DBFS 根目錄中預設有哪些目錄?

DBFS 如何搭配 Unity 目錄使用?

Unity 目錄新增外部位置和受控儲存體認證的概念,以協助組織提供雲端物件儲存體中資料的最低許可權存取權。 Unity 目錄也會為受控資料表提供新的預設儲存位置。 某些安全性設定提供 Unity 目錄管理資源和 DBFS 的直接存取權。 Databricks 已編譯使用 DBFS 和 Unity 目錄 的建議