什麼是工作區檔案?

工作區檔案是 Azure Databricks 工作區中不是 Databricks 筆記本的任何檔案。 工作區檔案可以是任何文件類型。 常見的範例包括:

  • .py 自訂模組中使用的檔案。
  • .md 檔案,例如 README.md
  • .csv 或其他小型數據檔。
  • .txt 檔案。
  • .whl 圖書館。
  • 記錄檔。

工作區檔案包含先前稱為「Repos 中的檔案」的檔案。

重要

Databricks Runtime 11.2 版預設會在任何地方啟用工作區檔案,但可以使用 REST API 來停用。 針對生產工作負載,請使用 Databricks Runtime 11.3 LTS 或更新版本。 如果您無法存取這項功能,請連絡工作區管理員。

您可以使用工作區檔案執行哪些動作

Azure Databricks 提供的功能類似於許多工作區檔類型的本機開發,包括內建的檔案編輯器。 並非所有文件類型的使用案例都受到支援。 例如,雖然您可以在匯入的目錄或存放庫中包含映像,但您無法在筆記本中內嵌映像。

您可以使用筆記本互動中熟悉的模式,建立、編輯和管理工作區檔案的存取權。 您可以使用相對路徑從工作區檔案匯入連結庫,類似於本機開發。 如需詳細資訊,請參閱:

儲存在工作區檔案中的 Init 腳本具有特殊行為。 您可以使用工作區檔案在任何 Databricks Runtime 版本中儲存和參考 init 腳本。 請參閱 將 init 腳本儲存在工作區檔案中。

注意

在 Databricks Runtime 14.0 和更新版本中,本機執行之程式代碼的預設目前工作目錄 (CWD) 是包含執行筆記本或腳本的目錄。 這是 Databricks Runtime 13.3 LTS 和以下的行為變更。 請參閱 什麼是預設目前的工作目錄?

限制

工作區檔案限制的完整清單位於工作區檔案限制

檔案大小限制

個別工作區檔案限製為500 MB。

用戶可以從UI上傳高達500 MB的檔案大小。 從叢集寫入時允許的檔案大小上限為 256 MB。

具有 Azure Databricks Container Services 叢集之 Git 資料夾中檔案的 Databricks 運行時間版本

在執行 Databricks Runtime 11.3 LTS 和更新版本之叢集上,預設設定可讓您搭配 Azure Databricks Container Services (DCS) 在 Git 資料夾中使用工作區檔案。

在執行 Databricks Runtime 10.4 LTS 和 9.1 LTS 的叢集上,您必須設定 dockerfile,以存取具有 DCS 之叢集上 Git 資料夾中的工作區檔案。 如需所需的 Databricks Runtime 版本,請參閱下列 dockerfiles:

請參閱 使用 Databricks Container Service 自定義容器

啟用工作區檔案

若要啟用 Databricks 工作區中非筆記本檔案的支援,請從筆記本或其他環境呼叫 /api/2.0/workspace-conf REST API,以存取您的 Databricks 工作區。 默認會啟用工作區檔案

若要啟用或重新啟用 Databricks 工作區中非筆記本檔案的支援,請呼叫 /api/2.0/workspace-conf 並取得索引鍵的值 enableWorkspaceFileSystem 。 如果設定為 true,則工作區已啟用非筆記本檔案。

下列範例示範如何從筆記本呼叫此 API,以檢查工作區檔案是否已停用,如果是,請重新啟用它們。 若要停用工作區檔案,請使用 /api/2.0/workspace-conf API 設定enableWorkspaceFilesystemfalse

範例:重新啟用 Databricks 工作區檔案支援的筆記本

取得筆記本