管理 Databricks Git 資料夾中的檔案資產

Databricks Git 資料夾可作為 Git 用戶端,用於 Git 型來源存放庫的 Databricks 受控複製品,讓您從工作區對其內容執行 Git 作業的子集。 在此 Git 整合中,儲存在遠端存放庫中的檔案會根據其類型檢視為「資產」,並有一些專屬於其類型的限制。 筆記本檔案,特別是根據其類型有不同的屬性。 請閱讀本文,以瞭解如何在 Git 資料夾中使用資產,特別是 IPYNB 筆記本。

支援的資產類型

Git 資料夾僅支援特定 Azure Databricks 資產類型。 在此情況下,「支援」表示「可以串行化、版本控制,並推送至支援 Git 存放庫」。

目前支援的資產類型如下:

資產類型 詳細資料
檔案 檔案會串行化數據,而且可以包含從連結庫到二進位檔到程式代碼到影像的任何專案。 如需詳細資訊,請參閱 什麼是工作區檔案?
Notebook 筆記本是 Databricks 支援的筆記本檔格式。 筆記本會被視為與檔案不同的 Azure Databricks 資產類型,因為它們不會串行化。 Git 資料夾會依擴展名 (例如 .ipynb) 或檔案延伸模組來決定 Notebook,並結合檔案內容中的特殊標記(例如, # Databricks notebook source 來源檔案開頭的 .py 批註)。
資料夾 資料夾是 Azure Databricks 特定結構,代表 Git 中檔案邏輯群組的串行化資訊。 如預期般,在檢視 Azure Databricks Git 資料夾或使用 Azure Databricks CLI 存取它時,用戶體驗為「資料夾」。

Git 資料夾中目前不支援的 Azure Databricks 資產類型包括:

  • DBSQL 查詢
  • 警示
  • 儀錶板(包括舊版儀錶板)

注意

您可以將現有的不支援的資產移至 Git 資料夾,但無法將這些資產的變更認可回存放庫。 您無法在 Git 資料夾建立新的不支援的資產。

筆記本格式

Databricks 會考慮兩種高階 Databricks 特定筆記本格式:“source” 和 “ipynb”。 當使用者以「來源」格式認可筆記本時,Databricks 平台會認可具有語言後綴的一般檔案,例如 .py.sql.scala.r。 「來源」格式筆記本只包含原始程式碼,且不包含輸出,例如數據表顯示,以及執行筆記本結果的視覺效果。

不過,「ipynb」 格式確實有與其相關聯的輸出,而且這些成品會在推送 .ipynb 產生的筆記本時,自動推送至 Git 存放庫,以備份 Git 資料夾。 如果您想要認可輸出以及程式碼,請使用 「ipynb」 筆記本格式和設定,讓用戶認可任何產生的輸出。 因此,“ipynb” 也針對透過 Git 資料夾推送至遠端 Git 存放庫的筆記本,在 Databricks 中支援更好的檢視體驗。

筆記本來源格式 詳細資料
來源 可以是任何具有標準檔案後綴的程式代碼檔案,其會發出程式碼語言的訊號,例如.py.r.scala.sql。 「來源」筆記本會被視為文本檔,且在認可回 Git 存放庫時不會包含任何相關聯的輸出。
ipynb “ipynb” 檔案結尾為 .ipynb ,如果已設定,可以將輸出(例如視覺效果)從 Databricks Git 資料夾推送至支援 Git 存放庫。 .ipnynb筆記本可以包含 Databricks 筆記本所支援之任何語言的程式代碼(儘管py屬於 .ipynb)。

如果您想要在執行筆記本之後將輸出推送回存放庫,請使用 .ipynb (Jupyter) 筆記本。 如果您只想在 Git 中執行筆記本並加以管理,請使用類似 的 .py「來源」格式。

如需所支援筆記本格式的詳細資訊,請參閱 匯出和匯入 Databricks 筆記本

注意

什麼是「輸出」?

輸出是在 Databricks 平臺上執行筆記本的結果,包括數據表顯示和視覺效果。

如何? 告知筆記本所使用的格式,而不是擴展名?

在 Databricks 所管理的筆記本頂端,通常會有一行批注指出格式。 例如,針對 .py 「來源」筆記本,您會看到如下所示的一行:

# Databricks notebook source

對於 .ipynb 檔案,會使用檔案後綴來指出它是 「ipynb」 筆記本格式。

Databricks Git 資料夾中的IPYNB筆記本

Git 資料夾中有支援 Jupyter Notebook(.ipynb 檔案)。 您可以使用筆記本複製存放庫、在 Databricks 產品中使用這些存放庫,然後將存放庫 .ipynb 認可並推送為 .ipynb 筆記本。 會保留筆記本儀錶板之類的元數據。 管理員 可以控制是否可以認可輸出。

允許認可 .ipynb 筆記本輸出

根據預設,Git 資料夾的系統管理員設定不允許 .ipynb 認可筆記本輸出。 工作區管理員可以變更此設定:

  1. 移至 [管理員 設定>工作區設定]。

  2. 在 [Git 資料夾>允許 Git 資料夾匯出 IPYNB 輸出] 下,選取 [允許:IPYNB 輸出可以開啟]。

    管理員 主控台:允許 Git 資料夾匯出IPYNB輸出。

重要

包含輸出時,視覺效果和儀錶板組態會保留為 .ipynb 檔案格式。

控制IPYNB筆記本輸出成品認可

當您認可檔案 .ipynb 時,Databricks 會建立組態檔,讓您控制認可輸出的方式: .databricks/commit_outputs

  1. 如果您有 .ipynb 筆記本檔案,但沒有存放庫中的組態檔,請開啟 Git 狀態模式。

  2. 在通知對話框中,按兩下 [ 建立commit_outputs檔案]。

    筆記本認可 UI:建立commit_outputs檔案按鈕。

您也可以從 [檔案 ] 選單產生組態檔。 [ 檔案 ] 選單有一個控件,可讓您自動更新組態檔,以指定特定筆記本的輸出包含或排除。

  1. 在 [ 檔案] 功能表中,選取 [ 認可筆記本輸出]。

    Noteboook 編輯器:認可筆記本會輸出狀態和控制。

  2. 在對話框中,確認您選擇認可筆記本輸出。

    認可筆記本輸出對話框。

將來源筆記本轉換為IPYNB

您可以透過 Azure Databricks UI,將 Git 資料夾中的現有來源筆記本轉換成 IPYNB 筆記本。

  1. 在您的工作區中開啟來源筆記本。

  2. 從工作區功能表中選取 [ 檔案 ],然後選取 [變更筆記本格式 [source]。 如果筆記本已經使用IPYNB格式,[source]將會是功能表元素中的 [ipynb]。

    展開的工作區檔案功能表,其中顯示 [變更筆記本格式] 選項。

  3. 在強制回應對話框中,選取 [Jupyter 筆記本格式 (.ipynb)],然後按兩下 [ 變更]。

    您可以在其中選取 IPYNB 筆記本格式的強制回應對話方塊。

您也可以:

  • 建立新的 .ipynb 筆記本。
  • 將差異檢視為 Code diff (單元格中的程式碼變更)或 Raw diff (程式代碼變更會顯示為 JSON 語法,其中包含筆記本輸出作為元數據)。

如需 Azure Databricks 所支援筆記本類型的詳細資訊,請參閱 導出和匯入 Databricks 筆記本