本文說明如何設定 Databricks Git 資料夾以進行版本控制。 在 Databricks 工作區中設定 Git 資料夾之後,您可以從 Databricks UI 執行一般 Git 作業,例如複製、簽出、認可、推送、提取和分支管理。 您也可以在 Databricks 中開發時看到變更的差異。
設定使用者設定
Databricks Git 資料夾會使用個人存取令牌 (PAT) 或對等的 OAuth 認證,向 Git 提供者進行驗證,以執行作業。 若要使用 Git 資料夾,您必須先在 Databricks 中設定 Git 認證。 請參閱 設定 Git 認證和將遠端存放庫連線到 Azure Databricks。
您可以複製沒有 Git 認證的公用遠端存放庫。 若要修改公用遠端存放庫,或複製或修改私人遠端存放庫,您必須具有遠端存放庫 的寫入 許可權(或更高許可權)的 Git 認證。
預設會啟用 Git 資料夾。 如需啟用或停用 Git 資料夾支援的詳細資訊,請參閱啟用或停用 Databricks Git 資料夾功能。
在 Databricks 中新增或編輯 Git 認證
選取畫面右上方帳戶名稱旁邊的向下箭號,然後選取 [ 設定]。
選取 [鏈接帳戶 ] 索引標籤。
如果您是第一次新增認證,請遵循畫面上的指示。
如果您先前已輸入認證,請按兩下 [設定>編輯 ],然後移至下一個步驟。
在 [Git 提供者] 下拉式清單中,選取提供者名稱。
視選取的提供者而定,您可能會有 OAuth 選項和個人存取權杖 (PAT) 選項。 如果您選擇 OAuth 選項,請完成 Web 驗證流程。 如果您選擇 PAT 選項,請輸入您的 Git 使用者名稱或電子郵件。 在 令牌 欄位中,新增從 Git 提供者獲得的 PAT。 如需詳細資訊,請參閱 設定 Git 認證和將遠端存放庫連線至 Azure Databricks
重要
Databricks 建議您使用 OAuth Git 認證。 如果您必須使用個人存取令牌,則必須設定到期日。
- 針對 Azure DevOps,如果您未輸入權杖或應用程式密碼,Git 整合預設會使用Microsoft Entra ID 權杖。 如果您輸入 Azure DevOps 個人存取權杖,Git 整合會改用它。 請參閱使用權杖連線到 Azure DevOps 存放庫。
注意
更新 Azure 密碼之後,如果您需要新的驗證立即運作,請使用 Azure Databricks 重新驗證。 如果您未重新驗證,Azure DevOps 連線可能有長達 24 小時的時間未驗證。
如果組織已在 GitHub 啟用 SAML SSO,請為 SSO 授權個人存取權杖。
- 在 [Git 供應商使用者名稱]欄位輸入使用者名稱。
- 按一下儲存。
您也可以使用 Databricks Repos API,將 Git PAT 權杖和使用者名稱儲存至 Azure Databricks。
如果您無法複製存放庫,且您使用 Azure DevOps 搭配 Microsoft Entra ID 驗證,請參閱 Microsoft Entra ID 的條件存取政策疑難排解。
每個使用者有多個 Git 認證 (公開預覽)
Azure Databricks 支援每位使用者使用多個 Git 認證,因此當使用者與使用多個 Git 提供者的小組合作,或在同一提供者下使用多個 Git 帳號時,能夠輕鬆地切換這些認證。
局限性
- 您可以針對使用不同 Git 提供者的作業使用多個 Git 認證。
- 如果作業需要的 Git 認證不是該提供者的預設認證,您必須使用服務主體來排程該作業。
- 服務主體只能有一個 Git 認證。
- 使用 Databricks GitHub App 進行連線時,只允許單一 鏈接認證 。
- 每個使用者最多允許 10 個 Git 認證。
Databricks Git 資料夾與 Git 供應商之間的網路連線
Git 資料夾需要與 Git 提供者的網路連線才能運作。 通常,這是透過因特網運作,不需要進一步的設定。 不過,您可能已在 Git 提供者上設定其他限制,以控制存取。 例如,您可能會有 IP 允許列表,或者您可能使用 GitHub Enterprise(GHE)、Bitbucket Server(BBS)或 Gitlab 自我管理等服務來架設自己的內部部署 Git 伺服器。 視網路託管和組態而定,Git 伺服器可能無法從網際網路存取。
注意
- 如果您的 Git 伺服器可存取因特網,但具有 IP 允許清單,例如 GitHub 允許清單,您必須將 Azure Databricks 控制平面 NAT IP 新增至 Git 伺服器的 IP 允許清單。 如需依區域控制平面 NAT IP 位址的清單,請參閱 Azure Databricks 區域 。 請使用 Azure Databricks 工作區所在區域的 IP。
- 如果您是在私密主機上托管 Git 伺服器,請閱讀 為 Azure Databricks Git 資料夾(Repos)設置私人 Git 連線 或聯繫您的 Azure Databricks 帳戶團隊以獲取存取指南。
Git 資料夾中的安全性功能
Databricks Git 資料夾有許多安全性功能。 下列各節逐步引導您設定及使用:
- 使用加密的 Git 認證
- 允許清單
- 工作區存取控制
- 稽核記錄
- 祕密偵測
攜帶您自己的金鑰:加密 Git 認證
您可以使用 Azure Key Vault 來加密 Git 個人存取權杖 (PAT) 或其他 Git 認證。 使用加密服務的金鑰稱為客戶自控金鑰 (CMK) 或攜帶您自己的金鑰 (BYOK)。
如需詳細資訊,請參閱適用於加密的客戶自控金鑰。
限制使用允許清單中的URL
如果您使用 Microsoft Entra 標識符來向 Azure DevOps 進行驗證,默認允許列表會將 Git URL 限制為:
- dev.azure.com
- visualstudio.com
針對具有自定義 CNAMES 或 Git URL 別名的 Microsoft Entra ID,您的工作區管理員可以設定自定義允許清單,如下列步驟所示。 如果您使用自訂允許清單,則如果您要使用這些網址,您的工作區管理員必須新增這些網址: dev.azure.com
和 visualstudio.com
。
工作區管理員可以限制使用者可以從哪些遠端存放庫進行複製,並限制他們可以認可和推送至哪些存放庫。 這有助於防止程式代碼外洩;例如,如果您已開啟allowlist限制,使用者就無法將程式代碼推送至任意存放庫。 您也可以將複製作業限制為允許的存放庫清單,以防止使用者使用未授權的程式代碼。
若要設定允許清單:
按下 [工作區管理員]索引標籤 (預設為開啟)。
在 [ 開發 ] 區段中,從 Git URL allowlist 許可權中選擇選項:
- 已停用 (沒有限制):沒有針對允許清單的檢查。
- 限制複製、認可和推送至允許的 Git 存放庫:僅允許允許清單中的存放庫 URL 進行複製、認可和推送作業。
- 僅限制認可及推送至允許的 Git 儲存庫:僅允許在允許列表中的儲存庫 URL 進行認可及推送作業。 複製和接收作業不受限制。
按兩下 Git URL 允許清單旁的 [編輯] 按鈕:空白清單,然後輸入以逗號分隔的URL前置詞清單。
按一下儲存。
注意
- 您儲存的清單會覆寫現有的已儲存 URL 前置詞集。
- 最多可能需要 15 分鐘的時間,才能讓變更生效。
允許存取所有存放庫
若要停用現有的允許清單並允許存取所有存放庫:
控制工作區中存放庫的存取權
注意
僅進階版方案提供存取控制。
設定存放庫的許可權以控制存取權。 存放庫的權限會套用至該存放庫的所有內容。 您可以為檔案指派五個權限等級:無權限、讀取、執行、編輯及管理。
如需 Git 資料夾權限的詳細資訊,請參閱 Git 資料夾 ACL。
稽核記錄
若啟用[稽核記錄],與 Git 資料夾互動時會記錄稽核事件。 例如,當您建立、更新或刪除 Git 資料夾、列出與工作區相關聯的所有 Git 資料夾,以及同步處理 Git 資料夾與遠端 Git 存放庫之間的變更時,就會記錄稽核事件。
祕密偵測
Git 資料夾會掃描程式碼是否有開頭為前置詞 AKIA
的存取金鑰 ID,並在提交之前警告使用者。
將 Git 資料夾移至垃圾桶 (刪除)
若要從工作區移除 Git 資料夾:
以滑鼠右鍵按下 Git 資料夾,然後選取 [移至垃圾桶]。
在對話框輸入您要刪除的 Git 資料夾名稱。 然後,按下[確認並移至垃圾桶]。