Git 與 Databricks Repos 整合

Databricks Repos 是 Azure Databricks 中的可視化 Git 用戶端和 API。 它支援常見的 Git 作業,例如在認可時複製存放庫、認可和推送、提取、分支管理和可視化比較差異。

在 Repos 中,您可以在筆記本或其他檔案中開發程式代碼,並遵循使用 Git 進行版本控制、共同作業和 CI/CD 的數據科學和工程程式代碼開發最佳做法。

注意

Git 資料夾 (Repos) 主要是針對撰寫和共同作業工作流程而設計。

您可以使用 Databricks Repos 做什麼?

Databricks Repos 藉由與 Git 提供者整合,為數據和 AI 專案提供原始檔控制。

在 Databricks Repos 中,您可以使用 Git 功能來:

  • 從遠端 Git 存放庫複製、推送及提取。
  • 建立和管理開發工作的分支,包括合併、重新處理和解決衝突。
  • 建立筆記本(包括IPYNB筆記本),並編輯它們和其他檔案。
  • 以可視化方式比較認可時的差異,並解決合併衝突。

如需逐步指示,請參閱 在 Databricks Repos 上執行 Git 作業。

注意

Databricks Repos 也有可與 CI/CD 管線整合的 API 。 例如,您可以以程序設計方式更新 Databricks 存放庫,讓它一律具有最新版本的程序代碼。 如需使用 Databricks Repos 進行程式碼開發最佳做法的相關信息,請參閱 使用 Git 和 Databricks Repos 的 CI/CD 技術。

如需 Azure Databricks 中支援的筆記本類型資訊,請參閱 匯出和匯入 Databricks 筆記本

支援的 Git 提供者

Databricks Git 資料夾是由整合式 Git 存放庫所支援。 存放庫可由下一節所列的任何雲端和企業 Git 提供者裝載。

注意

什麼是「Git 提供者」?

「Git 提供者」是根據 Git 裝載原始檔控制模型的特定(具名)服務。 以 Git 為基礎的原始檔控制平臺會以兩種方式裝載:作為由開發公司所裝載的雲端服務,或以您自己的公司在其硬體上安裝和管理的內部部署服務。 許多 Git 提供者,例如 GitHub、Microsoft、GitLab 和 Atlassian 都提供雲端式 SaaS 和內部部署(有時稱為「自我管理」)Git 服務。

在設定期間選擇 Git 提供者時,您必須瞭解雲端 (SaaS) 與內部部署 Git 提供者之間的差異。 內部部署解決方案通常裝載在公司 VPN 後方,且可能無法從因特網存取。 通常,內部部署 Git 提供者的名稱結尾為「伺服器」或「自我管理」,但如果您不確定,請連絡公司系統管理員或檢閱 Git 提供者的檔。

注意

如果您使用 「GitHub」 作為提供者,而且在使用雲端或內部部署版本時仍不確定,請參閱 GitHub 檔中的關於 GitHub Enterprise Server

Databricks 支援的雲端 Git 提供者

  • GitHub、GitHub AE 和 GitHub Enterprise Cloud
  • Atlassian BitBucket Cloud
  • GitLab 和 GitLab EE
  • Microsoft Azure DevOps (Azure Repos)

Databricks 支援的內部部署 Git 提供者

  • GitHub Enterprise 伺服器
  • Atlassian BitBucket 伺服器和數據中心
  • GitLab 自我管理
  • Microsoft Azure DevOps Server:如果 URL 不符合 dev.azure.com/*visualstudio.com/*,工作區管理員必須明確允許列出 Microsoft Azure DevOps Server 的 URL 網域前置詞。 如需詳細資訊,請參閱 限制使用允許清單中的URL

如果您要整合無法從因特網存取的內部部署 Git 存放庫,則也必須在公司的 VPN 內安裝 Git 驗證要求的 Proxy。 如需詳細資訊,請參閱 設定 Databricks Repos 的私人 Git 連線。

若要瞭解如何搭配 Git 提供者使用存取令牌,請參閱 設定 Git 認證和將遠端存放庫連線到 Azure Databricks

Git 整合的資源

使用 Databricks CLI 2.0 進行 Git 與 Azure Databricks 整合:

閱讀下列參考檔:

下一步