Git 与 Databricks 存储库集成

Databricks Repos 是 Azure Databricks 中一个可视化的 Git 客户端和 API。 它支持常见的 Git 操作,例如克隆存储库、提交和推送、拉取、分支管理以及提交时的差异视觉比较。

在 Repos 中,可以在笔记本或其他文件中开发代码,并遵循有关使用 Git 实现版本控制、协作和 CI/CD 的数据科学与工程代码开发最佳做法。

注意

Git 文件夹(存储库)主要用于创作和协作工作流。

Databricks 存储库有什么作用?

Databricks Repos 通过与 Git 提供程序集成为数据和 AI 项目提供源代码管理。

在 Databricks Repos 中,可以使用 Git 功能执行以下操作:

  • 克隆、推送到远程 Git 存储库以及从存储库拉取。
  • 创建和管理用于开发工作的分支,包括合并、变基和解决冲突。
  • 创建笔记本(包括 IPYNB 笔记本)并编辑它们和其他文件。
  • 直观地比较提交时的差异并解决合并冲突。

有关分步说明,请参阅在 Databricks Repos 上运行 Git 操作

注意

Databricks Repos 还提供一个可与 CI/CD 管道集成的 API。 例如,可以通过编程方式更新 Databricks 存储库,使其始终具有最新的代码版本。 若要了解使用 Databricks Repos 进行代码开发的最佳做法,请参阅使用 Git 和 Databricks Repos 的 CI/CD 技术

有关 Azure Databricks 支持的笔记本类型的信息,请参阅导出和导入 Databricks 笔记本

支持的 Git 提供程序

Databricks Git 文件夹由集成的 Git 存储库提供支持。 存储库可由以下部分列出的任何云和企业 Git 提供程序托管。

注意

什么是“Git 提供程序”?

“Git 提供程序”是托管基于 Git 的源代码管理模型的特定(已命名)服务。 基于 Git 的源代码管理平台以两种方式托管:作为由开发公司托管的云服务,或作为由自己的公司在其硬件上安装和管理的本地服务。 许多 Git 提供程序(如 GitHub、Microsoft、GitLab 和 Atlassian)同时提供基于云的 SaaS 和本地(有时称为“自托管”)Git 服务。

在配置期间选择 Git 提供程序时,必须了解云 (SaaS) 与本地 Git 提供程序之间的差异。 本地解决方案通常托管在公司 VPN 后面,并且可能无法从 Internet 访问。 通常,本地 Git 提供程序的名称以“服务器”或“自托管”结尾,但如果不确定,请联系公司管理员或查看 Git 提供程序的文档。

注意

如果使用“GitHub”作为提供程序,并且仍不确定使用的是云或本地版本,请参阅 GitHub 文档中的关于 GitHub Enterprise 服务器》。

Databricks 支持的云 Git 提供程序

  • GitHub、GitHub AE 和 GitHub Enterprise 云
  • Atlassian BitBucket 云
  • GitLab 和 GitLab EE
  • Microsoft Azure DevOps (Azure Repos)

Databricks 支持的本地 Git 提供程序

  • GitHub Enterprise Server
  • Atlassian BitBucket 服务器和数据中心
  • GitLab 自托管
  • Microsoft Azure DevOps Server:如果 URL 不匹配 dev.azure.com/*visualstudio.com/*,则工作区管理员必须为你的 Microsoft Azure DevOps Server 将 URL 域前缀显式加入允许列表。 有关详细信息,请参阅限制为使用允许列表中的 URL

如果要集成无法从 Internet 访问的本地 Git 存储库,则还必须在公司的 VPN 中安装用于 Git 身份验证请求的代理。 有关详细信息,请参阅为 Databricks Repos 设置专用 Git 连接

要了解如何将访问令牌用于 Git 提供程序,请参阅《配置 Git 凭据和将远程存储库连接到 Azure Databricks》。

Git 集成的资源

使用 Databricks CLI 2.0 进行 Git 与 Azure Databricks 的集成:

阅读以下参考文档:

后续步骤