将 Git 文件夹与 Visual Studio Code 的 Databricks 扩展配合使用

注意

Databricks 建议在配置 Visual Studio Code 的 Databricks 扩展时使用工作区文件。 本文档已过时,将来可能不会更新。 本内容中提及的产品、服务或技术不再受支持。 此处提供的文档仅涵盖为 Visual Studio Code 的 Databricks 扩展配置 Git 文件夹的细节。 有关完整文档,请参阅 适用于 Visual Studio Code 的 Databricks 扩展

Visual Studio Code 的 Databricks 扩展支持在 Azure Databricks 工作区中使用 Databricks Git 文件夹中的文件。 Databricks Git 文件夹是 0.3.15 版本之前的默认同步,但不再受到推荐。

默认情况下,Git 文件夹中的文件在所有 Azure Databricks 工作区中启用,但管理员可以使用 REST API 进行禁用。 如果无法访问此功能,请与工作区管理员联系。

重要

Visual Studio Code 的 Databricks 扩展仅适用于它自己创建的存储库。 必须对 Azure Databricks 群集拥有执行权限才能运行代码,并且需要拥有在 Databricks Git 文件夹中创建存储库的权限。

设置存储库

如果你选择使用 Databricks Git 文件夹而不是 Azure Databricks 工作区中的工作区目录,请在打开扩展和代码项目并设置 Azure Databricks 配置文件后,使用 Visual Studio Code 的 Databricks 扩展在 Databricks Git 文件夹中创建新存储库并使用它,或者在 Databricks Git 文件夹中选择先前使用 Visual Studio Code 的 Databricks 扩展创建的、你要重用的现有存储库。

注意

Visual Studio Code 的 Databricks 扩展仅适用于它自己创建的存储库。 不能使用工作区中的现有存储库。

要使 Visual Studio Code 的 Databricks 扩展能够使用 Azure Databricks 工作区内 Databricks Git 文件夹中的存储库,必须首先将该扩展的“同步: 目标类型”设置为“存储库”,如下所示

  1. 打开扩展和代码项目并设置 Azure Databricks 配置文件后,在命令面板(“视图”>“命令面板”)中键入 Preferences: Open User Settings,然后单击“首选项: 打开用户设置”。
  2. 在“用户”选项卡上展开“扩展”,然后单击“Databricks”。
  3. 对于“同步: 目标类型”,请选择“存储库”。
  4. 退出再重启 Visual Studio Code。

新建存储库

若要创建新存储库,请执行以下操作:

  1. 在“配置”窗格中的“同步目标”旁边,单击齿轮(“配置同步目标”)图标。

    “配置同步目标”图标 3

  2. 在“命令面板”中,单击“创建新的同步目标”。

  3. 在 Databricks Git 文件夹中键入新存储库的名称,然后按 Enter

    该扩展会将字符 .ide 追加到存储库名称的末尾,然后将存储库的工作区路径添加到代码项目的 .databricks/project.json 文件,例如 "workspacePath": "/Workspace/Repos/someone@example.com/my-repo.ide"

    注意

    如果远程存储库的名称与本地代码项目的名称不匹配,将显示警告图标和以下消息:远程同步目标名称与当前 Visual Studio Code 工作区名称不匹配。 如果你不要求名称匹配,则可以忽略此警告。

  4. 设置存储库后,单击“同步目标”旁边的带箭头圆圈(开始同步)图标,以开始与该存储库同步。

    “开始同步”图标 3

重要

Visual Studio Code 的 Databricks 扩展仅执行从本地 Visual Studio Code 项目到远程 Azure Databricks 工作区中相关存储库的单向自动文件更改同步。 这些远程存储库文件是临时文件。 不要从远程存储库内部对这些文件启动更改,因为这些更改不会同步回本地项目。

重用现有存储库

如果你先前使用 Visual Studio Code 的 Databricks 扩展在 Databricks Git 文件夹中创建了一个存储库,并且想要在当前 Visual Studio Code 项目中重用该存储库,请执行以下操作:

  1. 在“配置”窗格中的“同步目标”旁边,单击齿轮(“配置同步目标”)图标。

    “配置同步目标”图标 4

  2. 在“命令面板”中,从列表中选择该存储库的名称。

    该扩展会将该存储库的工作区路径添加到代码项目的 .databricks/project.json 文件中,例如 "workspacePath": "/Workspace/Repos/someone@example.com/my-repo.ide"

    注意

    如果远程存储库的名称与本地代码项目的名称不匹配,将显示警告图标和以下消息:远程同步目标名称与当前 Visual Studio Code 工作区名称不匹配。 如果你不要求名称匹配,则可以忽略此警告。

  3. 设置存储库后,单击“同步目标”旁边的带箭头圆圈(开始同步)图标,以开始与该存储库同步。

    “开始同步”图标 4

重要

Visual Studio Code 的 Databricks 扩展仅执行从本地 Visual Studio Code 项目到远程 Azure Databricks 工作区中相关存储库的单向自动文件更改同步。 这些远程存储库文件是临时文件。 不要从远程存储库内部对这些文件启动更改,因为这些更改不会同步回本地项目。