通过 Visual Studio Code 的 Databricks 扩展,您可以从本地开发计算机上的 Visual Studio Code 或 Cursor 连接到远程 Azure Databricks 工作区。 然后您可以:
- 使用 Visual Studio Code UI 定义、部署和运行声明性自动化捆绑包,以将 CI/CD 模式和最佳做法应用于 Lakeflow 作业、Lakeflow Spark 声明性管道和 MLOps 堆栈。 请参阅 什么是声明性自动化捆绑包? 和 声明性自动化捆绑包扩展功能。
- 在远程工作区中的Azure Databricks群集或无服务器计算上运行来自Visual Studio Code的本地Python代码文件。 请参阅 在群集上运行Python文件。
- 运行本地Python代码文件(
.py)和Python、R、Scala、SQL笔记本(.py、.ipynb、.r、.scala和.sql),在Visual Studio Code中将其作为Lakeflow作业执行,从您的远程工作区中运行。 请参阅 将Python文件作为作业运行。 - 使用触发选择对话框的简单清单来设置和配置调试环境和 Databricks Connect。 请参阅 在 Visual Studio Code 的 Databricks 插件中使用 Databricks Connect 调试代码。
- 使用 Databricks Connect 在 Visual Studio Code 中按单元格调试笔记本。 请参阅 使用 Databricks 扩展和 Databricks Connect 在 Visual Studio Code 中运行和调试笔记本单元格。
- 将Visual Studio Code中开发的本地代码与远程工作区中的代码同步。 请参阅将工作区文件夹与 Databricks 同步
注意
用于Visual Studio Code的 Databricks 扩展支持将 R、Scala 和 SQL 笔记本作为自动化作业运行,但不在 Visual Studio Code 中为这些语言提供更深入的支持。
开始
要开始使用 Databricks 扩展程序来使用 Visual Studio Code,请:
- 安装扩展。
- 创建新的 Databricks 项目或转换现有 Visual Studio Code 工程。
- 使用 Databricks 扩展 UI 轻松配置项目。
- 在 extension 教程中运行一些Python代码。
- 使用 Databricks Connect 集成来调试代码。
- 使用
pytest来测试代码。 请参阅 使用 Databricks 扩展在 Visual Studio Code 中运行 Python 测试。
创建新的 Databricks 项目
安装扩展后,可以使用用于 Visual Studio Code 的 Databricks 扩展创建新的 Databricks 项目:
- 启动Visual Studio Code。
- 单击Visual Studio Code边栏中的 Databricks 图标以打开扩展。
- 单击 创建新项目。
- 在“命令面板”中,为项目选择主机和身份验证方法。 请参阅 为 Visual Studio Code 的 Databricks 扩展设置授权。
- 在“提供希望新项目所在的文件夹的路径”中,输入要在其中创建项目的本地开发计算机上的文件夹路径,或单击“打开文件夹选择对话框”并选择项目文件夹的路径。
- 对于“在 Databricks 项目初始化视图中使用的模板”,请使用向上和向下箭头选择项目模板,然后按 Enter。 有关捆绑项目模板的信息,请参阅 声明性自动化捆绑包项目模板。
- 为项目键入此项目的唯一名称或保留默认项目名称
my_project,然后按 Enter。 - 选择是向项目添加存根(示例)笔记本、存根(示例)增量实时表管道,还是将存根(示例)Python包添加到项目,或这些存根(示例)的任意组合。
- 按任意键关闭 Databricks Project Init 编辑器选项卡。
- 在“选择要打开的项目”中,选择您刚刚创建的项目。
打开现有的声明性自动化捆绑项目
声明性自动化捆绑包项目在项目的根文件夹中有一个 databricks.yml 文件。 请参阅 声明性自动化捆绑包配置。 如果要将扩展与现有声明性自动化捆绑包项目一起使用:
启动Visual Studio Code。 在主菜单中,单击“文件”>“打开文件夹”并导航到包含捆绑包项目的目录。
单击Visual Studio Code边栏中的 Databricks 图标以打开并开始使用扩展的功能。
如果用于Visual Studio Code的 Databricks 扩展发现当前文件夹中的多个声明性自动化捆绑包项目,则可以选择打开项目或在根文件夹中创建项目配置文件。
- 如果选择了项目,请在 命令面板中选择现有的声明性自动化捆绑包项目。
- 如果在根文件夹中创建配置,该文件夹将成为捆绑项目。
为项目选择主机和身份验证方法。 请参阅 为 Visual Studio Code 的 Databricks 扩展设置授权。
注意
如果打开一个使用 Databricks 扩展为 Visual Studio Code v1 创建的项目,将自动根据项目的现有身份验证和工作区配置尝试迁移。 仅当自动迁移失败时,迁移按钮才可用。
在 Databricks 项目之间切换
Visual Studio Code的 Databricks 扩展允许你在Visual Studio Code工作区中有多个 Databricks 项目,并轻松地在它们之间切换。 在 Visual Studio Code 工作区中打开您的多包项目:
单击Visual Studio Code边栏中的 Databricks 图标以打开扩展。
单击 “本地文件夹” 以选择要使用的扩展的项目。
注意
运行操作仅限于活动捆绑包中的文件。
将项目转换为 Databricks 项目
如果您有一个现有项目想要转换为 Databricks 项目:
- 启动Visual Studio Code。 在主菜单中,单击“文件”>“打开文件夹”,并导航到你的项目以打开该项目。
- 单击Visual Studio Code边栏中的 Databricks 图标以打开扩展。
- 单击“创建配置”。
- 在“命令面板”中,为项目选择主机和身份验证方法。 请参阅 为 Visual Studio Code 的 Databricks 扩展设置授权。