本文介绍如何在 Databricks 扩展中使用 Databricks Connect 集成,以便Visual Studio Code运行和调试单个Python(.py)文件。 有关扩展的详细信息,请参阅 Databricks 扩展适用于 Visual Studio Code。
Databricks Connect 集成还可以运行和调试笔记本单元。 请参阅 使用 Databricks 扩展和 Databricks Connect 在 Visual Studio Code 中运行和调试笔记本单元格。
要求
必须先满足 Visual Studio Code Databricks Connect 要求才能在 Databricks 扩展中使用 Databricks Connect。 这些要求包括支持 Unity 目录的工作区、计算要求和本地安装Python的版本要求等内容。
激活Python虚拟环境
为你的Python项目激活Python 虚拟环境。 Python虚拟环境有助于确保项目使用兼容版本的Python和Python包(在本例中为 Databricks Connect 包)。
在“配置”窗格中:
- 在Python Environment下点击红色Activate Virtual Environment项。
- 在“命令面板”中,选择“Venv”或“Conda”。
- 选择要安装的依赖项(如果有)。
安装 Databricks Connect
在配置视图下的Python 环境中:
- 单击红色安装 databricks-connect的播放按钮。
- 连接群集。
- 如果扩展中尚未配置“群集”部分,将显示以下消息:“请附加群集以使用 Databricks Connect。” 单击“附加群集”并选择满足 Databricks Connect 要求的群集。
- 如果配置了“群集”部分,但群集与 Databricks Connect 不兼容,请单击红色的“Databricks Connect 已禁用”按钮,单击“附加群集”,然后选择一个兼容的群集。
- 如果尚未安装 Databricks Connect 包 (及其依赖项),则会显示以下消息:“要进行交互式调试和自动完成,需要安装 Databricks Connect。 是否要在
<environment-name>环境中安装它?”。 单击“安装”。 - 在 Visual Studio Code 状态栏中,如果出现红色的 Databricks Connect 禁用 按钮,请单击它,然后完成屏幕上的启用步骤。
- 显示“Databricks Connect 已启用”按钮后,便可以使用 Databricks Connect。
注意
如果使用的是 Poetry,可以通过运行以下命令,将 pyproject.toml 和 poetry.lock 文件与已安装的 Databricks Connect 包 (及其依赖项) 同步。 请务必将 16.4.1 替换为与你的项目中由 Visual Studio Code 的 Databricks 扩展安装的 Databricks Connect 包版本相匹配的版本。
poetry add databricks-connect==16.4.1
运行或调试Python代码
启用 Databricks Connect 后,运行或调试Python文件(.py):
在项目中,打开要运行或调试的Python文件。
设置Python文件中的任何调试断点。
单击编辑器选项卡列表旁边的 “在 Databricks 上运行”图标,然后单击 使用 Databricks Connect调试当前文件。
输出将显示在“调试控制台”窗格中。
你还可以右键单击
.py文件,然后单击 在 Databricks 上运行,>使用 Databricks Connect 调试当前文件。