将 Eclipse 与 PyDev 和适用于 Python 的 Databricks Connect 配合使用
注意
本文介绍适用于 Databricks Runtime 13.3 LTS 及更高版本的 Databricks Connect。
本文介绍如何将适用于 Scala 的 Databricks Connect 和 Eclipse 与 PyDev 配合使用。 Databricks Connect 可让你将常用 IDE、笔记本服务器和其他自定义应用程序连接到 Azure Databricks 群集。 请参阅什么是 Databricks Partner Connect?。
注意
在开始使用 Databricks Connect 之前,必须先设置 Databricks Connect 客户端。
若要将 Databricks Connect 与 Eclipse 和 PyDev 配合使用,请按以下说明操作。
- 启动 Eclipse。
- 创建项目:单击“文件”>“新建”>“项目”>“PyDev”>“PyDev 项目”,然后单击“下一步”。
- 指定一个项目名称。
- 对于“项目内容”,请指定 Python 虚拟环境的路径。
- 单击“请在继续之前配置解释器”。
- 单击“手动配置”。
- 单击“新建”>“浏览 python/pypy exe”。
- 浏览并选择从虚拟环境引用的 Python 解释器的完整路径,然后单击“打开”。
- 在“选择解释器”对话框中,单击“确定”。
- 在“需要选择”对话框中,单击“确定”。
- 在“首选项”对话框中,单击“应用并关闭”。
- 在“PyDev 项目”对话框中,单击“完成”。
- 单击“打开透视图”。
- 将包含示例代码或你自己的代码的 Python 代码 (
.py
) 文件添加到项目中。 如果使用你自己的代码,至少必须按照示例代码中所示初始化DatabricksSession
。 - 打开 Python 代码文件后,在希望代码在运行过程中暂停的位置设置任何断点。
- 若要运行代码,请单击“运行>运行”。 所有 Python 代码都在本地运行,而涉及 DataFrame 操作的 PySpark 代码在远程 Azure Databricks 工作区中的群集上运行,运行响应发送回给本地调用方。
- 若要调试代码,请单击“运行>调试”。 所有 Python 代码均在本地调试,而所有 PySpark 代码则继续在远程 Azure Databricks 工作区中的群集上运行。 无法直接从客户端对核心 Spark 引擎代码进行调试。
有关更具体的运行和调试说明,请参阅运行程序。