将经典 Jupyter Notebook 与适用 Python 的 Databricks Connect 配合使用
注意
本文介绍适用于 Databricks Runtime 13.3 LTS 及更高版本的 Databricks Connect。
本文介绍如何将适用于 Python 的 Databricks Connect 与经典 Jupyter Notebook 配合使用。 Databricks Connect 可让你将常用笔记本服务器、IDE 和其他自定义应用程序连接到 Azure Databricks 群集。 请参阅什么是 Databricks Connect?。
注意
在开始使用 Databricks Connect 之前,必须先设置 Databricks Connect 客户端。
若要将 Databricks Connect 与经典 Jupyter Notebook 和 Python 配合使用,请按以下说明操作。
若要安装经典 Jupyter Notebook,请在激活了 Python 虚拟环境的情况下,从终端或命令提示符运行以下命令:
pip3 install notebook
若要在 Web 浏览器中启动经典 Jupyter Notebook,请从已激活的 Python 虚拟环境运行以下命令:
jupyter notebook
如果经典 Jupyter Notebook 未显示在 Web 浏览器中,请从虚拟环境中复制以
localhost
或127.0.0.1
开头的 URL,并将其输入到 Web 浏览器的地址栏中。创建新笔记本:在经典 Jupyter Notebook 中的“文件”选项卡上,单击“新建”>“Python 3 (ipykernel)”。
在笔记本的第一个单元格中,输入示例代码或你自己的代码。 如果使用你自己的代码,至少必须按照示例代码中所示初始化
DatabricksSession
。若要运行笔记本,请单击“单元格”>“全部运行”。 所有 Python 代码都在本地运行,而涉及 DataFrame 操作的 PySpark 代码在远程 Azure Databricks 工作区中的群集上运行,运行响应发送回给本地调用方。
若要调试笔记本,请在该笔记本的开头添加以下代码行:
from IPython.core.debugger import set_trace
然后调用
set_trace()
以在该笔记本执行位置输入调试语句。 所有 Python 代码均在本地调试,而所有 PySpark 代码则继续在远程 Azure Databricks 工作区中的群集上运行。 无法直接从客户端对核心 Spark 引擎代码进行调试。若要关闭经典 Jupyter Notebook,请单击“文件”>“关闭并停止”。 如果经典 Jupyter Notebook 进程仍在终端或命令提示符中运行,请按
Ctrl + c
停止此进程,然后输入y
以确认。