将经典 Jupyter Notebook 与适用 Python 的 Databricks Connect 配合使用

注意

本文介绍适用于 Databricks Runtime 13.3 LTS 及更高版本的 Databricks Connect。

本文介绍如何将适用于 Python 的 Databricks Connect 与经典 Jupyter Notebook 配合使用。 Databricks Connect 可让你将常用笔记本服务器、IDE 和其他自定义应用程序连接到 Azure Databricks 群集。 请参阅什么是 Databricks Connect?

注意

在开始使用 Databricks Connect 之前,必须先设置 Databricks Connect 客户端

若要将 Databricks Connect 与经典 Jupyter Notebook 和 Python 配合使用,请按以下说明操作。

  1. 若要安装经典 Jupyter Notebook,请在激活了 Python 虚拟环境的情况下,从终端或命令提示符运行以下命令:

    pip3 install notebook
    
  2. 若要在 Web 浏览器中启动经典 Jupyter Notebook,请从已激活的 Python 虚拟环境运行以下命令:

    jupyter notebook
    

    如果经典 Jupyter Notebook 未显示在 Web 浏览器中,请从虚拟环境中复制以 localhost127.0.0.1 开头的 URL,并将其输入到 Web 浏览器的地址栏中。

  3. 创建新笔记本:在经典 Jupyter Notebook 中的“文件”选项卡上,单击“新建”>“Python 3 (ipykernel)”。

  4. 在笔记本的第一个单元格中,输入示例代码或你自己的代码。 如果使用你自己的代码,至少必须按照示例代码中所示初始化 DatabricksSession

  5. 若要运行笔记本,请单击“单元格”>“全部运行”。 所有 Python 代码都在本地运行,而涉及 DataFrame 操作的 PySpark 代码在远程 Azure Databricks 工作区中的群集上运行,运行响应发送回给本地调用方。

  6. 若要调试笔记本,请在该笔记本的开头添加以下代码行:

    from IPython.core.debugger import set_trace

    然后调用 set_trace() 以在该笔记本执行位置输入调试语句。 所有 Python 代码均在本地调试,而所有 PySpark 代码则继续在远程 Azure Databricks 工作区中的群集上运行。 无法直接从客户端对核心 Spark 引擎代码进行调试。

  7. 若要关闭经典 Jupyter Notebook,请单击“文件”>“关闭并停止”。 如果经典 Jupyter Notebook 进程仍在终端或命令提示符中运行,请按 Ctrl + c 停止此进程,然后输入 y 以确认。