使用 Spark 运行示例笔记本

适用范围:SQL Server 2019 (15.x)

重要

Microsoft SQL Server 2019 大数据群集附加产品将停用。 对 SQL Server 2019 大数据群集的支持将于 2025 年 2 月 28 日结束。 具有软件保障的 SQL Server 2019 的所有现有用户都将在平台上获得完全支持,在此之前,该软件将继续通过 SQL Server 累积更新进行维护。 有关详细信息,请参阅公告博客文章Microsoft SQL Server 平台上的大数据选项

本教程演示如何在 SQL Server 2019 大数据群集上的 Azure Data Studio 中加载和运行笔记本。 数据科学家和数据工程师可针对群集运行 Python、R 或 Scala 代码。

提示

如果需要,可以下载并运行本教程中的命令脚本。 有关说明,请参阅 GitHub 上的 Spark 示例

先决条件

下载示例笔记本文件

按照以下说明将示例笔记本文件 spark-sql.ipynb 加载到 Azure Data Studio 中。

  1. 打开 bash 命令提示符 (Linux) 或 Windows PowerShell。

  2. 导航到要将示例笔记本文件下载到其中的目录。

  3. 运行以下 curl 命令,从 GitHub 下载笔记本文件:

    curl https://raw.githubusercontent.com/Microsoft/sql-server-samples/master/samples/features/sql-big-data-cluster/spark/data-loading/transform-csv-files.ipynb -o transform-csv-files.ipynb
    

打开笔记本

以下步骤演示如何在 Azure Data Studio 中打开笔记本文件:

  1. 在 Azure Data Studio 中,连接到大数据群集的主实例。 有关详细信息,请参阅连接到大数据群集

  2. 双击“服务器”窗口中的 HDFS/Spark 网关连接。 然后选择“打开笔记本”。

    打开笔记本

  3. 等待要填充的 Kernel 和目标上下文(“附加到”) 。 将 Kernel 设置为 PySpark3,将“附加到”设置为大数据群集终结点的 IP 地址 。

    设置 Kernel 和“附加到”

重要

在 Azure Data Studio 中,所有 Spark 笔记本类型(Scala Spark、PySpark 和 SparkR)通常会在第一次执行单元格时定义一些与 Spark 会话相关的重要变量。 这些变量包括:sparkscsqlContext。 从笔记本中将逻辑复制出来以进行批量提交(例如复制到要使用 azdata bdc spark batch create 运行的 Python 文件中)时,请确保相应地定义变量。

运行笔记本单元格

可以通过按单元格左侧的“播放”按钮来运行每个笔记本单元格。 单元格完成运行后,结果会显示在笔记本中。

运行笔记本单元格

连续运行示例笔记本中的每个单元格。 有关结合使用笔记本和 SQL Server 大数据群集 的详细信息,请参阅以下资源:

后续步骤

了解有关笔记本的详细信息: