使用 Spark 运行示例笔记本

项目
03/22/2023

适用范围：SQL Server 2019 (15.x)

重要

Microsoft SQL Server 2019 大数据群集附加产品将停用。对 SQL Server 2019 大数据群集的支持将于 2025 年 2 月 28 日结束。具有软件保障的 SQL Server 2019 的所有现有用户都将在平台上获得完全支持，在此之前，该软件将继续通过 SQL Server 累积更新进行维护。有关详细信息，请参阅公告博客文章和 Microsoft SQL Server 平台上的大数据选项。

本教程演示如何在 SQL Server 2019 大数据群集上的 Azure Data Studio 中加载和运行笔记本。数据科学家和数据工程师可针对群集运行 Python、R 或 Scala 代码。

提示

如果需要，可以下载并运行本教程中的命令脚本。有关说明，请参阅 GitHub 上的 Spark 示例。

先决条件

大数据工具
- kubectl
- Azure Data Studio
- SQL Server 2019 扩展
将示例数据加载到大数据群集中

下载示例笔记本文件

按照以下说明将示例笔记本文件 spark-sql.ipynb 加载到 Azure Data Studio 中。

打开 bash 命令提示符 (Linux) 或 Windows PowerShell。
导航到要将示例笔记本文件下载到其中的目录。

运行以下 curl 命令，从 GitHub 下载笔记本文件：

curl https://raw.githubusercontent.com/Microsoft/sql-server-samples/master/samples/features/sql-big-data-cluster/spark/data-loading/transform-csv-files.ipynb -o transform-csv-files.ipynb

打开笔记本

以下步骤演示如何在 Azure Data Studio 中打开笔记本文件：

在 Azure Data Studio 中，连接到大数据群集的主实例。有关详细信息，请参阅连接到大数据群集。
双击“服务器”窗口中的 HDFS/Spark 网关连接。然后选择“打开笔记本”。
等待要填充的 Kernel 和目标上下文（“附加到”）。将 Kernel 设置为 PySpark3，将“附加到”设置为大数据群集终结点的 IP 地址。

重要

在 Azure Data Studio 中，所有 Spark 笔记本类型（Scala Spark、PySpark 和 SparkR）通常会在第一次执行单元格时定义一些与 Spark 会话相关的重要变量。这些变量包括：spark、sc 和 sqlContext。从笔记本中将逻辑复制出来以进行批量提交（例如复制到要使用 azdata bdc spark batch create 运行的 Python 文件中）时，请确保相应地定义变量。

运行笔记本单元格

可以通过按单元格左侧的“播放”按钮来运行每个笔记本单元格。单元格完成运行后，结果会显示在笔记本中。

运行笔记本单元格

连续运行示例笔记本中的每个单元格。有关结合使用笔记本和 SQL Server 大数据群集的详细信息，请参阅以下资源：

后续步骤

了解有关笔记本的详细信息：

如何使用笔记本

通过

使用 Spark 运行示例笔记本

先决条件

下载示例笔记本文件

打开笔记本

运行笔记本单元格

后续步骤

反馈

其他资源