你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

快速入门:使用 Synapse Studio 创建无服务器 Apache Spark 池

Azure Synapse Analytics 提供了各种分析引擎,可帮助你引入、转换、分析和提供数据,以及对数据建模。 Apache Spark 池提供开源大数据计算功能。 在 Synapse 工作区中创建 Apache Spark 池后,可以加载、处理和提供数据以及为数据建模,以获取见解。

本快速入门介绍了使用 Synapse Studio 在 Synapse 工作区中创建 Apache Spark 池的步骤。

重要

不管是否正在使用 Spark 实例,它们都会按分钟按比例计费。 请务必在用完 Spark 实例后将其关闭,或设置较短的超时。 有关详细信息,请参阅本文的清理资源部分。

如果没有 Azure 订阅,请在开始之前创建一个免费帐户

先决条件

登录到 Azure 门户

登录到 Azure 门户

  1. 导航到要在其中创建 Apache Spark 池的 Synapse 工作区,方法是在搜索栏中键入服务名称(或直接键入资源名称)。 Screenshot from the Azure portal of the search bar with Synapse workspaces typed in.

  2. 从工作区列表中,键入要打开的工作区的名称(或名称的一部分)。 在此示例中,我们使用名为 contosoanalytics 的工作区Screenshot from the Azure portal of the list of Synapse workspaces filtered to show those containing the name Contoso.

启动 Synapse Studio

从工作区概述中,选择“工作区 Web URL”以打开 Synapse Studio。

Screenshot from the Azure portal of a Synapse workspace overview with Launch Synapse Studio highlighted.

在 Synapse Studio 中创建 Apache Spark 池

重要

适用于 Apache Spark 2.4 的 Azure Synapse 运行时已弃用,自 2023 年 9 月起官方不再提供支持。 鉴于 Spark 3.1Spark 3.2 也宣布结束支持,我们建议客户迁移到 Spark 3.3

  1. 在 Synapse Studio 主页上,选择“管理”图标以导航到左侧导航栏中的“管理中心” 。 Screenshot from the Azure portal of the Synapse Studio home page with Management Hub section highlighted.

  2. 进入管理中心后,导航到“Apache Spark 池”部分,查看工作区中可用的 Apache Spark 池的当前列表。 Screenshot from the Azure portal of the Synapse Studio management hub with Apache Spark pools navigation selected.

  3. 选择“+ 新建”,随即会显示新 Apache Spark 池创建向导。

  4. 在“基本信息”选项卡中输入以下详细信息:

    设置 建议值 说明
    Apache Spark 池名称 有效的池名称,如 contosospark 这是 Apache Spark 池要使用的名称。
    节点大小 小 (4 vCPU / 32 GB) 请将此项设置为最小大小,以降低本快速入门的成本
    自动缩放 已禁用 使用此快速入门时无需进行自动缩放
    节点数 8 在此快速入门中使用小尺寸来限制成本
    动态分配执行程序 已禁用 此设置映射到用于 Spark 应用程序执行工具分配的 Spark 配置中的动态分配属性。 使用此快速入门时无需进行自动缩放。

    Screenshot from the Azure portal of the Basics for Synapse Studio new Apache Spark pool.

    重要

    Apache Spark 池可以使用的名称有特定的限制。 名称只能包含字母或数字,必须为 15 个或更少的字符,必须以字母开头,不能包含保留字,并且在工作区中必须是独一无二的。

  5. 在下一个选项卡(“其他设置”)中,将所有设置保留为默认值。

  6. 选择“标记”。 考虑使用 Azure 标记。 例如,用于确定资源创建者的“所有者”或“创建者”标记,以及确定此系统是生产环境还是开发环境等的“环境”标记。有关详细信息,请参阅为 Azure 资源开发命名和标记策略。 准备就绪后,选择“查看 + 创建”。

  7. 在“查看 + 创建”选项卡中,根据前面输入的内容,确保详细信息正确,然后按“创建” 。

    Screenshot from the Azure portal of the Create Synapse Studio new Apache Spark pool.

  8. Apache Spark 池将开始预配过程。

  9. 预配完成后,新的 Apache Spark 池将显示在列表中。

    Screenshot from the Azure portal of the Synapse Studio new Apache Spark pool list.

使用 Synapse Studio 清理 Apache Spark 池资源

以下步骤使用 Synapse Studio 从工作区中删除 Apache Spark 池。

警告

删除 Spark 池会从工作区中删除分析引擎。 将不再可以连接到该池,并且使用此 Spark 池的所有查询、管道和笔记本都不再可以正常运行。

若要删除 Apache Spark 池,请执行以下步骤:

  1. 在 Synapse Studio 的管理中心导航到 Apache Spark 池。

  2. 选择要删除的 Apache 池旁边的省略号(在本例中为 contosospark)以显示 Apache Spark 池的命令。

    Screenshot from the Azure portal of a list of Apache Spark pools, with the recently created pool selected.

  3. 选择“删除”。

  4. 确认删除,然后按“删除”按钮。

  5. 成功完成该过程后,工作区资源中将不再列出该 Apache Spark 池。