你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

快速入门:使用 Azure Databricks 部署托管的 Apache Spark 群集

Azure Managed Instance for Apache Cassandra 为托管的开源 Apache Cassandra 数据中心提供自动部署和缩放操作。 此功能可以加快实现混合方案的速度,并减少日常维护。

本快速入门演示了如何使用 Azure 门户在 Azure Managed Instance for Apache Cassandra 群集的 Azure 虚拟网络中创建完全托管的 Apache Spark 群集。 你在 Azure Databricks 中创建 Spark 群集。 之后,你可创建笔记本或将其附加到群集、从不同的数据源读取数据,还可分析见解。

此外,你可通过有关在 Azure 虚拟网络中部署 Azure Databricks(虚拟网络注入)的详细说明了解详细信息。

先决条件

如果没有 Azure 订阅,请在开始之前创建一个免费帐户

创建 Azure Databricks 群集

按照以下步骤在具有 Azure Managed Instance for Apache Cassandra 的虚拟网络中创建 Azure Databricks 群集:

  1. 登录 Azure 门户

  2. 在左侧导航窗格中,找到“资源组”。 导航到部署了你的托管实例的虚拟网络所在的资源组。

  3. 打开“虚拟网络”资源,并记下地址空间 :

    屏幕截图显示了获取虚拟网络的地址空间的位置。

  4. 从资源组中选择“添加”,并在搜索字段中搜索“Azure Databricks” :

    显示对 Azure Databricks 进行搜索的屏幕截图。

  5. 选择“创建”以创建 Azure Databricks 帐户:

    屏幕截图显示了 Azure Databricks 产品/服务,其中已选中“创建”按钮。

  6. 输入以下值:

    • 工作区名称 - 提供你的 Databricks 工作区的名称。
    • 区域 - 务必选择你的虚拟网络所在的区域。
    • 定价层 - 在“标准”、“高级”和“试用”层之间进行选择。 有关这些层的详细信息,请参阅 Databricks 价格页

    屏幕截图显示了一个对话框,你可在其中输入 Databricks 帐户的工作区名称、区域和定价层。

  7. 接下来,选择“网络”选项卡并输入以下详细信息:

    • 在你的虚拟网络 (VNet) 中部署 Azure Databricks 工作区 - 选择“是”。
    • 虚拟网络 - 从下拉列表中,选择你的托管实例所在的虚拟网络。
    • 公共子网名称 - 输入公共子网的名称。
    • 公共子网 CIDR 范围 - 输入公共子网的 IP 范围。
    • 专用子网名称 - 输入专用子网的名称。
    • 专用子网 CIDR 范围 - 输入专用子网的 IP 范围。

    为避免范围冲突,请确保选择更高的范围。 如有必要,请使用可视子网计算器来划分范围:

    屏幕截图显示了可视化子网计算器,其中突出显示了两个相同的网络地址。

    以下屏幕截图显示网络窗格中的示例详细信息:

    屏幕截图显示了指定的公共和专用子网名称。

  8. 选择“查看和创建”,然后选择“创建”以部署工作区 。

  9. 创建工作区后启动工作区。

  10. 系统随后会将你重定向到 Azure Databricks 门户。 在门户中选择“新建群集”。

  11. 在“新建群集”窗格中,对于除以下字段以外的所有其他字段,请接受默认值:

    • 群集名称 - 为群集输入一个名称。
    • Databricks Runtime 版本 - 我们建议选择 Databricks Runtime 7.5 或更高版本,以支持 Spark 3.x。

    屏幕截图显示了“新建群集”对话框,其中已选中“Databricks Runtime 版本”。

  12. 展开“高级选项”,然后添加以下配置。 请务必替换节点 IP 和凭据:

    spark.cassandra.connection.host <node1 IP>,<node 2 IP>, <node IP>
    spark.cassandra.auth.password cassandra
    spark.cassandra.connection.port 9042
    spark.cassandra.auth.username cassandra
    spark.cassandra.connection.ssl.enabled true
    
  13. 将 Apache Spark Cassandra 连接器库添加到群集,以便连接到原生终结点和 Azure Cosmos DB Cassandra 终结点。 在群集中,选择“库”>“安装新库”>“Maven”,然后在 Maven 坐标中添加 com.datastax.spark:spark-cassandra-connector-assembly_2.12:3.0.0

屏幕截图显示在 Databricks 中搜索 Maven 包。

清理资源

如果不打算继续使用此托管实例群集,请按照以下步骤删除它:

  1. 从 Azure 门户的左侧菜单中选择“资源组”。
  2. 从列表中选择为本快速入门创建的资源组。
  3. 在资源组的“概述”窗格上,选择“删除资源组” 。
  4. 在下一窗口中输入要删除的资源组的名称,然后选择“删除” 。

后续步骤

在本快速入门中,你学习了如何在 Azure Managed Instance for Apache Cassandra 群集的虚拟网络中创建完全托管的 Apache Spark 群集。 接下来,你可了解如何管理群集和数据中心资源: