快速入門:使用 Azure Databricks 部署受控 Apache Spark 叢集

Azure Managed Instance for Apache Cassandra 可為受控開放原始碼 Apache Cassandra 資料中心提供自動化部署與規模調整作業。 此功能可加速混合式案例,並減少進行中的維護。

本快速入門示範如何使用 Azure 入口網站,在適用于 Apache Cassandra 叢集的 Azure 虛擬網路 Azure 受控執行個體內建立完全受控的 Apache Spark 叢集。 您可以在 Azure Databricks 中建立 Spark 叢集。 稍後,您可以建立或附加筆記本至叢集、從不同的資料來源讀取資料,以及分析深入解析。

您也可以深入瞭解如何在Azure 虛擬網路 (虛擬網路 插入式) 中部署 Azure Databricks的詳細指示。

必要條件

如果您沒有 Azure 訂用帳戶,請在開始前建立免費帳戶

建立 Azure Databricks 叢集

請遵循下列步驟,在具有適用于 Apache Cassandra 的 Azure 受控執行個體 虛擬網路中建立 Azure Databricks 叢集:

  1. 登入 Azure 入口網站

  2. 在左側流覽窗格中,找出 [資源群組]。 流覽至包含部署受控實例虛擬網路的資源群組。

  3. 開啟虛擬網路資源,並記下[位址空間]:

    此螢幕擷取畫面顯示取得虛擬網路位址空間的位置。

  4. 從資源群組中,選取 [ 新增 ],然後在搜尋欄位中搜尋 Azure Databricks

    顯示搜尋 Azure Databricks 的螢幕擷取畫面。

  5. 選取 [建立 ] 以建立 Azure Databricks 帳戶:

    此螢幕擷取畫面顯示已選取 [建立] 按鈕的 Azure Databricks 供應專案。

  6. 輸入下列值:

    • 工作區名稱 提供 Databricks 工作區的名稱。
    • 地區請務必選取與您虛擬網路相同的區域。
    • 定價層 選擇 [標準]、[ 進階]或 [ 試用版]。 如需這些定價層的詳細資訊,請參閱 Databricks 定價頁面

    此螢幕擷取畫面顯示對話方塊,您可以在其中輸入 Databricks 帳戶的工作區名稱、區域和定價層。

  7. 接下來,選取 [ 網路] 索引標籤 ,然後輸入下列詳細資料:

    • 在 虛擬網路 (VNet 中部署 Azure Databricks 工作區,) 選取[是]。
    • 虛擬網路從下拉式清單中,選擇受控實例所在的虛擬網路。
    • 公用子網名稱 輸入公用子網的名稱。
    • 公用子網 CIDR 範圍 輸入公用子網的 IP 範圍。
    • 私人子網名稱 輸入私人子網的名稱。
    • 私人子網 CIDR 範圍 輸入私人子網的 IP 範圍。

    若要避免範圍衝突,請確定您選取較高的範圍。 如有必要,請使用 視覺化子網計算機 來分割範圍:

    顯示視覺化子網計算機的螢幕擷取畫面,其中已醒目提示兩個相同的網路位址。

    下列螢幕擷取畫面顯示網路窗格上的範例詳細資料:

    此螢幕擷取畫面顯示指定的公用和私人子網名稱。

  8. 選取 [檢閱並建立 ],然後選取 [ 建立 ] 以部署工作區。

  9. 建立工作區 之後啟動工作區。

  10. 系統會將您重新導向至 Azure Databricks 入口網站。 在入口網站中,選取 [新增叢集]。

  11. 在 [ 新增叢集 ] 窗格中,接受下欄欄位以外的所有欄位的預設值:

    • 叢集名稱 輸入叢集的名稱。
    • Databricks 執行時間版本 建議您針對 Spark 3.x 支援選取 Databricks 執行時間 7.5 版或更高版本。

    顯示 [新增叢集] 對話方塊的螢幕擷取畫面,其中已選取 Databricks 執行時間版本。

  12. 展開 [ 進階選項 ],然後新增下列組態。 請務必取代節點 IP 和認證:

    spark.cassandra.connection.host <node1 IP>,<node 2 IP>, <node IP>
    spark.cassandra.auth.password cassandra
    spark.cassandra.connection.port 9042
    spark.cassandra.auth.username cassandra
    spark.cassandra.connection.ssl.enabled true
    
  13. 將 Apache Spark Cassandra 連接器程式庫新增至您的叢集,以連線到原生和 Azure Cosmos DB Cassandra 端點。 在您的叢集中,選取 [程式庫] > [安裝新的] > [Maven],然後在 Maven 座標中新增 com.datastax.spark:spark-cassandra-connector-assembly_2.12:3.0.0

顯示在 Databricks 中搜尋 Maven 套件的螢幕擷取畫面。

清除資源

如果您不打算繼續使用此受控實例叢集,請使用下列步驟加以刪除:

  1. 從Azure 入口網站的左側功能表中,選取[資源群組]。
  2. 在該清單中,選取您在本快速入門中建立的資源群組。
  3. 在 [資源群組概 ] 窗格中,選取 [ 刪除資源群組]。
  4. 在下個視窗中輸入要刪除的資源群組名稱,然後選取 [刪除]

後續步驟

在本快速入門中,您已瞭解如何在適用于 Apache Cassandra 叢集的 Azure 受控執行個體 虛擬網路內建立完全受控的 Apache Spark 叢集。 接下來,您可以瞭解如何管理叢集和資料中心資源: