Azure Managed Instance for Apache Cassandra 可為受控開放原始碼 Apache Cassandra 資料中心提供自動化部署與規模調整作業。 此功能可加速混合式案例,並協助減少持續維護。
本快速入門示範如何使用 Azure 入口網站,在適用於 Apache Cassandra 叢集的 Azure 受控實例的 Azure 虛擬網路內建立完全受控的 Apache Spark 叢集。 您可以在 Azure Databricks 中建立 Spark 叢集。 稍後,您可建立筆記本或將其附加至叢集、從不同的資料來源讀取資料,以及分析深入解析。
您也可以深入瞭解在 Azure 虛擬網路中部署 Azure Databricks 的詳細指示(虛擬網路插入)。
先決條件
如果您沒有 Azure 訂用帳戶,請在開始前建立免費帳戶。
建立 Azure Databricks 叢集
請遵循下列步驟,在具有適用於 Apache Cassandra 的 Azure 受控實例的虛擬網路中建立 Azure Databricks 叢集:
登入 Azure 入口網站。
在左窗格中,找出 [資源群組]。 移至包含受控實例部署所在虛擬網路的資源群組。
開啟 虛擬網路 資源,並記下 [位址空間]。
從資源群組中,選取 [ 新增 ] 並在搜尋欄位中搜尋 Azure Databricks 。
選取 [建立 ] 以建立 Azure Databricks 帳戶。
輸入下列值:
- 工作區名稱:提供 Azure Databricks 工作區的名稱。
- 區域:請務必選取與虛擬網路相同的區域。
- 定價層:選取 [標準]、[ 進階] 或 [試用版]。 如需這些層的詳細資訊,請參閱 Azure Databricks 定價頁面。
選取 網路 標籤頁,然後輸入下列詳細資料:
- 在虛擬網路 (VNet) 中部署 Azure Databricks 工作區:選取 [是]。
- 虛擬網路:從下拉式清單中,選擇受控實例所在的虛擬網路。
- 公用子網名稱:輸入公用子網的名稱。
- 公用子網 CIDR 範圍:輸入公用子網的IP範圍。
- 私人子網名稱:輸入私人子網的名稱。
- 私人子網 CIDR 範圍:輸入私人子網的IP範圍。
若要避免範圍衝突,請確定您選取了較高的範圍。 如有必要,請使用 可視化子網計算機 來分割範圍。
下列螢幕快照顯示網路窗格上的範例詳細數據。
選取 [檢閱 + 建立],然後選取 [ 建立 ] 以部署工作區。
建立工作區之後,開啟工作區。
系統會將您重新導向至 Azure Databricks 入口網站。 在入口網站中,選取 [新增叢集]。
在 [ 新增叢集 ] 窗格中,接受下列欄位以外的所有欄位的預設值:
- 叢集名稱:輸入叢集的名稱。
- Databricks 運行時間版本:建議您針對 Spark 3.x 支援選取 Azure Databricks 運行時間 7.5 版或更新版本。
展開 [ 進階選項],然後新增下列設定。 請務必取代節點 IP 和認證。
spark.cassandra.connection.host <node1 IP>,<node 2 IP>, <node IP> spark.cassandra.auth.password cassandra spark.cassandra.connection.port 9042 spark.cassandra.auth.username cassandra spark.cassandra.connection.ssl.enabled true將 Apache Spark Cassandra 連接器程式庫新增至您的叢集,以連線至原生和 Azure Cosmos DB Cassandra 端點。 在您的叢集中,選取 [函式庫>安裝新>Maven],然後在 [Maven
com.datastax.spark:spark-cassandra-connector-assembly_2.12:3.0.0] 欄位中新增 。
選取安裝。
清除資源
如果您不打算繼續使用此受控實例叢集,請遵循下列步驟將其刪除:
- 在 Azure 入口網站的左側功能表上,選取 [資源群組]。
- 從清單中,選取您為此快速入門建立的資源群組。
- 在資源群組 [概觀] 窗格中,選取 [刪除資源群組]。
- 在下一個窗格中,輸入要刪除的資源群組名稱,然後選取 [ 刪除]。
後續步驟
在本快速入門中,您已瞭解如何在適用於 Apache Cassandra 叢集的 Azure 受控實例虛擬網路內建立完全受控的 Apache Spark 叢集。 接下來,瞭解如何管理叢集和數據中心資源。