クイックスタート: Azure Databricks でマネージド Apache Spark クラスターをデプロイする

Azure Managed Instance for Apache Cassandra では、マネージド オープンソースの Apache Cassandra データセンターに対して、デプロイとスケーリングの自動化された操作を提供します。 この機能によってハイブリッド シナリオが高速化され、継続的なメンテナンスが削減されます。

このクイックスタートでは、Azure portal を使用して、Azure Managed Instance for Apache Cassandra クラスターの Azure 仮想ネットワーク内にフル マネージド Apache Spark クラスターを作成する方法を紹介します。 Spark クラスターは Azure Databricks で作成します。 その後、そのクラスターにノートブックを作成 (アタッチ) し、さまざまなデータ ソースのデータを読み取って分析情報を得ます。

詳しい手順については、Azure 仮想ネットワークでの Azure Databricks のデプロイ (仮想ネットワーク インジェクション) に関するページも参照してください。

前提条件

Azure サブスクリプションをお持ちでない場合は、開始する前に 無料アカウント を作成してください。

Azure Databricks クラスターを作成する

Azure Managed Instance for Apache Cassandra がある仮想ネットワークに Azure Databricks クラスターを作成するには、次の手順に従います。

  1. Azure portal にサインインします。

  2. 左側のナビゲーション ペインで、[リソース グループ] を探します。 マネージド インスタンスがデプロイされている仮想ネットワークを含むリソース グループに移動します。

  3. [Virtual Network] リソースを開き、 [アドレス空間] をメモしておきます。

    仮想ネットワークのアドレス空間を取得する場所を示すスクリーンショット。

  4. そのリソース グループから [追加] を選択し、検索フィールドで「Azure Databricks」を検索します。

    Azure Databricks の検索を示すスクリーンショット。

  5. [作成] を選択して Azure Databricks アカウントを作成します。

    [作成] ボタンが選択された Azure Databricks オファリングを示すスクリーンショット。

  6. 次の値を入力します。

    • [ワークスペース名]: Databricks ワークスペースの名前を指定します。
    • [リージョン]: 仮想ネットワークと同じリージョンを必ず選択します。
    • [価格レベル]: StandardPremiumTrial のいずれかを選択します。 これらのレベルの詳細については、Databricks の価格に関するページを参照してください。

    Databricks アカウントのワークスペース名、リージョン、価格レベルを入力できるダイアログ ボックスを示すスクリーンショット。

  7. 次に、[ネットワーク] タブを選択し、以下の情報を入力します。

    • [Deploy Azure Databricks workspace in your Virtual Network (VNet)] (仮想ネットワーク (VNet) に Azure Databricks ワークスペースをデプロイする): [はい] を選択します。
    • [仮想ネットワーク]: マネージド インスタンスが存在する仮想ネットワークをボックスの一覧から選択します。
    • [パブリック サブネット名]: パブリック サブネットの名前を入力します。
    • [パブリック サブネットの CIDR 範囲]: パブリック サブネットの IP 範囲を入力します。
    • [プライベート サブネット名]: プライベート サブネットの名前を入力します。
    • [プライベート サブネットの CIDR 範囲]: プライベート サブネットの IP 範囲を入力します。

    範囲の競合を防ぐために、選択する範囲は大きくするようにしてください。 必要に応じて、Visual Subnet Calculator を使用して範囲を分割します。

    2 つの同一のネットワーク アドレスが強調表示されたビジュアル サブネット計算ツールを示すスクリーンショット。

    次のスクリーンショットに、ネットワーク ペインの詳しい例を示します。

    指定されたパブリック サブネット名とプライベート サブネット名を示すスクリーンショット。

  8. [確認と作成] を選択し、 [作成] を選択してワークスペースをデプロイします。

  9. 作成したワークスペースを起動します。

  10. Azure Databricks ポータルにリダイレクトされます。 ポータルで [New Cluster](新しいクラスター) を選択します。

  11. [New Cluster](新しいクラスター) ペインでは、次のフィールドを除くすべてのフィールドの既定値をそのまま使用します。

    • [クラスター名]: クラスターの名前を入力します。
    • [Databricks Runtime のバージョン]: Spark 3.x をサポートするには、Databricks Runtime バージョン 7.5 以降を選択することをお勧めします。

    [新しいクラスター] ダイアログ ボックスで Databricks Runtime バージョンが選択されているスクリーンショット。

  12. [Advanced Options](詳細オプション) を展開し、次の構成を追加します。 ノードの IP と資格情報は、必ず置き換えてください。

    spark.cassandra.connection.host <node1 IP>,<node 2 IP>, <node IP>
    spark.cassandra.auth.password cassandra
    spark.cassandra.connection.port 9042
    spark.cassandra.auth.username cassandra
    spark.cassandra.connection.ssl.enabled true
    
  13. Apache Spark Cassandra コネクタ ライブラリをクラスターに追加して、ネイティブと Azure Cosmos DB Cassandra 両方のエンドポイントに接続します。 自分のクラスターで、 [ライブラリ]>[新規インストール]>[Maven] の順に選択し、Maven 座標に com.datastax.spark:spark-cassandra-connector-assembly_2.12:3.0.0 を追加します。

Databricks で Maven パッケージを検索する方法を示すスクリーンショット。

リソースをクリーンアップする

このマネージド インスタンス クラスターを引き続き使用しない場合は、次の手順でそれを削除します。

  1. Azure portal の左側にあるメニューで、 [リソース グループ] を選択します。
  2. 一覧から、このクイック スタートで作成したリソース グループを選択します。
  3. リソース グループの [概要] ペインで、 [リソース グループの削除] を選択します。
  4. 次のウィンドウで、削除するリソース グループの名前を入力し、[削除] を選択します。

次のステップ

このクイックスタートでは、Azure Managed Instance for Apache Cassandra クラスターの仮想ネットワーク内にフル マネージドの Apache Spark クラスターを作成する方法について説明しました。 次に、クラスターとデータセンターのリソースを管理する方法を学習します。