Hızlı Başlangıç: Azure Databricks ile Yönetilen Apache Spark Kümesi Dağıtma

Apache Cassandra için Azure Yönetilen Örneği, yönetilen açık kaynak Apache Cassandra veri merkezleri için otomatik dağıtım ve ölçeklendirme işlemleri sağlar. Bu özellik hibrit senaryoları hızlandırır ve devam eden bakımı azaltır.

Bu hızlı başlangıçta, Apache Cassandra için Azure Yönetilen Örneği kümenizin Azure Sanal Ağ içinde tam olarak yönetilen bir Apache Spark kümesi oluşturmak için Azure portal nasıl kullanılacağı gösterilmektedir. Spark kümesini Azure Databricks'te oluşturursunuz. Daha sonra not defterleri oluşturabilir veya kümeye ekleyebilir, farklı veri kaynaklarından verileri okuyabilir ve içgörüleri analiz edebilirsiniz.

Ayrıca Azure databricks'i Azure Sanal Ağ dağıtma (Sanal Ağ Ekleme) hakkında ayrıntılı yönergelerle daha fazla bilgi edinebilirsiniz.

Ön koşullar

Azure aboneliğiniz yoksa başlamadan önce ücretsiz bir hesap oluşturun.

Azure Databricks kümesi oluşturma

Apache Cassandra için Azure Yönetilen Örneği'ne sahip bir Sanal Ağ Azure Databricks kümesi oluşturmak için şu adımları izleyin:

  1. Azure Portal’ında oturum açın.

  2. Sol gezinti bölmesinde Kaynak grupları'nı bulun. Yönetilen örneğinizin dağıtıldığı Sanal Ağ içeren kaynak grubunuza gidin.

  3. Sanal Ağ kaynağını açın ve Adres alanını not edin:

    Sanal Ağ adres alanını nereden alabileceğinizi gösteren ekran görüntüsü.

  4. Kaynak grubunda Ekle'yi seçin ve arama alanında Azure Databricks'i arayın:

    Azure Databricks aramasını gösteren ekran görüntüsü.

  5. Azure Databricks hesabı oluşturmak için Oluştur'u seçin:

    Oluştur düğmesinin seçili olduğu Azure Databricks teklifini gösteren ekran görüntüsü.

  6. Aşağıdaki değerleri girin:

    • Çalışma alanı adı Databricks çalışma alanınız için bir ad belirtin.
    • Bölge Sanal Ağ ile aynı bölgeyi seçtiğinizden emin olun.
    • Fiyatlandırma KatmanıStandart, Premium veya Deneme arasında seçim yapın. Bu katmanlar hakkında daha fazla bilgi için bkz. Databricks fiyatlandırma sayfası.

    Databricks hesabı için çalışma alanı adı, bölge ve fiyatlandırma katmanı girebileceğiniz bir iletişim kutusunu gösteren ekran görüntüsü.

  7. Ardından sekmesini seçin ve aşağıdaki ayrıntıları girin:

    • Azure Databricks çalışma alanını Sanal Ağ (VNet) ortamınızda dağıtın,Evet'i seçin.
    • Sanal Ağ Açılan listeden yönetilen örneğinizin bulunduğu Sanal Ağ seçin.
    • Genel Alt Ağ Adı Genel alt ağ için bir ad girin.
    • Genel Alt Ağ CIDR Aralığı Genel alt ağ için bir IP aralığı girin.
    • Özel Alt Ağ Adı Özel alt ağ için bir ad girin.
    • Özel Alt Ağ CIDR Aralığı Özel alt ağ için bir IP aralığı girin.

    Aralık çakışmalarını önlemek için daha yüksek aralıklar seçtiğinizden emin olun. Gerekirse, aralıkları bölmek için görsel bir alt ağ hesaplayıcısı kullanın:

    İki vurgulanmış özdeş ağ adresinin gösterildiği Görsel Alt Ağ Hesaplayıcısı'nı gösteren ekran görüntüsü.

    Aşağıdaki ekran görüntüsünde ağ bölmesindeki örnek ayrıntılar gösterilmektedir:

    Belirtilen genel ve özel alt ağ adlarını gösteren ekran görüntüsü.

  8. Çalışma alanını dağıtmak için Gözden geçir ve oluştur'u ve ardından Oluştur'u seçin.

  9. Çalışma Alanı oluşturulduktan sonra başlatın.

  10. Azure Databricks portalına yönlendirilirsiniz. Portaldan Yeni Küme'yi seçin.

  11. Yeni küme bölmesinde, aşağıdaki alanlar dışındaki tüm alanlar için varsayılan değerleri kabul edin:

    • Küme Adı Küme için bir ad girin.
    • Databricks Runtime Sürümü Spark 3.x desteği için Databricks çalışma zamanı sürüm 7.5 veya üzerini seçmenizi öneririz.

    Databricks Runtime Sürümünün seçili olduğu Yeni Küme iletişim kutusunu gösteren ekran görüntüsü.

  12. Gelişmiş Seçenekler'i genişletin ve aşağıdaki yapılandırmayı ekleyin. Düğüm IP'lerini ve kimlik bilgilerini değiştirdiğinden emin olun:

    spark.cassandra.connection.host <node1 IP>,<node 2 IP>, <node IP>
    spark.cassandra.auth.password cassandra
    spark.cassandra.connection.port 9042
    spark.cassandra.auth.username cassandra
    spark.cassandra.connection.ssl.enabled true
    
  13. Hem yerel hem de Azure Cosmos DB Cassandra uç noktalarına bağlanmak için kümenize Apache Spark Cassandra Bağlayıcı kitaplığını ekleyin. Kümenizde Kitaplıklar> YeniMavenYükle'yi> seçin ve ardından Maven koordinatlarını ekleyincom.datastax.spark:spark-cassandra-connector-assembly_2.12:3.0.0.

Databricks'te Maven paketlerini aramayı gösteren ekran görüntüsü.

Kaynakları temizleme

Bu yönetilen örnek kümesini kullanmaya devam etmeyecekseniz, aşağıdaki adımları izleyerek silin:

  1. Azure portal sol tarafındaki menüden Kaynak grupları'nı seçin.
  2. Listeden bu hızlı başlangıç için oluşturduğunuz kaynak grubunu seçin.
  3. Kaynak grubuna Genel Bakış bölmesinde Kaynak grubunu sil'i seçin.
  4. Sonraki pencerede, silinecek kaynak grubunun adını girin ve sil'i seçin.

Sonraki adımlar

Bu hızlı başlangıçta, Apache Cassandra için Azure Yönetilen Örneği kümenizin Sanal Ağ içinde tam olarak yönetilen bir Apache Spark kümesi oluşturmayı öğrendiniz. Daha sonra küme ve veri merkezi kaynaklarını yönetmeyi öğrenebilirsiniz: