Mulai Cepat: Sebarkan Managed Apache Spark Cluster dengan Azure Databricks

Azure Managed Instance for Apache Cassandra menyediakan operasi penyebaran dan penskalaan secara otomatis untuk pusat data Apache Cassandra sumber terbuka terkelola. Fitur ini mempercepat skenario hibrid dan mengurangi pemeliharaan yang sedang berlangsung.

Mulai cepat ini menunjukkan cara menggunakan portal Microsoft Azure untuk membuat kluster Apache Spark yang dikelola sepenuhnya di dalam Azure Virtual Network dari kluster Azure Managed Instance for Apache Cassandra Anda. Anda membuat kluster Spark di Azure Databricks. Nantinya, Anda dapat membuat atau melampirkan buku catatan ke kluster, membaca data dari sumber data yang berbeda, dan menganalisis wawasan.

Anda juga dapat mempelajari lebih lanjut dengan instruksi terperinci di Menyebarkan Azure Databricks di Azure Virtual Network (Virtual Network Injection) Anda.

Prasyarat

Jika Anda tidak memiliki langganan Azure, buat akun gratis sebelum Anda memulai.

Membuat kluster Azure Databricks

Ikuti langkah-langkah ini untuk membuat kluster Azure Databricks di Virtual Network yang memiliki Azure Managed Instance for Apache Cassandra:

  1. Masuk ke portal Microsoft Azure.

  2. Di panel navigasi kiri, temukan Grup sumber daya. Navigasi ke grup sumber daya Anda yang berisi Virtual Network tempat instans terkelola Anda disebarkan.

  3. Buka sumber daya Virtual Network, dan catat ruang Alamat:

    Cuplikan layar memperlihatkan tempat untuk mendapatkan ruang alamat Virtual Network Anda.

  4. Dari grup sumber daya, pilih Tambahkan dan cari Azure Databricks di bidang pencarian:

    Cuplikan layar memperlihatkan pencarian untuk Azure Databricks.

  5. Pilih Buat untuk membuat akun Azure Databricks:

    Cuplikan layar memperlihatkan penawaran Azure Databricks dengan tombol Buat dipilih.

  6. Masukkan nilai berikut:

    • Nama ruang kerja Berikan nama untuk ruang kerja Databricks Anda.
    • Wilayah Pastikan untuk memilih wilayah yang sama dengan Virtual Network Anda.
    • Tingkat Harga Pilih antara Standar, Premium, atau Uji Coba. Untuk mengetahui informasi selengkapnya tentang tingkatan ini, lihat halaman harga Databricks.

    Cuplikan layar memperlihatkan kotak dialog tempat Anda bisa memasukkan nama ruang kerja, wilayah, dan tingkat harga untuk akun Databricks.

  7. Selanjutnya, pilih tab Jaringan , dan masukkan detail berikut:

    • Sebarkan ruang kerja Azure Databricks di Virtual Network (VNet) PilihYa.
    • Virtual Network Dari menu dropdown, pilih Virtual Network tempat instans terkelola Anda berada.
    • Nama Subnet Publik Masukkan nama untuk subnet publik.
    • Rentang CIDR subnet publik Masukkan rentang IP untuk subnet publik.
    • Nama Subnet Privat Masukkan nama untuk subnet privat.
    • Rentang CIDR Subnet Privat Masukkan rentang IP untuk subnet privat.

    Untuk menghindari tabrakan rentang, pastikan Anda memilih rentang yang lebih tinggi. Jika perlu, gunakan kalkulator subnet visual untuk membagi rentang:

    Cuplikan layar memperlihatkan Kalkulator Subnet Visual dengan dua alamat jaringan identik yang disorot.

    Cuplikan layar berikut memperlihatkan detail contoh pada panel jaringan:

    Cuplikan layar memperlihatkan nama subnet publik dan privat tertentu.

  8. Pilih Tinjau dan buat, lalu Buat untuk menyebarkan ruang kerja.

  9. Luncurkan Ruang Kerja setelah dibuat.

  10. Anda dialihkan ke portal Azure Databricks. Dari portal, pilih Kluster Baru.

  11. Di panel Kluster baru, terima nilai default untuk semua bidang selain bidang berikut ini:

    • Nama Kluster Masukkan nama untuk kluster.
    • Versi Runtime Databricks Sebaiknya pilih runtime Databricks versi 7.5 atau yang lebih tinggi, untuk dukungan Spark 3.x.

    Cuplikan layar memperlihatkan kotak dialog Kluster Baru dengan Versi Runtime Databricks dipilih.

  12. Perluas Opsi Lanjutan dan tambahkan konfigurasi berikut. Pastikan untuk mengganti IP node dan mandat:

    spark.cassandra.connection.host <node1 IP>,<node 2 IP>, <node IP>
    spark.cassandra.auth.password cassandra
    spark.cassandra.connection.port 9042
    spark.cassandra.auth.username cassandra
    spark.cassandra.connection.ssl.enabled true
    
  13. Anda perlu menambahkan pustaka Apache Spark Cassandra Connector ke kluster Anda untuk tersambung ke titik akhir asli dan Azure Cosmos DB Cassandra. Di klaster Anda, pilih Pustaka>Pasang Baru>Maven, lalu tambahkan com.datastax.spark:spark-cassandra-connector-assembly_2.12:3.0.0 di koordinat Maven.

Cuplikan layar yang memperlihatkan pencarian paket Maven di Databricks.

Membersihkan sumber daya

Jika Anda berencana tidak menggunakan Klaster instans terkelola ini, hapus dengan langkah-langkah berikut:

  1. Dari menu sebelah kiri portal Microsoft Azure, pilih Grup sumber daya.
  2. Dari daftar, pilih grup sumber daya yang Anda buat untuk panduan mulai cepat ini.
  3. Pada panel Ringkasan grup sumber daya, pilih Hapus grup sumber daya.
  4. Di jendela berikutnya, masukkan nama grup sumber daya yang akan dihapus, lalu pilih Hapus.

Langkah berikutnya

Dalam mulai cepat ini, Anda telah mempelajari cara membuat kluster Apache Spark yang dikelola sepenuhnya di dalam Azure Virtual Network dari kluster Azure Managed Instance for Apache Cassandra Anda. Selanjutnya, Anda dapat mempelajari cara mengelola sumber daya kluster dan pusat data: