Mulai Cepat: Sebarkan Managed Apache Spark Cluster dengan Azure Databricks
Azure Managed Instance for Apache Cassandra menyediakan operasi penyebaran dan penskalaan otomatis untuk pusat data Apache Cassandra sumber terbuka terkelola. Fitur ini mempercepat skenario hibrid dan mengurangi pemeliharaan yang sedang berlangsung.
Mulai cepat ini menunjukkan cara menggunakan portal Microsoft Azure untuk membuat kluster Apache Spark yang dikelola sepenuhnya di dalam Azure Virtual Network dari kluster Azure Managed Instance for Apache Cassandra Anda. Anda membuat kluster Spark di Azure Databricks. Nantinya, Anda dapat membuat atau melampirkan buku catatan ke kluster, membaca data dari sumber data yang berbeda, dan menganalisis wawasan.
Anda juga dapat mempelajari lebih lanjut dengan instruksi terperinci di Menyebarkan Azure Databricks di Azure Virtual Network (Virtual Network Injection) Anda.
Prasyarat
Jika Anda tidak memiliki langganan Azure, buat akun gratis sebelum Anda memulai.
Membuat kluster Azure Databricks
Ikuti langkah-langkah ini untuk membuat kluster Azure Databricks di Virtual Network yang memiliki Azure Managed Instance for Apache Cassandra:
Masuk ke portal Azure.
Di panel navigasi kiri, temukan Grup sumber daya. Navigasikan ke grup sumber daya Anda yang berisi Virtual Network tempat instans terkelola Anda disebarkan.
Buka sumber daya Virtual Network, dan catat ruang Alamat:
Dari grup sumber daya, pilih Tambahkan dan cari Azure Databricks di bidang pencarian:
Pilih Buat untuk membuat akun Azure Databricks:
Masukkan nilai berikut:
- Nama ruang kerja Berikan nama untuk ruang kerja Databricks Anda.
- Wilayah Pastikan untuk memilih wilayah yang sama dengan Virtual Network Anda.
- Tingkat Harga Pilih antara Standar, Premium, atau Uji Coba. Untuk mengetahui informasi selengkapnya tentang tingkatan ini, lihat halaman harga Databricks.
Selanjutnya, pilih tab Jaringan , dan masukkan detail berikut:
- Sebarkan ruang kerja Azure Databricks di Virtual Network (VNet) Pilih Ya.
- Virtual Network Dari menu dropdown, pilih Virtual Network tempat instans terkelola Anda berada.
- Nama Subnet Publik Masukkan nama untuk subnet publik.
- Rentang CIDR Subnet Publik Masukkan rentang IP untuk subnet publik.
- Nama Subnet Privat Masukkan nama untuk subnet privat.
- Rentang CIDR Subnet Privat Masukkan rentang IP untuk subnet privat.
Untuk menghindari tabrakan rentang, pastikan Anda memilih rentang yang lebih tinggi. Jika perlu, gunakan kalkulator subnet visual untuk membagi rentang:
Cuplikan layar berikut memperlihatkan detail contoh pada panel jaringan:
Pilih Tinjau dan buat, lalu Buat untuk menyebarkan ruang kerja.
Luncurkan Ruang Kerja setelah dibuat.
Anda dialihkan ke portal Azure Databricks. Dari portal, pilih Kluster Baru.
Di panel Kluster baru, terima nilai default untuk semua bidang selain bidang berikut ini:
- Nama Kluster Masukkan nama untuk kluster.
- Versi Runtime Databricks Sebaiknya pilih runtime Databricks versi 7.5 atau yang lebih tinggi, untuk dukungan Spark 3.x.
Perluas Opsi Lanjutan dan tambahkan konfigurasi berikut. Pastikan untuk mengganti IP node dan mandat:
spark.cassandra.connection.host <node1 IP>,<node 2 IP>, <node IP> spark.cassandra.auth.password cassandra spark.cassandra.connection.port 9042 spark.cassandra.auth.username cassandra spark.cassandra.connection.ssl.enabled true
Anda perlu menambahkan pustaka Apache Spark Cassandra Connector ke kluster Anda untuk tersambung ke titik akhir asli dan Azure Cosmos DB Cassandra. Di klaster Anda, pilih Pustaka > Pasang Baru > Maven, lalu tambahkan
com.datastax.spark:spark-cassandra-connector-assembly_2.12:3.0.0
di koordinat Maven.
Membersihkan sumber daya
Jika Anda berencana tidak menggunakan Klaster instans terkelola ini, hapus dengan langkah-langkah berikut:
- Dari menu sebelah kiri portal Microsoft Azure, pilih Grup sumber daya.
- Dari daftar, pilih grup sumber daya yang Anda buat untuk panduan mulai cepat ini.
- Pada panel Ringkasan grup sumber daya, pilih Hapus grup sumber daya.
- Di jendela berikutnya, masukkan nama grup sumber daya yang akan dihapus, lalu pilih Hapus.
Langkah berikutnya
Dalam mulai cepat ini, Anda telah mempelajari cara membuat kluster Apache Spark yang dikelola sepenuhnya di dalam Azure Virtual Network dari kluster Azure Managed Instance for Apache Cassandra Anda. Selanjutnya, Anda dapat mempelajari cara mengelola sumber daya kluster dan pusat data: