Menggunakan Azure Toolkit for IntelliJ untuk membuat aplikasi Apache Spark untuk kluster Microsoft Azure HDInsight

Artikel
01/10/2024

Artikel ini menunjukkan cara mengembangkan aplikasi Apache Spark di Azure HDInsight menggunakan plug-in Azure Toolkit untuk IntelliJ IDE. Azure HDInsight adalah layanan analitik sumber terbuka terkelola di cloud. Layanan ini memungkinkan Anda untuk menggunakan kerangka kerja open-source seperti Hadoop, Apache Spark, Apache Hive, dan Apache Kafka.

Anda dapat menggunakan plug-in Azure Toolkit dalam beberapa cara:

Mengembangkan dan Mengirim aplikasi Scala Spark pada kluster HDInsight Spark.
Untuk mengakses sumber daya kluster Azure HDInsight Spark Anda.
Mengembangkan dan menjalankan aplikasi Scala Spark secara lokal.

Dalam artikel ini, Anda akan mempelajari cara:

Menggunakan Toolkit Azure untuk plug-in IntelliJ
Kembangkan aplikasi Apache Spark
Mengirimkan aplikasi ke kluster Azure HDInsight

Prasyarat

Klaster Apache Spark pada HDInsight. Untuk petunjuk selengkapnya, lihat Membuat kluster Apache Spark di Microsoft Azure HDInsight. Hanya kluster HDinsight di cloud publik yang didukung sementara jenis cloud aman lainnya (misalnya, cloud pemerintah) tidak.
Kit Pengembangan Oracle Java. Artikel ini menggunakan Java versi 8.0.202.
IntelliJ IDEA. Artikel ini menggunakan Komunitas IntelliJ IDEA versi 2018.3.4.
Azure Toolkit untuk IntelliJ. Lihat Menginstal Azure Toolkit untuk IntelliJ.

Pasang plugin Scala untuk IntelliJ IDEA

Langkah-langkah untuk menginstal plugin Scala:

Buka IntelliJ IDEA.
Pada layar selamat datang, navigasi ke Konfigurasikan>Plugin untuk membuka jendela Plugin.
Pilih Instal untuk plugin Scala yang ditampilkan di jendela baru.
Setelah plugin berhasil diinstal, Anda harus menghidupkan ulang IDE.

Membuat aplikasi Scala untuk kluster HDInsight Spark

Buka IntelliJ IDEA, dan pilih Buat Proyek Baru untuk membuka jendela Proyek Baru.
Pilih Apache Spark/Microsoft Azure HDInsight dari panel sisi kiri.
Pilih Proyek Spark (Scala) dari jendela utama.
Dari daftar menurun Alat build, pilih salah satu nilai berikut ini:
- Maven untuk dukungan wizard pembuatan proyek Scala.
- SBT untuk mengelola dependensi dan pembangunan proyek Scala.
Pilih Selanjutnya.

Di jendela Proyek Baru, berikan informasi berikut ini:

Properti	Deskripsi
Nama proyek	Masukkan nama. Artikel ini menggunakan `myApp`.
Lokasi proyek	Masukkan lokasi untuk menyimpan proyek Anda.
SDK Proyek	Bidang ini kosong pada penggunaan IDEA pertama Anda. Pilih Baru... dan navigasi ke JDK Anda.
Versi Spark	Wizard pembuatan mengintegrasikan versi yang tepat untuk SDK Spark dan SDK Scala. Jika versi kluster Spark lebih lama dari 2.0, pilih Spark 1.x. Jika tidak, pilih Spark2.x. Contoh ini menggunakan Spark 2.3.0 (Scala 2.11.8).

Selecting the Apache Spark SDK.

Pilih Selesai. Hal ini memerlukan waktu beberapa menit sebelum proyek tersedia.
Proyek Spark secara otomatis membuat artefak untuk Anda. Untuk menampilkan artefak, lakukan hal berikut:

a. Dari bilah menu, navigasikan ke File>Struktur Proyek....

b. Dari jendela Struktur Proyek, pilih Artefak.

c. Pilih Batal setelah melihat artefak.
Tambahkan kode sumber aplikasi Anda dengan melakukan langkah-langkah berikut:

a. Dari Project, navigasi ke myApp>src>main>scala.

b. Klik kanan scala,lalu navigasi ke Kelas>Scala Baru.

c. Pada kotak dialog Buat Kelas Scala Baru, berikan nama, pilih Objek dalam kotak Jenis, lalu pilih OK.

d. File myApp.scala kemudian terbuka di tampilan utama. Ganti kode default dengan kode yang ditemukan di bawah ini:
```
import org.apache.spark.SparkConf
import org.apache.spark.SparkContext

object myApp{
    def main (arg: Array[String]): Unit = {
    val conf = new SparkConf().setAppName("myApp")
    val sc = new SparkContext(conf)

    val rdd = sc.textFile("wasbs:///HdiSamples/HdiSamples/SensorSampleData/hvac/HVAC.csv")

    //find the rows that have only one digit in the seventh column in the CSV file
    val rdd1 =  rdd.filter(s => s.split(",")(6).length() == 1)

    rdd1.saveAsTextFile("wasbs:///HVACOut")
    }

}
```
Kode membaca data dari HVAC.csv (tersedia di semua kluster HDInsight Spark), mengambil baris yang hanya memiliki satu digit di kolom ketujuh dalam file CSV, dan menulis output ke /HVACOut bawah kontainer penyimpanan default untuk kluster.

Sambungkan ke kluster Microsoft Azure HDInsight Anda

Pengguna dapat masuk ke langganan Azure Anda, atau menautkan kluster HDInsight. Gunakan nama pengguna/kata sandi Ambari atau info masuk bergabung dengan domain untuk kluster ESP untuk menyambungkan ke kluster Microsoft Azure HDInsight Anda.

Dari bilah menu, navigasi ke Tampilkan>Alat WindowsAzure >Explorer.
Dari Explorer Azure, klik kanan simpul Azure, lalu pilih Masuk.
Dalam kotak dialog Masuk Azure, pilih Masuk Perangkat, lalu pilih Masuk.
Klik Salin&Buka di dialog Login Perangkat Azure.
Di antarmuka browser, tempelkan kode, lalu klik Berikutnya.
Masukkan kredensial Azure Anda, lalu tutup browser.
Setelah Anda masuk, kotak dialog Langganan Anda mencantumkan semua langganan Azure yang terkait dengan info masuk. Pilih langganan Anda lalu pilih tombol Pilih.
Dari Azure Explorer, perluas HDInsight untuk melihat kluster HDInsight yang ada di langganan Anda.
Anda selanjutnya dapat memperluas simpul nama kluster untuk melihat sumber daya (misalnya, akun penyimpanan) yang terkait dengan kluster.

Tautkan kluster

Anda dapat menautkan kluster HDInsight dengan menggunakan nama pengguna yang dikelola Apache Ambari. Demikian pula, untuk kluster HDInsight yang bergabung dengan domain, Anda dapat menautkan dengan menggunakan domain dan nama pengguna, seperti user1@contoso.com. Anda juga dapat menautkan kluster Livy Service.

Dari bilah menu, navigasi ke Tampilkan>Alat WindowsAzure >Explorer.
Dari Azure Explorer, klik kanan node HDInsight, lalu pilih Tautkan kluster A.

Opsi yang tersedia di jendela Kluster Link A akan bervariasi tergantung pada nilai yang Anda pilih dari daftar turun bawah Tipe Sumber Daya Tautan. Masukkan nilai Anda lalu pilih OK.

Kluster HDInsight

Properti	Nilai
Jenis Sumber Daya	Pilih kluster HDInsight dari daftar turun bawah.
Nama kluster	Masukkan nama kluster
Jenis Autentikasi	Menggunakan Autentikasi Dasar
Nama Pengguna	Masukkan nama pengguna kluster, defaultnya adalah admin.
Kata sandi	Masukkan kata sandi untuk nama pengguna.

IntelliJ IDEA link a cluster dialog.

Layanan Livy

Properti	Nilai
Jenis Sumber Daya	Pilih Layanan Livy dari daftar turun bawah.
Titik Akhir Livy	Masukkan Livy Endpoint
Nama kluster	Masukkan nama kluster
Titik Akhir Benang	Opsional.
Jenis Autentikasi	Menggunakan Autentikasi Dasar
Nama Pengguna	Masukkan nama pengguna kluster, defaultnya adalah admin.
Kata sandi	Masukkan kata sandi untuk nama pengguna.

IntelliJ IDEA link Livy cluster dialog.

Anda dapat melihat kluster tertaut Anda dari node HDInsight.
Anda juga dapat membatalkan tautan kluster dari Azure Explorer.

Menjalankan aplikasi Spark Scala/Java pada kluster Microsoft Azure HDInsight

Setelah membuat aplikasi Scala, Anda dapat mengirimkannya ke kluster.

Dari Proyek, navigasikan ke myApp>src>myApp>scala>utama. Klik kanan myApp, dan pilih Kirim Aplikasi Spark (Kemungkinan akan terletak di bagian bawah daftar).
Di jendela dialog Kirim Aplikasi Spark, pilih 1. Spark pada HDInsight.

Di jendela Konfigurasi edit, berikan nilai berikut ini lalu pilih OK:

Properti	Nilai
Kluster spark (hanya Linux)	Pilih kluster HDInsight Spark tempat Anda ingin menjalankan aplikasi.
Pilih Artefak untuk dikirim	Biarkan pengaturan default.
Nama kelas utama	Nilai default adalah kelas utama dari file yang dipilih. Anda dapat mengubah kelas dengan memilih elipsis(...) dan memilih kelas lain.
Konfigurasi pekerjaan	Anda dapat mengubah tombol dan, atau nilai default. Untuk mengetahui informasi selengkapnya, lihat REST API Apache Livy.
Argumen baris perintah	Anda dapat memasukkan argumen yang dipisahkan oleh spasi untuk kelas utama jika diperlukan.
Jars yang Direferensikan dan File yang Direferensikan	Anda dapat memasukkan jalur untuk Jar dan file yang direferensikan jika ada. Anda juga dapat menelusuri file di sistem file virtual Azure, yang saat ini hanya mendukung kluster ADLS Gen 2. Untuk informasi lebih lanjut: Konfigurasi Apache Spark. Lihat juga, Cara mengunggah sumber daya ke kluster.
Penyimpanan Pengunggahan Pekerjaan	Luaskan untuk menampilkan opsi tambahan.
Jenis Penyimpanan	Pilih Gunakan Azure Blob untuk mengunggah dari daftar turun bawah.
Akun Penyimpanan	Masukkan akun penyimpanan Anda.
Kunci Penyimpanan	Masukkan kunci penyimpanan Anda.
Kontainer Penyimpanan	Pilih kontainer penyimpanan Anda dari daftar menurun setelah Akun Penyimpanan dan Kunci Penyimpanan dimasukkan.

The Spark Submission dialog box.

Pilih SparkJobRun untuk mengirimkan proyek Anda ke kluster yang dipilih. Tab Pekerjaan Spark Jarak Jauh di Kluster menampilkan kemajuan eksekusi pekerjaan di bagian bawah. Anda dapat menghentikan aplikasi dengan mengklik tombol merah.

Debug Aplikasi Apache Spark secara lokal atau jarak jauh pada kluster HDInsight

Kami juga merekomendasikan cara lain untuk mengirimkan aplikasi Spark ke kluster. Anda dapat melakukannya dengan mengatur parameter dalam IDE konfigurasi Run/Debug. Untuk mengetahui petunjuknya, lihat Men-debug aplikasi Apache Spark dari jarak jauh pada kluster Microsoft Azure HDInsight dengan Azure Toolkit untuk IntelliJ hingga SSH

Mengakses dan mengelola kluster HDInsight Spark dengan menggunakan Azure Toolkit untuk IntelliJ

Anda dapat melakukan berbagai operasi dengan menggunakan Azure Toolkit untuk IntelliJ. Sebagian besar operasi dimulai dari Azure Explorer. Dari bilah menu, navigasi ke Tampilkan>Alat WindowsAzure >Explorer.

Mengakses tampilan pekerjaan

Dari Azure Explorer, navigasikan ke HDInsight><Kluster Anda>>Pekerjaan.
Di panel kanan, tab Tampilan Pekerjaan Spark menampilkan semua aplikasi yang dijalankan pada klaster. Pilih nama aplikasi yang ingin Anda lihat rincian lengkapnya.
Untuk menampilkan informasi pekerjaan dasar yang berjalan, arahkan kursor ke grafik tugas. Untuk melihat grafik tahapan dan informasi yang dihasilkan setiap pekerjaan, pilih node pada grafik pekerjaan.
Pilih tab Log untuk melihat log yang sering digunakan, termasuk Driver Stderr, Driver Stdout, dan Info Direktori.
Anda dapat melihat UI riwayat Spark dan UI YARN (di tingkat aplikasi). Pilih link di bagian atas jendela.

Membuka server riwayat Spark

Di Azure Explorer, perbesar HDInsight, klik kanan nama kluster Spark Anda, lalu pilih Buka UI Riwayat Spark.
Saat diminta, masukkan kredensial admin kluster, yang Anda tentukan saat menyiapkan kluster.
Di dasbor server riwayat Spark, Anda menggunakan nama aplikasi untuk mencari aplikasi yang baru saja Anda selesai jalankan. Dalam kode sebelumnya, Anda mengatur nama aplikasi dengan menggunakan val conf = new SparkConf().setAppName("myApp"). Nama aplikasi Spark Anda adalah myApp.

Memulai portal Ambari

Di Azure Explorer, perbesar HDInsight, klik kanan nama kluster Spark Anda, lalu pilih Buka Portal Manajemen Kluster (Ambari).
Ketika diminta, masukkan kredensial admin untuk klaster. Anda menentukan kredensial ini selama proses penyetelan kluster.

Mengelola langganan Azure

Secara default, Azure Toolkit untuk IntelliJ mencantumkan kluster Spark dari semua langganan Azure Anda. Jika perlu, Anda dapat menentukan langganan yang ingin Anda akses.

Di Azure Explorer, klik kanan simpul akar Azure, lalu pilih Kelola Langganan.
Dari jendela Pilih Langganan, kosongkan kotak centang di samping langganan yang tidak ingin Anda akses, lalu pilih Tutup.

Konsol Spark

Anda dapat menjalankan Spark Local Console(Scala) atau menjalankan Spark Livy Interactive Session Console(Scala).

Konsol Lokal Spark(Scala)

Pastikan Anda telah memenuhi prasyarat WINUTILS.EXE.

Dari bilah menu, navigasikan ke Jalankan>Edit Konfigurasi....
Dari jendela Konfigurasi Jalankan/Debug, di panel kiri, arahkan ke Apache Spark di HDInsight>[Spark on HDInsight] myApp.
Dari jendela utama, pilih tab Locally Run.

Berikan nilai berikut, lalu pilih OK:

Properti	Nilai
Kelas utama	Nilai default adalah kelas utama dari file yang dipilih. Anda dapat mengubah kelas dengan memilih elipsis(...) dan memilih kelas lain.
Variabel lingkungan	Pastikan nilai untuk HADOOP_HOME sudah benar.
Lokasi WINUTILS.exe	Pastikan jalurnya benar.

Local Console Set Configuration.

Dari Proyek, navigasikan ke myApp>src>myApp>scala>utama.
Dari bar menu, buka Tools>Spark Console>Run Spark Local Console(Scala).
Kemudian dua dialog dapat ditampilkan untuk menanyakan apakah Anda ingin memperbaiki dependensi secara otomatis. Jika demikian, pilih Perbaiki Otomatis.
Konsol harus terlihat mirip dengan gambar di bawah ini. Di jenis jendela konsol sc.appName, lalu tekan ctrl+Enter. Hasilnya akan ditampilkan. Anda dapat mengakhiri konsol lokal dengan mengklik tombol merah.

Konsol Sesi Interaktif Spark Livy (Scala)

Dari bilah menu, navigasikan ke Jalankan>Edit Konfigurasi....
Dari jendela Konfigurasi Jalankan/Debug, di panel kiri, arahkan ke Apache Spark di HDInsight>[Spark on HDInsight] myApp.
Dari jendela utama, pilih tab Remotely Run in Cluster.

Berikan nilai berikut, lalu pilih OK:

Properti	Nilai
Kluster spark (hanya Linux)	Pilih kluster HDInsight Spark tempat Anda ingin menjalankan aplikasi.
Nama kelas utama	Nilai default adalah kelas utama dari file yang dipilih. Anda dapat mengubah kelas dengan memilih elipsis(...) dan memilih kelas lain.

Interactive Console Set Configuration.

Dari Proyek, navigasikan ke myApp>src>myApp>scala>utama.
Dari bar menu, buka Tools>Spark Console>Run Spark Livy Interactive Session Console(Scala).
Konsol harus terlihat mirip dengan gambar di bawah ini. Di jenis jendela konsol sc.appName, lalu tekan ctrl+Enter. Hasilnya akan ditampilkan. Anda dapat mengakhiri konsol lokal dengan mengklik tombol merah.

Kirim Pilihan ke Spark Console

Lebih mudah bagi Anda untuk meramalkan hasil skrip dengan mengirim beberapa kode ke konsol lokal atau Livy Interactive Session Console (Scala). Anda dapat menyorot beberapa kode dalam file Scala, lalu klik kanan Kirim Pilihan Ke Konsol Spark. Kode yang dipilih akan dikirim ke konsol. Hasilnya akan ditampilkan setelah kode di konsol. Konsol akan memeriksa kesalahan jika ada.

Send Selection to Spark Console.

Integrasikan dengan Perantara Identitas Microsoft Azure HDInsight (HIB)

Sambungkan ke kluster Microsoft Azure HDInsight ESP Anda dengan Perantara ID (HIB)

Anda dapat mengikuti langkah-langkah normal untuk masuk ke langganan Azure untuk menyambungkan ke kluster Microsoft Azure HDInsight ESP Anda dengan Perantara ID (HIB). Setelah masuk, Anda akan melihat daftar kluster di Azure Explorer. Untuk petunjuk selengkapnya, lihat Sambungkan ke kluster Microsoft Azure HDInsight Anda.

Jalankan aplikasi Spark Scala pada kluster HDInsight ESP dengan ID Broker (HIB)

Untuk menjalankan pekerjaan hive, Anda dapat mengikuti langkah-langkah normal untuk mengirimkan pekerjaan ke kluster Microsoft Azure HDInsight ESP dengan Perantara ID (HIB). Lihat Menjalankan aplikasi Spark Scala pada kluster HDInsight Spark untuk instruksi lebih lanjut.

Kami mengunggah file yang diperlukan ke folder bernama dengan akun masuk Anda, dan Anda dapat melihat jalur unggah dalam file konfigurasi.

upload path in the configuration.

Konsol spark pada kluster HDInsight ESP dengan ID Broker (HIB)

Anda dapat menjalankan Spark Local Console(Scala) atau menjalankan Spark Livy Interactive Session Console(Scala) pada kluster HDInsight ESP dengan ID Broker (HIB). Lihat Spark Console untuk petunjuk lebih lanjut.

Catatan

Untuk kluster HDInsight ESP dengan Id Broker (HIB), tautan kluster dan debug aplikasi Apache Spark dari jarak jauh tidak didukung saat ini.

Peran khusus pembaca

Ketika pengguna mengirimkan pekerjaan ke klaster dengan izin peran khusus pembaca, kredensial Ambari diperlukan.

Masuklah dengan akun peran khusus pembaca.
Dari Azure Explorer, perluas HDInsight untuk melihat klaster HDInsight yang ada di langganan Anda. Kluster bertanda "Role:Reader" hanya memiliki izin peran khusus pembaca.
Klik kanan kluster dengan izin peran pembaca saja. Pilih Tautkan kluster ini dari menu konteks untuk menautkan kluster. Masukkan nama pengguna dan kata sandi Ambari.
Jika kluster berhasil ditautkan, HDInsight akan disegarkan. Tahapan klaster akan menjadi tertaut.

Menautkan klaster dengan memperluas node Pekerjaan

Klik node Pekerjaan maka akan muncul jendela Akses Pekerjaan Kluster Ditolak.
Klik Tautkan klaster ini untuk menautkan klaster.

Kluster tautan dari jendela Konfigurasi Run/Debug

Membuat Konfigurasi HDInsight. Kemudian pilih Jalankan dari Jarak Jauh di Cluster.
Pilih kluster, yang memiliki izin peran pembaca saja untuk Nama Kluster. Pesan peringatan menunjukkan. Anda dapat mengklik Tautkan kluster ini ke kluster tautan.

Menampilkan Akun Penyimpanan

Untuk klaster dengan izin peran khusus pembaca, klik node Akun Penyimpanan, jendela Akses Penyimpanan Ditolak muncul. Anda bisa mengklik Buka Azure Storage Explorer untuk membuka Storage Explorer.
Untuk klaster tertaut, klik node Akun Penyimpanan, jendela Akses Penyimpanan Ditolak muncul. Anda bisa mengklik Buka Microsoft Azure Storage untuk membuka Storage Explorer.

Konversikan aplikasi IntelliJ IDEA yang ada untuk menggunakan Azure Toolkit untuk IntelliJ

Anda dapat mengonversi aplikasi Spark Scala yang sudah ada yang Anda buat di IntelliJ IDEA agar kompatibel dengan Azure Toolkit untuk IntelliJ. Anda kemudian dapat menggunakan plug-in untuk mengirimkan aplikasi ke kluster HDInsight Spark.

Untuk aplikasi Spark Scala yang sudah ada yang dibuat melalui IntelliJ IDEA, buka .iml file terkait.

Pada tingkat root, adalah elemen modul seperti teks berikut:

<module org.jetbrains.idea.maven.project.MavenProjectsManager.isMavenModule="true" type="JAVA_MODULE" version="4">

Edit elemen untuk ditambahkan UniqueKey="HDInsightTool" sehingga elemen modul terlihat seperti teks berikut:

<module org.jetbrains.idea.maven.project.MavenProjectsManager.isMavenModule="true" type="JAVA_MODULE" version="4" UniqueKey="HDInsightTool">

Simpan perubahan. Aplikasi Anda sekarang harus kompatibel dengan Azure Toolkit untuk IntelliJ. Anda dapat mengujinya dengan mengklik kanan nama proyek di Project. Menu pop-up sekarang memiliki opsi Kirim Aplikasi Spark ke HDInsight.

Membersihkan sumber daya

Jika Anda tidak akan terus menggunakan aplikasi ini, hapus kluster yang Anda buat dengan langkah-langkah berikut:

Masuk ke portal Azure.
Dalam kotak Pencarian di bagian atas, ketik Microsoft Azure HDInsight.
Pilih kluster Microsoft Azure HDInsight di Layanan.
Dalam daftar kluster HDInsight yang muncul, pilih ... di samping kluster yang Anda buat untuk tutorial ini.
Pilih Hapus. Pilih Ya.

Azure portal deletes HDInsight cluster.

Kesalahan dan solusi

Batalkan tanda folder src sebagai Sumber jika Anda mendapatkan kesalahan build yang gagal seperti di bawah ini:

Screenshot showing the build failed.

Hapus tanda folder src sebagai Sumber untuk mengatasi masalah ini:

Navigasi ke File dan pilih Struktur Proyek.
Pilih Modul di bawah Pengaturan Proyek.
Pilih file src dan hapus tanda sebagai Sumber.
Klik tombol Terapkan lalu klik tombol OK untuk menutup dialog.

Langkah berikutnya

Dalam artikel ini, Anda belajar cara menggunakan plug-in Azure Toolkit for IntelliJ untuk mengembangkan aplikasi Apache Spark yang ditulis di Scala. Kemudian mengirimkannya ke kluster HDInsight Spark langsung dari lingkungan pengembangan terpadu (IDE) IntelliJ. Lanjutkan ke artikel berikutnya untuk melihat bagaimana data yang Anda daftarkan di Apache Spark dapat ditarik ke dalam alat analitik BI seperti Power BI.

Lakukan analisis pada data Apache Spark menggunakan Power BI

Menggunakan Azure Toolkit for IntelliJ untuk membuat aplikasi Apache Spark untuk kluster Microsoft Azure HDInsight

Prasyarat

Pasang plugin Scala untuk IntelliJ IDEA

Membuat aplikasi Scala untuk kluster HDInsight Spark