Tutorial: Menganalisis data Apache Spark menggunakan Power BI di HDInsight

Dalam tutorial ini, Anda mempelajari cara menggunakan Microsoft Power BI untuk memvisualisasikan data dalam kluster Apache Spark di Azure HDInsight.

Dalam tutorial ini, Anda akan mempelajari cara:

  • Memvisualisasikan data Spark menggunakan Power BI

Jika Anda tidak memiliki langganan Azure, buat akun gratis sebelum Anda memulai.

Prasyarat

Memverifikasi data

Jupyter Notebook yang Anda buat di tutorial sebelumnya menyertakan kode untuk membuat hvac tabel. Tabel ini didasarkan pada file CSV yang tersedia di semua kluster HDInsight Spark di \HdiSamples\HdiSamples\SensorSampleData\hvac\hvac.csv. Gunakan prosedur berikut untuk memverifikasi data.

  1. Dari Jupyter Notebook, tempelkan kode berikut, lalu tekan SHIFT + ENTER. Kode memverifikasi keberadaan tabel.

    %%sql
    SHOW TABLES
    

    Output-nya terlihat seperti:

    Show tables in Spark.

    Jika Anda menutup notebook sebelum memulai tutorial ini, hvactemptable dibersihkan, sehingga tidak disertakan dalam output. Hanya tabel Apache Hive yang disimpan di metastore (ditunjukkan oleh False di bawah kolom isTemporary) yang dapat diakses dari alat BI. Dalam tutorial ini, Anda terhubung ke tabel hvac yang Anda buat.

  2. Tempelkan kode berikut dalam sel kosong, lalu tekan SHIFT + ENTER. Kode memverifikasi data dalam tabel.

    %%sql
    SELECT * FROM hvac LIMIT 10
    

    Output-nya terlihat seperti:

    Show rows from hvac table in Spark.

  3. Dari menu File pada buku catatan, pilih Tutup dan Hentikan. Matikan notebook untuk merilis sumber daya.

Visualisasikan data

Di bagian ini, Anda menggunakan Power BI untuk membuat visualisasi, laporan, dan dasbor dari data klaster Spark.

Membuat laporan di Power BI Desktop

Langkah pertama dalam bekerja dengan Spark adalah menyambungkan ke kluster di Power BI Desktop, memuat data dari kluster, dan membuat visualisasi dasar berdasarkan data tersebut.

  1. Buka Power BI Desktop. Tutup layar slash start-up jika terbuka.

  2. Dari tab Beranda, navigasi ke Dapatkan Data>Lainnya...

    Get data into Power BI Desktop from HDInsight Apache Spark.

  3. Masukkan Spark di kotak pencarian, pilih Azure HDInsight Spark, lalu pilih Sambungkan.

    Get data into Power BI from Apache Spark BI.

  4. Masukkan URL kluster Anda (dalam formulir mysparkcluster.azurehdinsight.net) di kotak teks Server.

  5. Di bawah Mode konektivitas data, pilih DirectQuery. Kemudian pilih OK.

    Anda dapat menggunakan mode konektivitas data dengan Spark. Jika Anda menggunakan DirectQuery, perubahan tercermin dalam laporan tanpa merefresh seluruh set data. Jika Anda mengimpor data, Anda harus merefresh kumpulan data untuk melihat perubahan. Untuk informasi selengkapnya tentang cara dan kapan menggunakan DirectQuery, lihat Menggunakan DirectQuery di Power BI.

  6. Masukkan informasi akun proses masuk HDInsight, lalu pilih Hubungkan. Nama akun default adalah admin.

  7. Pilih hvac tabel, tunggu untuk melihat pratinjau data, lalu pilih Muat.

    Spark cluster user name and password.

    Power BI Desktop memiliki informasi yang diperlukan untuk menyambungkan ke kluster Spark dan memuat data dari tabel hvac. Tabel dan kolomnya ditampilkan di panel Bidang.

  8. Visualisasikan varian antara suhu target dan suhu aktual untuk setiap bangunan:

    1. Di panel VISUALISASI, pilih Bagan Area.

    2. Seret bidang BuildingID ke Sumbu, dan seret bidang ActualTemp dan TargetTemp ke Nilai.

      add value columns.

      Diagramnya terlihat seperti:

      area graph sum.

      Secara default visualisasi memperlihatkan jumlah untuk ActualTemp dan TargetTemp. Pilih panah bawah di samping ActualTemp dan TragetTemp di panel Visualisasi, Anda bisa melihat Jumlah dipilih.

    3. Pilih panah bawah di samping ActualTemp dan TragetTemp di panel Visualisasi, pilih Rata-rata untuk mendapatkan rata-rata suhu aktual dan target untuk setiap bangunan.

      average of values.

      Visualisasi data Anda akan mirip dengan yang ada di tangkapan layar. Pindahkan kursor Anda ke visualisasi untuk mendapatkan tips alat dengan data yang relevan.

      area graph .png " alt-text="area graph." border="true":::

  9. Navigasi ke File>Simpan, masukkan nama BuildingTemperature untuk file, lalu pilih Simpan.

Menerbitkan laporan ke Layanan Power BI (opsional)

Layanan Power BI memungkinkan Anda berbagi laporan dan dasbor di seluruh organisasi Anda. Di bagian ini, Anda terlebih dahulu menerbitkan himpunan data dan laporan. Kemudian, Anda menyematkan laporan ke dasbor. Dasbor biasanya digunakan untuk fokus pada subset data dalam laporan. Anda hanya memiliki satu visualisasi dalam laporan Anda, tetapi masih berguna untuk menelusuri langkah-langkahnya.

  1. Buka Power BI Desktop.

  2. Dari tab Beranda, pilih Terbitkan.

    Publish from Power BI Desktop. Desktop" border="true":::

  3. Pilih ruang kerja untuk menerbitkan himpunan data dan laporan Anda, lalu pilih Pilih. Pada gambar berikut, Ruang Kerja Saya yang default dipilih.

    Select workspace to publish dataset and report to.

  4. Setelah penerbitan berhasil, pilih Buka 'BuildingTemperature.pbix' di Power BI.

    Publish success, click to enter credentials.

  5. Di layanan Power BI, pilih Masukkan kredensial.

    Enter credentials in Power BI service. " border="true":::

  6. Pilih Edit kredensial.

    Edit credentials in Power BI service.

  7. Masukkan informasi akun proses masuk HDInsight, lalu pilih Masuk. Nama akun default adalah admin.

    Sign in to Spark cluster. Kluster Spark" border="true":::

  8. Di panel kiri, pergi ke Ruang Kerja>Ruang Kerja Saya>LAPORAN, lalu pilihBuildingTemperature.

    Report listed under reports in left pane.

    Anda juga akan melihat BuildingTemperaturetercantum di bawah HIMPUNNAN DATA di panel kiri.

    Visual yang Anda buat di Power BI Desktop sekarang tersedia di layanan Power BI.

  9. Arahkan kursor ke visualisasi, lalu pilih ikon sematkan di sudut kanan atas.

    Report in the Power BI service.

  10. Pilih "Dasbor baru", masukkan nama Building temperature, lalu pilih sematkan.

    Pin to new dashboard. ke dasbor baru" border="true":::

  11. Dalam laporan, pilih Buka dasbor.

Visual Anda disematkan ke dasbor - Anda dapat menambahkan visual lain ke laporan dan menyematkannya ke dasbor yang sama. Untuk informasi selengkapnya tentang laporan dan dasbor, lihat Laporan di Power BI dan Dasbor di Power BI.

Membersihkan sumber daya

Setelah Anda menyelesaikan tutorial, Anda dapat menghapus kluster. Dengan HDInsight, data Anda disimpan di Azure Storage, sehingga Anda dapat menghapus kluster dengan aman saat tidak digunakan. Anda juga dikenakan biaya untuk klaster HDInsight, bahkan saat tidak digunakan. Karena biaya untuk kluster berkali-kali lebih banyak daripada biaya untuk penyimpanan, masuk akal secara ekonomis untuk menghapus kluster saat tidak digunakan.

Untuk menghapus kluster, lihat Hapus kluster HDInsight menggunakan browser, PowerShell, atau Azure CLI Anda.

Langkah berikutnya

Dalam tutorial ini, Anda mempelajari cara menggunakan Microsoft Power BI untuk memvisualisasikan data dalam kluster Apache Spark di Azure HDInsight. Lanjutkan ke artikel berikutnya untuk melihat Anda dapat membuat aplikasi pembelajaran mesin.