Menyambungkan Excel ke Apache Hadoop menggunakan Power Query

Salah satu fitur utama solusi big data Microsoft adalah integrasi komponen kecerdasan bisnis (BI) Microsoft dengan kluster Apache Hadoop di Azure HDInsight. Contoh utama adalah kemampuan untuk menyambungkan Excel ke akun Azure Storage yang berisi data yang terkait dengan kluster Hadoop Anda menggunakan add-in Microsoft Power Query untuk Excel. Artikel ini memandu Anda dalam cara menyiapkan dan menggunakan Power Query untuk mengkueri data yang terkait dengan kluster Hadoop yang dikelola dengan HDInsight.

Prasyarat

  • Kluster Apache Hadoop di Microsoft Azure HDInsight. Lihat Mulai menggunakan Microsoft Azure HDInsight di Linux.
  • Stasiun kerja yang menjalankan Windows 10, 7, Windows Server 2008 R2, atau sistem operasi yang lebih baru.
  • Aplikasi Microsoft 365 untuk perusahaan, Office 2016, Office 2013 Professional Plus, Excel 2013 Mandiri, atau Office 2010 Professional Plus.

Memasang Microsoft Power Query

Power Query dapat mengimpor data yang telah berupa output atau yang telah dihasilkan oleh pekerjaan Hadoop yang berjalan pada kluster HDInsight.

Di Excel 2016, Power Query telah diintegrasikan ke dalam pita Data di bagian Dapatkan & Transformasi. Untuk versi Excel yang lebih lama, unduh Microsoft Power Query untuk Excel dari Pusat Unduhan Microsoft dan pasang.

Mengimpor data HDInsight ke Excel

Add-in Power Query untuk Excel memudahkan untuk mengimpor data dari kluster HDInsight Anda ke Excel, di mana alat BI seperti PowerPivot dan Power Map dapat digunakan untuk memeriksa, menganalisis, dan menyajikan data.

  1. Buka Excel.

  2. Membuat buku kerja kosong baru.

  3. Lakukan langkah-langkah berikut berdasarkan versi Excel:

    • Excel 2016

      • Pilih >Data>Dapatkan Data>Dari Azure>Dari Azure HDInsight(HDFS).

        HDI.PowerQuery.SelectHdiSource.2016.

    • Excel 2013/2010

      • Pilih Power Query>Dari Azure>Dari Microsoft Azure HDInsight.

        HDI.PowerQuery.SelectHdiSource.

        Catatan: Jika Anda tidak melihat menu Power Query, buka File>Pilihan>Add-in, dan pilih Add-in COM dari kotak Kelola dropdown di bagian bawah halaman. Pilih tombol Buka... dan verifikasi bahwa kotak untuk add-in Power Query untuk Excel telah dicentang.

        Catatan: Power Query juga memungkinkan Anda mengimpor data dari HDFS dengan memilih Dari Sumber Lain.

  4. Dari dialog Azure HDInsight (HDFS), dalam kotak teks Nama akun atau URL, masukkan nama akun penyimpanan Azure Blob yang terkait dengan kluster Anda. Kemudian pilih OK. Akun ini dapat menjadi akun penyimpanan default atau akun penyimpanan tertaut. Formatnya adalah https://StorageAccountName.blob.core.windows.net/.

  5. Untuk Key Akun, masukkan key untuk akun penyimpanan Blob, lalu pilih Sambungkan. (Anda hanya perlu memasukkan informasi akun saat pertama kali mengakses penyimpanan ini.)

  6. Di panel Navigator di sebelah kiri Editor Kueri, klik ganda nama kontainer penyimpanan Blob yang terkait dengan kluster Anda. Secara default, nama kontainer adalah nama yang sama dengan nama kluster.

  7. Temukan HiveSampleData.txt di kolom Nama (jalur folder adalah .. /hive/warehouse/hivesampletable/), kemudian pilih Binary di sebelah kiri HiveSampleData.txt. HiveSampleData.txt dilengkapi dengan semua kluster. Atau, Anda dapat menggunakan file Anda sendiri.

    HDI Excel power query import data.

  8. Jika perlu, Anda dapat mengganti nama kolom. Jika Anda sudah siap, pilih Tutup & Muat. Data telah dimuat ke buku kerja Anda:

    HDI Excel power query imported table.

Langkah berikutnya

Dalam artikel ini, Anda mempelajari cara menggunakan Power Query untuk mengambil data dari HDInsight ke Excel. Demikian pula, Anda dapat mengambil data dari HDInsight ke Azure SQL Database. Anda juga dapat mengunggah data ke HDInsight. Untuk mempelajari selengkapnya, lihat artikel berikut ini: