Menggunakan Data Lake Tools untuk Visual Studio untuk menyambungkan ke Azure HDInsight dan menjalankan kueri Apache Hive

Pelajari cara menggunakan Microsoft Azure Data Lake dan Stream Analytics Tools untuk Visual Studio (Data Lake Tools). Gunakan alat untuk menyambungkan ke kluster Apache Hadoop di Azure HDInsight dan mengirim kueri Apache Hive.

Untuk informasi selengkapnya tentang menggunakan HDInsight, lihat Mulai menggunakan HDInsight.

Anda dapat menggunakan Data Lake Tools untuk Visual Studio untuk mengakses Azure Data Lake Analytics dan HDInsight. Untuk informasi tentang Data Lake Tools, lihat Mengembangkan skrip U-SQL menggunakan Data Lake Tools untuk Visual Studio.

Prasyarat

Untuk menyelesaikan artikel ini dan menggunakan Data Lake Tools untuk Visual Studio, Anda memerlukan item berikut:

Menginstal Alat Data Lake untuk Visual Studio

Ikuti petunjuk yang sesuai untuk menginstal Data Lake Tools untuk versi Visual Studio Anda:

  • Untuk Visual Studio 2017 atau Visual Studio 2019:

    Selama penginstalan Visual Studio, pastikan Anda menyertakan beban kerja pengembangan Azure atau beban kerja penyimpanan dan pemrosesan data.

    Untuk penginstalan Visual Studio yang sudah ada, buka bilah menu IDE, dan pilih Alat>Dapatkan Alat dan Fitur untuk membuka Penginstal Visual Studio. Di tab Beban kerja, pilih setidaknya beban kerja Pengembangan Azure (di bagian Web & Cloud). Atau pilih beban kerja Penyimpanan dan Pemrosesan data (di bagian Alat Lainnya).

    Workload selection, Visual Studio Installer.

  • Untuk Visual Studio 2015:

    Unduh Data Lake Tools. Pilih versi Data Lake Tools yang cocok dengan versi Visual Studio Anda.

Memperbarui Data Lake Tools untuk Visual Studio

Selanjutnya, pastikan Anda memperbarui Data Lake Tools ke versi terbaru.

  1. Buka Visual Studio.

  2. Di jendela Mulai, pilih Lanjutkan tanpa kode.

  3. Di bilah menu IDE Visual Studio, pilih Ekstensi>Kelola Ekstensi.

  4. Dalam kotak dialog Kelola Ekstensi, perluas node Pembaruan.

  5. Jika daftar pembaruan yang tersedia menyertakan Azure Data Lake dan Stream Analytic Tools, pilih pembaruan tersebut. Kemudian pilih tombol Perbarui. Setelah kotak dialog Unduh dan Instal muncul dan menghilang, Visual Studio menambahkan ekstensi Azure Data Lake dan Stream Analytic Tools ke jadwal pembaruan.

  6. Tutup semua jendela Visual Studio. Kotak dialog Penginstall VSIX muncul.

  7. Pilih Lisensi untuk membaca ketentuan lisensi, lalu pilih Tutup untuk kembali ke kotak dialog Penginstall VSIX.

  8. Pilih Modifikasi. Instalasi pembaruan ekstensi dimulai. Setelah beberapa saat, kotak dialog berubah untuk menunjukkan bahwa modifikasi selesai dilakukan. Pilih Tutup, lalu mulai ulang Visual Studio untuk menyelesaikan instalasi.

Catatan

Anda hanya dapat menggunakan Data Lake Tools versi 2.3.0.0 atau yang lebih baru untuk menyambungkan ke kluster Interactive Query dan menjalankan kueri Apache Hive interaktif.

Menyambungkan ke langganan Azure

Anda dapat menggunakan Data Lake Tools untuk Visual Studio untuk menyambungkan ke kluster HDInsight, melakukan beberapa operasi manajemen dasar, dan menjalankan kueri Apache Hive.

Catatan

Untuk informasi tentang menyambungkan ke kluster Hadoop generik, lihat Cara menulis dan mengirimkan kueri Apache Hive menggunakan Visual Studio.

Menyambungkan ke langganan Azure

Untuk menyambungkan ke langganan Azure Anda:

  1. Buka Visual Studio.

  2. Di jendela Mulai, pilih Lanjutkan tanpa kode.

  3. Di bilah menu IDE, pilih Tampilan>Penjelajah Server.

  4. Di Penjelajah Server, klik kanan Azure, pilih Sambungkan ke Langganan Microsoft Azure, dan selesaikan proses autentikasi. Dari Penjelajah Server, perluas Azure>HDInsight untuk melihat daftar kluster HDInsight yang ada.

  5. Jika Anda tidak memiliki kluster apa pun, buat kluster dengan menggunakan portal Microsoft Azure, Azure PowerShell, atau SDK HDInsight. Untuk informasi selengkapnya, lihat Menyiapkan kluster di HDInsight.

    HDInsight cluster list, Server Explorer, Visual Studio.

  6. Memperluas kluster HDInsight. Kluster berisi node untuk Database Apache Hive. Kluster juga berisi akun penyimpanan default, akun penyimpanan tertaut tambahan, dan Log Layanan Hadoop. Anda dapat memperluas entitas lebih lanjut.

Setelah tersambung ke langganan Azure, Anda bisa melakukan tugas berikut ini.

Menyambungkan ke Azure dari Visual Studio

Untuk menyambungkan ke portal Microsoft Azure dari Visual Studio:

  1. Di Penjelajah Server, perluas Azure>HDInsight dan pilih kluster Anda.

  2. Klik kanan kluster HDInsight, dan pilih Kelola Kluster di portal Microsoft Azure.

Mengajukan pertanyaan dan umpan balik dari Visual Studio

Untuk mengajukan pertanyaan dan, atau memberikan masukan dari Visual Studio:

  1. Dari Penjelajah Server, pilih Azure>HDInsight.

  2. Klik kanan HDInsight dan pilih Forum MSDN untuk mengajukan pertanyaan, atau Berikan Umpan Balik untuk memberikan umpan balik.

Catatan

Saat ini, satu-satunya jenis kluster HDInsight yang dapat Anda tautkan adalah jenis Apache Hive.

Untuk menautkan kluster HDInsight:

  1. Klik kanan HDInsight, lalu pilih Tautkan Klaster HDInsight untuk menampilkan kotak dialog Tautkan Kluster HDInsight.

  2. Masukkan Url Koneksi dalam formulir https://CLUSTERNAME.azurehdinsight.net. Nama Kluster secara otomatis terisi dengan bagian nama kluster URL saat Anda membuka bidang lain. Kemudian masukkan Nama Pengguna dan Sandi, dan pilih Berikutnya.

    Link a cluster, HDInsight, Visual Studio.

  3. Pilih Selesai. Jika penautan kluster berhasil, kluster kemudian tercantum di bawah node HDInsight.

Untuk memperbarui kluster tertaut, klik kanan kluster dan pilih Edit. Anda kemudian dapat memperbarui informasi kluster.

Edit a linked cluster, HDInsight, Visual Studio.

Jelajahi sumber daya yang ditautkan

Dari Penjelajah Server, Anda dapat melihat akun penyimpanan default dan akun penyimpanan tertaut apa pun. Jika Anda memperluas akun penyimpanan default, Anda dapat melihat kontainer di akun penyimpanan. Akun penyimpanan default dan kontainer default ditandai.

Data Lake Tools for Visual Studio linked resources in Server Explorer.

Klik kanan kontainer dan pilih Tampilkan Kontainer untuk melihat konten kontainer. Setelah membuka kontainer, Anda dapat menggunakan tombol bilah alat untuk Refresh daftar konten, Unggah Blob, Hapus Blob yang dipilih, Buka Blob, dan unduh (Simpan Sebagai) blobs yang dipilih.

Container list and blob operations, HDInsight cluster, Visual Studio.

Menjalankan kueri Apache Hive interaktif

Apache Hive adalah infrastruktur gudang data yang dibangun di Hadoop. Apache Hive digunakan untuk meringkas, mengkueri, dan menganalisis data. Anda dapat menggunakan Data Lake Tools untuk Visual Studio untuk menjalankan kueri Apache Hive dari Visual Studio. Untuk informasi selengkapnya tentang Apache Hive, lihat Apa itu Apache Hive dan HiveQL di Azure HDInsight?.

Kueri Interaktif di Azure HDInsight menggunakan Hive pada LLAP di Apache Hive 2.1. Kueri Interaktif menghadirkan interaktivitas ke kueri bergaya gudang data yang kompleks pada himpunan data besar yang disimpan. Menjalankan kueri Apache Hive pada Kueri Interaktif jauh lebih cepat daripada pekerjaan batch Apache Hive tradisional.

Catatan

Anda dapat menjalankan kueri Apache Hive interaktif hanya saat menyambungkan ke kluster Interactive Query HDInsight.

Anda juga dapat menggunakan Data Lake Tools untuk Visual Studio untuk melihat apa yang ada di dalam pekerjaan Apache Hive. Data Lake Tools untuk Visual Studio mengumpulkan dan memunculkan log Yarn dari pekerjaan Apache Hive tertentu.

Di Penjelajah Server, pilih Azure>HDInsight dan pilih kluster Anda. Node ini adalah titik awal di Penjelajah Server untuk bagian-bagian selanjutnya.

Lihat hivesampletable

Semua kluster HDInsight memiliki contoh default tabel Apache Hive yang disebut hivesampletable.

Dari kluster Anda, pilih Database Apache Hive>default>hivesampletable.

  • Untuk melihat skema hivesampletable:

    Perluas hivesampletable. Nama dan tipe data kolom hivesampletable diperlihatkan.

  • Untuk menampilkan data hivesampletable:

    Klik kanan hivesampletable, dan pilih Tampilkan 100 Baris Teratas. Daftar 100 hasil muncul di jendela Tabel Apache Hive: hivesampletable. Tindakan ini setara dengan menjalankan kueri Apache Hive berikut dengan menggunakan driver ODBC Apache Hive:

    SELECT * FROM hivesampletable LIMIT 100

    Anda bisa mengkustomisasi jumlah baris dengan mengubah Jumlah baris; Anda dapat memilih 50, 100, 200, atau 1000 baris dari daftar tarik-turun.

Membuat tabel Apache Hive

Untuk membuat tabel Apache Hive, Anda bisa menggunakan GUI atau Anda bisa menggunakan kueri Apache Hive. Untuk informasi menggunakan kueri Apache Hive, lihat Membuat dan menjalankan kueri Apache Hive.

  1. Dari kluster Anda, pilih Database Apache Hive>default.

  2. Klik kanan default, dan pilih Buat Tabel.

  3. Konfigurasikan tabel.

  4. Pilih tombol Buat Tabel untuk mengirimkan tugas, yang membuat tabel Apache Hive baru.

    Create Table window, Hive, HDInsight cluster, Visual Studio.

Membuat dan menjalankan kueri Apache Hive

Anda memiliki dua opsi untuk membuat dan menjalankan kueri Hive:

  • Membuat kueri ad-hoc
  • Buat aplikasi Hive

Membuat kueri ad-hoc

Untuk membuat dan menjalankan kueri ad-hoc:

  1. Klik kanan kluster tempat Anda ingin menjalankan kueri, dan pilih Tulis Kueri Apache Hive.

  2. Masukkan kueri Apache Hive.

    Editor Apache Hive mendukung IntelliSense. Data Lake Tools untuk Visual Studio mendukung pemuatan metadata jarak jauh saat Anda mengedit skrip Apache Hive. Misalnya, jika Anda mengetik SELECT * FROM, IntelliSense mencantumkan semua nama tabel yang disarankan. Saat nama tabel ditentukan, IntelliSense mencantumkan nama kolom. Alat-alat ini mendukung sebagian besar pernyataan DML Apache Hive, subkueri, dan UDF bawaan.

    IntelliSense example 1, Hive ad-hoc query, HDInsight cluster, Visual Studio.

    IntelliSense example 2, Hive ad-hoc query, HDInsight cluster, Visual Studio.

    Catatan

    IntelliSense hanya menyarankan metadata kluster yang dipilih di bilah alat HDInsight.

    Berikut adalah contoh kueri yang bisa Anda gunakan:

    SELECT devicemodel, COUNT(devicemodel) AS deviceCount
    FROM hivesampletable
    GROUP BY devicemodel
    ORDER BY devicemodel
    
  3. Pilih mode eksekusi:

    • Interaktif

      Di daftar tarik-turun pertama, pilih Interaktif, lalu pilih Eksekusi.

      Interactive mode, Hive ad-hoc query, HDInsight cluster, Visual Studio.

    • Batch

      Di daftar tarik-turun pertama, pilih Batch, lalu pilih Kirim. Atau pilih ikon tarik-turun di samping Kirim dan pilih Tingkat Lanjut.

      Batch mode, Hive ad-hoc query, HDInsight cluster, Visual Studio.

      Jika Anda memilih opsi kirim tingkat lanjut, kotak dialog Kirim Skrip akan muncul. Mengonfigurasi Nama Pekerjaan, Argumen, Konfigurasi Tambahan, dan Direktori Status untuk skrip.

      Submit Script dialog box, Hive ad-hoc query, HDInsight cluster, Visual Studio.

      Catatan

      Anda tidak dapat mengirimkan batch ke kluster Kueri Interaktif. Anda harus menggunakan mode interaktif.

Buat aplikasi Hive

Untuk membuat dan menjalankan solusi Apache Hive:

  1. Dari bilah menu, pilih File>Proyek>Baru.

  2. Di jendela Buat proyek baru, pilih kotak pencarian dan ketik Apache Hive. Lalu pilih Aplikasi Hive dan pilih Berikutnya.

  3. Di jendela Konfigurasikan proyek baru Anda, masukkan nama Proyek, pilih atau buat Lokasi proyek, lalu pilih Buat.

    New Hive application, Configure your new project window, HDInsight Visual Studio.

  4. Di Penjelajah Solusi, klik dua kali Script.hql untuk membuka skrip.

Melihat ringkasan dan output pekerjaan

Ringkasan pekerjaan sedikit bervariasi antara mode Batch dan Interaktif.

Hive job summary windows, batch and interactive mode, Visual Studio.

Gunakan ikon Refresh untuk memperbarui status hingga status tugas berubah menjadi Selesai.

  • Untuk detail pekerjaan dari mode Batch, pilih tautan di bagian bawah untuk melihat Kueri Pekerjaan, Output Pekerjaan, atau Log Pekerjaan, atau untuk Menampilkan Log Yarn.

  • Untuk detail pekerjaan dari mode Interaktif, lihat panel Output dan Output HiveServer2.

    Hive interactive job output, HDInsight cluster, Visual Studio.

Lihat grafik pekerjaan

Saat ini, grafik pekerjaan hanya ditampilkan untuk pekerjaan Apache Hive yang menggunakan Tez sebagai mesin eksekusi. Untuk informasi tentang mengaktifkan Tez, lihat Apa itu Apache Hive dan HiveQL di Azure HDInsight?. Lihat juga, Gunakan Apache Tez alih-alih Pengurangan Peta.

Untuk menampilkan semua operator di dalam puncak, klik dua kali pada puncak grafik pekerjaan. Anda juga dapat mengarahkan ke operator tertentu untuk melihat detail selengkapnya tentang operator tersebut.

Bahkan jika Tez ditentukan sebagai mesin eksekusi, grafik pekerjaan mungkin tidak muncul jika tidak ada aplikasi Tez yang diluncurkan. Situasi ini mungkin terjadi karena pekerjaan tidak berisi pernyataan DML. Atau karena pernyataan DML dapat kembali tanpa meluncurkan aplikasi Tez. Misalnya, SELECT * FROM table1 tidak akan meluncurkan aplikasi Tez.

Apache Hive job graph, Visual Studio.

Menampilkan detail eksekusi tugas

Dari grafik pekerjaan, Anda dapat memilih Detail Eksekusi Tugas untuk mendapatkan informasi terstruktur dan dikontrol untuk pekerjaan Apache Hive. Anda juga mungkin mendapatkan detail pekerjaan lebih lanjut. Jika masalah performa terjadi, Anda dapat menggunakan tampilan untuk mendapatkan detail selengkapnya tentang masalah ini. Misalnya, Anda dapat mengambil informasi bagaimana setiap tugas beroperasi dan informasi terperinci tentang setiap tugas (membaca/menulis data, menjadwalkan/memulai/mengakhiri waktu, dan lainnya). Gunakan informasi tersebut untuk menyelaraskan konfigurasi pekerjaan atau arsitektur sistem berdasarkan informasi yang dikontrol.

Task Execution View window, Data Lake Visual Studio Tools.

Menampilkan Pekerjaan Apache Hive

Anda dapat menampilkan kueri pekerjaan, output pekerjaan, log pekerjaan, dan log Yarn untuk pekerjaan Apache Hive.

Pada perilisan terbaru alat tersebut, Anda dapat melihat apa yang ada di dalam pekerjaan Apache Hive dengan mengumpulkan dan memunculkan log Yarn. Log Yarn dapat membantu Anda menyelidiki masalah performa. Untuk informasi selengkapnya tentang cara HDInsight mengumpulkan log Yarn, lihat Mengakses log aplikasi YARN Apache Hadoop.

Untuk menampilkan pekerjaan Apache Hive:

  1. Klik kanan kluster HDInsight, dan pilih Tampilkan Pekerjaan.

    View Jobs, Apache Hive, HDInsight cluster, Visual Studio.

    Daftar pekerjaan Apache Hive yang berjalan di kluster muncul.

  2. Pilih pekerjaan. Pada jendela Ringkasan Pekerjaan Apache Hive, pilih salah satu link berikut:

    • Kueri Pekerjaan
    • Output Pekerjaan
    • Log Pekerjaan
    • Log Yarn

Menjalankan skrip Apache Pig

  1. Dari bilah menu, pilih File>Proyek>Baru.

  2. Di jendela Mulai, pilih kotak pencarian dan masukkan Pig. Kemudian pilih Aplikasi Pig dan pilih Berikutnya.

  3. Di jendela Konfigurasikan proyek baru Anda, masukkan Nama proyek, dan pilih atau buat Lokasi untuk proyek tersebut. Lalu pilih Buat.

  4. Di panel IDE Penjelajah Solusi, klik ganda Script.pig untuk membuka skrip.

Umpan balik dan masalah yang diketahui

  • Masalah pada hasil yang diawali dengan 'nilai null tidak ditampilkan' telah diperbaiki. Jika Anda diblokir atas masalah ini, hubungi tim dukungan.

  • Skrip HQL yang dibuat Visual Studio dikodekan, bergantung pada pengaturan wilayah lokal pengguna. Skrip tidak dijalankan dengan benar jika Anda mengunggah skrip ke kluster sebagai file biner.

Langkah berikutnya

Dalam artikel ini, Anda mempelajari cara menggunakan paket Alat Data Lake untuk Visual Studio guna menyambungkan ke kluster HDInsight dari Visual Studio. Anda juga mempelajari cara menjalankan kueri Apache Hive.