Membuat kluster HDInsight dengan Azure Data Lake Storage Gen1 dengan menggunakan portal Microsoft Azure

Pelajari cara menggunakan portal Microsoft Azure untuk membuat kluster HDInsight dengan Azure Data Lake Storage Gen1 sebagai penyimpanan default atau penyimpanan tambahan. Meskipun penyimpanan tambahan bersifat opsional untuk kluster HDInsight, disarankan untuk menyimpan data bisnis Anda di akun penyimpanan tambahan.

Prasyarat

Sebelum memulai, pastikan Anda telah memenuhi persyaratan berikut:

  • Langganan Azure. Lihat Mendapatkan coba gratis Azure.
  • Akun Azure Data Lake Storage Gen1. Ikuti petunjuk darii Mulai menggunakan Azure Data Lake Storage Gen1 dengan menggunakan portal Microsoft Azure. Anda juga harus membuat folder akar pada akun. Dalam artikel ini, folder akar yang disebut /cluster digunakan.
  • perwakilan layanan Microsoft Entra. Panduan cara penggunaan ini memberikan instruksi tentang cara membuat perwakilan layanan di Microsoft Entra ID. Namun, untuk membuat perwakilan layanan, Anda harus menjadi administrator Microsoft Entra. Jika Anda seorang administrator, Anda dapat melewati prasyarat ini dan melanjutkan.

Catatan

Anda dapat membuat perwakilan layanan hanya jika Anda adalah administrator Microsoft Entra. Administrator Microsoft Entra Anda harus membuat perwakilan layanan sebelum Anda dapat membuat kluster HDInsight dengan Data Lake Storage Gen1. Selain itu, perwakilan layanan harus dibuat dengan sertifikat, seperti yang dijelaskan di Membuat perwakilan layanan dengan sertifikat.

Membuat kluster HDInsight

Di bagian ini, Anda membuat kluster HDInsight dengan Data Lake Storage Gen1 sebagai penyimpanan default atau tambahan. Artikel ini hanya berfokus pada bagian konfigurasi Data Lake Storage Gen1. Untuk informasi dan prosedur pembuatan kluster umum, lihat Membuat kluster Hadoop di HDInsight.

Membuat kluster dengan Data Lake Storage Gen1 sebagai penyimpanan default

Untuk membuat kluster HDInsight dengan Data Lake Storage Gen1 sebagai akun penyimpanan default:

  1. Masuk ke portal Microsoft Azure.

  2. Ikuti Buat kluster untuk informasi umum tentang cara membuat kluster HDInsight.

  3. Pada panel Penyimpanan, di bawah Jenis penyimpanan utama, pilih Azure Data Lake Storage Gen1, lalu masukkan informasi berikut ini:

    Pengaturan akun penyimpanan HDInsight

    • Pilih akun Data Lake Store: Pilih akun Data Lake Storage Gen1 yang ada. Akun Data Lake Storage Gen1 yang ada diperlukan. Lihat Prasyarat.
    • Jalur akar: Masukkan jalur tempat file khusus kluster disimpan. Pada cuplikan layar, itu adalah /clusters/myhdiadlcluster/ , di mana folder /clusters harus ada, dan Portal membuat folder myhdicluster. myhdicluster adalah nama kluster.
    • Akses Data Lake Store: Mengonfigurasi akses antara akun Data Lake Storage Gen1 dan kluster HDInsight. Untuk mengetahui petunjuknya, lihat Mengonfigurasi akses Data Lake Storage Gen1.
    • Akun penyimpanan tambahan: Tambahkan akun penyimpanan Azure sebagai akun penyimpanan tambahan untuk kluster tersebut. Untuk menambahkan akun Data Lake Storage Gen1 tambahan dilakukan dengan memberikan izin kluster pada data di lebih banyak akun Data Lake Storage Gen1 sambil mengonfigurasi akun Data Lake Storage Gen1 sebagai jenis penyimpanan utama. Lihat Mengonfigurasi akses Data Lake Storage Gen1.
  4. Pada akses Data Lake Store, klik Pilih, lalu lanjutkan dengan pembuatan kluster seperti yang dijelaskan di Membuat kluster Hadoop di HDInsight.

Membuat kluster dengan Data Lake Storage Gen1 sebagai penyimpanan tambahan

Petunjuk berikut membuat kluster HDInsight dengan akun penyimpanan Azure Blob sebagai penyimpanan default, dan akun penyimpanan dengan Data Lake Storage Gen1 sebagai penyimpanan tambahan.

Untuk membuat klaster HDInsight dengan Data Lake Storage Gen1 sebagai akun penyimpanan tambahan:

  1. Masuk ke portal Microsoft Azure.

  2. Ikuti Buat kluster untuk informasi umum tentang cara membuat kluster HDInsight.

  3. Pada panel Penyimpanan, di bawah Jenis penyimpanan utama, pilih Azure Storage, lalu masukkan informasi berikut ini:

    Penyimpanan tambahan pengaturan akun penyimpanan HDInsight

    • Metode pemilihan - Untuk menentukan akun penyimpanan yang merupakan bagian dari langganan Azure Anda, pilih Langganan saya, lalu pilih akun penyimpanan. Untuk menentukan akun penyimpanan yang berada di luar langganan Azure Anda, pilih Tombol akses, lalu berikan informasi untuk akun penyimpanan luar.

    • Kontainer default - Gunakan nilai default atau tentukan nama Anda sendiri.

    • Akun penyimpanan tambahan - Tambahkan lebih banyak akun penyimpanan Azure sebagai penyimpanan tambahan.

    • Akses Data Lake Store: Konfigurasi akses antara akun Data Lake Storage Gen1 dan kluster HDInsight. Untuk mengetahui petunjuknya, lihat Mengonfigurasi akses Data Lake Storage Gen1.

Mengonfigurasi akses Data Lake Storage Gen1

Di bagian ini, Anda mengonfigurasi akses Data Lake Storage Gen1 dari kluster HDInsight menggunakan perwakilan layanan Microsoft Entra.

Menentukan perwakilan layanan

Dari portal Microsoft Azure, Anda dapat menggunakan perwakilan layanan yang sudah ada atau membuat yang baru.

Untuk membuat perwakilan layanan dari portal Microsoft Azure:

  1. Lihat Membuat Perwakilan Layanan dan Sertifikat menggunakan Microsoft Entra ID.

Untuk menggunakan perwakilan layanan yang sudah ada dari portal Microsoft Azure:

  1. Perwakilan Layanan harus memiliki izin pemilik di akun Penyimpanan. Lihat Menyiapkan izin untuk Perwakilan Layanan agar menjadi pemilik di akun penyimpanan.

  2. Pilih akses Data Lake Store.

  3. Pada panel Akses Data Lake Storage Gen1, pilih Gunakan akses yang sudah ada.

  4. Pilih Perwakilan layanan, lalu pilih perwakilan layanan.

  5. Unggah sertifikat (file.pfx) yang terkait dengan perwakilan layanan yang Anda pilih, lalu masukkan kata sandi sertifikat.

    Tambahkan perwakilan layanan ke kluster HDInsight

  6. Pilih Akses untuk mengonfigurasi akses folder. Lihat Mengonfigurasi izin file.

Menyiapkan izin untuk Perwakilan Layanan agar menjadi pemilik di akun penyimpanan

  1. Pada panel Kontrol Akses (IAM) akun penyimpanan, klik Tambahkan penetapan peran.
  2. Pada panel Tambahkan penetapan peran, pilih Peran sebagai 'pemilik', dan pilih SPN dan klik simpan.

Mengonfigurasi izin file

Konfigurasinya berbeda tergantung pada apakah akun digunakan sebagai penyimpanan default atau akun penyimpanan tambahan:

  • Digunakan sebagai penyimpanan default

    • izin di tingkat akar akun Data Lake Storage Gen1
    • izin di tingkat akar penyimpanan kluster HDInsight. Misalnya, folder /clusters yang digunakan sebelumnya dalam tutorial.
  • Gunakan sebagai penyimpanan tambahan

    • Izin di folder tempat Anda memerlukan akses file.

Untuk menetapkan izin di akun penyimpanan dengan Data Lake Storage Gen1 di tingkat root:

  1. Pada panel Akses Data Lake Storage Gen1, pilih Akses. Panel Pilih izin file dibuka. Ini mencantumkan semua akun penyimpanan di langganan Anda.

  2. Arahkan (jangan klik) mouse di atas nama akun dengan Data Lake Storage Gen1 untuk membuat kotak centang terlihat, lalu pilih kotak centang.

    Pilih izin file

    Secara default, BACA, TULIS, DAN EKSEKUSI semuanya dipilih.

  3. Klik Pilih di bagian bawah halaman.

  4. Pilih Jalankan untuk menetapkan izin.

  5. Pilih Selesai.

Untuk menetapkan izin di tingkat akar kluster HDInsight:

  1. Pada panel Akses Data Lake Storage Gen1, pilih Akses. Panel Pilih izin file dibuka. Ini mencantumkan semua akun penyimpanan dengan Data Lake Storage Gen1 di langganan Anda.
  2. Dari panel Pilih izin file, pilih akun penyimpanan dengan nama Data Lake Storage Gen1 untuk menampilkan kontennya.
  3. Pilih akar penyimpanan kluster HDInsight dengan memilih kotak centang di sebelah kiri folder. Menurut cuplikan layar sebelumnya, akar penyimpanan kluster adalah folder /cluster yang Anda tentukan saat memilih Data Lake Storage Gen1 sebagai penyimpanan default.
  4. Atur izin pada folder. Secara default, baca, tulis, dan eksekusi semuanya dipilih.
  5. Klik Pilih di bagian bawah halaman.
  6. Pilih Jalankan.
  7. Pilih Selesai.

Jika Anda menggunakan Data Lake Storage Gen1 sebagai penyimpanan tambahan, Anda harus menetapkan izin hanya untuk folder yang ingin Anda akses dari kluster HDInsight. Misalnya, pada cuplikan layar di bawah ini, Anda hanya menyediakan akses ke folder mynewfolder di akun penyimpanan dengan Data Lake Storage Gen1.

Menetapkan izin perwakilan layanan ke kluster HDInsight

Verifikasi penyiapan kluster

Setelah penyiapan kluster selesai, pada panel kluster, verifikasi hasil Anda dengan melakukan salah satu atau kedua langkah berikut:

  • Untuk memverifikasi bahwa penyimpanan terkait untuk kluster adalah akun dengan Data Lake Storage Gen1 yang Anda tentukan, pilih Akun penyimpanan di panel kiri.

    Memverifikasi penyimpanan terkait

  • Untuk memverifikasi bahwa perwakilan layanan dikaitkan dengan benar dengan kluster HDInsight, pilih akses Data Lake Storage Gen1 di panel kiri.

    Verifikasi perwakilan layanan

Contoh

Setelah Anda menyiapkan kluster dengan Data Lake Storage Gen1 sebagai penyimpanan Anda, lihat contoh cara menggunakan kluster HDInsight ini untuk menganalisis data yang disimpan dalam Data Lake Storage Gen1.

Menjalankan kueri Apache Hive terhadap data dalam Data Lake Storage Gen1 (sebagai penyimpanan utama)

Untuk menjalankan kueri Apache Hive, gunakan antarmuka tampilan Apache Hive di portal Ambari. Untuk petunjuk tentang cara menggunakan tampilan Ambari Hive, lihat Menggunakan Tampilan Apache Hive dengan Hadoop di HDInsight.

Saat Anda bekerja dengan data di Data Lake Storage Gen1, ada beberapa string yang akan diubah.

Jika Anda menggunakan, misalnya, kluster yang Anda buat dengan Data Lake Storage Gen1 sebagai penyimpanan utama, jalur ke data adalah: adl://< data_lake_storage_gen1_account_name>/azuredatalakestore.net/path/to/file. Kueri Apache Hive untuk membuat tabel dari contoh data yang disimpan di Data Lake Storage Gen1 terlihat seperti pernyataan berikut:

CREATE EXTERNAL TABLE websitelog (str string) LOCATION 'adl://hdiadlsg1storage.azuredatalakestore.net/clusters/myhdiadlcluster/HdiSamples/HdiSamples/WebsiteLogSampleData/SampleLog/'

Deskripsi:

  • adl://hdiadlsg1storage.azuredatalakestore.net/ adalah akar akun dengan Data Lake Storage Gen1.
  • /clusters/myhdiadlcluster adalah akar dari data kluster yang Anda tentukan saat membuat kluster.
  • /HdiSamples/HdiSamples/WebsiteLogSampleData/SampleLog/ adalah lokasi contoh file yang Anda gunakan dalam kueri.

Menjalankan kueri Apache Hive terhadap data dalam Data Lake Storage Gen1 (sebagai penyimpanan tambahan)

Jika kluster yang Anda buat menggunakan penyimpanan Blob sebagai penyimpanan default, data sampel tidak terkandung dalam akun penyimpanan dengan Data Lake Storage Gen1 yang digunakan sebagai penyimpanan tambahan. Dalam kasus seperti itu, pertama-tama transfer data dari penyimpanan Blob ke akun penyimpanan dengan Data Lake Storage Gen1, lalu jalankan kueri seperti yang ditunjukkan dalam contoh sebelumnya.

Untuk informasi tentang cara menyalin data dari penyimpanan Blob ke akun penyimpanan dengan Data Lake Storage Gen1, lihat artikel berikut ini:

Menggunakan Data Lake Storage Gen1 dengan kluster Spark

Anda dapat menggunakan kluster Spark untuk menjalankan pekerjaan Spark pada data yang disimpan dalam Data Lake Storage Gen1. Untuk informasi selengkapnya, lihat Menggunakan kluster HDInsight Spark untuk menganalisis data di Data Lake Storage Gen1.

Menggunakan Data Lake Storage Gen1 dalam topologi Storm

Lihat juga