Bagikan melalui


Buat kluster dengan Data Lake Storage Gen2 menggunakan Azure CLI

Untuk membuat kluster HDInsight yang menggunakan Data Lake Storage Gen2 untuk penyimpanan, ikuti langkah-langkah berikut.

Prasyarat

  • Jika Anda tidak terbiasa dengan Azure Data Lake Storage Gen2, lihat bagian gambaran umum.
  • Jika Anda belum memiliki akun Azure, daftar untuk mendapatkan akun gratis sebelum melanjutkan.
  • Untuk menjalankan contoh skrip CLI, Anda memiliki tiga opsi:
    • Gunakan Azure Cloud Shell dari portal Microsoft Azure (lihat bagian berikutnya).
    • Gunakan Azure Cloud Shell yang disematkan melalui tombol “Coba”, yang terletak di sudut kanan atas setiap blok kode.
    • Pasang versi terbaru Azure CLI (2.0.13 atau yang lebih baru) jika Anda lebih suka menggunakan konsol CLI lokal. Masuk ke Azure menggunakan az login, menggunakan akun yang terkait dengan langganan Azure di mana Anda ingin menyebarkan identitas terkelola yang ditetapkan pengguna. Azure CLI.

Azure Cloud Shell

Azure meng-hosting Azure Cloud Shell, lingkungan shell interaktif yang dapat Anda gunakan melalui browser. Anda dapat menggunakan Bash atau PowerShell dengan Cloud Shell untuk bekerja dengan layanan Azure. Anda dapat menggunakan perintah Cloud Shell yang telah diinstal sebelumnya untuk menjalankan kode dalam artikel ini tanpa harus menginstal apa-apa di lingkungan lokal Anda.

Untuk memulai Azure Cloud Shell:

Opsi Contoh/Tautan
Pilih Coba di pojok kanan atas blok kode atau perintah. Memilih Coba tidak otomatis menyalin kode atau perintah ke Cloud Shell. Cuplikan layar yang menunjukkan contoh Try It for Azure Cloud Shell.
Buka https://shell.azure.com, atau pilih tombol Luncurkan Cloud Shell untuk membuka Cloud Shell di browser Anda. Tombol untuk meluncurkan Azure Cloud Shell.
Pilih tombol Cloud Shell pada bilah menu di kanan atas di portal Microsoft Azure. Cuplikan layar yang menunjukkan tombol Cloud Shell di portal Azure

Untuk menggunakan Azure Cloud Shell:

  1. Mulai Cloud Shell.

  2. Pilih tombol Salin pada blok kode (atau blok perintah) untuk menyalin kode atau perintah.

  3. Tempel kode atau perintah ke dalam sesi Cloud Shell dengan memilih Ctrl+Shift+V di Windows dan Linux, atau dengan memilih Cmd+Shift+V di macOS.

  4. Pilih Masukkan untuk menjalankan kode atau perintah.

Peringatan

Tagihan untuk kluster HDInsight dirata-rata per menit, baik Anda menggunakannya maupun tidak. Pastikan untuk menghapus kluster Anda setelah selesai menggunakannya. Lihat cara menghapus kluster HDInsight.

Anda dapat mengunduh file templat sampel dan mengunduh file parameter sampel. Sebelum menggunakan templat dan cuplikan kode Azure CLI di bawah ini, ganti placeholder berikut ini dengan nilai yang benar:

Placeholder Deskripsi
<SUBSCRIPTION_ID> ID langganan Azure Anda
<RESOURCEGROUPNAME> Grup sumber daya tempat Anda ingin membuat kluster dan akun penyimpanan baru.
<MANAGEDIDENTITYNAME> Nama identitas terkelola yang akan diberikan izin pada akun penyimpanan Anda dengan Azure Data Lake Storage Gen2.
<STORAGEACCOUNTNAME> Akun penyimpanan baru dengan Azure Data Lake Storage Gen2 yang akan dibuat.
<FILESYSTEMNAME> Nama sistem file yang harus digunakan kluster ini di akun penyimpanan.
<CLUSTERNAME> Nama kluster HDInsight Anda.
<PASSWORD> Kata sandi yang Anda pilih untuk masuk ke kluster menggunakan SSH dan dasbor Ambari.

Cuplikan kode di bawah ini melakukan langkah-langkah awal berikut:

  1. Masuk ke akun Azure Anda.
  2. Atur langganan aktif tempat operasi pembuatan akan dilakukan.
  3. Buat grup sumber daya baru untuk aktivitas penyebaran baru.
  4. Buat identitas terkelola yang ditetapkan pengguna.
  5. Menambahkan ekstensi ke Azure CLI untuk menggunakan fitur untuk Data Lake Storage Gen2.
  6. Membuat akun penyimpanan baru dengan Data Lake Storage Gen2 dengan menggunakan bendera --hierarchical-namespace true.
az login
az account set --subscription <SUBSCRIPTION_ID>

# Create resource group
az group create --name <RESOURCEGROUPNAME> --location eastus

# Create managed identity
az identity create -g <RESOURCEGROUPNAME> -n <MANAGEDIDENTITYNAME>

az extension add --name storage-preview

az storage account create --name <STORAGEACCOUNTNAME> \
    --resource-group <RESOURCEGROUPNAME> \
    --location eastus --sku Standard_LRS \
    --kind StorageV2 --hierarchical-namespace true

Selanjutnya, masuk ke portal. Tambahkan identitas terkelola baru yang ditetapkan pengguna ke peran Pemilik Data Blob Penyimpanan di akun penyimpanan. Langkah ini dijelaskan pada langkah 3 pada Menggunakan portal Microsoft Azure.

Penting

Pastikan akun penyimpanan Anda memiliki identitas yang ditetapkan pengguna dengan izin peran Pemilik Data Blob Penyimpanan, jika tidak, pembuatan kluster akan gagal.

az deployment group create --name HDInsightADLSGen2Deployment \
    --resource-group <RESOURCEGROUPNAME> \
    --template-file hdinsight-adls-gen2-template.json \
    --parameters parameters.json

Membersihkan sumber daya

Setelah Anda menyelesaikan artikel ini, Anda dapat menghapus kluster. Dengan HDInsight, data Anda disimpan di Azure Storage, sehingga Anda dapat menghapus kluster dengan aman saat tidak digunakan. Anda juga dikenakan biaya untuk kluster HDInsight, bahkan saat tidak digunakan. Karena biaya untuk kluster berkali-kali lebih banyak daripada biaya untuk penyimpanan, masuk akal secara ekonomis untuk menghapus kluster saat tidak digunakan.

Masukkan semua atau beberapa perintah berikut ini untuk menghapus sumber daya:

# Remove cluster
az hdinsight delete \
    --name $clusterName \
    --resource-group $resourceGroupName

# Remove storage container
az storage container delete \
    --account-name $AZURE_STORAGE_ACCOUNT \
    --name $AZURE_STORAGE_CONTAINER

# Remove storage account
az storage account delete \
    --name $AZURE_STORAGE_ACCOUNT \
    --resource-group $resourceGroupName

# Remove resource group
az group delete \
    --name $resourceGroupName

Pecahkan masalah

Jika Anda mengalami masalah dengan pembuatan kluster HDInsight, lihat persyaratan kontrol akses.

Langkah berikutnya

Anda berhasil membuat kluster HDInsight. Sekarang pelajari cara menggunakan kluster Anda.

Kluster Apache Spark

Kluster Apache Hadoop

Kluster Apache HBase