Buat kluster dengan Data Lake Storage Gen2 menggunakan Azure CLI
Untuk membuat kluster HDInsight yang menggunakan Data Lake Storage Gen2 untuk penyimpanan, ikuti langkah-langkah berikut.
Prasyarat
- Jika Anda tidak terbiasa dengan Azure Data Lake Storage Gen2, lihat bagian gambaran umum.
- Jika Anda belum memiliki akun Azure, daftar untuk mendapatkan akun gratis sebelum melanjutkan.
- Untuk menjalankan contoh skrip CLI, Anda memiliki tiga opsi:
- Gunakan Azure Cloud Shell dari portal Microsoft Azure (lihat bagian berikutnya).
- Gunakan Azure Cloud Shell yang disematkan melalui tombol “Coba”, yang terletak di sudut kanan atas setiap blok kode.
- Pasang versi terbaru Azure CLI (2.0.13 atau yang lebih baru) jika Anda lebih suka menggunakan konsol CLI lokal. Masuk ke Azure menggunakan
az login
, menggunakan akun yang terkait dengan langganan Azure di mana Anda ingin menyebarkan identitas terkelola yang ditetapkan pengguna. Azure CLI.
Azure Cloud Shell
Azure meng-hosting Azure Cloud Shell, lingkungan shell interaktif yang dapat Anda gunakan melalui browser. Anda dapat menggunakan Bash atau PowerShell dengan Cloud Shell untuk bekerja dengan layanan Azure. Anda dapat menggunakan perintah Cloud Shell yang telah diinstal sebelumnya untuk menjalankan kode dalam artikel ini tanpa harus menginstal apa-apa di lingkungan lokal Anda.
Untuk memulai Azure Cloud Shell:
Opsi | Contoh/Tautan |
---|---|
Pilih Coba di pojok kanan atas blok kode atau perintah. Memilih Coba tidak otomatis menyalin kode atau perintah ke Cloud Shell. | ![]() |
Buka https://shell.azure.com, atau pilih tombol Luncurkan Cloud Shell untuk membuka Cloud Shell di browser Anda. | ![]() |
Pilih tombol Cloud Shell pada bilah menu di kanan atas di portal Microsoft Azure. | ![]() |
Untuk menggunakan Azure Cloud Shell:
Mulai Cloud Shell.
Pilih tombol Salin pada blok kode (atau blok perintah) untuk menyalin kode atau perintah.
Tempel kode atau perintah ke dalam sesi Cloud Shell dengan memilih Ctrl+Shift+V di Windows dan Linux, atau dengan memilih Cmd+Shift+V di macOS.
Pilih Masukkan untuk menjalankan kode atau perintah.
Peringatan
Tagihan untuk kluster HDInsight dirata-rata per menit, baik Anda menggunakannya maupun tidak. Pastikan untuk menghapus kluster Anda setelah selesai menggunakannya. Lihat cara menghapus kluster HDInsight.
Anda dapat mengunduh file templat sampel dan mengunduh file parameter sampel. Sebelum menggunakan templat dan cuplikan kode Azure CLI di bawah ini, ganti placeholder berikut ini dengan nilai yang benar:
Placeholder | Deskripsi |
---|---|
<SUBSCRIPTION_ID> |
ID langganan Azure Anda |
<RESOURCEGROUPNAME> |
Grup sumber daya tempat Anda ingin membuat kluster dan akun penyimpanan baru. |
<MANAGEDIDENTITYNAME> |
Nama identitas terkelola yang akan diberikan izin pada akun penyimpanan Anda dengan Azure Data Lake Storage Gen2. |
<STORAGEACCOUNTNAME> |
Akun penyimpanan baru dengan Azure Data Lake Storage Gen2 yang akan dibuat. |
<FILESYSTEMNAME> |
Nama sistem file yang harus digunakan kluster ini di akun penyimpanan. |
<CLUSTERNAME> |
Nama kluster HDInsight Anda. |
<PASSWORD> |
Kata sandi yang Anda pilih untuk masuk ke kluster menggunakan SSH dan dasbor Ambari. |
Cuplikan kode di bawah ini melakukan langkah-langkah awal berikut:
- Masuk ke akun Azure Anda.
- Atur langganan aktif tempat operasi pembuatan akan dilakukan.
- Buat grup sumber daya baru untuk aktivitas penyebaran baru.
- Buat identitas terkelola yang ditetapkan pengguna.
- Menambahkan ekstensi ke Azure CLI untuk menggunakan fitur untuk Data Lake Storage Gen2.
- Membuat akun penyimpanan baru dengan Data Lake Storage Gen2 dengan menggunakan bendera
--hierarchical-namespace true
.
az login
az account set --subscription <SUBSCRIPTION_ID>
# Create resource group
az group create --name <RESOURCEGROUPNAME> --location eastus
# Create managed identity
az identity create -g <RESOURCEGROUPNAME> -n <MANAGEDIDENTITYNAME>
az extension add --name storage-preview
az storage account create --name <STORAGEACCOUNTNAME> \
--resource-group <RESOURCEGROUPNAME> \
--location eastus --sku Standard_LRS \
--kind StorageV2 --hierarchical-namespace true
Selanjutnya, masuk ke portal. Tambahkan identitas terkelola baru yang ditetapkan pengguna ke peran Pemilik Data Blob Penyimpanan di akun penyimpanan. Langkah ini dijelaskan pada langkah 3 pada Menggunakan portal Microsoft Azure.
Penting
Pastikan akun penyimpanan Anda memiliki identitas yang ditetapkan pengguna dengan izin peran Pemilik Data Blob Penyimpanan, jika tidak, pembuatan kluster akan gagal.
az deployment group create --name HDInsightADLSGen2Deployment \
--resource-group <RESOURCEGROUPNAME> \
--template-file hdinsight-adls-gen2-template.json \
--parameters parameters.json
Membersihkan sumber daya
Setelah Anda menyelesaikan artikel ini, Anda dapat menghapus kluster. Dengan HDInsight, data Anda disimpan di Azure Storage, sehingga Anda dapat menghapus kluster dengan aman saat tidak digunakan. Anda juga dikenakan biaya untuk kluster HDInsight, bahkan saat tidak digunakan. Karena biaya untuk kluster berkali-kali lebih banyak daripada biaya untuk penyimpanan, masuk akal secara ekonomis untuk menghapus kluster saat tidak digunakan.
Masukkan semua atau beberapa perintah berikut ini untuk menghapus sumber daya:
# Remove cluster
az hdinsight delete \
--name $clusterName \
--resource-group $resourceGroupName
# Remove storage container
az storage container delete \
--account-name $AZURE_STORAGE_ACCOUNT \
--name $AZURE_STORAGE_CONTAINER
# Remove storage account
az storage account delete \
--name $AZURE_STORAGE_ACCOUNT \
--resource-group $resourceGroupName
# Remove resource group
az group delete \
--name $resourceGroupName
Pecahkan masalah
Jika Anda mengalami masalah dengan pembuatan kluster HDInsight, lihat persyaratan kontrol akses.
Langkah berikutnya
Anda berhasil membuat kluster HDInsight. Sekarang pelajari cara menggunakan kluster Anda.
Kluster Apache Spark
- Kustomisasi kluster HDInsight berbasis Linux dengan menggunakan tindakan skrip
- Membuat aplikasi mandiri menggunakan Scala
- Jalankan pekerjaan dari jarak jauh pada kluster Apache Spark menggunakan Apache Livy
- Apache Spark dengan BI: Melakukan analisis data interaktif menggunakan Spark di HDInsight dengan alat BI
- Apache Spark dengan Pembelajaran Mesin: Menggunakan Spark di Microsoft Azure HDInsight untuk memprediksi hasil pemeriksaan makanan
Kluster Apache Hadoop
Kluster Apache HBase
Saran dan Komentar
https://aka.ms/ContentUserFeedback.
Segera hadir: Sepanjang tahun 2024 kami akan menghentikan penggunaan GitHub Issues sebagai mekanisme umpan balik untuk konten dan menggantinya dengan sistem umpan balik baru. Untuk mengetahui informasi selengkapnya, lihat:Kirim dan lihat umpan balik untuk