Mulai cepat: Membuat kluster Apache Spark di Azure HDInsight menggunakan Azure CLI
Dalam panduan memulai ini, Anda akan mempelajari cara membuat kluster Apache Spark di Azure HDInsight menggunakan Azure CLI. Azure HDInsight merupakan layanan analitik sumber terbuka terkelola dengan spektrum penuh untuk perusahaan. Kerangka kerja Apache Spark untuk HDInsight memungkinkan analitik data dan komputasi kluster yang cepat menggunakan pemrosesan dalam memori. Azure CLI adalah pengalaman baris perintah lintas platform Microsoft untuk mengelola sumber daya Azure.
Jika Anda menggunakan beberapa kluster bersama-sama, Anda dapat membuat jaringan virtual, dan jika Anda menggunakan kluster Spark, Anda dapat menggunakan Koneksi or Gudang Apache Hive. Untuk informasi selengkapnya, lihat Merencanakan jaringan virtual untuk Azure HDInsight dan Mengintegrasikan Apache Spark dan Apache Hive dengan Hive Warehouse Connector.
Jika Anda tidak memiliki Langganan Azure, buat Akun gratis Azure sebelum memulai.
Prasyarat
Gunakan lingkungan Bash di Azure Cloud Shell. Untuk informasi selengkapnya, lihat Mulai Cepat untuk Bash di Azure Cloud Shell.
Jika Anda lebih suka menjalankan perintah referensi CLI secara lokal, instal Azure CLI. Jika Anda menjalankan Windows atau macOS, pertimbangkan untuk menjalankan Azure CLI dalam kontainer Docker. Untuk informasi lebih lanjut, lihat Cara menjalankan Azure CLI di kontainer Docker.
Jika Anda menggunakan instalasi lokal, masuk ke Azure CLI dengan menggunakan perintah login az. Untuk menyelesaikan proses autentikasi, ikuti langkah-langkah yang ditampilkan di terminal Anda. Untuk opsi masuk lainnya, lihat Masuk dengan Azure CLI.
Saat Anda diminta, instal ekstensi Azure CLI pada penggunaan pertama. Untuk informasi selengkapnya tentang ekstensi, lihat Menggunakan ekstensi dengan Azure CLI.
Jalankan versi az untuk menemukan versi dan pustaka dependen yang diinstal. Untuk meningkatkan ke versi terbaru, jalankan peningkatan az.
Membuat kluster Apache Spark
Masuk ke langganan Azure Anda. Jika Anda berencana menggunakan Azure Cloud Shell, pilih Coba di sudut kanan atas blok kode. Masukkan perintah berikut:
az login # If you have multiple subscriptions, set the one to use # az account set --subscription "SUBSCRIPTIONID"
Atur variabel lingkungan. Penggunaan variabel dalam tutorial ini didasarkan pada Bash. Sedikit variasi diperlukan untuk lingkungan lain. Ganti RESOURCEGROUPNAME, LOCATION, CLUSTERNAME, STORAGEACCOUNTNAME, dan PASSWORD dalam cuplikan kode berikut dengan nilai yang diinginkan. Kemudian masukkan perintah CLI untuk mengatur variabel lingkungan.
export resourceGroupName=RESOURCEGROUPNAME export location=LOCATION export clusterName=CLUSTERNAME export AZURE_STORAGE_ACCOUNT=STORAGEACCOUNTNAME export httpCredential='PASSWORD' export sshCredentials='PASSWORD' export AZURE_STORAGE_CONTAINER=$clusterName export clusterSizeInNodes=1 export clusterVersion=4.0 export clusterType=spark export componentVersion=Spark=2.3
Buat grup sumber daya dengan memasukkan perintah berikut:
az group create \ --location $location \ --name $resourceGroupName
Buat akun penyimpanan Azure dengan memasukkan perintah berikut:
az storage account create \ --name $AZURE_STORAGE_ACCOUNT \ --resource-group $resourceGroupName \ --https-only true \ --kind StorageV2 \ --location $location \ --sku Standard_LRS
Ekstrak kunci utama dari akun penyimpanan Azure dan simpan dalam variabel dengan memasukkan perintah berikut:
export AZURE_STORAGE_KEY=$(az storage account keys list \ --account-name $AZURE_STORAGE_ACCOUNT \ --resource-group $resourceGroupName \ --query [0].value -o tsv)
Buat kontainer penyimpanan Azure dengan memasukkan perintah berikut:
az storage container create \ --name $AZURE_STORAGE_CONTAINER \ --account-key $AZURE_STORAGE_KEY \ --account-name $AZURE_STORAGE_ACCOUNT
Buat kluster Apache Spark dengan memasukkan perintah berikut:
az hdinsight create \ --name $clusterName \ --resource-group $resourceGroupName \ --type $clusterType \ --component-version $componentVersion \ --http-password $httpCredential \ --http-user admin \ --location $location \ --workernode-count $clusterSizeInNodes \ --ssh-password $sshCredentials \ --ssh-user sshuser \ --storage-account $AZURE_STORAGE_ACCOUNT \ --storage-account-key $AZURE_STORAGE_KEY \ --storage-container $AZURE_STORAGE_CONTAINER \ --version $clusterVersion
Membersihkan sumber daya
Setelah Anda menyelesaikan mulai cepat, Anda dapat menghapus kluster. Dengan HDInsight, data Anda disimpan di Azure Storage, sehingga Anda dapat menghapus kluster dengan aman saat tidak digunakan. Anda juga dikenakan biaya untuk klaster HDInsight, bahkan saat tidak digunakan. Karena biaya untuk kluster berkali-kali lebih banyak daripada biaya untuk penyimpanan, masuk akal secara ekonomis untuk menghapus kluster saat tidak digunakan.
Masukkan semua atau beberapa perintah berikut ini untuk menghapus sumber daya:
# Remove cluster
az hdinsight delete \
--name $clusterName \
--resource-group $resourceGroupName
# Remove storage container
az storage container delete \
--account-name $AZURE_STORAGE_ACCOUNT \
--name $AZURE_STORAGE_CONTAINER
# Remove storage account
az storage account delete \
--name $AZURE_STORAGE_ACCOUNT \
--resource-group $resourceGroupName
# Remove resource group
az group delete \
--name $resourceGroupName
Langkah berikutnya
Dalam mulai cepat ini, Anda belajar cara membuat kluster Apache Spark di Azure HDInsight menggunakan Azure CLI. Lanjutkan ke tutorial berikutnya untuk mempelajari cara menggunakan kluster HDInsight untuk menjalankan kueri interaktif pada data sampel.
Saran dan Komentar
https://aka.ms/ContentUserFeedback.
Segera hadir: Sepanjang tahun 2024 kami akan menghentikan penggunaan GitHub Issues sebagai mekanisme umpan balik untuk konten dan menggantinya dengan sistem umpan balik baru. Untuk mengetahui informasi selengkapnya, lihat:Kirim dan lihat umpan balik untuk