Mulai cepat: Membuat kluster Apache Spark di Azure HDInsight menggunakan Azure CLI

Dalam panduan cepat ini, Anda akan mempelajari cara membuat kluster Apache Spark di Azure HDInsight menggunakan Azure CLI. Azure HDInsight adalah layanan analitik sumber terbuka yang dikelola, spektrum penuh, untuk perusahaan. Kerangka kerja Apache Spark untuk HDInsight memungkinkan analitik data dan komputasi kluster yang cepat menggunakan pemrosesan dalam memori. Azure CLI adalah pengalaman baris perintah lintas platform Microsoft untuk mengelola sumber daya Azure.

Jika Anda menggunakan beberapa kluster bersama-sama, Anda dapat membuat jaringan virtual, dan jika Anda menggunakan kluster Spark, Anda dapat menggunakan Apache Hive Warehouse Connector. Untuk informasi selengkapnya, lihat Merencanakan jaringan virtual untuk Azure HDInsight dan Mengintegrasikan Apache Spark dan Apache Hive dengan Hive Warehouse Connector.

Jika Anda tidak memiliki akun Azure, buat akun gratis sebelum memulai.

Prasyarat

Gunakan lingkungan Bash di Azure Cloud Shell. Untuk informasi selengkapnya, lihat Mulai menggunakan Azure Cloud Shell.
Jika Anda lebih suka menjalankan perintah referensi CLI secara lokal, instal Azure CLI. Jika Anda menjalankan Windows atau macOS, pertimbangkan untuk menjalankan Azure CLI dalam kontainer Docker. Untuk informasi lebih lanjut, lihat Cara menjalankan Azure CLI di kontainer Docker.
- Jika Anda menggunakan penginstalan lokal, masuk ke Azure CLI dengan menggunakan perintah az login. Untuk menyelesaikan proses autentikasi, ikuti langkah-langkah yang ditampilkan di terminal Anda. Untuk opsi masuk lainnya, lihat Mengautentikasi ke Azure menggunakan Azure CLI.
- Saat diminta, instal ekstensi Azure CLI saat pertama kali digunakan. Untuk informasi selengkapnya tentang ekstensi, lihat Menggunakan dan mengelola ekstensi dengan Azure CLI.
- Jalankan az version untuk mengetahui versi dan pustaka dependen yang terinstal. Untuk meng-upgrade ke versi terbaru, jalankan az upgrade.

Membuat kluster Apache Spark

Masuk ke langganan Azure Anda. Jika Anda berencana menggunakan Azure Cloud Shell, pilih Coba di sudut kanan atas blok kode berikut. Jika tidak, masukkan perintah berikut:
```
az login

# If you have multiple subscriptions, set the one to use
# az account set --subscription "SUBSCRIPTIONID"
```

Atur variabel lingkungan. Penggunaan variabel dalam panduan cepat ini berdasarkan Bash. Sedikit variasi diperlukan untuk lingkungan lain. Ganti RESOURCEGROUPNAME, LOCATION, CLUSTERNAME, STORAGEACCOUNTNAME, dan PASSWORD dalam cuplikan kode berikut dengan nilai yang diinginkan. Kemudian masukkan perintah CLI untuk mengatur variabel lingkungan.

export resourceGroupName=RESOURCEGROUPNAME
export location=LOCATION
export clusterName=CLUSTERNAME
export AZURE_STORAGE_ACCOUNT=STORAGEACCOUNTNAME
export httpCredential='PASSWORD'
export sshCredentials='PASSWORD'

export AZURE_STORAGE_CONTAINER=$clusterName
export clusterSizeInNodes=1
export clusterVersion=4.0
export clusterType=spark
export componentVersion=Spark=2.3

Buat grup sumber daya dengan memasukkan perintah berikut:

az group create \
    --location $location \
    --name $resourceGroupName

Buat akun penyimpanan Azure dengan memasukkan perintah berikut:

az storage account create \
    --name $AZURE_STORAGE_ACCOUNT \
    --resource-group $resourceGroupName \
    --https-only true \
    --kind StorageV2 \
    --location $location \
    --sku Standard_LRS

Ekstrak kunci utama dari akun penyimpanan Azure dan simpan dalam variabel dengan memasukkan perintah berikut:

export AZURE_STORAGE_KEY=$(az storage account keys list \
    --account-name $AZURE_STORAGE_ACCOUNT \
    --resource-group $resourceGroupName \
    --query [0].value -o tsv)

Buat kontainer penyimpanan Azure dengan memasukkan perintah berikut:

az storage container create \
    --name $AZURE_STORAGE_CONTAINER \
    --account-key $AZURE_STORAGE_KEY \
    --account-name $AZURE_STORAGE_ACCOUNT

Buat kluster Apache Spark dengan memasukkan perintah berikut:

az hdinsight create \
    --name $clusterName \
    --resource-group $resourceGroupName \
    --type $clusterType \
    --component-version $componentVersion \
    --http-password $httpCredential \
    --http-user admin \
    --location $location \
    --workernode-count $clusterSizeInNodes \
    --ssh-password $sshCredentials \
    --ssh-user sshuser \
    --storage-account $AZURE_STORAGE_ACCOUNT \
    --storage-account-key $AZURE_STORAGE_KEY \
    --storage-container $AZURE_STORAGE_CONTAINER \
    --version $clusterVersion

Membersihkan sumber daya

Setelah Anda menyelesaikan panduan memulai cepat, Anda dapat menghapus kluster. Dengan HDInsight, data Anda disimpan di Azure Storage, sehingga Anda dapat menghapus kluster dengan aman saat tidak digunakan. Anda juga dikenakan biaya untuk klaster HDInsight, bahkan saat tidak digunakan. Karena biaya untuk kluster berkali-kali lebih banyak daripada biaya untuk penyimpanan, masuk akal secara ekonomis untuk menghapus kluster saat tidak digunakan.

Masukkan semua atau beberapa perintah berikut ini untuk menghapus sumber daya:

# Remove cluster
az hdinsight delete \
    --name $clusterName \
    --resource-group $resourceGroupName

# Remove storage container
az storage container delete \
    --account-name $AZURE_STORAGE_ACCOUNT \
    --name $AZURE_STORAGE_CONTAINER

# Remove storage account
az storage account delete \
    --name $AZURE_STORAGE_ACCOUNT \
    --resource-group $resourceGroupName

# Remove resource group
az group delete \
    --name $resourceGroupName

Langkah berikutnya

Dalam panduan cepat ini, Anda mempelajari cara membuat kluster Apache Spark di Azure HDInsight menggunakan Azure CLI. Lanjutkan ke tutorial berikutnya untuk mempelajari cara menggunakan kluster HDInsight untuk menjalankan kueri interaktif pada data sampel.

Menjalankan kueri interaktif di Apache Spark

Saran dan Komentar

Apakah halaman ini membantu?

Last updated on 2025-05-20