Bagikan melalui


Mulai cepat: Membuat kluster Apache Spark di Azure HDInsight menggunakan Azure CLI

Dalam panduan memulai ini, Anda akan mempelajari cara membuat kluster Apache Spark di Azure HDInsight menggunakan Azure CLI. Azure HDInsight merupakan layanan analitik sumber terbuka terkelola dengan spektrum penuh untuk perusahaan. Kerangka kerja Apache Spark untuk HDInsight memungkinkan analitik data dan komputasi kluster yang cepat menggunakan pemrosesan dalam memori. Azure CLI adalah pengalaman baris perintah lintas platform Microsoft untuk mengelola sumber daya Azure.

Jika Anda menggunakan beberapa kluster bersama-sama, Anda dapat membuat jaringan virtual, dan jika Anda menggunakan kluster Spark, Anda dapat menggunakan Koneksi or Gudang Apache Hive. Untuk informasi selengkapnya, lihat Merencanakan jaringan virtual untuk Azure HDInsight dan Mengintegrasikan Apache Spark dan Apache Hive dengan Hive Warehouse Connector.

Jika Anda tidak memiliki Langganan Azure, buat Akun gratis Azure sebelum memulai.

Prasyarat

Membuat kluster Apache Spark

  1. Masuk ke langganan Azure Anda. Jika Anda berencana menggunakan Azure Cloud Shell, pilih Coba di sudut kanan atas blok kode. Masukkan perintah berikut:

    az login
    
    # If you have multiple subscriptions, set the one to use
    # az account set --subscription "SUBSCRIPTIONID"
    
  2. Atur variabel lingkungan. Penggunaan variabel dalam tutorial ini didasarkan pada Bash. Sedikit variasi diperlukan untuk lingkungan lain. Ganti RESOURCEGROUPNAME, LOCATION, CLUSTERNAME, STORAGEACCOUNTNAME, dan PASSWORD dalam cuplikan kode berikut dengan nilai yang diinginkan. Kemudian masukkan perintah CLI untuk mengatur variabel lingkungan.

    export resourceGroupName=RESOURCEGROUPNAME
    export location=LOCATION
    export clusterName=CLUSTERNAME
    export AZURE_STORAGE_ACCOUNT=STORAGEACCOUNTNAME
    export httpCredential='PASSWORD'
    export sshCredentials='PASSWORD'
    
    export AZURE_STORAGE_CONTAINER=$clusterName
    export clusterSizeInNodes=1
    export clusterVersion=4.0
    export clusterType=spark
    export componentVersion=Spark=2.3
    
  3. Buat grup sumber daya dengan memasukkan perintah berikut:

    az group create \
        --location $location \
        --name $resourceGroupName
    
  4. Buat akun penyimpanan Azure dengan memasukkan perintah berikut:

    az storage account create \
        --name $AZURE_STORAGE_ACCOUNT \
        --resource-group $resourceGroupName \
        --https-only true \
        --kind StorageV2 \
        --location $location \
        --sku Standard_LRS
    
  5. Ekstrak kunci utama dari akun penyimpanan Azure dan simpan dalam variabel dengan memasukkan perintah berikut:

    export AZURE_STORAGE_KEY=$(az storage account keys list \
        --account-name $AZURE_STORAGE_ACCOUNT \
        --resource-group $resourceGroupName \
        --query [0].value -o tsv)
    
  6. Buat kontainer penyimpanan Azure dengan memasukkan perintah berikut:

    az storage container create \
        --name $AZURE_STORAGE_CONTAINER \
        --account-key $AZURE_STORAGE_KEY \
        --account-name $AZURE_STORAGE_ACCOUNT
    
  7. Buat kluster Apache Spark dengan memasukkan perintah berikut:

    az hdinsight create \
        --name $clusterName \
        --resource-group $resourceGroupName \
        --type $clusterType \
        --component-version $componentVersion \
        --http-password $httpCredential \
        --http-user admin \
        --location $location \
        --workernode-count $clusterSizeInNodes \
        --ssh-password $sshCredentials \
        --ssh-user sshuser \
        --storage-account $AZURE_STORAGE_ACCOUNT \
        --storage-account-key $AZURE_STORAGE_KEY \
        --storage-container $AZURE_STORAGE_CONTAINER \
        --version $clusterVersion
    

Membersihkan sumber daya

Setelah Anda menyelesaikan mulai cepat, Anda dapat menghapus kluster. Dengan HDInsight, data Anda disimpan di Azure Storage, sehingga Anda dapat menghapus kluster dengan aman saat tidak digunakan. Anda juga dikenakan biaya untuk klaster HDInsight, bahkan saat tidak digunakan. Karena biaya untuk kluster berkali-kali lebih banyak daripada biaya untuk penyimpanan, masuk akal secara ekonomis untuk menghapus kluster saat tidak digunakan.

Masukkan semua atau beberapa perintah berikut ini untuk menghapus sumber daya:

# Remove cluster
az hdinsight delete \
    --name $clusterName \
    --resource-group $resourceGroupName

# Remove storage container
az storage container delete \
    --account-name $AZURE_STORAGE_ACCOUNT \
    --name $AZURE_STORAGE_CONTAINER

# Remove storage account
az storage account delete \
    --name $AZURE_STORAGE_ACCOUNT \
    --resource-group $resourceGroupName

# Remove resource group
az group delete \
    --name $resourceGroupName

Langkah berikutnya

Dalam mulai cepat ini, Anda belajar cara membuat kluster Apache Spark di Azure HDInsight menggunakan Azure CLI. Lanjutkan ke tutorial berikutnya untuk mempelajari cara menggunakan kluster HDInsight untuk menjalankan kueri interaktif pada data sampel.