Rychlý start: Vytvoření clusteru Apache Spark ve službě Azure HDInsight pomocí Azure CLI

V tomto rychlém startu se dozvíte, jak vytvořit cluster Apache Spark ve službě Azure HDInsight pomocí Azure CLI. Azure HDInsight je spravovaná opensourcová analytická služba určená pro podniky. Architektura Apache Spark pro HDInsight umožňuje rychlou analýzu dat a cluster computing pomocí zpracování v paměti. Azure CLI je nové víceplatformové prostředí příkazového řádku Microsoftu pro správu prostředků Azure.

Pokud používáte více clusterů společně, můžete vytvořit virtuální síť a pokud používáte cluster Spark, můžete použít Připojení or služby Hive Warehouse. Další informace najdete v tématu Plánování virtuální sítě pro Azure HDInsight a integrace Apache Sparku a Apache Hivu s Připojení orem Hive Warehouse.

Pokud ještě nemáte předplatné Azure, vytvořte si bezplatný účet Azure před tím, než začnete.

Požadavky

Vytvoření clusteru Apache Spark

  1. Přihlaste se ke svému předplatnému Azure. Pokud plánujete používat Azure Cloud Shell, vyberte Vyzkoušet v pravém horním rohu následujícího bloku kódu. Jinak zadejte následující příkaz:

    az login
    
    # If you have multiple subscriptions, set the one to use
    # az account set --subscription "SUBSCRIPTIONID"
    
  2. Nastavte proměnné prostředí. Použití proměnných v tomto rychlém startu je založené na prostředí Bash. Pro jiná prostředí jsou potřeba mírné variace. Nahraďte RESOURCEGROUPNAME, LOCATION, CLUSTERNAME, STORAGEACCOUNTNAME a PASSWORD v následujícím fragmentu kódu požadovanými hodnotami. Pak zadejte příkazy rozhraní příkazového řádku pro nastavení proměnných prostředí.

    export resourceGroupName=RESOURCEGROUPNAME
    export location=LOCATION
    export clusterName=CLUSTERNAME
    export AZURE_STORAGE_ACCOUNT=STORAGEACCOUNTNAME
    export httpCredential='PASSWORD'
    export sshCredentials='PASSWORD'
    
    export AZURE_STORAGE_CONTAINER=$clusterName
    export clusterSizeInNodes=1
    export clusterVersion=4.0
    export clusterType=spark
    export componentVersion=Spark=2.3
    
  3. Vytvořte skupinu prostředků zadáním následujícího příkazu:

    az group create \
        --location $location \
        --name $resourceGroupName
    
  4. Zadáním následujícího příkazu vytvořte účet úložiště Azure:

    az storage account create \
        --name $AZURE_STORAGE_ACCOUNT \
        --resource-group $resourceGroupName \
        --https-only true \
        --kind StorageV2 \
        --location $location \
        --sku Standard_LRS
    
  5. Extrahujte primární klíč z účtu úložiště Azure a uložte ho do proměnné zadáním následujícího příkazu:

    export AZURE_STORAGE_KEY=$(az storage account keys list \
        --account-name $AZURE_STORAGE_ACCOUNT \
        --resource-group $resourceGroupName \
        --query [0].value -o tsv)
    
  6. Zadáním následujícího příkazu vytvořte kontejner úložiště Azure:

    az storage container create \
        --name $AZURE_STORAGE_CONTAINER \
        --account-key $AZURE_STORAGE_KEY \
        --account-name $AZURE_STORAGE_ACCOUNT
    
  7. Vytvořte cluster Apache Spark zadáním následujícího příkazu:

    az hdinsight create \
        --name $clusterName \
        --resource-group $resourceGroupName \
        --type $clusterType \
        --component-version $componentVersion \
        --http-password $httpCredential \
        --http-user admin \
        --location $location \
        --workernode-count $clusterSizeInNodes \
        --ssh-password $sshCredentials \
        --ssh-user sshuser \
        --storage-account $AZURE_STORAGE_ACCOUNT \
        --storage-account-key $AZURE_STORAGE_KEY \
        --storage-container $AZURE_STORAGE_CONTAINER \
        --version $clusterVersion
    

Vyčištění prostředků

Po dokončení rychlého startu možná budete chtít cluster odstranit. S HDInsight jsou vaše data uložená ve službě Azure Storage, takže můžete cluster bezpečně odstranit, když se nepoužívá. Za cluster HDInsight se vám také účtují poplatky, i když se nepoužívá. Vzhledem k tomu, že poplatky za cluster jsou mnohokrát vyšší než poplatky za úložiště, dává smysl odstranit clustery, když se nepoužívají.

Pokud chcete odebrat prostředky, zadejte všechny nebo některé z následujících příkazů:

# Remove cluster
az hdinsight delete \
    --name $clusterName \
    --resource-group $resourceGroupName

# Remove storage container
az storage container delete \
    --account-name $AZURE_STORAGE_ACCOUNT \
    --name $AZURE_STORAGE_CONTAINER

# Remove storage account
az storage account delete \
    --name $AZURE_STORAGE_ACCOUNT \
    --resource-group $resourceGroupName

# Remove resource group
az group delete \
    --name $resourceGroupName

Další kroky

V tomto rychlém startu jste zjistili, jak vytvořit cluster Apache Spark ve službě Azure HDInsight pomocí Azure CLI. V dalším kurzu se dozvíte, jak pomocí clusteru HDInsight spouštět interaktivní dotazy na ukázková data.