Vytvoření clusteru s Data Lake Storage Gen2 pomocí Azure CLI

Pokud chcete vytvořit cluster HDInsight, který pro úložiště používá Data Lake Storage Gen2, postupujte takto.

Požadavky

Azure Cloud Shell

Azure hostí interaktivní prostředí Azure Cloud Shell, které můžete používat v prohlížeči. Pro práci se službami Azure můžete v prostředí Cloud Shell použít buď Bash, nebo PowerShell. Předinstalované příkazy Cloud Shellu můžete použít ke spuštění kódu v tomto článku, aniž byste museli instalovat cokoli do místního prostředí.

Spuštění služby Azure Cloud Shell:

Možnost Příklad nebo odkaz
Vyberte Vyzkoušet v pravém horním rohu bloku kódu nebo příkazu. Výběrem možnosti Vyzkoušet se kód ani příkaz automaticky nekopíruje do Cloud Shellu. Screenshot that shows an example of Try It for Azure Cloud Shell.
Přejděte na adresu https://shell.azure.com nebo výběrem tlačítka Spustit Cloud Shell otevřete Cloud Shell v prohlížeči. Button to launch Azure Cloud Shell.
Zvolte tlačítko Cloud Shell v pruhu nabídky v pravém horním rohu webu Azure Portal. Screenshot that shows the Cloud Shell button in the Azure portal

Použití Azure Cloud Shellu:

  1. Spusťte Cloud Shell.

  2. Výběrem tlačítka Kopírovat v bloku kódu (nebo bloku příkazů) zkopírujte kód nebo příkaz.

  3. Vložte kód nebo příkaz do relace Cloud Shellu tak, že ve Windows a Linuxu vyberete ctrl+Shift+V nebo vyberete Cmd+Shift+V v macOS.

  4. Stisknutím klávesy Enter spusťte kód nebo příkaz.

Upozorňující

Fakturace clusterů HDInsight se účtuje za minutu bez ohledu na to, jestli je používáte, nebo ne. Až cluster dokončíte, nezapomeňte ho odstranit. Podívejte se, jak odstranit cluster HDInsight.

Můžete si stáhnout ukázkový soubor šablony a stáhnout si ukázkový soubor parametrů. Před použitím šablony a fragmentu kódu Azure CLI níže nahraďte následující zástupné symboly správnými hodnotami:

Zástupný symbol Popis
<SUBSCRIPTION_ID> ID předplatného Azure
<RESOURCEGROUPNAME> Skupina prostředků, ve které chcete vytvořit nový cluster a účet úložiště.
<MANAGEDIDENTITYNAME> Název spravované identity, která bude udělena oprávnění k vašemu účtu úložiště s Azure Data Lake Storage Gen2.
<STORAGEACCOUNTNAME> Nový účet úložiště s Azure Data Lake Storage Gen2, který se vytvoří.
<FILESYSTEMNAME> Název systému souborů, který má tento cluster používat v účtu úložiště.
<CLUSTERNAME> Název clusteru HDInsight.
<PASSWORD> Zvolené heslo pro přihlášení ke clusteru pomocí SSH a řídicího panelu Ambari.

Následující fragment kódu provede následující počáteční kroky:

  1. Přihlaste se ke svému účtu Azure.
  2. Nastaví aktivní předplatné, ve kterém se budou provádět operace vytváření.
  3. Vytvoří novou skupinu prostředků pro nové aktivity nasazení.
  4. Vytvoří spravovanou identitu přiřazenou uživatelem.
  5. Přidá do Azure CLI rozšíření pro použití funkcí pro Data Lake Storage Gen2.
  6. Vytvoří nový účet úložiště s Data Lake Storage Gen2 pomocí příznaku --hierarchical-namespace true .
az login
az account set --subscription <SUBSCRIPTION_ID>

# Create resource group
az group create --name <RESOURCEGROUPNAME> --location eastus

# Create managed identity
az identity create -g <RESOURCEGROUPNAME> -n <MANAGEDIDENTITYNAME>

az extension add --name storage-preview

az storage account create --name <STORAGEACCOUNTNAME> \
    --resource-group <RESOURCEGROUPNAME> \
    --location eastus --sku Standard_LRS \
    --kind StorageV2 --hierarchical-namespace true

Pak se přihlaste k portálu. Přidejte novou spravovanou identitu přiřazenou uživatelem do role Vlastník dat objektů blob úložiště v účtu úložiště. Tento krok je popsaný v kroku 3 v části Použití webu Azure Portal.

Důležité

Ujistěte se, že váš účet úložiště má identitu přiřazenou uživatelem s oprávněními role Vlastník dat objektu blob služby Storage, jinak se vytvoření clusteru nezdaří.

az deployment group create --name HDInsightADLSGen2Deployment \
    --resource-group <RESOURCEGROUPNAME> \
    --template-file hdinsight-adls-gen2-template.json \
    --parameters parameters.json

Vyčištění prostředků

Jakmile budete s článkem hotovi, můžete cluster odstranit. S HDInsight jsou vaše data uložená ve službě Azure Storage, takže můžete cluster bezpečně odstranit, když se nepoužívá. Za cluster HDInsight se vám také účtují poplatky, i když se nepoužívá. Vzhledem k tomu, že poplatky za cluster jsou mnohokrát vyšší než poplatky za úložiště, dává smysl odstranit clustery, když se nepoužívají.

Pokud chcete odebrat prostředky, zadejte všechny nebo některé z následujících příkazů:

# Remove cluster
az hdinsight delete \
    --name $clusterName \
    --resource-group $resourceGroupName

# Remove storage container
az storage container delete \
    --account-name $AZURE_STORAGE_ACCOUNT \
    --name $AZURE_STORAGE_CONTAINER

# Remove storage account
az storage account delete \
    --name $AZURE_STORAGE_ACCOUNT \
    --resource-group $resourceGroupName

# Remove resource group
az group delete \
    --name $resourceGroupName

Odstraňování potíží

Pokud narazíte na problémy s vytvářením clusterů HDInsight, podívejte se na požadavky na řízení přístupu.

Další kroky

Úspěšně jste vytvořili cluster HDInsight. Teď se dozvíte, jak pracovat s clusterem.

Clustery Apache Spark

Clustery Apache Hadoop

Clustery Apache HBase