Criar um cluster com o Data Lake Storage Gen2 usando a CLI do Azure
Para criar um cluster HDInsight que usa Data Lake Storage Gen2 para armazenamento, siga estas etapas.
Pré-requisitos
- Se você não estiver familiarizado com o Azure Data Lake Storage Gen2, confira a seção visão geral.
- Se você ainda não tiver uma conta do Azure, inscreva-se em uma conta gratuita antes de continuar.
- Para executar os exemplos de script da CLI, você tem três opções:
- Usar o Azure Cloud Shell no Portal do Azure (confira a próxima seção).
- Usar o Azure Cloud Shell inserido por meio do botão "Experimentar", localizado no canto superior direito de cada bloco de código.
- Instale a versão mais recente da CLI do Azure (2.0.13 ou mais recente), se você preferir usar um console da CLI local. Entre no Azure usando
az login
e uma conta associada à assinatura do Azure na qual você quer implantar a identidade gerenciada atribuída ao usuário da CLI do Azure.
Azure Cloud Shell
O Azure hospeda o Azure Cloud Shell, um ambiente de shell interativo que pode ser usado por meio do navegador. É possível usar o bash ou o PowerShell com o Cloud Shell para trabalhar com os serviços do Azure. É possível usar os comandos pré-instalados do Cloud Shell para executar o código neste artigo, sem precisar instalar nada no seu ambiente local.
Para iniciar o Azure Cloud Shell:
Opção | Exemplo/Link |
---|---|
Selecione Experimentar no canto superior direito de um bloco de código ou de comando. Selecionar Experimentar não copia automaticamente o código nem o comando para o Cloud Shell. | |
Acesse https://shell.azure.com ou selecione o botão Iniciar o Cloud Shell para abri-lo no navegador. | |
Selecione o botão Cloud Shell na barra de menus no canto superior direito do portal do Azure. |
Para usar o Azure Cloud Shell:
Inicie o Cloud Shell.
Selecione o botão Copiar em um bloco de código (ou bloco de comando) para copiar o código ou o comando.
Cole o código ou comando na sessão do Cloud Shell selecionando Ctrl+Shift+V no Windows e no Linux, ou selecionando Cmd+Shift+V no macOS.
Pressione Enter para executar o código ou o comando.
Aviso
A cobrança de clusters HDInsight é proporcional por minuto, independentemente de você utilizá-los ou não. Certifique-se de excluir o cluster após utilizá-lo. Consulte como excluir um cluster HDInsight.
Você pode baixar um arquivo de modelo de exemplo e baixar um arquivo de parâmetros de exemplo. Antes de usar o modelo e o trecho de código da CLI do Azure abaixo, substitua os seguintes espaços reservados pelos valores corretos:
Espaço reservado | Descrição |
---|---|
<SUBSCRIPTION_ID> |
A ID da sua assinatura do Azure |
<RESOURCEGROUPNAME> |
O grupo de recursos no qual você deseja criar o novo cluster e conta de armazenamento. |
<MANAGEDIDENTITYNAME> |
O nome da identidade gerenciada que receberá permissões em sua conta de armazenamento com o Azure Data Lake Storage Gen2. |
<STORAGEACCOUNTNAME> |
A nova conta de armazenamento com o Azure Data Lake Storage Gen2 que será criada. |
<FILESYSTEMNAME> |
O nome do sistema de arquivos que esse cluster deve usar na conta de armazenamento. |
<CLUSTERNAME> |
O nome do seu cluster HDInsight. |
<PASSWORD> |
A senha que você escolheu para entrar no cluster usando o SSH e o painel do Ambari. |
O trecho de código abaixo realiza as seguintes etapas iniciais:
- Entra na sua conta do Azure.
- Define a assinatura ativa na qual as operações criadas serão realizadas.
- Cria um novo grupo de recursos para as novas atividades de implantação.
- Cria uma identidade gerenciada atribuída ao usuário.
- Adiciona uma extensão à CLI do Azure para usar os recursos para o Data Lake Storage Gen2.
- Cria uma nova conta de armazenamento com o Data Lake Storage Gen2 usando o sinalizador
--hierarchical-namespace true
.
az login
az account set --subscription <SUBSCRIPTION_ID>
# Create resource group
az group create --name <RESOURCEGROUPNAME> --location eastus
# Create managed identity
az identity create -g <RESOURCEGROUPNAME> -n <MANAGEDIDENTITYNAME>
az extension add --name storage-preview
az storage account create --name <STORAGEACCOUNTNAME> \
--resource-group <RESOURCEGROUPNAME> \
--location eastus --sku Standard_LRS \
--kind StorageV2 --hierarchical-namespace true
A seguir, entre no portal. Adicione a nova identidade gerenciada atribuída pelo usuário á função de Proprietário de dados do blob de armazenamento na conta de armazenamento. Esta etapa é descrita na etapa 3 em Usando o portal do Azure.
Importante
Verifique se sua conta de armazenamento tem a identidade atribuída pelo usuário com permissões de função de Proprietário de dados de blob de armazenamento. Caso contrário, haverá falha na criação do cluster.
az deployment group create --name HDInsightADLSGen2Deployment \
--resource-group <RESOURCEGROUPNAME> \
--template-file hdinsight-adls-gen2-template.json \
--parameters parameters.json
Limpar recursos
Após a conclusão do artigo, convém excluir o cluster. Com o HDInsight, seus dados são armazenados no Armazenamento do Azure, assim você poderá excluir, com segurança, um cluster quando ele não estiver em uso. Você também é cobrado por um cluster HDInsight, mesmo quando ele não está em uso. Como os encargos para o cluster são muitas vezes maiores do que os encargos para armazenamento, faz sentido, do ponto de vista econômico, excluir os clusters quando não estiverem em uso.
Insira todos ou alguns dos comandos a seguir para remover recursos:
# Remove cluster
az hdinsight delete \
--name $clusterName \
--resource-group $resourceGroupName
# Remove storage container
az storage container delete \
--account-name $AZURE_STORAGE_ACCOUNT \
--name $AZURE_STORAGE_CONTAINER
# Remove storage account
az storage account delete \
--name $AZURE_STORAGE_ACCOUNT \
--resource-group $resourceGroupName
# Remove resource group
az group delete \
--name $resourceGroupName
Solucionar problemas
Se você tiver problemas com a criação de clusters HDInsight, confira os requisitos de controle de acesso.
Próximas etapas
Você criou com êxito um cluster HDInsight. Saiba agora como trabalhar com o cluster.
Clusters do Apache Spark
- Personalizar clusters HDInsight baseados em Linux usando ações de script
- Criar um aplicativo autônomo usando Scala
- Execute trabalhos remotamente em um cluster do Apache Spark usando o Apache Livy
- Apache Spark com BI: execute análise de dados interativa usando o Spark no HDInsight com ferramentas de BI
- Apache Spark com Machine Learning: use o Spark no HDInsight para prever os resultados da inspeção de alimentos