Criar um cluster do HDInsight

Concluído

Há vários métodos para criar um cluster do HDInsight, que podem variar de usar o portal do Azure para uma interface do usuário fácil até configurações com script que podem ajudar com implantações automatizadas. A tabela a seguir mostra os diferentes métodos que você pode usar para configurar cluster do HDInsight.

Clusters criados com Navegador da Web Linha de comando API REST .
Portal do Azure
Fábrica de dados do Azure
CLI do Azure
Azure PowerShell
cURL
SDK .NET
Modelo do Azure Resource Manager

Todas as configurações do HDInsight exigem as seguintes informações básicas, incluindo:

Guia Básico

Detalhes do projeto

Assinatura

Define a assinatura do Azure sob a qual o HDInsight será cobrado e gerenciado.

Nome do grupo de recursos

Um grupo de recursos é um agrupamento lógico de tecnologias e serviços do Azure que normalmente se relacionam com o mesmo aplicativo ou ciclo de vida do aplicativo. Agrupar os serviços no mesmo grupo de recursos facilita a manutenção administrativa.

A screenshot of the basic tab in the Create HDInsight Cluster screen in the Azure portal

Detalhes do cluster

Nome do cluster

Os nomes de cluster HDInsight têm as seguintes restrições:

  • Caracteres permitidos: a-z, 0-9, A-Z
  • Comprimento máximo: 59
  • Nomes reservados: aplicativos
  • O escopo de nomenclatura de cluster é para todo o Azure, em todas as assinaturas. Portanto, o nome do cluster deve ser exclusivo no mundo inteiro.
  • Os seis primeiros caracteres devem ser exclusivos em uma VNet

Localidade

Especifica a localização em que o tipo de cluster é armazenado. Se nenhuma localização for definida, o cluster será colocado na mesma localização em que o armazenamento padrão. A localização deve ser a mais próxima possível dos usuários para reduzir a latência.

Tipos de cluster

Define a pilha de tecnologias provisionada em seu cluster de recursos. Selecione um tipo de cluster com base no tipo de dados que você tem e no tipo de processamento que seu cenário requer. Os tipos de cluster disponíveis são mostrados na tabela a seguir.  

Tipo de Cluster Descrição
Apache Hadoop Uma estrutura que usa o HDFS e um modelo de programação MapReduce simples para processar e analisar dados em lotes. 
Apache Spark uma estrutura de processamento paralelo de software livre que dá suporte ao processamento na memória para melhorar o desempenho dos aplicativos de análise de Big Data.
O HBase um banco de dados NoSQL baseado em Hadoop que fornece acesso aleatório e coerência forte para big data não estruturado e semiestruturado (potencialmente, bilhões de linhas vezes milhões de colunas). 
Apache Interactive Query Caching na memória para consultas de Hive interativas e mais rápidas. 
Apache Kafka uma plataforma de código-fonte aberto usada para criar aplicativos e pipelines de dados de transmissão. O Kafka também fornece funcionalidade de fila de mensagens, o que permite que você publique e assine fluxos de dados.

Versão

Define a versão do HDInsight para este cluster. O HDInsight 4.0 é a versão mais nova e tem as estruturas mais recentes provisionadas para clusters.

Credenciais do cluster

Com os clusters HDInsight, você pode configurar duas contas de usuário durante a criação de cluster.

Logon e senha do cluster

O nome de usuário padrão é admin. Ele usa a configuração básica do portal do Azure. Às vezes, ele é chamado "Usuário de cluster".

Nome de usuário e senha SSH

Usado para conectar-se ao cluster por meio de SSH.

Observação

O Pacote de Segurança Empresarial permite que você integre o HDInsight com o Active Directory e o Apache Ranger. Vários usuários podem ser criados usando o pacote de segurança empresarial.

Guia Armazenamento

Os clusters do HDInsight podem usar as seguintes opções de armazenamento, conforme mostrado na tela de armazenamento:

  • Azure Data Lake Storage Gen2
  • Azure Data Lake Storage Gen1
  • Armazenamento do Azure de Uso Geral v2
  • Armazenamento do Azure de Uso Geral v1
  • Blob de blocos de armazenamento do Azure (com suporte apenas como armazenamento secundário)

A tela de armazenamento permite que você defina a conta de armazenamento principal e o contêiner padrão. Você também pode vincular o Armazenamento do Azure adicional ao cluster. As configurações de metastore permitem que você defina um Banco de Dados SQL externo para armazenar tabelas do Hive depois que um cluster é excluído e aprimorar o desempenho do Oozie armazenando os metadados em um repositório externo.

A screenshot of the storage tab in the Create HDInsight Cluster screen in the Azure portal

Rede e segurança

Para tipos de cluster Hadoop, HBase, Kafka, Spark e Consulta Interativa, você pode optar por habilitar o Enterprise Security Package. Esse pacote fornece a opção de ter uma configuração de cluster mais segura usando o Apache Ranger e integrando-se ao Microsoft Entra ID.

A screenshot of the Security and Networking tab in the Create HDInsight Cluster screen in the Azure portal

Além disso, é sempre recomendável implantar clusters do HDInsight em uma VNet e você pode definir e configurar a rede virtual nessa tela. Se sua solução exige tecnologias que sejam distribuídas entre vários tipos de cluster HDInsight, uma rede virtual do Azure pode conectar os tipos de cluster necessários. Essa configuração permite que os clusters e qualquer código que você implantar neles se comuniquem diretamente uns com os outros.

Configuração e preço

Esta página permite que você configure o tamanho e o desempenho do cluster e veja as informações de custo estimado. Nessa tela, você pode definir as máquinas virtuais que serão usadas para os nós principais (Mestres) e também para os nós de trabalho.

A screenshot of the Configuration and Pricing tab in the Create HDInsight Cluster screen in the Azure portal