Criar um cluster do HDInsight
Há vários métodos para criar um cluster do HDInsight, que podem variar de usar o portal do Azure para uma interface do usuário fácil até configurações com script que podem ajudar com implantações automatizadas. A tabela a seguir mostra os diferentes métodos que você pode usar para configurar cluster do HDInsight.
Clusters criados com | Navegador da Web | Linha de comando | API REST | . |
---|---|---|---|---|
Portal do Azure | ✔ | |||
Fábrica de dados do Azure | ✔ | ✔ | ✔ | ✔ |
CLI do Azure | ✔ | |||
Azure PowerShell | ✔ | |||
cURL | ✔ | ✔ | ||
SDK .NET | ✔ | |||
Modelo do Azure Resource Manager | ✔ |
Todas as configurações do HDInsight exigem as seguintes informações básicas, incluindo:
Guia Básico
Detalhes do projeto
Assinatura
Define a assinatura do Azure sob a qual o HDInsight será cobrado e gerenciado.
Nome do grupo de recursos
Um grupo de recursos é um agrupamento lógico de tecnologias e serviços do Azure que normalmente se relacionam com o mesmo aplicativo ou ciclo de vida do aplicativo. Agrupar os serviços no mesmo grupo de recursos facilita a manutenção administrativa.
Detalhes do cluster
Nome do cluster
Os nomes de cluster HDInsight têm as seguintes restrições:
- Caracteres permitidos: a-z, 0-9, A-Z
- Comprimento máximo: 59
- Nomes reservados: aplicativos
- O escopo de nomenclatura de cluster é para todo o Azure, em todas as assinaturas. Portanto, o nome do cluster deve ser exclusivo no mundo inteiro.
- Os seis primeiros caracteres devem ser exclusivos em uma VNet
Localidade
Especifica a localização em que o tipo de cluster é armazenado. Se nenhuma localização for definida, o cluster será colocado na mesma localização em que o armazenamento padrão. A localização deve ser a mais próxima possível dos usuários para reduzir a latência.
Tipos de cluster
Define a pilha de tecnologias provisionada em seu cluster de recursos. Selecione um tipo de cluster com base no tipo de dados que você tem e no tipo de processamento que seu cenário requer. Os tipos de cluster disponíveis são mostrados na tabela a seguir.
Tipo de Cluster | Descrição |
---|---|
Apache Hadoop | Uma estrutura que usa o HDFS e um modelo de programação MapReduce simples para processar e analisar dados em lotes. |
Apache Spark | uma estrutura de processamento paralelo de software livre que dá suporte ao processamento na memória para melhorar o desempenho dos aplicativos de análise de Big Data. |
O HBase | um banco de dados NoSQL baseado em Hadoop que fornece acesso aleatório e coerência forte para big data não estruturado e semiestruturado (potencialmente, bilhões de linhas vezes milhões de colunas). |
Apache Interactive Query | Caching na memória para consultas de Hive interativas e mais rápidas. |
Apache Kafka | uma plataforma de código-fonte aberto usada para criar aplicativos e pipelines de dados de transmissão. O Kafka também fornece funcionalidade de fila de mensagens, o que permite que você publique e assine fluxos de dados. |
Versão
Define a versão do HDInsight para este cluster. O HDInsight 4.0 é a versão mais nova e tem as estruturas mais recentes provisionadas para clusters.
Credenciais do cluster
Com os clusters HDInsight, você pode configurar duas contas de usuário durante a criação de cluster.
Logon e senha do cluster
O nome de usuário padrão é admin. Ele usa a configuração básica do portal do Azure. Às vezes, ele é chamado "Usuário de cluster".
Nome de usuário e senha SSH
Usado para conectar-se ao cluster por meio de SSH.
Observação
O Pacote de Segurança Empresarial permite que você integre o HDInsight com o Active Directory e o Apache Ranger. Vários usuários podem ser criados usando o pacote de segurança empresarial.
Guia Armazenamento
Os clusters do HDInsight podem usar as seguintes opções de armazenamento, conforme mostrado na tela de armazenamento:
- Azure Data Lake Storage Gen2
- Azure Data Lake Storage Gen1
- Armazenamento do Azure de Uso Geral v2
- Armazenamento do Azure de Uso Geral v1
- Blob de blocos de armazenamento do Azure (com suporte apenas como armazenamento secundário)
A tela de armazenamento permite que você defina a conta de armazenamento principal e o contêiner padrão. Você também pode vincular o Armazenamento do Azure adicional ao cluster. As configurações de metastore permitem que você defina um Banco de Dados SQL externo para armazenar tabelas do Hive depois que um cluster é excluído e aprimorar o desempenho do Oozie armazenando os metadados em um repositório externo.
Rede e segurança
Para tipos de cluster Hadoop, HBase, Kafka, Spark e Consulta Interativa, você pode optar por habilitar o Enterprise Security Package. Esse pacote fornece a opção de ter uma configuração de cluster mais segura usando o Apache Ranger e integrando-se ao Microsoft Entra ID.
Além disso, é sempre recomendável implantar clusters do HDInsight em uma VNet e você pode definir e configurar a rede virtual nessa tela. Se sua solução exige tecnologias que sejam distribuídas entre vários tipos de cluster HDInsight, uma rede virtual do Azure pode conectar os tipos de cluster necessários. Essa configuração permite que os clusters e qualquer código que você implantar neles se comuniquem diretamente uns com os outros.
Configuração e preço
Esta página permite que você configure o tamanho e o desempenho do cluster e veja as informações de custo estimado. Nessa tela, você pode definir as máquinas virtuais que serão usadas para os nós principais (Mestres) e também para os nós de trabalho.