Arquitetura de rede virtual do Azure HDInsight

Este artigo explica os recursos que estão presentes quando ao implantar um cluster do HDInsight em uma Rede Virtual do Microsoft Azure. Essas informações ajudam você a conectar recursos locais ao seu cluster do HDInsight no Azure. Para obter mais informações sobre Redes Virtuais do Microsoft Azure, veja O que é uma Rede Virtual do Microsoft Azure?.

Tipos de recursos em clusters do Azure HDInsight

Os clusters do Azure HDInsight têm diferentes tipos de máquinas virtuais ou nós. Cada tipo de nó desempenha uma função na operação do sistema. A tabela a seguir resume esses tipos de nó e suas funções no cluster.

Tipo Descrição
Nó do ZooKeeper O Zookeeper coordena as tarefas entre os nós que estão fazendo o processamento de dados. Ele também faz a eleição do líder do nó de cabeçalho e mantém o controle de qual nó de cabeçalho está executando um serviço mestre específico. O número de nós do ZooKeeper é fixado em três.
Nó de trabalho Representa os nós que dão suporte à funcionalidade de processamento de dados. Os nós de trabalho podem ser adicionados ou removidos do cluster para escalar a capacidade de computação e gerenciar os custos.
Nó de região Para o tipo de cluster HBase, o nó de região (também conhecido como nó de dados) executa o servidor de região. Os servidores de região servem e gerenciam uma parte dos dados gerenciados pelo HBase. Os nós de região podem ser adicionados ou removidos do cluster para escalar a capacidade de computação e gerenciar os custos.

Convenções de nomenclatura do recurso

Use FQDNs (nomes de domínio totalmente qualificado) ao endereçar nós no cluster. Você pode obter os FQDNs para vários tipos de nó no cluster usando a API Ambari.

Esses FQDNs estarão no formato <node-type-prefix><instance-number>-<abbreviated-clustername>.<unique-identifier>.cx.internal.cloudapp.net.

O <node-type-prefix> será hn para os nós principais, wn para os nós de trabalho e zn para os nós do zookeeper.

Se você precisar apenas do nome do host, use apenas a primeira parte do FQDN: <node-type-prefix><instance-number>-<abbreviated-clustername>

Recursos básicos de rede virtual

O diagrama a seguir mostra o posicionamento de nós do HDInsight e recursos de rede no Azure.

Diagram of HDInsight entities created in Azure custom VNET.

Os recursos padrão em uma Rede Virtual do Microsoft Azure incluem os tipos de nó de cluster mencionados na tabela anterior. E dispositivos de rede que dão suporte à comunicação entre a rede virtual e as redes externas.

A tabela a seguir resume os nove nós de cluster criados quando o HDInsight é implantado em uma Rede Virtual do Microsoft Azure personalizada.

Tipo de recurso Número presente Detalhes
Nó de cabeçalho dois
Nó do ZooKeeper três
Nó de trabalho dois Esse número pode variar com base na configuração e na colocação em escala do cluster. É necessário um mínimo de três nós de trabalho para o Apache Kafka.
Nó de gateway dois Os nós de gateway são máquinas virtuais do Azure que são criadas no Azure, mas não são visíveis em sua assinatura. Entre em contato com o suporte se precisar reinicializar esses nós.

Os seguintes recursos de rede presentes são criados automaticamente dentro da rede virtual usada com HDInsight:

Recurso de rede Número presente Detalhes
Balanceador de carga três
Interfaces de Rede nove Esse valor se baseia em um cluster normal, em que cada nó tem sua própria interface de rede. As nove interfaces são para: dois nós de cabeçalho, três nós Zookeeper, dois nós de trabalho e dois nós de gateway mencionados na tabela anterior.
Endereços IP públicos dois

Pontos de extremidade para conectar ao HDInsight

Você pode acessar seu cluster HDInsight de três maneiras:

  • Um ponto de extremidade HTTPS fora da rede virtual em CLUSTERNAME.azurehdinsight.net.
  • Um ponto de extremidade SSH para conexão direta com o nó de cabeçalho em CLUSTERNAME-ssh.azurehdinsight.net.
  • Um ponto de extremidade HTTPS dentro da rede virtual CLUSTERNAME-int.azurehdinsight.net. Observe o “-int” nesta URL. Esse ponto de extremidade é resolvido para um IP privado nessa rede virtual e não é acessível pela Internet pública.

Cada um desses três pontos de extremidade são atribuídos a um balanceador de carga.

Os endereços IP públicos também são fornecidos para os dois pontos de extremidade que permitem a conexão de fora da rede virtual.

  1. Um IP público é atribuído ao balanceador de carga para o FQDN (nome de domínio totalmente qualificado) a ser usado ao conectar-se ao cluster da Internet CLUSTERNAME.azurehdinsight.net.
  2. O segundo endereço IP público é usado para o nome de domínio somente SSH CLUSTERNAME-ssh.azurehdinsight.net.

Próximas etapas