Architettura della rete virtuale di HDInsight

Questo articolo illustra le risorse presenti quando si distribuisce un cluster HDInsight in un'Rete virtuale di Azure personalizzata. Queste informazioni consentono di connettere le risorse locali al cluster HDInsight in Azure. Per altre informazioni sulle Rete virtuale di Azure, vedere Che cos'è Azure Rete virtuale?.

Tipi di risorse nei cluster Azure HDInsight

I cluster Azure HDInsight hanno tipi diversi di macchine virtuali o nodi. Ogni tipo di nodo svolge un ruolo nel funzionamento del sistema. La tabella seguente riepiloga questi tipi di nodo e i relativi ruoli nel cluster.

Tipo Descrizione
Nodo ZooKeeper Zookeeper coordina le attività tra i nodi che eseguono l'elaborazione dei dati. Esegue anche l'elezione di leader del nodo head e tiene traccia del nodo head in cui è in esecuzione un servizio master specifico. Il numero di nodi ZooKeeper è fisso a tre.
Nodo di lavoro Rappresenta i nodi che supportano la funzionalità di elaborazione dati. I nodi di lavoro possono essere aggiunti o rimossi dal cluster per ridimensionare la funzionalità di calcolo e gestire i costi.
Nodo area Per il tipo di cluster HBase, il nodo dell'area (detto anche nodo dati) esegue il server di area. I server di area gestiscono e gestiscono una parte dei dati gestiti da HBase. I nodi di area possono essere aggiunti o rimossi dal cluster per ridimensionare le funzionalità di calcolo e gestire i costi.

Convenzioni di denominazione delle risorse

Usare nomi di dominio completi (FQDN) quando si indirizzano i nodi nel cluster. È possibile ottenere i nomi di dominio completi per vari tipi di nodo nel cluster usando l'API Ambari.

Questi nomi di dominio completi saranno nel formato <node-type-prefix><instance-number>-<abbreviated-clustername>.<unique-identifier>.cx.internal.cloudapp.net.

<node-type-prefix> sarà hn per i nodi head, wn per i nodi di lavoro e zn per i nodi zookeeper.

Se è necessario solo il nome host, usare solo la prima parte del nome di dominio completo: <node-type-prefix><instance-number>-<abbreviated-clustername>

Risorse di rete virtuale di base

Il diagramma seguente illustra il posizionamento dei nodi HDInsight e delle risorse di rete in Azure.

Diagram of HDInsight entities created in Azure custom VNET.

Le risorse predefinite in un Rete virtuale di Azure includono i tipi di nodo del cluster indicati nella tabella precedente. E i dispositivi di rete che supportano la comunicazione tra la rete virtuale e le reti esterne.

La tabella seguente riepiloga i nove nodi del cluster creati quando HDInsight viene distribuito in un Rete virtuale di Azure personalizzato.

Tipo di risorsa Numero presente Dettagli
Nodo head due
Nodo Zookeeper tre
Nodo di lavoro due Questo numero può variare in base alla configurazione e alla scalabilità del cluster. Per Apache Kafka sono necessari almeno tre nodi di lavoro.
Nodo gateway due I nodi del gateway sono macchine virtuali di Azure create in Azure, ma non sono visibili nella sottoscrizione. Se è necessario riavviare questi nodi, contattare il supporto tecnico.

Le risorse di rete seguenti presenti vengono create automaticamente all'interno della rete virtuale usata con HDInsight:

Risorsa di rete Numero presente Dettagli
Bilanciamento del carico tre
Interfacce di rete Nove Questo valore si basa su un cluster normale, in cui ogni nodo ha una propria interfaccia di rete. Le nove interfacce sono per: due nodi head, tre nodi zookeeper, due nodi di lavoro e due nodi del gateway menzionati nella tabella precedente.
Indirizzi IP pubblici due

Endpoint per la connessione a HDInsight

È possibile accedere al cluster HDInsight in tre modi:

  • Endpoint HTTPS all'esterno della rete virtuale all'indirizzo CLUSTERNAME.azurehdinsight.net.
  • Endpoint SSH per la connessione diretta al nodo head all'indirizzo CLUSTERNAME-ssh.azurehdinsight.net.
  • Endpoint HTTPS all'interno della rete CLUSTERNAME-int.azurehdinsight.netvirtuale . Si noti che "-int" in questo URL. Questo endpoint viene risolto in un indirizzo IP privato in tale rete virtuale e non è accessibile dalla rete Internet pubblica.

A questi tre endpoint viene assegnato un servizio di bilanciamento del carico.

Gli indirizzi IP pubblici vengono forniti anche ai due endpoint che consentono la connessione dall'esterno della rete virtuale.

  1. Un indirizzo IP pubblico viene assegnato al servizio di bilanciamento del carico per il nome di dominio completo (FQDN) da usare per la connessione al cluster da Internet CLUSTERNAME.azurehdinsight.net.
  2. Il secondo indirizzo IP pubblico viene usato per il solo nome CLUSTERNAME-ssh.azurehdinsight.netdi dominio SSH.

Passaggi successivi