Architettura della rete virtuale di HDInsight
Questo articolo illustra le risorse presenti quando si distribuisce un cluster HDInsight in un'Rete virtuale di Azure personalizzata. Queste informazioni consentono di connettere le risorse locali al cluster HDInsight in Azure. Per altre informazioni sulle Rete virtuale di Azure, vedere Che cos'è Azure Rete virtuale?.
Tipi di risorse nel cluster Azure HDInsight
I cluster Azure HDInsight hanno tipi diversi di macchine virtuali o nodi. Ogni tipo di nodo svolge un ruolo nel funzionamento del sistema. La tabella seguente riepiloga questi tipi di nodo e i relativi ruoli nel cluster.
Tipo | Descrizione |
---|---|
Nodo ZooKeeper | Zookeeper coordina le attività tra i nodi che eseguono l'elaborazione dei dati. Esegue anche l'elezione di leader del nodo head e tiene traccia del nodo head in cui è in esecuzione un servizio master specifico. Il numero di nodi ZooKeeper è fisso a tre. |
Nodo di lavoro | Rappresenta i nodi che supportano la funzionalità di elaborazione dati. I nodi di lavoro possono essere aggiunti o rimossi dal cluster per ridimensionare la funzionalità di calcolo e gestire i costi. |
Nodo area | Per il tipo di cluster HBase, il nodo dell'area (detto anche nodo dati) esegue il server di area. I server di area gestiscono e gestiscono una parte dei dati gestiti da HBase. I nodi di area possono essere aggiunti o rimossi dal cluster per ridimensionare le funzionalità di calcolo e gestire i costi. |
Convenzioni di denominazione delle risorse
Usare nomi di dominio completi (FQDN) quando si indirizzano i nodi nel cluster. È possibile ottenere i nomi di dominio completi per vari tipi di nodo nel cluster usando l'API Ambari.
Questi nomi di dominio completi sono nel formato <node-type-prefix><instance-number>-<abbreviated-clustername>.<unique-identifier>.cx.internal.cloudapp.net
.
<node-type-prefix>
è hn
per i nodi head, wn
per i nodi di lavoro e zn
per i nodi zookeeper.
Se è necessario solo il nome host, usare solo la prima parte del nome di dominio completo: <node-type-prefix><instance-number>-<abbreviated-clustername>
Risorse di rete virtuale di base
Il diagramma seguente illustra il posizionamento dei nodi HDInsight e delle risorse di rete in Azure.
Le risorse predefinite in un Rete virtuale di Azure includono i tipi di nodo del cluster indicati nella tabella precedente. E i dispositivi di rete che supportano la comunicazione tra la rete virtuale e le reti esterne.
La tabella seguente riepiloga i nove nodi del cluster creati quando HDInsight viene distribuito in un Rete virtuale di Azure personalizzato.
Tipo di risorsa | Numero presente | Dettagli |
---|---|---|
Nodo head | Due | |
Nodo Zookeeper | tre | |
Nodo di lavoro | Due | Questo numero può variare in base alla configurazione e alla scalabilità del cluster. Per Apache Kafka sono necessari almeno tre nodi di lavoro. |
Nodo gateway | Due | I nodi del gateway sono macchine virtuali di Azure create in Azure, ma non sono visibili nella sottoscrizione. Se è necessario riavviare questi nodi, contattare il supporto tecnico. |
Le risorse di rete seguenti presenti vengono create automaticamente all'interno della rete virtuale usata con HDInsight:
Risorsa di rete | Numero presente | Dettagli |
---|---|---|
Bilanciamento del carico | Due | Il servizio di bilanciamento del carico fornisce l'accesso alla rete in ingresso per i nodi. I due servizi di bilanciamento del carico sono per: due nodi head e due nodi del gateway. I servizi di bilanciamento del carico sono SKU standard. |
Interfacce di rete | Nove | Questo valore si basa su un cluster normale, in cui ogni nodo ha una propria interfaccia di rete. Le nove interfacce sono per: due nodi head, tre nodi zookeeper, due nodi di lavoro e due nodi del gateway menzionati nella tabella precedente. |
Indirizzi IP pubblici | Due | Due indirizzi IP pubblici sono collegati ai servizi di bilanciamento del carico. |
È possibile usare diversi metodi di connettività in uscita con la rete virtuale personalizzata illustrata in SNAT (Source Network Address Translation) per le connessioni in uscita - Azure Load Balancer.
Nota
Il modo più consigliato consiste nell'associare la subnet a un gateway NAT. Richiede un gateway NAT e un gruppo di sicurezza di rete creato nella subnet prima di creare il cluster HDInsight. È possibile associare un indirizzo IP pubblico o un prefisso IP pubblico con il gateway NAT. Per le regole del gruppo di sicurezza di rete da creare, vedere Controllare il traffico di rete in Azure HDInsight
Endpoint per la connessione a HDInsight
È possibile accedere al cluster HDInsight in tre modi:
- Endpoint HTTPS all'esterno della rete virtuale all'indirizzo
CLUSTERNAME.azurehdinsight.net
. - Endpoint SSH per la connessione diretta al nodo head all'indirizzo
CLUSTERNAME-ssh.azurehdinsight.net
. - Endpoint HTTPS all'interno della rete
CLUSTERNAME-int.azurehdinsight.net
virtuale . Si noti che "-int
" in questo URL. Questo endpoint viene risolto in un indirizzo IP privato in tale rete virtuale e non è accessibile dalla rete Internet pubblica.
A questi tre endpoint viene assegnato un servizio di bilanciamento del carico.
Gli indirizzi IP pubblici vengono forniti anche ai due endpoint che consentono la connessione dall'esterno della rete virtuale.
- Un indirizzo IP pubblico viene assegnato al servizio di bilanciamento del carico per il nome di dominio completo (FQDN) da usare per la connessione al cluster da Internet
CLUSTERNAME.azurehdinsight.net
. - Il secondo indirizzo IP pubblico viene usato per il solo nome
CLUSTERNAME-ssh.azurehdinsight.net
di dominio SSH.