Selezione delle dimensioni corrette della macchina virtuale per il cluster Azure HDInsight

Questo articolo illustra come selezionare le dimensioni corrette della macchina virtuale per i vari nodi nel cluster HDInsight.

Iniziare comprendendo come le proprietà di una macchina virtuale, ad esempio l'elaborazione della CPU, le dimensioni della RAM e la latenza di rete influiscono sull'elaborazione dei carichi di lavoro. Successivamente, si consideri l'applicazione e il modo in cui corrisponde alle diverse famiglie di macchine virtuali ottimizzate per. Assicurarsi che la famiglia di macchine virtuali da usare sia compatibile con il tipo di cluster che si prevede di distribuire. Per un elenco di tutte le dimensioni di macchine virtuali supportate e consigliate per ogni tipo di cluster, vedere Configurazioni dei nodi supportate da Azure HDInsight. Infine, è possibile usare un processo di benchmarking per testare alcuni carichi di lavoro di esempio e verificare quale SKU all'interno di tale famiglia è adatto.

Per altre informazioni sulla pianificazione di altri aspetti del cluster, ad esempio la selezione di un tipo di archiviazione o una dimensione del cluster, vedere Pianificazione della capacità per i cluster HDInsight.

Proprietà della macchina virtuale e carichi di lavoro Big Data

Il tipo e le dimensioni della macchina virtuale variano in base alla potenza di elaborazione della CPU, alle dimensioni della RAM e alla latenza di rete.

  • CPU: le dimensioni della macchina virtuale determinano il numero di core. Maggiore è il numero di core, più alto è il grado di calcolo parallelo che ogni nodo può raggiungere. Alcuni tipi di macchine virtuali hanno core più veloci.

  • RAM: le dimensioni della macchina virtuale determinano anche la quantità di RAM disponibile nella macchina virtuale. Per i carichi di lavoro che archiviano i dati in memoria per essere elaborati, anziché leggerli dal disco, accertarsi che i nodi di lavoro abbiano memoria sufficiente per contenere i dati.

  • Rete: per la maggior parte dei tipi di cluster, i dati elaborati dal cluster non sono nel disco locale, ma in un servizio di archiviazione esterno, ad esempio Data Lake Storage o Archiviazione di Azure. È necessario quindi tenere conto della larghezza di banda di rete e della velocità effettiva tra la macchina virtuale del nodo e il servizio di archiviazione. In genere, la larghezza di banda di rete disponibile per una macchina virtuale aumenta in caso di macchine di grandi dimensioni. Per informazioni dettagliate, vedere Panoramica delle dimensioni di VM.

Informazioni sull'ottimizzazione delle macchine virtuali

Le famiglie di macchine virtuali in Azure sono ottimizzate per soddisfare casi d'uso diversi. Nella tabella seguente è possibile trovare alcuni dei casi d'uso più diffusi e le famiglie di macchine virtuali corrispondenti a loro.

Tipo Dimensioni Descrizione
Livello di ingresso Av2 Avere configurazioni di prestazioni della CPU e memoria più adatte per i carichi di lavoro a livello di ingresso, ad esempio sviluppo e test. Sono economici e offrono un'opzione a basso costo per iniziare a usare Azure.
Utilizzo generico D, DSv2, Dv2 Rapporto equilibrato tra CPU e memoria. Soluzione ideale per test e sviluppo, database medio-piccoli e server Web con traffico da medio a ridotto.
Con ottimizzazione per il calcolo F Rapporto elevato tra CPU e memoria. Soluzione idonea per server Web con livelli medi di traffico, dispositivi di rete, processi batch e server applicazioni.
Ottimizzate per la memoria Esv3, Ev3 Rapporto elevato tra memoria e CPU. Soluzione ideale per server di database relazionali, cache medio-grandi e analisi in memoria.

Risparmio dei costi per i carichi di lavoro leggeri

Se si hanno requisiti di elaborazione leggeri, la serie F può essere una buona scelta per iniziare a usare HDInsight. Con un prezzo di listino orario più basso, la serie F presenta il migliore rapporto prezzo-prestazioni nel portfolio Azure basato sull'unità di elaborazione di Azure (ACU, Azure Compute Unit) per ogni vCPU.

Nella tabella seguente vengono descritti i tipi di cluster e i tipi di nodo, che possono essere creati con le macchine virtuali di serie Fsv2.

Tipo di cluster Versione Nodo di lavoro Nodo head Nodo Zookeeper
Spark Tutti F4 e versioni successive no no
Hadoop Tutti F4 e versioni successive no no
Kafka Tutti F4 e versioni successive no no
hbase Tutti F4 e versioni successive no no
LLAP disabled no no no

Per visualizzare le specifiche di ogni SKU serie F, vedere Dimensioni delle macchine virtuali serie F.

Benchmarking

Il benchmarking è il processo di esecuzione di carichi di lavoro simulati in macchine virtuali diverse per misurare il livello di prestazioni per i carichi di lavoro di produzione.

Per altre informazioni sul benchmarking per SKU vm e dimensioni del cluster, vedere Pianificazione della capacità del cluster in Azure HDInsight .

Passaggi successivi