Välja rätt VM-storlek för ditt Azure HDInsight-kluster

Den här artikeln beskriver hur du väljer rätt VM-storlek för de olika noderna i HDInsight-klustret.

Börja med att förstå hur egenskaperna för en virtuell dator, till exempel processorbearbetning, RAM-storlek och nätverksfördröjning, påverkar bearbetningen av dina arbetsbelastningar. Tänk sedan på ditt program och hur det matchar vad olika VM-familjer är optimerade för. Kontrollera att den virtuella datorfamilj som du vill använda är kompatibel med den klustertyp som du planerar att distribuera. En lista över alla storlekar på virtuella datorer som stöds och rekommenderas för varje klustertyp finns i Nodkonfigurationer som stöds av Azure HDInsight. Slutligen kan du använda en benchmarkingprocess för att testa några exempelarbetsbelastningar och kontrollera vilken SKU i den familjen som passar dig bäst.

Mer information om hur du planerar andra aspekter av klustret, till exempel att välja en lagringstyp eller klusterstorlek, finns i Kapacitetsplanering för HDInsight-kluster.

Egenskaper för virtuella datorer och stordataarbetsbelastningar

Storleken och typen av virtuell dator bestäms av processorkraft, RAM-storlek och nätverksfördröjning:

  • CPU: Storleken på den virtuella datorn avgör antalet kärnor. Ju fler kärnor, desto större grad av parallell beräkning kan varje nod uppnå. Vissa typer av virtuella datorer har också snabbare kärnor.

  • RAM: Storleken på den virtuella datorn avgör också mängden RAM-minne som är tillgängligt på den virtuella datorn. För arbetsbelastningar som lagrar data i minnet för bearbetning, i stället för att läsa från disk, kontrollerar du att arbetsnoderna har tillräckligt med minne för att passa data.

  • Nätverk: För de flesta klustertyper finns inte de data som bearbetas av klustret på en lokal disk, utan i en extern lagringstjänst som Data Lake Storage eller Azure Storage. Överväg nätverksbandbredden och dataflödet mellan den virtuella nodddatorn och lagringstjänsten. Nätverksbandbredden som är tillgänglig för en virtuell dator ökar vanligtvis med större storlekar. Mer information finns i Översikt över VM-storlekar.

Förstå VM-optimering

Virtuella datorfamiljer i Azure är optimerade för att passa olika användningsfall. I tabellen nedan hittar du några av de mest populära användningsfallen och de vm-familjer som matchar dem.

Typ Storlekar Beskrivning
Nybörjar Av2 Ha processorprestanda och minneskonfigurationer som passar bäst för arbetsbelastningar på ingångsnivå, till exempel utveckling och test. De är ekonomiska och ger ett billigt alternativ för att komma igång med Azure.
Generell användning D, DSv2, Dv2 Balanserat förhållande mellan processor och minne. Utmärkt för testning och utveckling, små till medelstora databaser och webbservrar med låg till medelhög trafik.
Beräkningsoptimerad F Högt förhållande mellan processor och minne. Bra för webbservrar med medelhög trafik, nätverksinstallationer, batchprocesser och programservrar.
Minnesoptimerad Esv3, Ev3 Högt förhållande mellan minne och processor. Utmärkt för relationsdatabasservrar, mellanstora till stora cacheminnen och minnesinterna analyser.
  • Information om priser för tillgängliga VM-instanser i HDInsight-regioner som stöds finns i HDInsight-priser.

Kostnadsbesparande VM-typer för lätta arbetsbelastningar

Om du har lätta bearbetningskrav kan F-serien vara ett bra val för att komma igång med HDInsight. F-serien har ett lägre listpris per timme och har bästa prisprestanda i Azure-portföljen baserat på Azure-beräkningsenhet (ACU, Azure Compute Unit) per virtuell processor.

I följande tabell beskrivs klustertyperna och nodtyperna, som kan skapas med de virtuella datorerna i Fsv2-serien.

Typ av kluster Version Arbetsnod Huvudnod Zookeeper-nod
Spark Alla F4 och senare nej nej
Hadoop Alla F4 och senare nej nej
Kafka Alla F4 och senare nej nej
HBase Alla F4 och senare nej nej
LLAP Inaktiverad nej nej nej

Information om specifikationerna för varje SKU i F-serien finns i VM-storlekar i F-serien.

Benchmarking

Benchmarking är processen att köra simulerade arbetsbelastningar på olika virtuella datorer för att mäta hur bra de kommer att prestera för dina produktionsarbetsbelastningar.

Mer information om benchmarking för VM-SKU:er och klusterstorlekar finns i Planera klusterkapacitet i Azure HDInsight .

Nästa steg