De juiste VM-grootte voor uw Azure HDInsight-cluster selecteren

In dit artikel wordt beschreven hoe u de juiste VM-grootte selecteert voor de verschillende knooppunten in uw HDInsight-cluster.

Begin met begrijpen hoe de eigenschappen van een virtuele machine, zoals CPU-verwerking, RAM-grootte en netwerklatentie, van invloed zijn op de verwerking van uw workloads. Denk vervolgens na over uw toepassing en hoe deze overeenkomt met de verschillende VM-families die zijn geoptimaliseerd voor. Zorg ervoor dat de VM-familie die u wilt gebruiken compatibel is met het clustertype dat u wilt implementeren. Zie Azure HDInsight supported node configurations (Ondersteunde knooppuntconfiguraties van Azure HDInsight) voor een lijst met alle ondersteunde en aanbevolen VM-grootten voor elk clustertype. Ten slotte kunt u een benchmarkproces gebruiken om enkele voorbeeldworkloads te testen en te controleren welke SKU binnen die familie geschikt is voor u.

Zie Capaciteitsplanning voor HDInsight-clusters voor meer informatie over het plannen van andere aspecten van uw cluster, zoals het selecteren van een opslagtype of clustergrootte.

VM-eigenschappen en big data-workloads

De GROOTTE en het type van de VM worden bepaald door de CPU-verwerkingskracht, de RAM-grootte en de netwerklatentie:

  • CPU: de VM-grootte bepaalt het aantal kernen. Hoe meer kernen, hoe groter de mate van parallelle berekening die elk knooppunt kan bereiken. Sommige VM-typen hebben ook snellere kernen.

  • RAM: de VM-grootte bepaalt ook de hoeveelheid RAM die beschikbaar is in de virtuele machine. Voor werkbelastingen waarin gegevens worden opgeslagen in het geheugen voor verwerking, in plaats van te lezen van schijf, moet u ervoor zorgen dat uw werkknooppunten voldoende geheugen hebben om de gegevens aan te passen.

  • Netwerk: Voor de meeste clustertypen bevinden de gegevens die door het cluster worden verwerkt zich niet op een lokale schijf, maar in een externe opslagservice, zoals Data Lake Storage of Azure Storage. Houd rekening met de netwerkbandbreedte en doorvoer tussen de knooppunt-VM en de opslagservice. De netwerkbandbreedte die beschikbaar is voor een VIRTUELE machine neemt doorgaans toe met grotere grootten. Zie Overzicht van VM-grootten voor meer informatie.

Informatie over VM-optimalisatie

Virtuele-machinefamilies in Azure zijn geoptimaliseerd voor verschillende gebruiksscenario's. In de onderstaande tabel vindt u enkele van de meest populaire use cases en de VM-families die eraan voldoen.

Type Grootten Beschrijving
Entry-level Av2 Beschikken over CPU-prestaties en geheugenconfiguraties die het meest geschikt zijn voor werkbelastingen op instapniveau, zoals ontwikkeling en testen. Ze zijn voordelig en bieden een goedkope optie om aan de slag te gaan met Azure.
Algemeen gebruik D, DSv2, Dv2 Evenwichtige CPU-geheugenverhouding. Dit is ideaal voor testen en ontwikkelen, voor kleine tot middelgrote databases, en webservers met weinig tot gemiddeld verkeer.
Geoptimaliseerde rekenkracht F Hoge CPU-geheugenverhouding. Geschikt voor webservers met gemiddeld verkeer, netwerkapparaten, batchprocessen en toepassingsservers.
Geoptimaliseerd voor geheugen Esv3, Ev3 Hoge geheugen-CPU-verhouding. Zeer geschikt voor relationele databaseservers, middelgrote tot grote caches, en analysefuncties in het geheugen.
  • Zie PRIJZEN voor HDInsight voor informatie over de prijzen van beschikbare VM-exemplaren in hdInsight-ondersteunde regio's.

Kostenbesparende VM-typen voor lichte workloads

Als u lichte verwerkingsvereisten hebt, kan de F-serie een goede keuze zijn om aan de slag te gaan met HDInsight. Tegen een lagere prijs per uur levert de F-serie de beste prijs/kwaliteit-verhouding van de Azure-portfolio, gebaseerd op de ACU (Azure Compute Unit) per vCPU.

In de volgende tabel worden de clustertypen en knooppunttypen beschreven, die kunnen worden gemaakt met de VM's uit de Fsv2-serie.

Clustertype Versie Werkknooppunt Hoofdknooppunt Zookeeper-knooppunt
Spark Alles F4 en hoger nee nee
Hadoop Alles F4 en hoger nee nee
Kafka Alles F4 en hoger nee nee
HBase Alles F4 en hoger nee nee
LLAP Handicap nee nee nee

Zie VM-grootten van de F-serie voor meer informatie over de specificaties van elke SKU uit de F-serie.

Benchmarking

Benchmarking is het proces van het uitvoeren van gesimuleerde workloads op verschillende VM's om te meten hoe goed ze presteren voor uw productieworkloads.

Zie Clustercapaciteitsplanning in Azure HDInsight voor meer informatie over benchmarking voor VM-SKU's en clustergrootten.

Volgende stappen