De juiste VM-grootte selecteren voor uw Azure HDInsight-cluster
In dit artikel wordt beschreven hoe u de juiste VM-grootte selecteert voor de verschillende knooppunten in uw HDInsight-cluster.
Begin met het begrijpen hoe de eigenschappen van een virtuele machine, zoals CPU-verwerking, RAM-grootte en netwerklatentie van invloed zijn op de verwerking van uw workloads. Denk vervolgens na over uw toepassing en hoe deze overeenkomt met de verschillende VM-families die zijn geoptimaliseerd voor. Zorg ervoor dat de VM-familie die u wilt gebruiken compatibel is met het clustertype dat u wilt implementeren. Zie Azure HDInsight ondersteunde knooppuntconfiguraties voor een lijst met alle ondersteunde en aanbevolen VM-grootten voor elk clustertype. Ten slotte kunt u een benchmarkingproces gebruiken om een aantal voorbeeldworkloads te testen en te controleren welke SKU binnen die familie geschikt is voor u.
Zie Capaciteitsplanning voor HDInsight-clusters voor meer informatie over het plannen van andere aspecten van uw cluster, zoals het selecteren van een opslagtype of clustergrootte.
VM-eigenschappen en big data-workloads
De VM-grootte en het type worden bepaald door cpu-verwerkingskracht, RAM-grootte en netwerklatentie:
CPU: De VM-grootte bepaalt het aantal kernen. Hoe meer kernen, hoe groter de mate van parallelle berekening die elk knooppunt kan bereiken. Sommige VM-typen hebben ook snellere kernen.
RAM: De VM-grootte bepaalt ook de hoeveelheid RAM die beschikbaar is in de virtuele machine. Voor werkbelastingen die gegevens in het geheugen opslaan voor verwerking, in plaats van gegevens te lezen vanaf schijf, moet u ervoor zorgen dat uw werkknooppunten voldoende geheugen hebben om de gegevens te kunnen aanpassen.
Netwerk: Voor de meeste clustertypen bevinden de gegevens die door het cluster worden verwerkt zich niet op de lokale schijf, maar in een externe opslagservice, zoals Data Lake Storage of Azure Storage. Houd rekening met de netwerkbandbreedte en doorvoer tussen de knooppunt-VM en de opslagservice. De netwerkbandbreedte die beschikbaar is voor een virtuele machine neemt doorgaans toe met grotere grootten. Zie het overzicht van VM-grootten voor meer informatie.
Informatie over VM-optimalisatie
Virtuele-machinefamilies in Azure zijn geoptimaliseerd voor verschillende gebruiksscenario's. In de volgende tabel vindt u enkele van de populairste gebruiksvoorbeelden en de VM-families die overeenkomen met deze.
Type | Grootten | Beschrijving |
---|---|---|
Invoerniveau | Av2 |
Beschikken over CPU-prestaties en geheugenconfiguraties die het meest geschikt zijn voor workloads op invoerniveau, zoals ontwikkeling en testen. Ze zijn voordelig en bieden een goedkope optie om aan de slag te gaan met Azure. |
Algemeen gebruik | D , , DSv2 Dv2 |
Evenwichtige CPU-geheugenverhouding. Dit is ideaal voor testen en ontwikkelen, voor kleine tot middelgrote databases, en webservers met weinig tot gemiddeld verkeer. |
Geoptimaliseerde rekenkracht | F |
Hoge CPU-geheugenverhouding. Goed voor webservers met gemiddeld verkeer, netwerkapparatuur, batchprocessen en toepassingsservers. |
Geoptimaliseerd voor geheugen | Esv3 , Ev3 |
Hoge geheugen-CPU-verhouding. Zeer geschikt voor relationele databaseservers, middelgrote tot grote caches, en analysefuncties in het geheugen. |
- Zie hdInsight-prijzen voor informatie over de prijzen van beschikbare VM-exemplaren in ondersteunde HDInsight-regio's.
Kostenbesparende VM-typen voor lichte workloads
Als u lichte verwerkingsvereisten hebt, kan de F-serie een goede keuze zijn om aan de slag te gaan met HDInsight. Tegen een lagere prijs per uur levert de F-serie de beste prijs/kwaliteit-verhouding van de Azure-portfolio, gebaseerd op de ACU (Azure Compute Unit) per vCPU.
In de volgende tabel worden de clustertypen en knooppunttypen beschreven, die kunnen worden gemaakt met de VM's uit de Fsv2-serie.
Clustertype | Versie | Werkknooppunt | Hoofdknooppunt | ZooKeeper-knooppunt |
---|---|---|---|---|
Spark | Alle | F4 en hoger | nee | nee |
Hadoop | Alle | F4 en hoger | nee | nee |
Kafka | Alle | F4 en hoger | nee | nee |
HBase | Alle | F4 en hoger | nee | nee |
LLAP | disabled | nee | nee | nee |
Zie VM-grootten uit de F-serie voor de specificaties van elke SKU uit de F-serie.
Benchmarking
Benchmarking is het proces voor het uitvoeren van gesimuleerde workloads op verschillende VM's om te meten hoe goed ze presteren voor uw productieworkloads.
Zie Clustercapaciteitsplanning in Azure HDInsight voor meer informatie over benchmarking voor VM-SKU's en clustergrootten.