Capaciteitsplanning voor HDInsight-clusters
Voordat u een HDInsight-cluster implementeert, moet u de beoogde clustercapaciteit plannen door de benodigde prestaties en schaal te bepalen. Met deze planning kunt u zowel de bruikbaarheid als de kosten optimaliseren. Sommige beslissingen over clustercapaciteit kunnen niet worden gewijzigd na de implementatie. Als de prestatieparameters veranderen, kan een cluster worden gedemonteerd en opnieuw worden gemaakt zonder dat opgeslagen gegevens verloren gaan.
De belangrijkste vragen voor capaciteitsplanning zijn:
- In welke geografische regio moet u uw cluster implementeren?
- Hoeveel opslagruimte hebt u nodig?
- Welk clustertype moet u implementeren?
- Welke grootte en welk type virtuele machine (VM) moeten uw clusterknooppunten gebruiken?
- Hoeveel werkknooppunten moet uw cluster hebben?
Een Azure-regio kiezen
De Azure-regio bepaalt waar uw cluster fysiek wordt ingericht. Als u de latentie van lees- en schrijfbewerkingen wilt minimaliseren, moet het cluster zich in de buurt van uw gegevens bevinden.
HDInsight is beschikbaar in veel Azure-regio's. Zie Beschikbare producten per regio om de dichtstbijzijnde regio te vinden.
Opslaglocatie en -grootte kiezen
Locatie van standaardopslag
De standaardopslag, een Azure Storage-account of Azure Data Lake Storage, moet zich op dezelfde locatie bevinden als uw cluster. Azure Storage is beschikbaar op alle locaties. Data Lake Storage in sommige regio's beschikbaar is, raadpleegt u de huidige Data Lake Storage beschikbaarheid.
Locatie van bestaande gegevens
Als u een bestaand opslagaccount of Data Lake Storage wilt gebruiken als de standaardopslag van uw cluster, moet u uw cluster op dezelfde locatie implementeren.
Opslaggrootte
In een geïmplementeerd cluster kunt u andere Azure Storage-accounts koppelen of toegang krijgen tot andere Data Lake Storage. Al uw opslagaccounts moeten zich op dezelfde locatie bevinden als uw cluster. Een Data Lake Storage kan zich op een andere locatie bevinden, hoewel grote afstanden enige latentie kunnen veroorzaken.
Azure Storage heeft een aantal capaciteitslimieten, terwijl Data Lake Storage bijna onbeperkt is. Een cluster heeft toegang tot een combinatie van verschillende opslagaccounts. Typische voorbeelden zijn:
- Wanneer de hoeveelheid gegevens waarschijnlijk de opslagcapaciteit van één blobopslagcontainer overschrijdt.
- Wanneer de toegangssnelheid tot de blobcontainer de drempelwaarde voor beperking kan overschrijden.
- Als u gegevens wilt maken, hebt u al geüpload naar een blobcontainer die beschikbaar is voor het cluster.
- Wanneer u verschillende delen van de opslag wilt isoleren om veiligheidsredenen of om het beheer te vereenvoudigen.
Gebruik voor betere prestaties slechts één container per opslagaccount.
Een clustertype kiezen
Het clustertype bepaalt de workload die uw HDInsight-cluster moet uitvoeren. Voorbeelden van typen zijn Apache Hadoop, Apache Kafka of Apache Spark. Zie Inleiding tot Azure HDInsight voor een gedetailleerde beschrijving van de beschikbare clustertypen. Elk clustertype heeft een specifieke implementatietopologie met vereisten voor de grootte en het aantal knooppunten.
De VM-grootte en het type kiezen
Elk clustertype heeft een set knooppunttypen en elk knooppunttype heeft specifieke opties voor hun VM-grootte en -type.
Als u de optimale clustergrootte voor uw toepassing wilt bepalen, kunt u de clustercapaciteit benchmarken en de grootte verhogen zoals aangegeven. U kunt bijvoorbeeld een gesimuleerde workload of een canary-query gebruiken. Voer uw gesimuleerde workloads uit op clusters met verschillende grootten. Verhoog de grootte geleidelijk totdat de beoogde prestaties zijn bereikt. Er kan periodiek een canary-query worden ingevoegd tussen de andere productiequery's om aan te geven of het cluster voldoende resources heeft.
De clusterschaal kiezen
De schaal van een cluster wordt bepaald door de hoeveelheid VM-knooppunten. Voor alle clustertypen zijn er knooppunttypen met een specifieke schaal en knooppunttypen die uitschalen ondersteunen. Voor een cluster zijn bijvoorbeeld precies drie Apache ZooKeeper-knooppunten of twee hoofdknooppunten vereist. Werkknooppunten die gegevensverwerking op gedistribueerde wijze uitvoeren, profiteren van andere werkknooppunten.
Afhankelijk van uw clustertype voegt het verhogen van het aantal werkknooppunten meer rekencapaciteit toe (zoals meer kernen). Meer knooppunten verhogen het totale geheugen dat nodig is voor het hele cluster ter ondersteuning van opslag in het geheugen van gegevens die worden verwerkt. Net als bij de keuze van VM-grootte en -type, wordt het selecteren van de juiste clusterschaal doorgaans empirisch bereikt. Gebruik gesimuleerde workloads of canary-query's.
U kunt uw cluster uitschalen om te voldoen aan piekbelastingsvereisten. Schaal de schaal vervolgens weer omlaag wanneer deze extra knooppunten niet meer nodig zijn. Met de functie Automatisch schalen kunt u uw cluster automatisch schalen op basis van vooraf bepaalde metrische gegevens en tijdsinstellingen. Zie HDInsight-clusters schalen voor meer informatie over het handmatig schalen van uw clusters.
Levenscyclus van cluster
Er worden kosten in rekening gebracht voor de levensduur van een cluster. Als er slechts specifieke tijdstippen zijn waarop u uw cluster nodig hebt, maakt u clusters op aanvraag met behulp van Azure Data Factory. U kunt ook PowerShell-scripts maken die uw cluster inrichten en verwijderen, en deze scripts vervolgens plannen met behulp van Azure Automation.
Notitie
Wanneer een cluster wordt verwijderd, wordt ook de standaard Hive-metastore verwijderd. Als u de metastore wilt behouden voor het opnieuw maken van het cluster, gebruikt u een extern metagegevensarchief, zoals Azure Database of Apache Oozie.
Fouten met clustertaken isoleren
Soms kunnen fouten optreden vanwege de parallelle uitvoering van meerdere toewijzingen en reductieonderdelen in een cluster met meerdere knooppunten. Probeer gedistribueerde tests uit om het probleem te isoleren. Gelijktijdig meerdere taken uitvoeren op één werkknooppuntcluster. Vouw deze benadering vervolgens uit om meerdere taken gelijktijdig uit te voeren op clusters die meer dan één knooppunt bevatten. Als u een HDInsight-cluster met één knooppunt wilt maken in Azure, gebruikt u de Custom(size, settings, apps)
optie en gebruikt u de waarde 1 voor Aantal werkknooppunten in de sectie Clustergrootte bij het inrichten van een nieuw cluster in de portal.
Quotumbeheer voor HDInsight weergeven
Bekijk een gedetailleerd niveau en categorisatie van het quotum op het niveau van een VM-familie. Bekijk het huidige quotum en hoeveel quotum er nog is voor een regio op het niveau van een VM-familie.
Notitie
Deze functie is momenteel beschikbaar in HDInsight 4.x en 5.x voor de EUAP-regio VS - oost. Andere regio's die daarna volgen.
Huidig quotum weergeven:
Bekijk het huidige quotum en hoeveel quotum er nog is voor een regio op het niveau van een VM-familie.
Quotumdetails weergeven:
- Klik op de rij waarvoor u de quotumdetails wilt weergeven.
Quota
Zie Quotumverhoging aanvragen voor meer informatie over het beheren van abonnementsquota.
Volgende stappen
- Clusters instellen in HDInsight met Apache Hadoop, Spark, Kafka en meer: Meer informatie over het instellen en configureren van clusters in HDInsight.
- Clusterprestaties bewaken: meer informatie over belangrijke scenario's die moeten worden bewaakt voor uw HDInsight-cluster die van invloed kunnen zijn op de capaciteit van uw cluster.