Kapazitätsplanung für HDInsight-Cluster

Artikel
12/02/2024

Planen Sie vor der Bereitstellung eines HDInsight-Clusters die vorgesehene Clusterkapazität, indem Sie die erforderliche Leistung und Skalierung bestimmen. Diese Planung trägt zur Optimierung von Nutzbarkeit und Kosten bei. Einige Entscheidungen hinsichtlich der Clusterkapazität können nach der Bereitstellung nicht mehr geändert werden. Wenn sich die Leistungsparameter ändern, kann ein Cluster deinstalliert und ohne Verlust von gespeicherten Daten neu erstellt werden.

Die wichtigsten Fragen zur Kapazitätsplanung sind:

In welcher geografischen Region sollten Sie Ihren Cluster bereitstellen?
Wie viel Speicher benötigen Sie?
Welchen Clustertyp sollten Sie bereitstellen?
Welche VM-Größe und welchen VM-Typ sollten die Clusterknoten verwenden?
Wie viele Workerknoten sollte Ihr Cluster besitzen?

Auswahl einer Azure-Region

Die Azure-Region bestimmt, wo Ihr Cluster physisch bereitgestellt wird. Um die Latenz der Lese- und Schreibvorgänge zu minimieren, sollte der Cluster sich in der Nähe Ihrer Daten befinden.

HDInsight ist in vielen Azure-Regionen verfügbar. Die nächstgelegene Region finden Sie unter Verfügbare Produkte nach Region.

Auswahl von Speicherort und -größe

Speicherort des Standardspeichers

Der Standardspeicher, ein Azure Storage-Konto oder Azure Data Lake Storage, muss sich am gleichen Standort wie der Cluster befinden. Azure Storage ist an allen Speicherorten verfügbar. Data Lake Storage ist in einigen Regionen verfügbar – siehe die aktuelle Data Lake Store-Verfügbarkeit.

Speicherort der vorhandenen Daten

Wenn Sie ein vorhandenes Speicherkonto oder Data Lake-Storage als Standardspeicher für Ihren Cluster verwenden möchten, müssen Sie Ihren Cluster am gleichen Standort bereitstellen.

Speichergröße

Für einen bereitgestellten Cluster können Sie zusätzliche Azure Storage-Konten anfügen oder auf andere Data Lake Storages zugreifen. Alle Ihre Speicherkonten müssen sich an demselben Speicherort wie Ihr Cluster befinden. Ein Data Lake Storage kann sich an einem anderen Standort befinden, auch wenn große Entfernungen zu einer gewissen Wartezeit führen können.

Für Azure Storage gelten einige Kapazitätsgrenzen, während Data Lake Storage nahezu unbegrenzt ist. Ein Cluster kann auf eine Kombination verschiedener Speicherkonten zugreifen. Typische Beispiele hierfür sind:

Die Menge der Daten überschreitet wahrscheinlich die Speicherkapazität eines einzelnen Blobspeichercontainers.
Die Zugriffsrate könnte beim Zugriff auf den Blobcontainer den Schwellenwert überschreiten, bei dem eine Drosselung auftritt.
Sie möchten Daten bearbeiten, die Sie bereits in einen Blobcontainer hochgeladen haben, der für den Cluster verfügbar ist.
Sie möchten verschiedene Teile des Speichers aus Sicherheitsgründen, oder um die Administration zu vereinfachen, isolieren.

Verwenden Sie nur einen Container pro Speicherkonto, um die Leistung zu verbessern.

Auswahl eines Clustertyps

Der Clustertyp bestimmt die Workload, für deren Ausführung Ihr HDInsight-Cluster konfiguriert ist. Zu den Typen gehören Apache Hadoop, Apache Kafka oder Apache Spark. Eine detaillierte Beschreibung der verfügbaren Clustertypen finden Sie unter Einführung in Azure HDInsight. Jeder Clustertyp verfügt über eine bestimmte Bereitstellungstopologie, die Anforderungen an die Größe und Anzahl der Knoten enthält.

Auswahl von Größe und Typ des virtuellen Computers

Jeder Clustertyp hat einen Satz von Knotentypen, und jeder Knotentyp hat bestimmte Optionen für VM-Größe und -Typ.

Um die optimale Clustergröße für Ihre Anwendung zu ermitteln, können Sie einen Vergleichstest für die Clusterkapazität durchführen und die Größe wie angegeben heraufsetzen. Sie können z.B. eine simulierte Workload oder eine Testabfrage verwenden. Führen Sie die simulierten Workloads in Clustern mit unterschiedlicher Größe aus. Erhöhen Sie allmählich die Größe, bis die beabsichtigte Leistung erreicht ist. Eine Testabfrage kann in regelmäßigen Abständen zwischen anderen Produktionsabfragen eingefügt werden, um zu zeigen, ob der Cluster über genügend Ressourcen verfügt.

Weitere Informationen zum Auswählen der richtigen VM-Familie für ihre Workload finden Sie unter Auswählen der richtigen VM-Größe für Ihren Azure HDInsight-Cluster.

Auswahl der Clusterskalierung

Die Skalierung eines Clusters wird durch die Menge seiner VM-Knoten bestimmt. Für alle Clustertypen gibt es Knotentypen mit bestimmter Skalierung, und Knotentypen, die horizontales Hochskalieren unterstützen. Beispielsweise könnte ein Cluster genau drei Apache ZooKeeper-Knoten oder zwei Hauptknoten erfordern. Workerknoten, die eine verteilte Datenverarbeitung praktizieren, profitieren von den zusätzlichen Workerknoten.

Abhängig von Ihrem Clustertyp führt eine Erhöhung der Anzahl der Workerknoten zu zusätzlicher Rechenkapazität (z. B. mehr Kerne). Mehr Knoten erhöhen den Gesamtspeicherbedarf des gesamten Clusters, um die In-Memory-Speicherung der zu verarbeitenden Daten zu unterstützen. Wie bei der Wahl von VM-Größe und -Typ wird die Auswahl der richtigen Clustergröße in der Regel empirisch erreicht. Verwenden Sie simulierte Workloads oder Testabfragen.

Sie können Ihren Cluster aufskalieren, um Spitzenlastanforderungen zu erfüllen. Dann skalieren Sie ihn wieder herunter, wenn diese zusätzlichen Knoten nicht mehr benötigt werden. Das Autoskalierungsfeature ermöglicht die automatische Skalierung Ihres Clusters auf der Grundlage vorab festgelegter Metriken und Zeitangaben. Weitere Informationen zur manuellen Clusterskalierung finden Sie unter Skalieren von HDInsight-Clustern.

Clusterlebenszyklus

Die Lebensdauer des Clusters wird Ihnen in Rechnung gestellt. Wenn Sie Ihren Cluster nur zu bestimmten Zeiten benötigen, können Sie mithilfe von Azure Data Factory bedarfsgesteuerte Cluster erstellen. Sie können auch PowerShell-Skripts erstellen, die Ihren Cluster bereitstellen und löschen, und diese Skripts mit Azure Automation planen.

Hinweis

Wenn ein Cluster gelöscht wird, wird sein standardmäßiger Hive-Metastore ebenfalls gelöscht. Um den Metastore für die nächste Clusterneuerstellung beizubehalten, verwenden Sie einen externen Metadatenspeicher, z.B. Azure Database oder Apache Oozie.

Isolieren von Clusterauftragsfehlern

Manchmal können Fehler aufgrund paralleler Ausführung von Mehrfachzuordnungen auftreten und Komponenten auf einem Cluster mit mehreren Knoten reduzieren. Versuchen Sie es mit verteilten Tests, um das Problem einzugrenzen. Führen Sie mehrere Aufträge gleichzeitig auf einem einzelnen Workerknotencluster aus. Erweitern Sie dann diesen Ansatz, um mehrere Aufträge gleichzeitig auf Clustern mit mehr als einem Knoten auszuführen. Um einen HDInsight-Cluster mit einem einzelnen Knoten in Azure zu erstellen, verwenden Sie die Option Custom(size, settings, apps), und verwenden Sie für die Bereitstellung eines neuen Clusters im Portal den Wert „1“ für Anzahl von Workerknoten im Abschnitt Clustergröße.

Anzeigen der Kontingentverwaltung für HDInsight

Zeigen Sie eine detaillierte Ebene und Kategorisierung des Kontingents auf VM-Familienebene an. Zeigen Sie das aktuelle Kontingent und das verbleibende Kontingent für eine Region auf VM-Familienebene an.

Hinweis

Dieses Feature ist derzeit in HDInsight 4.x und 5.x für die EUAP-Region „USA, Osten“ verfügbar. Weitere Regionen werden später folgen.

Aktuelles Kontingent anzeigen:

Sehen Sie sich das aktuelle Kontingent und das verbleibende Kontingent für eine Region auf VM-Familienebene an.
1. Suchen Sie in Azure-Portal in der oberen Suchleiste nach Kontingenten, und wählen Sie dies aus.
2. Wählen Sie auf der Seite „Kontingent“ die Option Azure HDInsight aus
3. Wählen Sie im Dropdownfeld Ihr Abonnement und Ihre Region aus
Anfordern neuer Kontingente pro VM-Familie und Region
1. Klicken Sie auf die Zeile, für die Sie die Kontingentdetails anzeigen möchten.

Kontingente

Weitere Informationen zur Verwaltung von Abonnementkontingenten finden Sie unter Anfordern einer Erhöhung von Kontingenten.

Nächste Schritte

Einrichten von Clustern in HDInsight mit Apache Hadoop, Spark, Kafka usw.: Erfahren Sie, wie Cluster in HDInsight eingerichtet und konfiguriert werden können.
Überwachen der Clusterleistung: Lernen Sie wichtige Szenarien zur Überwachung des HDInsight-Clusters kennen, die sich auf die Kapazität des Clusters auswirken können.

Freigeben über