Fehler beim Starten von Apache HBase Master (HMaster) in Azure HDInsight

Artikel
03/23/2024

In diesem Artikel werden Schritte zur Problembehandlung und mögliche Lösungen für Probleme bei der Interaktion mit Azure HDInsight-Clustern beschrieben.

Szenario: `Master startup cannot progress, in holding-pattern until region comes online`

Problem

HMaster kann aufgrund der folgenden Warnung nicht gestartet werden:

hbase:namespace,,<timestamp_region_create>.<encoded_region_name>.is NOT online; state={<encoded_region_name> state=OPEN, ts=<some_timestamp>, server=<server_name>}; ServerCrashProcedures=true. Master startup cannot progress, in holding-pattern until region onlined.

Beispielsweise können die Parameterwerte in der tatsächlichen Meldung variieren:

hbase:namespace,,1546588612000.0000010bc582e331e3080d5913a97000. is NOT online; state={0000010bc582e331e3080d5913a97000 state=OPEN, ts=1633935993000, server=<wn fqdn>,16000,1622012792000}; ServerCrashProcedures=false. Master startup cannot progress, in holding-pattern until region onlined.

Ursache

HMaster überprüft das WAL-Verzeichnis auf den Regionsservern, bevor die OFFENEN (OPEN) Regionen wieder online geschaltet werden. Wenn dieses Verzeichnis, wie in diesem Fall, nicht vorhanden ist, erfolgt kein Start.

Lösung

Erstellen Sie dieses Dummyverzeichnis mit dem Befehl: sudo -u hbase hdfs dfs -mkdir /hbase-wals/WALs/<wn fqdn>,16000,1622012792000.
Starten Sie den HMaster-Dienst über die Ambari-Benutzeroberfläche neu.

Wenn Sie hbase-2.x verwenden, finden Sie weitere Informationen unter Verwenden von hbck2 zum Zuweisen von Namespace und Metatabelle.

Szenario: Fehler bei der atomischen Umbenennung

Problem

Beim Start wurden unerwartete Dateien erkannt.

Ursache

Im Rahmen des Startvorgangs führt HMaster verschiedene Initialisierungsschritte aus. Dabei werden unter anderem Daten aus dem Ablageordner (.tmp) in den Datenordner verschoben. HMaster untersucht zudem den Ordner mit write-ahead-Protokollen (WALs), um festzustellen, ob nicht reagierende Regionsserver vorhanden sind.

HMaster führt einen einfachen list-Befehl für die WAL-Ordner aus. Findet HMaster zu einem beliebigen Zeitpunkt eine unerwartete Datei in einem dieser Ordner, wird eine Ausnahme ausgelöst und kein Start ausgeführt.

Lösung

Überprüfen Sie die Aufrufliste und versuchen Sie festzustellen, welcher Ordner das Problem verursachen könnte (dies können beispielsweise der WAL-Ordner oder der TMP-Ordner sein). Versuchen Sie anschließend im Azure Storage-Explorer oder mit HDFS-Befehlen die problematische Datei zu lokalisieren. In der Regel hat diese Datei die Bezeichnung *-renamePending.json. (Die *-renamePending.json-Datei ist eine Journaldatei, mit welcher der Vorgang der atomischen Umbenennung im WASB-Treiber implementiert wird. Aufgrund von Fehlern in dieser Implementierung können derartige Dateien nach Prozessabstürzen usw. weiterhin vorhanden sein.) Erzwingen Sie die Löschung dieser Datei im Cloud-Explorer oder durch Ausführen von HDFS-Befehlen.

Gelegentlich kann an diesem Speicherort auch eine temporäre Datei mit einem Namen wie $$$.$$$ vorhanden sein. Sie müssen den HDFS-Befehl ls verwenden, um diese Datei anzuzeigen. Im Azure Storage-Explorer wird die Datei nicht angezeigt. Führen Sie zum Löschen dieser Datei den HDFS-Befehl hdfs dfs -rm /\<path>\/\$\$\$.\$\$\$ aus.

Nach dem Ausführen dieser Befehle sollte HMaster sofort gestartet werden.

Szenario: Keine Serveradresse aufgelistet

Problem

Möglicherweise wird eine Meldung angezeigt, die besagt, dass die hbase: meta-Tabelle nicht online ist. Bei Ausführung von hbck wird u. U. Folgendes gemeldet: hbase: meta table replicaId 0 is not found on any region. In den HMaster-Protokollen könnte diese Meldung angezeigt werden: No server address listed in hbase: meta for region hbase: backup <region name>.

Ursache

HMaster konnte nach einem HBase-Neustart nicht initialisiert werden.

Lösung

Geben Sie in der HBase-Shell die folgenden Befehle ein (ändern Sie ggf. die Istwerte):
```
scan 'hbase:meta'
delete 'hbase:meta','hbase:backup <region name>','<column name>'
```
Löschen Sie den Eintrag hbase: namespace. Bei diesem Eintrag kann es sich um den gleichen Fehler handeln, der auch beim Überprüfen der Tabelle hbase: namespace gemeldet wurde.
Starten Sie den aktiven HMaster von der Ambari-Benutzeroberfläche aus neu, um HBase hochzufahren.
Führen Sie in der HBase-Shell den folgenden Befehl aus, um alle Tabellen hochzufahren, die offline sind:
```
hbase hbck -ignorePreCheckPermission -fixAssignments
```

Szenario: `java.io.IOException: Timedout`

Problem

Für HMaster tritt ein Timeout mit einer schwerwiegenden Ausnahme wie java.io.IOException: Timedout 300000ms waiting for namespace table to be assigned auf.

Ursache

Dieses Problem kann auftreten, wenn viele Tabellen und Regionen vorhanden sind, die beim Neustart der HMaster-Dienste nicht geleert wurden. Das Timeout ist ein bekannter HMaster-Fehler. Allgemeine Cluster-Startaufgaben können sehr lange dauern. HMaster wird heruntergefahren, wenn die Namespacetabelle noch nicht zugewiesen ist. Es kommt zu langwierigen Startaufgaben, wenn eine große Menge an nicht geleerten Daten vorhanden ist und ein Zeitlimit von fünf Minuten nicht ausreicht.

Lösung

Wechseln Sie auf der Apache Ambari-Benutzeroberfläche zu HBase>Configs. Fügen Sie in der benutzerdefinierten Datei hbase-site.xml die folgende Einstellung hinzu:
```
Key: hbase.master.namespace.init.timeout Value: 2400000  
```
Starten Sie die erforderlichen Dienste neu (HMaster und möglicherweise andere HBase-Dienste).

Szenario: Häufige Neustarts des Regionsservers

Problem

Knoten werden regelmäßig neu gestartet. Die Regionsserverprotokolle enthalten Einträge wie:

2017-05-09 17:45:07,683 WARN  [JvmPauseMonitor] util.JvmPauseMonitor: Detected pause in JVM or host machine (eg GC): pause of approximately 31000ms
2017-05-09 17:45:07,683 WARN  [JvmPauseMonitor] util.JvmPauseMonitor: Detected pause in JVM or host machine (eg GC): pause of approximately 31000ms
2017-05-09 17:45:07,683 WARN  [JvmPauseMonitor] util.JvmPauseMonitor: Detected pause in JVM or host machine (eg GC): pause of approximately 31000ms

Ursache: ZooKeeper-Sitzungstimeout

Lange Unterbrechung der JVM-GC von regionserver. Die Pause führt dazu, dass der regionserver nicht mehr reagiert und innerhalb des ZooKeeper-Sitzungstimeouts von 40 Sekunden keinen Heartbeat an HMaster senden kann. HMaster nimmt an, dass der regionserver inaktiv ist, bricht den regionserver ab und führt einen Neustart durch.

Ändern Sie das ZooKeeper-Sitzungstimeout zum Abmildern. Hierzu muss nicht nur die hbase-site-Einstellung zookeeper.session.timeout, sondern auch die zoo.cfg-Einstellung maxSessionTimeout von ZooKeeper geändert werden.

Navigieren Sie auf der Ambari-Benutzeroberfläche zu HBase> Konfigurationen > Einstellungen, und ändern Sie im Timeoutabschnitt den Wert des ZooKeeper-Sitzungstimeouts.
Navigieren Sie in der Ambari-Benutzeroberfläche zu Zookeeper > Configs > Custom zoo.cfg, und fügen Sie die folgende Einstellung hinzu, bzw. ändern Sie sie. Achten Sie darauf, dass der Wert mit dem HBase-Wert für zookeeper.session.timeout übereinstimmt.
```
Key: maxSessionTimeout Value: 120000  
```
Starten Sie die erforderlichen Dienste neu.

Ursache: überladener RegionServer

Folgen Sie der Anzahl der Regionen pro RS – Obergrenze, um die Obergrenze zu berechnen. Beispiel: 8000 (Region server Heap -- Xmx in MB) * 0.4 (hbase.regionserver.global.memstore.size) /64 (hbase.regionserver.hlog.blocksize/2) = 50

Skalieren Sie den HBase-Cluster zum Abmildern.

Szenario: Fehler bei der Protokollaufteilung

Problem

Fehler beim Starten von HMaster in einem HBase-Cluster.

Ursache

Falsch konfigurierte HDFS- und HBase-Einstellungen für ein sekundäres Speicherkonto.

Lösung

set hbase.rootdir: wasb://@.blob.core.windows.net/hbase, und starten Sie Dienste in Ambari neu.

Nächste Schritte

Wenn Ihr Problem nicht aufgeführt ist oder Sie es nicht lösen können, besuchen Sie einen der folgenden Kanäle, um weitere Unterstützung zu erhalten:

Nutzen Sie den Azure-Communitysupport, um Antworten von Azure-Experten zu erhalten.
Setzen Sie sich mit @AzureSupport in Verbindung, dem offiziellen Microsoft Azure-Konto zum Verbessern der Kundenfreundlichkeit. Verbinden der Azure-Community mit den richtigen Ressourcen: Antworten, Support und Experten.
Sollten Sie weitere Unterstützung benötigen, senden Sie eine Supportanfrage über das Azure-Portal. Wählen Sie dazu auf der Menüleiste die Option Support aus, oder öffnen Sie den Hub Hilfe und Support. Ausführlichere Informationen hierzu finden Sie unter Erstellen einer Azure-Supportanfrage. Zugang zu Abonnementverwaltung und Abrechnungssupport ist in Ihrem Microsoft Azure-Abonnement enthalten. Technischer Support wird über einen Azure-Supportplan bereitgestellt.

Teilen über

Fehler beim Starten von Apache HBase Master (HMaster) in Azure HDInsight

Szenario: `Master startup cannot progress, in holding-pattern until region comes online`

Problem

Ursache

Lösung

Szenario: Fehler bei der atomischen Umbenennung

Problem

Ursache

Lösung

Szenario: Keine Serveradresse aufgelistet

Problem

Ursache

Lösung

Szenario: `java.io.IOException: Timedout`

Problem

Ursache

Lösung

Szenario: Häufige Neustarts des Regionsservers

Problem

Ursache: ZooKeeper-Sitzungstimeout

Ursache: überladener RegionServer

Szenario: Fehler bei der Protokollaufteilung

Problem

Ursache

Lösung

Nächste Schritte

Feedback

Feedback

Zusätzliche Ressourcen

Teilen über

Fehler beim Starten von Apache HBase Master (HMaster) in Azure HDInsight

Szenario: Master startup cannot progress, in holding-pattern until region comes online

Problem

Ursache

Lösung

Szenario: Fehler bei der atomischen Umbenennung

Problem

Ursache

Lösung

Szenario: Keine Serveradresse aufgelistet

Problem

Ursache

Lösung

Szenario: java.io.IOException: Timedout

Problem

Ursache

Lösung

Szenario: Häufige Neustarts des Regionsservers

Problem

Ursache: ZooKeeper-Sitzungstimeout

Ursache: überladener RegionServer

Szenario: Fehler bei der Protokollaufteilung

Problem

Ursache

Lösung

Nächste Schritte

Feedback

Feedback

Zusätzliche Ressourcen

Szenario: `Master startup cannot progress, in holding-pattern until region comes online`

Szenario: `java.io.IOException: Timedout`