Installieren und Verwenden von Hue in HDInsight Hadoop-Clustern

Artikel
12/05/2023

Erfahren Sie, wie Sie Hue auf HDInsight-Clustern installieren und die Anfragen mittels Tunneln an Hue weiterleiten.

Hinweis

Hue wird in HDInsight 4.0 und höher nicht unterstützt.

Was ist Hue?

Bei Hue handelt es sich um einen Satz von Webanwendungen zur Interaktion mit einem Apache Hadoop-Cluster. Mit Hue können Sie den mit einem Hadoop-Cluster verknüpften Speicher (WASB bei HDInsight-Clustern) durchsuchen, Hive-Aufträge und Pig-Skripts ausführen usw. Die folgenden Komponenten sind mit Hue-Installationen in einem HDInsight Hadoop-Cluster verfügbar.

Beeswax Hive Editor
Apache Pig
Metastore Manager
Apache Oozie
FileBrowser (Kommunikation mit dem WASB-Standardcontainer)
Job Browser

Warnung

Komponenten, die mit dem HDInsight-Cluster bereitgestellt werden, werden vollständig unterstützt, und Microsoft Support hilft Ihnen, Probleme im Zusammenhang mit diesen Komponenten zu isolieren und zu beheben.

Für benutzerdefinierte Komponenten steht kommerziell angemessener Support für eine weiterführende Behebung des Problems zur Verfügung. Auf diese Weise kann das Problem behoben werden, ODER Sie werden aufgefordert, verfügbare Kanäle für Open-Source-Technologien in Anspruch zu nehmen, die über umfassende Kenntnisse für diese Technologien verfügen. So können viele Communitywebsites aufgesucht werden, z. B. die Microsoft Q&A-Seite für HDInsight, https://stackoverflow.com. Für Apache-Projekte gibt es auch Projektwebsites auf https://apache.org. Beispiel: Hadoop.

Installation von Hue mithilfe von Skriptaktionen

Verwenden Sie die Informationen in der nachstehenden Tabelle für die Skriptaktion. Genauere Informationen zur Verwendung von Skriptaktionen finden Sie unter Anpassen von HDInsight-Clustern mithilfe von Skriptaktionen.

Hinweis

Um Hue auf HDInsight-Clustern zu installieren, ist die empfohlene Hauptknotengröße mindestens A4 (8 Kerne, 14 GB Arbeitsspeicher).

Eigenschaft	Wert
Skripttyp:	--Benutzerdefiniert
Name	Installieren von Hue
Bash-Skript-URI	`https://hdiconfigactions.blob.core.windows.net/linuxhueconfigactionv02/install-hue-uber-v02.sh`
Knotentyp(en):	Head

Ausführen einer Hive-Abfrage

Wählen Sie im Hue-Portal Query Editors (Abfrage-Editoren) und dann Hive aus, um den Hive-Editor zu öffnen.
Auf der Registerkarte Assist (Hilfe) sollte unter Database (Datenbank) der Eintrag hivesampletable angezeigt werden. Dies ist eine Beispieltabelle, die mit allen Hadoop-Clustern für HDInsight geliefert wird. Geben Sie eine Beispielabfrage im rechten Bereich ein. Die Ausgabe wird auf der Registerkarte Results (Ergebnisse) im unteren Bereich angezeigt (siehe Bildschirmaufnahme).

Zudem können Sie über die Registerkarte Chart eine visuelle Darstellung des Ergebnisses anzeigen.

Durchsuchen des Clusterspeichers

Wählen Sie im Hue-Portal oben rechts auf der Menüleiste die Option File Browser (Dateibrowser) aus.
Standardmäßig wird der Dateibrowser im Verzeichnis /user/myuser geöffnet. Wählen Sie in dem Pfad den Schrägstrich direkt vor dem Benutzerverzeichnis aus, um zum Stammverzeichnis des Azure-Speichercontainers zu wechseln, der dem Cluster zugeordnet ist.
Klicken Sie mit der rechten Maustaste auf eine Datei oder einen Ordner, um die verfügbaren Vorgänge anzuzeigen. Verwenden Sie die Schaltfläche Upload in der rechten Ecke, um Dateien in das aktuelle Verzeichnis hochzuladen. Über die Schaltfläche New können Sie neue Dateien oder Verzeichnisse erstellen.

Hinweis

Im Hue-Dateibrowser können nur die Inhalte des Standardcontainers angezeigt werden, der dem HDInsight-Cluster zugeordnet ist. Auf alle anderen Speicherkonten und Container, die Sie eventuell mit dem Cluster verknüpft haben, können Sie mit dem Dateibrowser nicht zugreifen. Die zusätzlichen mit dem Cluster verknüpften Container sind jedoch für Hive-Aufträge immer verfügbar. Wenn Sie beispielsweise im Hive-Editor den Befehl dfs -ls wasbs://newcontainer@mystore.blob.core.windows.net eingeben, werden auch die Inhalte der zusätzlichen Container angezeigt. In diesem Befehl ist newcontainer nicht der mit einem Cluster verknüpfte Standardcontainer.

Wichtige Hinweise

Das für die Hue-Installation verwendete Skript installiert Hue nur auf dem primären Hauptknoten des Clusters.
Während der Installation werden mehrere Hadoop-Dienste (HDFS, YARN, MR2, Oozie) zum Aktualisieren der Konfiguration neu gestartet. Nach Abschluss der Installation von Hue mit dem Skript kann es einige Zeit dauern, bis andere Hadoop-Dienste gestartet werden. Dies kann anfänglich die Leistung von Hue beeinträchtigen. Nachdem alle Dienste gestartet wurden, ist Hue voll funktionsfähig.
Hue kann keine Apache Tez-Aufträge verarbeiten, wobei es sich um die aktuelle Standardeinstellung für Hive handelt. Wenn Sie MapReduce als Ausführungs-Engine für Hive verwenden möchten, müssen Sie das Skript so aktualisieren, dass der folgende Befehl im Skript verwendet wird:

set hive.execution.engine=mr;
Bei Linux-Clustern können Sie Ihre Dienste auf dem primären Hauptknoten und Resource Manager auf dem sekundären Knoten ausführen. Dieses Szenario kann zu Fehlern führen (siehe unten), wenn mithilfe von Hue Details zu ausgeführten Aufträgen im Cluster angezeigt werden sollen. Nach Abschluss des Auftrags können Sie die Auftragsdetails jedoch anzeigen.

Dies ist auf ein bekanntes Problem zurückzuführen. Zur Umgehung dieses Problems können Sie Ambari so konfigurieren, dass die aktive Resource Manager-Instanz auch auf dem primären Hauptknoten ausgeführt wird.
Hue verarbeitet WebHDFS, während HDInsight-Cluster Azure Storage mit wasbs:// verwenden. Daher installiert das mit der Skriptaktion verwendete benutzerdefinierte Skript WebWasb, einen WebHDFS-kompatiblen Dienst für die Kommunikation mit WASB. Auch wenn im Hue-Portal an bestimmten Stellen HDFS angegeben ist (etwa beim Bewegen des Mauszeigers über den Dateibrowser), sollte dies als WASB interpretiert werden.

Nächste Schritte

Anpassen von HDInsight-Clustern mit Skriptaktionen

Teilen über

Installieren und Verwenden von Hue in HDInsight Hadoop-Clustern

Was ist Hue?

Installation von Hue mithilfe von Skriptaktionen

Ausführen einer Hive-Abfrage

Durchsuchen des Clusterspeichers

Wichtige Hinweise

Nächste Schritte

Feedback

Zusätzliche Ressourcen