Instalace a používání hue v clusterech HDInsight Hadoop

Zjistěte, jak nainstalovat Hue na clustery HDInsight a pomocí tunelování směrovat požadavky na Hue.

Poznámka:

Hue není podporován ve službě HDInsight 4.0 a novějších verzích.

Co je Hue?

Hue je sada webových aplikací používaných k interakci s clusterem Apache Hadoop. Hue můžete použít k procházení úložiště přidruženého ke clusteru Hadoop (WASB, v případě clusterů HDInsight), spouštění úloh Hive a skriptů Pig atd. V instalacích Hue v clusteru HDInsight Hadoop jsou k dispozici následující komponenty.

  • Beeswax Hive Editor
  • Apache Pig
  • Správce metastoru
  • Apache Oozie
  • FileBrowser (který hovoří s výchozím kontejnerem WASB)
  • Prohlížeč úloh

Upozorňující

Komponenty poskytované clusterem HDInsight jsou plně podporované a podpora Microsoftu vám pomůžou izolovat a řešit problémy související s těmito komponentami.

Vlastní komponenty obdrží komerčně rozumnou podporu, která vám pomůže s dalším řešením tohoto problému. Výsledkem může být vyřešení problému NEBO se vás ptát, abyste se zapojili do dostupných kanálů pro opensourcové technologie, kde najdete hluboké znalosti dané technologie. Například existuje mnoho webů komunity, které lze použít, například: Stránka otázek Microsoft Q&A pro HDInsight, https://stackoverflow.com. Projekty Apache mají také weby projektů, https://apache.orgnapříklad Hadoop.

Instalace aplikace Hue pomocí akcí skriptů

Pro akci skriptu použijte informace v tabulce níže. Konkrétní pokyny k používání akcí skriptů najdete v tématu Přizpůsobení clusterů HDInsight pomocí akcí skriptu .

Poznámka:

Pokud chcete nainstalovat Hue do clusterů HDInsight, doporučená velikost hlavního uzlu je alespoň A4 (8 jader, 14 GB paměti).

Vlastnost Hodnota
Typ skriptu: -Vlastní
Název Instalace rozhraní Hue
Identifikátor URI skriptu Bash https://hdiconfigactions.blob.core.windows.net/linuxhueconfigactionv02/install-hue-uber-v02.sh
Typy uzlů: Head

Spuštění dotazu Hive

  1. Na portálu Hue vyberte Editor Power Query a pak výběrem Hive otevřete editor Hive.

    HDInsight hue portal use hive editor.

  2. Na kartě Pomocník v části Databáze byste měli vidět hivesampletable. Toto je ukázková tabulka, která se dodává se všemi clustery Hadoop ve službě HDInsight. Zadejte ukázkový dotaz v pravém podokně a podívejte se na výstup na kartě Výsledky v podokně níže, jak je znázorněno na snímku obrazovky.

    HDInsight hue portal hive query.

    Pomocí karty Graf můžete také zobrazit vizuální znázornění výsledku.

Procházení úložiště clusteru

  1. Na portálu Hue vyberte v pravém horním rohu řádku nabídek možnost Prohlížeč souborů.

  2. Ve výchozím nastavení se prohlížeč souborů otevře v adresáři /user/myuser . Vyberte lomítko přímo před uživatelským adresářem v cestě, abyste přešli do kořenového adresáře kontejneru úložiště Azure přidruženého ke clusteru.

    HDInsight hue portal file browser.

  3. Kliknutím pravým tlačítkem myši na soubor nebo složku zobrazíte dostupné operace. Pomocí tlačítka Nahrát v pravém rohu nahrajte soubory do aktuálního adresáře. Pomocí tlačítka Nový můžete vytvářet nové soubory nebo adresáře.

Poznámka:

Prohlížeč souborů Hue může zobrazit pouze obsah výchozího kontejneru přidruženého ke clusteru HDInsight. Všechny další účty úložiště nebo kontejnery, které jste možná přidružovali ke clusteru, nebudou přístupné pomocí prohlížeče souborů. Další kontejnery přidružené ke clusteru ale budou vždy přístupné pro úlohy Hive. Pokud například zadáte příkaz dfs -ls wasbs://newcontainer@mystore.blob.core.windows.net v editoru Hive, uvidíte také obsah dalších kontejnerů. V tomto příkazu není výchozí kontejner přidružený ke clusteru.

Důležitá poznámka

  1. Skript použitý k instalaci aplikace Hue ho nainstaluje pouze na primární hlavní uzel clusteru.

  2. Během instalace se kvůli aktualizaci konfigurace restartuje několik služeb Hadoop (HDFS, YARN, MR2, Oozie). Po dokončení instalace hue může chvíli trvat, než se spustí jiné služby Hadoop. To může mít na začátku vliv na výkon hue. Po spuštění všech služeb bude Hue plně funkční.

  3. Hue nerozumí úlohm Apache Tez, což je aktuální výchozí nastavení pro Hive. Pokud chcete jako prováděcí modul Hive použít MapReduce, aktualizujte skript tak, aby ve skriptu používal následující příkaz:

    set hive.execution.engine=mr;

  4. S clustery s Linuxem můžete mít scénář, kdy vaše služby běží na primárním hlavním uzlu, zatímco Resource Manager může běžet na sekundárním počítači. Takový scénář může vést k chybám (zobrazeným níže) při použití hue k zobrazení podrobností o spuštěných úlohách v clusteru. Po dokončení úlohy ale můžete zobrazit podrobnosti úlohy.

    Hue portal error sample message.

    Důvodem je známý problém. Alternativním řešením je upravit Ambari tak, aby aktivní Resource Manager běžel také na primárním hlavním uzlu.

  5. Hue rozumí WebHDFS, zatímco clustery HDInsight používají Službu Azure Storage pomocí wasbs://. Vlastní skript použitý s akcí skriptu tedy nainstaluje WebWasb, což je služba kompatibilní s WebHDFS pro komunikaci s WASB. I když portál Hue říká HDFS na místech (například když přesunete myš přes Prohlížeč souborů), měl by být interpretován jako WASB.

Další kroky

Přizpůsobení clusterů HDInsight pomocí akcí skriptů