Установка и использование Hue на кластерах HDInsight Hadoop

Узнайте, как установить Hue на кластер HDInsight и задействовать туннелирование для направления запросов на Hue.

Примечание.

Hue не поддерживается в HDInsight 4.0 и более поздних версиях.

Что такое Hue

Hue — это набор веб-приложений, используемых для взаимодействия с кластером Apache Hadoop. Hue позволяет просматривать хранилище, связанное с кластером Hadoop (WASB в случае кластеров HDInsight), выполнять задания Hive, скрипты Pig и т. д. Установив Hue на кластер HDInsight Hadoop, вы получите доступ к следующим компонентам:

  • редактор Beeswax Hive,
  • Apache Pig
  • диспетчер метахранилища,
  • Apache Oozie
  • FileBrowser (связывается с контейнером WASB по умолчанию),
  • обозреватель заданий.

Предупреждение

Компоненты, предоставляемые вместе с кластером HDInsight, поддерживаются в полном объеме. Служба поддержки Майкрософт поможет вам выявить и устранить проблемы, связанные с этими компонентами.

Настраиваемые компоненты получают ограниченную коммерчески оправданную поддержку, способствующую дальнейшей диагностике проблемы. В результате проблема может быть устранена, либо вас могут попросить воспользоваться доступными каналами по технологиям с открытым исходным кодом, чтобы связаться с экспертами в данной области. Например, существует множество сайтов сообщества, которые можно использовать, например: страница вопросов Microsoft Q&A для HDInsight. https://stackoverflow.com Кроме того, для проектов Apache есть соответствующие сайты, например Hadoop на сайте https://apache.org.

Установка Hue с помощью действий сценария

Используйте информацию, представленную в таблице ниже, для действия скрипта. Дополнительные инструкции по использованию действий скрипта см. в статье Настройка кластеров Azure HDInsight с помощью действий скрипта.

Примечание.

Для установки Hue в кластерах HDInsight рекомендуется размер головного узла не менее A4 (8 ядер, 14 ГБ памяти).

Свойство Значение
Тип скрипта: - Custom
Имя. Установка Hue
URI bash-скрипта https://hdiconfigactions.blob.core.windows.net/linuxhueconfigactionv02/install-hue-uber-v02.sh
Типы узлов: Head

Выполнение запроса Hive

  1. На портале Hue щелкните Query Editors (Редакторы запросов), а затем выберите Hive, чтобы открыть редактор Hive.

    HDInsight hue portal use hive editor.

  2. На вкладке Assist (Помощь) в разделе Database (База данных) отобразится элемент hivesampletable. Это пример таблицы, входящей в состав всех кластеров Hadoop в HDInsight. В правой области введите запрос и просмотрите выходные данные на нижней вкладке Results (Результаты), как показано на приведенном снимке экрана.

    HDInsight hue portal hive query.

    Для визуального представления результатов вы можете использовать вкладку Chart (Диаграмма).

Просмотр хранилища кластера

  1. На портале Hue в правом верхнем углу панели меню выберите File Browser (Обозреватель файлов).

  2. По умолчанию обозреватель открывается в каталоге /user/myuser . Щелкните косую черту в пути непосредственно перед каталогом пользователя, чтобы перейти в корневую папку контейнера хранилища Azure, связанного с кластером.

    HDInsight hue portal file browser.

  3. Щелкните правой кнопкой мыши файл или папку, чтобы отобразились доступные операции. Отправить файлы в текущую папку можно с помощью кнопки Upload (Отправить) в правом углу. Для создания новых файлов и папок используйте кнопку New (Создать).

Примечание.

Обозреватель файлов Hue может показывать содержимое только контейнера по умолчанию, связанного с кластером HDInsight. У вас не будет доступа к другим учетным записям хранения и контейнерам, которые вы могли связать с кластером. Тем не менее задания Hive будут иметь доступ ко всем дополнительным контейнерам, связанным с кластером. Например, если в редакторе Hive ввести команду dfs -ls wasbs://newcontainer@mystore.blob.core.windows.net , отобразится содержимое дополнительных контейнеров. В этой команде элемент newcontainer не является используемым по умолчанию контейнером, который связан с кластером.

Важные замечания

  1. Скрипт, который использовался для установки Hue, устанавливает его только на основной головной узел кластера.

  2. Во время установки некоторые службы Hadoop (HDFS, YARN, MR2, Oozie) перезапускаются для обновления конфигурации. После того как сценарий завершает установку Hue, для запуска прочих служб Hadoop иногда требуется некоторое время. Это может повлиять на первоначальную производительность Hue. После запуска всех служб набор Hue полностью готов к работе.

  3. Hue не поддерживает задания Apache Tez, которые по умолчанию используются в Hive. Если в качестве подсистемы выполнения в Hive вы хотите задействовать MapReduce, измените сценарий, добавив в него следующую команду.

    set hive.execution.engine=mr;

  4. Кластеры под управлением Linux можно настроить так, чтобы службы выполнялись на основном головном узле, а Resource Manager — на дополнительном. При таком сценарии попытка использования Hue для просмотра сведений о ЗАПУЩЕННЫХ заданиях на кластере может привести к ошибкам (показаны ниже). Тем не менее после завершения заданий вы можете просматривать сведения о них.

    Hue portal error sample message.

    Это известная проблема. В качестве обходного решения можно изменить Ambari, чтобы активный Resource Manager также запускался на основном головном узле.

  5. Hue понимает WebHDFS, а кластеры HDInsight используют службу хранилища Azure с приставкой wasbs://в начале пути. Таким образом, пользовательский сценарий, используемый со сценарием действия, устанавливает службу WebWasb, совместимую с WebHDFS и предназначенную для обмена данными с WASB. Поэтому несмотря на то, что в некоторых местах на портале Hue используется надпись HDFS (например, при наведении указателя мыши на File Browser(Обозреватель файлов)), ее следует читать как WASB.

Следующие шаги

Настройка кластеров HDInsight с помощью действий сценариев