Поделиться через


Краткое руководство. Создание кластера Apache Hadoop в Azure HDInsight с помощью портал Azure

Из этой статьи вы узнаете, как создать кластеры Apache Hadoop в HDInsight с помощью портала Azure, а затем запустить задания Apache Hive в HDInsight. Большинство заданий Hadoop — пакетные. Вы создаете кластер, выполняете несколько заданий, а затем удаляете кластер. В этой статье будут выполнены все три задачи. Подробные объяснения доступных конфигураций см. в статье об установке кластеров в HDInsight. Дополнительные сведения об использовании портала для создания кластеров см. в статье о создании кластеров на портале.

В этом кратком руководстве для создания кластера Hadoop в HDInsight используется портал Azure. Создать кластер можно также с помощью шаблона Azure Resource Manager.

Сейчас в HDInsight доступно семь типов кластеров. Каждый тип кластера поддерживает свой набор компонентов. Все типы кластеров поддерживают инфраструктуру Hive. Дополнительные сведения о поддерживаемых компонентах в HDInsight см. в статье Что представляют собой компоненты и версии Apache Hadoop, доступные в HDInsight?

Если у вас нет подписки Azure, создайте бесплатную учетную запись, прежде чем приступить к работе.

Создание кластера Apache Hadoop

В этом разделе вы создадите кластер Hadoop в HDInsight, используя портал Azure.

  1. Войдите на портал Azure.

  2. В меню сверху выберите + Create a resource (+ Создать ресурс).

    Создайте кластер HDInsight с ресурсом.

  3. Выберите элементы Analytics>Azure HDInsight, чтобы перейти на страницу Создание кластера HDInsight.

  4. На вкладке Основные сведения укажите следующую информацию:

    Свойство Описание
    Подписка В раскрывающемся списке выберите подписку Azure, которая используется для кластера.
    Группа ресурсов В раскрывающемся списке выберите существующую группу ресурсов, а затем Создать новую.
    Имя кластера Введите глобально уникальное имя. Имя может содержать до 59 знаков, включая буквы, цифры и дефисы. Первый и последний знаки в имени не могут быть дефисами.
    Область/регион В раскрывающемся списке выберите регион, в котором создается кластер. Выберите ближайшее к себе расположение для повышения производительности.
    Тип кластера Щелкните Выберите тип кластера. Затем выберите Hadoop в качестве типа кластера.
    Версия В раскрывающемся списке выберите версию. Используйте версию по умолчанию, если не уверены, что именно нужно выбрать.
    Вход в кластер с именем пользователя и паролем Имя входа по умолчанию — администратор. Пароль должен содержать по крайней мере 10 символов в длину и содержать по крайней мере одну цифру, один верхний регистр и одну строчную букву, один нефалимерный символ (за исключением символов ' ` "). Ни в коем случае не вводите распространенные пароли, например Pass@word1.
    Имя пользователя для Secure Shell (SSH) Имя пользователя по умолчанию — sshuser. Можно указать другое имя пользователя SSH.
    Использование пароля для входа в кластер для SSH Установите этот флажок, чтобы использовать тот же пароль для пользователя SSH, что и для пользователя входа в кластер.

    Приступая к работе с HDInsight Linux, предоставляют базовые значения кластера.

    Нажмите кнопку Далее: Хранилище >> для перехода к настройкам хранилища.

  5. На вкладке Хранилище укажите следующие значения:

    Свойство Description
    Тип первичного хранилища Используйте значение службы хранилища Azure по умолчанию.
    Метод выбора Используйте значение Выбрать в списке по умолчанию.
    Основную учетную запись хранения Используйте раскрывающийся список, чтобы выбрать имеющуюся учетную запись хранения, или создайте новую, щелкнув Создать. При создании учетной записи имя должно содержать от 3 до 24 символов, включая цифры и строчные буквы
    Контейнер Используйте значение, предоставленное автоматически.

    Начало работы с HDInsight Linux предоставляет значения хранилища кластеров.

    Каждый кластер имеет учетную запись служба хранилища Azure или Azure Data Lake Storage Gen2 зависимость. Она называется учетной записью хранения по умолчанию. Кластер HDInsight должен находиться в том же регионе Azure, что и его учетная запись хранения, используемая по умолчанию. Удаление кластеров не приведет к удалению учетной записи хранения.

    Перейдите на вкладку Review + create (Просмотр и создание).

  6. На вкладке Просмотр и создание проверьте все значения, выбранные на предыдущих шагах.

    Снимок экрана: сводка по кластеру hdInsight Для Linux.

  7. Нажмите кнопку создания. Процесс создания кластера занимает около 20 минут.

    После создания кластера на портале Azure отобразится страница с общими сведениями об этом кластере.

    Снимок экрана: параметры кластера HDInsight для Linux для начала работы.

Выполнение запросов Apache Hive

Apache Hive — это самый популярный компонент службы HDInsight. Существует множество способов выполнения заданий Hive в HDInsight. В этом кратком руководстве используется представление Ambari Hive на портале. Другие способы отправки заданий Hive описаны в статье Использование Hive в HDInsight.

Примечание.

В HDInsight 4.0 больше не используется представление Apache Hive.

  1. Чтобы открыть Ambari, на предыдущем экране выберите Панель мониторинга кластера. Вы можете также перейти по адресу https://ClusterName.azurehdinsight.net, где ClusterName — это кластер, созданный в предыдущем разделе.

    Снимок экрана: панель мониторинга кластера HDInsight Для Linux.

  2. Введите имя пользователя Hadoop и пароль, указанные при создании кластера. Имя пользователя по умолчанию — admin.

  3. Откройте представление Hive, как показано на снимке экрана ниже:

    Выбор представления Hive из Ambari.

  4. На вкладке Запрос вставьте следующие инструкции HiveQL:

    SHOW TABLES;
    

    Представление Hive HDInsight Редактор запросов.

  5. Выберите Выполнить. Под вкладкой Запрос появится вкладка Результаты с информацией о задании.

    Когда запрос будет выполнен, на вкладке Запрос появятся результаты этой операции. Вы увидите одну таблицу с именем hivesampletable. Этот пример таблицы Hive входит в состав всех кластеров HDInsight.

    Результаты представления Apache Hive в HDInsight.

  6. Повторите шаги 4 и 5 и выполните следующий запрос:

    SELECT * FROM hivesampletable;
    
  7. Вы также можете сохранить результаты запроса. Нажмите кнопку меню справа и укажите, как это следует сделать: скачать результаты в качестве CSF-файла или сохранить их в учетной записи хранения, связанной с кластером.

    Сохраните результат запроса Apache Hive.

Когда задание Hive будет завершено, вы сможете экспортировать результаты в Базу данных SQL Azure или базу данных SQL Server либо визуализировать их с помощью Excel. Дополнительные сведения об использовании Hive в HDInsight см. в статье Об использовании Apache Hive и HiveQL с Apache Hadoop в HDInsight для анализа примера файла Apache Log4j.

Очистка ресурсов

После завершения работы с этим кратким руководством кластер можно удалить. В случае с HDInsight ваши данные хранятся в службе хранилища Azure, что позволяет безопасно удалить неиспользуемый кластер. Плата за кластеры HDInsight взимается, даже когда они не используются. Так как затраты на кластер во много раз превышают затраты на хранилище, экономически целесообразно удалять неиспользуемые кластеры.

Примечание.

Если вы сразу же перейдете к следующей статье, чтобы узнать, как выполнять операции извлечения, преобразования и загрузки, то можете не прерывать работу кластера. Дело в том, что в этом руководстве вам придется повторно создать кластер. Но если вы не собираетесь немедленно приступать к изучению следующей статьи, то нужно удалить кластер.

Удаление кластера и (или) учетной записи хранения по умолчанию

  1. Вернитесь на вкладку браузера, на которой открыт портал Azure. Откройте страницу обзора кластера. Если требуется удалить кластер и сохранить учетную запись хранения по умолчанию, щелкните Удалить.

    Кластер удаления Azure HDInsight.

  2. Если вы хотите удалить кластер и учетную запись хранения по умолчанию, выберите имя группы ресурсов (выделено на предыдущем снимке экрана), чтобы открыть страницу группы ресурсов.

  3. Выберите Удалить группу ресурсов, чтобы удалить группу ресурсов, которая содержит кластер и учетную запись хранения по умолчанию. Обратите внимание, что удаление группы ресурсов приводит к удалению учетной записи хранения. Если вы хотите сохранить учетную запись хранения, удалите только кластер.

Следующие шаги

Из этого краткого руководства вы узнали, как с помощью шаблона Resource Manager создать кластер HDInsight под управлением Linux и как выполнять базовые запросы Hive. В следующей статье вы узнаете, как выполнять операции извлечения, преобразования и загрузки с помощью Hadoop в HDInsight.