Краткое руководство. Создание кластера Apache Hadoop в Azure HDInsight с помощью портал Azure

Из этой статьи вы узнаете, как создать кластеры Apache Hadoop в HDInsight с помощью портала Azure, а затем запустить задания Apache Hive в HDInsight. Большинство заданий Hadoop — пакетные. Вы создаете кластер, выполняете несколько заданий, а затем удаляете кластер. В этой статье будут выполнены все три задачи. Подробные объяснения доступных конфигураций см. в статье об установке кластеров в HDInsight. Дополнительные сведения об использовании портала для создания кластеров см. в статье о создании кластеров на портале.

В этом кратком руководстве для создания кластера Hadoop в HDInsight используется портал Azure. Создать кластер можно также с помощью шаблона Azure Resource Manager.

Сейчас в HDInsight доступно семь типов кластеров. Каждый тип кластера поддерживает свой набор компонентов. Все типы кластеров поддерживают инфраструктуру Hive. Дополнительные сведения о поддерживаемых компонентах в HDInsight см. в статье Что представляют собой компоненты и версии Apache Hadoop, доступные в HDInsight?

Если у вас нет подписки Azure, создайте бесплатную учетную запись, прежде чем приступить к работе.

Создание кластера Apache Hadoop

В этом разделе вы создадите кластер Hadoop в HDInsight, используя портал Azure.

  1. Войдите на портал Azure.

  2. В меню сверху выберите + Create a resource (+ Создать ресурс).

    Create a resource HDInsight cluster.

  3. Выберите элементы Analytics>Azure HDInsight, чтобы перейти на страницу Создание кластера HDInsight.

  4. На вкладке Основные сведения укажите следующую информацию:

    Свойство Описание
    Подписка В раскрывающемся списке выберите подписку Azure, которая используется для кластера.
    Группа ресурсов В раскрывающемся списке выберите существующую группу ресурсов, а затем Создать новую.
    Имя кластера Введите глобально уникальное имя. Имя может содержать до 59 знаков, включая буквы, цифры и дефисы. Первый и последний знаки в имени не могут быть дефисами.
    Область/регион В раскрывающемся списке выберите регион, в котором создается кластер. Выберите ближайшее к себе расположение для повышения производительности.
    Тип кластера Щелкните Выберите тип кластера. Затем выберите Hadoop в качестве типа кластера.
    Версия В раскрывающемся списке выберите версию. Используйте версию по умолчанию, если не уверены, что именно нужно выбрать.
    Имя для входа и пароль для кластера Имя входа по умолчанию — администратор. Пароль должен содержать по крайней мере 10 символов в длину и содержать по крайней мере одну цифру, один верхний регистр и одну строчную букву, одну буквенно-цифровые символы (за исключением символов ' ` "). Ни в коем случае не вводите распространенные пароли, например Pass@word1.
    Имя пользователя для Secure Shell (SSH) Имя пользователя по умолчанию — sshuser. Можно указать другое имя пользователя SSH.
    Использовать логин и пароль кластера при подключении через SSH Установите этот флажок, чтобы использовать одинаковый пароль для пользователя SSH и имени для входа для кластера.

    HDInsight Linux get started provide cluster basic values.

    Нажмите кнопку Далее: Хранилище >> для перехода к настройкам хранилища.

  5. На вкладке Хранилище укажите следующие значения:

    Свойство Description
    Тип первичного хранилища Используйте значение службы хранилища Azure по умолчанию.
    Метод выбора Используйте значение Выбрать в списке по умолчанию.
    Основную учетную запись хранения Используйте раскрывающийся список, чтобы выбрать имеющуюся учетную запись хранения, или создайте новую, щелкнув Создать. При создании учетной записи имя должно содержать от 3 до 24 символов, включая цифры и строчные буквы
    Контейнер Используйте значение, предоставленное автоматически.

    HDInsight Linux get started provide cluster storage values.

    Каждый кластер зависит от учетной записи службы хранилища Azure, Azure Data Lake Storage 1-го поколения или Azure Data Lake Storage Gen2. Она называется учетной записью хранения по умолчанию. Кластер HDInsight должен находиться в том же регионе Azure, что и его учетная запись хранения, используемая по умолчанию. Удаление кластеров не приведет к удалению учетной записи хранения.

    Перейдите на вкладку Review + create (Просмотр и создание).

  6. На вкладке Просмотр и создание проверьте все значения, выбранные на предыдущих шагах.

    Screenshot showing HDInsight Linux get started cluster summary.

  7. Нажмите кнопку создания. Процесс создания кластера занимает около 20 минут.

    После создания кластера на портале Azure отобразится страница с общими сведениями об этом кластере.

    Screenshot showing HDInsight Linux get started cluster settings.

Выполнение запросов Apache Hive

Apache Hive — это самый популярный компонент службы HDInsight. Существует множество способов выполнения заданий Hive в HDInsight. В этом кратком руководстве используется представление Ambari Hive на портале. Другие способы отправки заданий Hive описаны в статье Использование Hive в HDInsight.

Примечание.

В HDInsight 4.0 больше не используется представление Apache Hive.

  1. Чтобы открыть Ambari, на предыдущем экране выберите Панель мониторинга кластера. Вы можете также перейти по адресу https://ClusterName.azurehdinsight.net, где ClusterName — это кластер, созданный в предыдущем разделе.

    Screenshot showing HDInsight Linux get started cluster dashboard.

  2. Введите имя пользователя Hadoop и пароль, указанные при создании кластера. Имя пользователя по умолчанию — admin.

  3. Откройте представление Hive, как показано на снимке экрана ниже:

    Selecting Hive View from Ambari.

  4. На вкладке Запрос вставьте следующие инструкции HiveQL:

    SHOW TABLES;
    

    HDInsight Hive View Query Editor.

  5. Выберите Выполнить. Под вкладкой Запрос появится вкладка Результаты с информацией о задании.

    Когда запрос будет выполнен, на вкладке Запрос появятся результаты этой операции. Вы увидите одну таблицу с именем hivesampletable. Этот пример таблицы Hive входит в состав всех кластеров HDInsight.

    HDInsight Apache Hive view results.

  6. Повторите шаги 4 и 5 и выполните следующий запрос:

    SELECT * FROM hivesampletable;
    
  7. Вы также можете сохранить результаты запроса. Нажмите кнопку меню справа и укажите, как это следует сделать: скачать результаты в качестве CSF-файла или сохранить их в учетной записи хранения, связанной с кластером.

    Save result of Apache Hive query.

Когда задание Hive будет завершено, вы сможете экспортировать результаты в Базу данных SQL Azure или базу данных SQL Server либо визуализировать их с помощью Excel. Дополнительные сведения об использовании Hive в HDInsight см. в руководстве по Apache Hive и HiveQL в Azure HDInsight.

Очистка ресурсов

После завершения работы с этим кратким руководством кластер можно удалить. В случае с HDInsight ваши данные хранятся в службе хранилища Azure, что позволяет безопасно удалить неиспользуемый кластер. Плата за кластеры HDInsight взимается, даже когда они не используются. Так как затраты на кластер во много раз превышают затраты на хранилище, экономически целесообразно удалять неиспользуемые кластеры.

Примечание.

Если вы сразу же перейдете к следующей статье, чтобы узнать, как выполнять операции извлечения, преобразования и загрузки, то можете не прерывать работу кластера. Дело в том, что в этом руководстве вам придется повторно создать кластер. Но если вы не собираетесь немедленно приступать к изучению следующей статьи, то нужно удалить кластер.

Удаление кластера и (или) учетной записи хранения по умолчанию

  1. Вернитесь на вкладку браузера, на которой открыт портал Azure. Откройте страницу обзора кластера. Если требуется удалить кластер и сохранить учетную запись хранения по умолчанию, щелкните Удалить.

    Azure HDInsight delete cluster.

  2. Если вам нужно удалить кластер и учетную запись хранения по умолчанию, выберите имя группы ресурсов (выделено на предыдущем снимке экрана), чтобы открыть страницу группы ресурсов.

  3. Выберите Удалить группу ресурсов, чтобы удалить группу ресурсов, которая содержит кластер и учетную запись хранения по умолчанию. Обратите внимание, что удаление группы ресурсов приводит к удалению учетной записи хранения. Если вы хотите сохранить учетную запись хранения, удалите только кластер.

Следующие шаги

Из этого краткого руководства вы узнали, как с помощью шаблона Resource Manager создать кластер HDInsight под управлением Linux и как выполнять базовые запросы Hive. В следующей статье вы узнаете, как выполнять операции извлечения, преобразования и загрузки с помощью Hadoop в HDInsight.