Создание кластера HDInsight

Завершено

Создать кластер HDInsight можно несколькими способами. Это может быть как удобный пользовательский интерфейс на портале Azure, так и скрипт установки, автоматизирующий развертывание. В приведенной ниже таблице представлены различные способы настройки кластера HDInsight.

Метод создания кластеров Веб-браузер Командная строка REST API SDK
Портал Azure
Azure Data Factory
Azure CLI
Azure PowerShell
cURL
Пакет SDK для .NET
Шаблон Azure Resource Manager

Для любого способа установки HDInsight требуются указанные ниже основные сведения.

Вкладка "Основные сведения"

Сведения о проекте

Подписка

Определяет подписку Azure для выставления счетов за использование HDInsight и управления.

Имя группы ресурсов

Группа ресурсов — это логический набор технологий и служб Azure, которые обычно относятся к одному приложению или жизненному циклу приложения. Объединение служб в группу ресурсов упрощает обслуживание.

A screenshot of the basic tab in the Create HDInsight Cluster screen in the Azure portal

Сведения о кластере

Имя кластера

На имена кластеров HDInsight налагаются указанные ниже ограничения.

  • Допустимые символы: a–z, 0–9, A–Z
  • Максимальная длина: 59 символов
  • Зарезервированные имена: apps
  • Имена кластеров должны быть уникальными в рамках всех подписок Azure. То есть имя кластера должно быть уникальным по всему миру.
  • Первые шесть символов должны быть уникальными в пределах виртуальной сети.

Местонахождение

Указывает расположение, в котором хранится тип кластера. Если расположение не определено, то кластер размещается в том же расположении, что и хранилище по умолчанию. Для сокращения задержки расположение должно быть как можно ближе к пользователям.

Типы кластеров

Определяет стек технологий, подготавливаемый в кластере ресурсов. При выборе типа кластера руководствуйтесь типом данных и требуемыми способами их обработки. Доступные типы кластеров представлены в таблице ниже.  

Тип кластера Описание
Apache Hadoop Платформа, в которой используется HDFS и простая модель программирования MapReduce для обработки и анализа пакетных данных. 
Apache Spark Платформа параллельной обработки с открытым кодом, которая поддерживает обработку в памяти, чтобы повысить производительность приложений для анализа больших данных.
Hbase База данных NoSQL, созданная на основе Hadoop и обеспечивающая прямой доступ и строгую согласованность для больших объемов неструктурированных и частично структурированных данных (с потенциальным размером таблиц в миллиарды строк и миллионы столбцов). 
Интерактивный запрос Apache Кэширование в памяти для обеспечения интерактивных и ускоренных запросов Hive. 
Apache Kafka Платформа с открытым исходным кодом, которая используется для создания конвейеров и приложений потоковой передачи данных. Kafka также предоставляет функциональные возможности очереди сообщений, с помощью которых можно публиковать потоки данных и подписываться на них.

Версия

Определяет версию HDInsight для этого кластера. HDInsight 4.0 — это последняя версия, которая содержит новейшие платформы для кластеров.

Учетные данные кластера

Во время создания кластера HDInsight можно настроить две учетные записи пользователя.

Пароль для входа в кластер

Имя пользователя по умолчанию — администратор. Он использует базовую конфигурацию в портал Azure. Иногда его называют "пользователем кластера".

SSH username and password (Имя пользователя SSH и пароль)

это имя пользователя используется для подключения к кластеру через SSH.

Примечание.

Пакет безопасности предприятия позволяет интегрировать HDInsight с Active Directory и Apache Ranger. При помощи пакета безопасности корпоративного уровня можно создать нескольких пользователей.

Вкладка хранилища

В кластерах HDInsight могут использоваться следующие варианты хранилища:

  • Azure Data Lake Storage 2-го поколения
  • Хранилище Azure Data Lake Storage 1-го поколения
  • Служба хранилища Azure общего назначения версии 2
  • Служба хранилища Azure общего назначения версии 1
  • Служба хранилища Azure для блочных BLOB-объектов (поддерживается только в качестве дополнительного хранилища)

На экране хранилища можно определить основную учетную запись хранения и контейнер по умолчанию. Кроме того, с кластером можно связать дополнительную службу хранилища Azure. Параметры хранилища метаданных позволяют определить внешнюю базу данных SQL для хранения таблиц Hive после удаления кластера и повысить производительность Oozie за счет хранения метаданных во внешнем хранилище.

A screenshot of the storage tab in the Create HDInsight Cluster screen in the Azure portal

Безопасность + сеть

Для кластеров типа Hadoop, Spark, HBase, Kafka и Interactive Query вы можете включить Корпоративный пакет безопасности. Этот пакет предоставляет возможность более безопасной настройки кластера с помощью Apache Ranger и интеграции с идентификатором Microsoft Entra.

A screenshot of the Security and Networking tab in the Create HDInsight Cluster screen in the Azure portal

Кроме того, рекомендуется всегда развертывать кластеры HDInsight в виртуальной сети, которую можно определить и назначить на этом экране. Если для решения нужны технологии, распределенные по нескольким типам кластеров HDInsight, виртуальная сеть Azure может объединять необходимые типы кластеров. Благодаря такой конфигурации кластеры и любой развернутый в них код могут взаимодействовать друг с другом напрямую.

Конфигурация и цены

На этой странице можно настроить размер и производительность кластера, а затем просмотреть оценочные сведения о затратах. Вы также можете определить виртуальные машины, которые будут использоваться для головных (главных) и рабочих узлов.

A screenshot of the Configuration and Pricing tab in the Create HDInsight Cluster screen in the Azure portal