Выбор подходящего размера виртуальной машины для кластера Azure HDInsight

В статье описано, как выбрать подходящий размер виртуальной машины для различных узлов в кластере HDInsight.

Для начала необходимо понять, как свойства виртуальной машины, такие как работа ЦП, размер ОЗУ и задержка в сети, будут влиять на обработку ваших рабочих нагрузок. Затем подумайте, насколько ваше приложение соответствует задачам, под которые оптимизированы разные семейства виртуальных машин. Убедитесь, что семейство виртуальных машин, которое вы хотите использовать, совместимо с типом кластера, который вы планируете развернуть. Список всех поддерживаемых и рекомендуемых размеров виртуальных машин для каждого типа кластера см. в статье Поддерживаемые Azure HDInsight конфигурации узлов. Наконец, проведите сравнительное тестирование производительности для некоторых образцов рабочих нагрузок и проверьте, какой номер SKU из семейства вам подходит.

Сведения об определении других характеристик кластера, например, о выборе его типа или размера, см. в статье Планирование ресурсов для кластеров HDInsight.

Свойства виртуальной машины и рабочие нагрузки для больших данных

Размер и тип виртуальной машины определяется вычислительной мощностью ЦП, объемом оперативной памяти и задержкой сети.

  • ЦП: размер виртуальной машины определяет число ядер. Чем больше ядер, тем более высокой степени распараллеливания вычислений может достичь каждый узел. Кроме того, в некоторых типах виртуальных машин используются более быстрые ядра.

  • ОЗУ: размер виртуальной машины также определяет ее объем ОЗУ. В случае рабочих нагрузок, требующих хранения данных в памяти для обработки, а не их чтения с диска, следует убедиться, что на рабочих узлах достаточно памяти для размещения данных.

  • Сеть: для большинства типов кластеров обрабатываемые ими данные находятся не на локальном диске, а во внешней службе хранения, например в хранилище Data Lake Storage или службе хранилища Azure. Оцените пропускную способность сети и пропускную способность между виртуальной машиной узла и службой хранилища. Как правило, пропускная способность сети виртуальной машины большего размера также выше. Дополнительные сведения см. в разделе Размеры виртуальных машин Linux в Azure.

Что такое оптимизация виртуальных машин?

Семейства виртуальных машин в Azure оптимизированы под различные задачи. В таблице ниже показаны некоторые из наиболее популярных задач и соответствующие им семейства виртуальных машин.

Тип Размеры Описание
Начальный уровень Av2 Характеристики производительности процессора и конфигурации памяти лучше всего подходят для рабочих нагрузок начального уровня, например для разработки и тестирования. Недорогой вариант для начала работы с Azure.
Общего назначения D, DSv2, Dv2 Сбалансированное соотношение ресурсов ЦП и памяти. Идеальное решение для тестирования и разработки, небольших и средних баз данных, а также веб-серверов с небольшим или средним объемом трафика.
Оптимизированные для вычислений C Высокое соотношение ресурсов ЦП и памяти. Подходят для веб-серверов со средним объемом трафика, сетевых устройств, пакетных процессов и серверов приложений.
Оптимизированные для памяти Esv3, Ev3 Высокое соотношение ресурсов памяти и ядра. Отлично подходят для серверов реляционной базы данных, кэша среднего и большого объема, а также выполняющейся в памяти аналитики.
  • Цены на доступные экземпляры виртуальных машин в регионах, поддерживаемых HDInsight, см. в разделе Цены на HDInsight.

Экономичные типы виртуальных машин для небольших рабочих нагрузок

При невысоких требованиях к производительности для начала работы с HDInsight отлично подойдет серия F. Предлагая более низкую ориентировочную стоимость часа, серия F обеспечивает наилучшее соотношение цены и производительности в портфеле Azure в единицах вычисления Azure (ACU) на виртуальный ЦП.

В таблице ниже описаны типы кластеров и узлов, которые можно создать с использованием виртуальных машин серии Fsv2.

Тип кластера Версия Рабочий узел Головной узел Узел Zookeeper
Spark Все F4 и выше Нет Нет
Hadoop Все F4 и выше Нет Нет
Kafka Все F4 и выше Нет Нет
HBase Все F4 и выше Нет Нет
LLAP disabled Нет нет Нет

Спецификации по всем номерам SKU серии F см. в разделе Размеры виртуальных машин серии F.

Тестирование производительности

Тестирование производительности — это процесс выполнения смоделированных рабочих нагрузок на разных виртуальных машинах, при котором определяется, насколько хорошо они будут работать с нагрузками в вашей рабочей среде.

Сведения о тестировании производительности для разных номеров SKU и размеров кластеров виртуальных машин см. в разделе Планирование ресурсов кластера в Azure HDInsight.

Дальнейшие действия