Поделиться через


Выбор подходящего размера виртуальной машины для кластера Azure HDInsight

В статье описано, как выбрать подходящий размер виртуальной машины для различных узлов в кластере HDInsight.

Начните с понимания того, как свойства виртуальной машины, такие как обработка ЦП, размер ОЗУ и задержка в сети, влияют на обработку рабочих нагрузок. Затем подумайте, насколько ваше приложение соответствует задачам, под которые оптимизированы разные семейства виртуальных машин. Убедитесь, что семейство виртуальных машин, которое вы хотите использовать, совместимо с типом кластера, который вы планируете развернуть. Список всех поддерживаемых и рекомендуемых размеров виртуальных машин для каждого типа кластера см. в статье Поддерживаемые Azure HDInsight конфигурации узлов. Наконец, проведите сравнительное тестирование производительности для некоторых образцов рабочих нагрузок и проверьте, какой номер SKU из семейства вам подходит.

Сведения об определении других характеристик кластера, например, о выборе его типа или размера, см. в статье Планирование ресурсов для кластеров HDInsight.

Свойства виртуальной машины и рабочие нагрузки для больших данных

Размер и тип виртуальной машины определяются мощностью обработки ЦП, размером ОЗУ и задержкой в сети:

  • ЦП: размер виртуальной машины определяет число ядер. Чем больше ядер, тем более высокой степени распараллеливания вычислений может достичь каждый узел. Кроме того, в некоторых типах виртуальных машин используются более быстрые ядра.

  • ОЗУ: размер виртуальной машины также определяет ее объем ОЗУ. В случае рабочих нагрузок, требующих хранения данных в памяти для обработки, а не их чтения с диска, следует убедиться, что на рабочих узлах достаточно памяти для размещения данных.

  • Сеть: для большинства типов кластеров обрабатываемые ими данные находятся не на локальном диске, а во внешней службе хранения, например в хранилище Data Lake Storage или службе хранилища Azure. Оцените пропускную способность сети и пропускную способность между виртуальной машиной узла и службой хранилища. Как правило, пропускная способность сети виртуальной машины большего размера также выше. Дополнительные сведения см. в разделе Размеры виртуальных машин Linux в Azure.

Что такое оптимизация виртуальных машин?

Семейства виртуальных машин в Azure оптимизированы под различные задачи. В следующей таблице можно найти некоторые из наиболее популярных вариантов использования и семейства виртуальных машин, которые соответствуют им.

Тип Размеры Description
Начальный уровень Av2 Характеристики производительности процессора и конфигурации памяти лучше всего подходят для рабочих нагрузок начального уровня, например для разработки и тестирования. Они экономичны и предоставляют недорогий вариант для начала работы с Azure.
Универсальные D, , DSv2Dv2 Сбалансированное соотношение ресурсов ЦП и памяти. Идеальное решение для тестирования и разработки, небольших и средних баз данных, а также веб-серверов с небольшим или средним объемом трафика.
Оптимизированные для вычислений F Высокое соотношение ресурсов ЦП и памяти. Подходят для веб-серверов со средним объемом трафика, сетевых устройств, пакетных процессов и серверов приложений.
Оптимизированные для памяти Esv3, Ev3 Высокое соотношение ресурсов памяти и ЦП. Отлично подходят для серверов реляционной базы данных, кэша среднего и большого объема, а также выполняющейся в памяти аналитики.
  • Цены на доступные экземпляры виртуальных машин в регионах, поддерживаемых HDInsight, см. в разделе Цены на HDInsight.

Экономичные типы виртуальных машин для небольших рабочих нагрузок

При невысоких требованиях к производительности для начала работы с HDInsight отлично подойдет серия F. Предлагая более низкую ориентировочную стоимость часа, серия F обеспечивает наилучшее соотношение цены и производительности в портфеле Azure в единицах вычисления Azure (ACU) на виртуальный ЦП.

В таблице ниже описаны типы кластеров и узлов, которые можно создать с использованием виртуальных машин серии Fsv2.

Тип кластера Версия Рабочий узел Головной узел Узел Zookeeper
Spark Все F4 и выше no no
Hadoop Все F4 и выше no no
Kafka Все F4 и выше no no
HBase Все F4 и выше no no
LLAP disabled (выключено) no no no

Спецификации по всем номерам SKU серии F см. в разделе Размеры виртуальных машин серии F.

Тестирование производительности

Тестирование — это процесс выполнения имитированных рабочих нагрузок на разных виртуальных машинах, чтобы оценить, насколько хорошо они выполняются для рабочих нагрузок.

Сведения о тестировании производительности для разных номеров SKU и размеров кластеров виртуальных машин см. в разделе Планирование ресурсов кластера в Azure HDInsight.

Следующие шаги