Выбор подходящего размера виртуальной машины для кластера Azure HDInsight

Статья
05/23/2024

В статье описано, как выбрать подходящий размер виртуальной машины для различных узлов в кластере HDInsight.

Начните с понимания того, как свойства виртуальной машины, такие как обработка ЦП, размер ОЗУ и задержка в сети, влияют на обработку рабочих нагрузок. Затем подумайте, насколько ваше приложение соответствует задачам, под которые оптимизированы разные семейства виртуальных машин. Убедитесь, что семейство виртуальных машин, которое вы хотите использовать, совместимо с типом кластера, который вы планируете развернуть. Список всех поддерживаемых и рекомендуемых размеров виртуальных машин для каждого типа кластера см. в статье Поддерживаемые Azure HDInsight конфигурации узлов. Наконец, проведите сравнительное тестирование производительности для некоторых образцов рабочих нагрузок и проверьте, какой номер SKU из семейства вам подходит.

Сведения об определении других характеристик кластера, например, о выборе его типа или размера, см. в статье Планирование ресурсов для кластеров HDInsight.

Свойства виртуальной машины и рабочие нагрузки для больших данных

Размер и тип виртуальной машины определяются мощностью обработки ЦП, размером ОЗУ и задержкой в сети:

ЦП: размер виртуальной машины определяет число ядер. Чем больше ядер, тем более высокой степени распараллеливания вычислений может достичь каждый узел. Кроме того, в некоторых типах виртуальных машин используются более быстрые ядра.
ОЗУ: размер виртуальной машины также определяет ее объем ОЗУ. В случае рабочих нагрузок, требующих хранения данных в памяти для обработки, а не их чтения с диска, следует убедиться, что на рабочих узлах достаточно памяти для размещения данных.
Сеть: для большинства типов кластеров обрабатываемые ими данные находятся не на локальном диске, а во внешней службе хранения, например в хранилище Data Lake Storage или службе хранилища Azure. Оцените пропускную способность сети и пропускную способность между виртуальной машиной узла и службой хранилища. Как правило, пропускная способность сети виртуальной машины большего размера также выше. Дополнительные сведения см. в разделе Размеры виртуальных машин Linux в Azure.

Что такое оптимизация виртуальных машин?

Семейства виртуальных машин в Azure оптимизированы под различные задачи. В следующей таблице можно найти некоторые из наиболее популярных вариантов использования и семейства виртуальных машин, которые соответствуют им.

Тип	Размеры	Description
Начальный уровень	`Av2`	Характеристики производительности процессора и конфигурации памяти лучше всего подходят для рабочих нагрузок начального уровня, например для разработки и тестирования. Они экономичны и предоставляют недорогий вариант для начала работы с Azure.
Универсальные	`D`, , `DSv2Dv2`	Сбалансированное соотношение ресурсов ЦП и памяти. Идеальное решение для тестирования и разработки, небольших и средних баз данных, а также веб-серверов с небольшим или средним объемом трафика.
Оптимизированные для вычислений	`F`	Высокое соотношение ресурсов ЦП и памяти. Подходят для веб-серверов со средним объемом трафика, сетевых устройств, пакетных процессов и серверов приложений.
Оптимизированные для памяти	`Esv3`, `Ev3`	Высокое соотношение ресурсов памяти и ЦП. Отлично подходят для серверов реляционной базы данных, кэша среднего и большого объема, а также выполняющейся в памяти аналитики.

Цены на доступные экземпляры виртуальных машин в регионах, поддерживаемых HDInsight, см. в разделе Цены на HDInsight.

Экономичные типы виртуальных машин для небольших рабочих нагрузок

При невысоких требованиях к производительности для начала работы с HDInsight отлично подойдет серия F. Предлагая более низкую ориентировочную стоимость часа, серия F обеспечивает наилучшее соотношение цены и производительности в портфеле Azure в единицах вычисления Azure (ACU) на виртуальный ЦП.

В таблице ниже описаны типы кластеров и узлов, которые можно создать с использованием виртуальных машин серии Fsv2.

Тип кластера	Версия	Рабочий узел	Головной узел	Узел Zookeeper
Spark	Все	F4 и выше	no	no
Hadoop	Все	F4 и выше	no	no
Kafka	Все	F4 и выше	no	no
HBase	Все	F4 и выше	no	no
LLAP	disabled (выключено)	no	no	no

Спецификации по всем номерам SKU серии F см. в разделе Размеры виртуальных машин серии F.

Тестирование производительности

Тестирование — это процесс выполнения имитированных рабочих нагрузок на разных виртуальных машинах, чтобы оценить, насколько хорошо они выполняются для рабочих нагрузок.

Сведения о тестировании производительности для разных номеров SKU и размеров кластеров виртуальных машин см. в разделе Планирование ресурсов кластера в Azure HDInsight.

Поделиться через

Выбор подходящего размера виртуальной машины для кластера Azure HDInsight

Свойства виртуальной машины и рабочие нагрузки для больших данных

Что такое оптимизация виртуальных машин?

Экономичные типы виртуальных машин для небольших рабочих нагрузок

Тестирование производительности

Следующие шаги

Обратная связь

Обратная связь

Дополнительные ресурсы