Размеры виртуальных машин высокопроизводительных вычислений

Внимание

Эта статья ссылается на CentOS, дистрибутив Linux, который приближается к состоянию конца жизни (EOL). Обратите внимание на использование и план соответствующим образом. Дополнительные сведения см. в руководстве centOS End Of Life.

Применимо к: ✔️ Виртуальные машины Linux ✔️ Виртуальные машины Windows ✔️ Универсальные масштабируемые наборы

Совет

Воспользуйтесь средством выбора виртуальных машин, чтобы подобрать машину оптимального размера для своей рабочей нагрузки.

Виртуальные машины серии HBv4 оптимизированы для различных рабочих нагрузок HPC, таких как динамики вычислительной жидкости, анализ конечных элементов, внешний интерфейс, отрисовка, молекулярной динамики, вычислительной геонауки, моделирования погоды и анализа финансовых рисков. Виртуальные машины HBv4 имеют до 176 процессоров AMD EPYC™ 9V33X (GenoaX) с кэшем 3D-V AMD, 768 ГБ ОЗУ и без одновременной многопоточности. Виртуальные машины серии HBv4 также предоставляют 780 ГБ/с пропускной способности памяти DDR5 и 2304 МБ кэш L3 на виртуальную машину, до 12 ГБ/с (с чтения) и 7 ГБ /с (запись) производительности SSD блочного устройства и частоты часов до 3,7 ГГц.

Все виртуальные машины серии HBv4 имеют 400 Гб/с NDR InfiniBand из сети NVIDIA, чтобы включить рабочие нагрузки MPI суперкомпьютерного масштабирования. Эти виртуальные машины подключены в неблокирующем дереве FAT для обеспечения оптимальной и стабильной производительности RDMA. NDR продолжает поддерживать такие функции, как адаптивная маршрутизация и динамически Подключение транспорт (DCT). Это новейшее поколение InfiniBand также обеспечивает большую поддержку разгрузки коллективов MPI, оптимизированных реальных задержек из-за аналитики управления перегрузкой и расширенных возможностей адаптивной маршрутизации. Эти функции улучшают производительность, масштабируемость и согласованность приложений. Их использование настоятельно рекомендуется.

Виртуальные машины серии HBv3 оптимизированы для приложений высокопроизводительных вычислений, включая гидродинамику, явный и неявный анализ методом конечных элементов, моделирование погоды, обработку сейсмических данных, симуляторы резервуаров и технических границ коллектора. Виртуальные машины HBv3 имеют до 120 процессоров AMD EPYC™ 7003 серии (МиланX), 448 ГБ ОЗУ и без гиперпотоков. Виртуальные машины серии HBv3 обеспечивают пропускную способность памяти в 350 ГБ/с, до 32 МБ кэш-памяти третьего уровня на ядро, производительность твердотельного накопителя до 7 ГБ/с и тактовые частоты до 3,5 ГГц.

Все виртуальные машины серии HBv3 оснащены шиной HDR InfiniBand со скоростью 200 Гбит/с от NVIDIA Networking для поддержки рабочих нагрузок MPI в масштабе суперкомпьютера. Эти виртуальные машины подключены в неблокирующем дереве FAT для обеспечения оптимальной и стабильной производительности RDMA. Структура HDR InfiniBand также поддерживает адаптивную маршрутизацию и динамический подключенный транспорт (DCT, дополнительно к стандартным транспортам RC и UD). Эти функции улучшают производительность, масштабируемость и согласованность приложений. Их использование настоятельно рекомендуется.

Виртуальные машины серии HBv2 оптимизированы для приложений, которым необходима высокая пропускная способность памяти: приложений для анализа динамики жидкости, анализа методом конечных элементов и моделирования резервуара. Виртуальные машины HBv2 оснащаются 120 ядрами процессора AMD EPYC 7742 и 4 ГБ ОЗУ на каждое ядро ЦП без поддержки одновременной многопоточности. Каждая виртуальная машина HBv2 обеспечивает пропускную способность памяти до 340 ГБ/с и вычислительную мощность FP64 до 4 Tфлопс.

Все виртуальные машины серии HBv2 оснащены сетевым адаптером Mellanox FDR InfiniBand на 200 Гбит/с, а виртуальные машины серий HB и HC — сетевым адаптером Mellanox FDR InfiniBand на 100 Гбит/с. Виртуальные машины всех этих типов подключены в неблокирующей конфигурации утолщенного дерева для обеспечения оптимальной и стабильной производительности RDMA. Виртуальные машины HBv2 также поддерживают адаптивную маршрутизацию и динамический подключенный транспорт (DCT) в дополнение к стандартным транспортам RC и UD. Эти функции улучшают производительность, масштабируемость и согласованность приложений. Их использование настоятельно рекомендуется.

Виртуальные машины серии HB оптимизированы для приложений, которым необходима высокая пропускная способность памяти: приложений для анализа динамики жидкости, явного анализа методом конечных элементов и моделирования погоды. Виртуальные машины серии HB оснащены 60 ядрами процессоров AMD EPYC 7551 с 4 ГБ ОЗУ на ядро ЦП. Технология Hyper-Threading не поддерживается. Платформа AMD EPYC обеспечивает пропускную способность памяти более 260 ГБ/с.

Виртуальные машины серии HC оптимизированы для приложений, которым необходима высокая плотность вычислений: приложений для неявного анализа методом конечных элементов, молекулярной динамики и вычислительной химии. Виртуальные машины серии HC оснащены 44 ядрами процессоров Intel Xeon Platinum 8168 с 8 ГБ ОЗУ на ядро ЦП. Технология Hyper-Threading не поддерживается. Платформа Intel Xeon Platinum поддерживает обширную экосистему программных средств Intel, например библиотеку Intel Math Kernel.

Виртуальные машины серии HX оптимизированы для рабочих нагрузок, требующих значительной емкости памяти с вдвое большей емкостью памяти, чем HBv4. Например, рабочие нагрузки, такие как силиконовый дизайн, могут использовать виртуальные машины серии HX, чтобы клиенты EDA могли использовать самые передовые производственные процессы для выполнения наиболее интенсивных рабочих нагрузок с большим объемом памяти. Виртуальные машины HX имеют до 176 Ядер ЦП AMD EPYC™ 9V33X (GenoaX), 1408 ГБ ОЗУ и без одновременной многопоточной многопоточности. Виртуальные машины серии HX также предоставляют 780 ГБ/с пропускной способности памяти DDR5 и 2304 МБ кэш L3 на каждую виртуальную машину, до 12 ГБ/с (операций чтения) и 7 ГБ/с (запись) производительности ssd блочного устройства и частоты часов до 3,7 ГГц.

Примечание.

Все виртуальные машины серии HBv4, HBv3, HBv2, HB, HC и HX имеют эксклюзивный доступ к физическим серверам. На каждый физический сервер приходится только 1 виртуальная машина, и для виртуальных машин таких размеров не существует общей мультитенантной организации с другими виртуальными машинами.

Экземпляры с поддержкой RDMA

Виртуальные машины HPC большинства размеров оснащены сетевым интерфейсом для удаленного прямого доступа к памяти (RDMA). Некоторые размеры виртуальных машин серии N, отмеченные символом "r", также поддерживают RDMA. Этот интерфейс является дополнением к стандартному сетевому интерфейсу Azure Ethernet, который доступен для виртуальных машин других размеров.

Этот дополнительный интерфейс обеспечивает связь экземпляров с поддержкой RDMA по сети InfiniBand (IB), работающей на скорости HDR для виртуальных машин HBv3 и HBv2, EDR для серий HB, HC и NDv2 и FDR для серий H16r, H16mr и других виртуальных машин серии N с поддержкой RDMA. Эти возможности RDMA позволяют увеличить масштабируемость и производительность приложений с интерфейсом MPI.

Примечание.

Поддержка SR-IOV. В Azure HPC в настоящее время существует два класса виртуальных машин в зависимости от того, поддерживают ли они SR-IOV для InfiniBand. В настоящее время почти все виртуальные машины новых поколений с поддержкой RDMA или InfiniBand в среде Azure поддерживают SR-IOV, кроме H16r, H16mr и NC24r. Режим RDMA доступен только в сети InfiniBand (IB) и поддерживается для всех виртуальных машин с поддержкой RDMA. Технология IP на базе IB (IP over IB) поддерживается только на виртуальных машинах с поддержкой SR-IOV. RDMA не работает в сети Ethernet.

  • Операционная система. Обычно используются дистрибутивы Linux, такие как CentOS, RHEL, Ubuntu и SUSE. На всех виртуальных машинах серии HPC поддерживаются Windows Server 2016 и более поздние версии. Обратите внимание, что Windows Server 2012 R2 не поддерживается на HBv2 и виртуальных машинах больших размеров, имеющих больше 64 ядер (виртуальных или физических). Список поддерживаемых образов виртуальных машин в Marketplace и способ их настройки можно найти в разделе об образах виртуальных машин. На страницах виртуальных машин соответствующих размеров также указана поддержка программного стека.

  • InfiniBand и драйверы. На виртуальных машинах с поддержкой InfiniBand для включения RDMA требуются соответствующие драйверы. Список поддерживаемых образов виртуальных машин в Marketplace и способ их настройки можно найти в разделе об образах виртуальных машин. Узнать о расширениях виртуальных машин или установке драйверов InfiniBand вручную также можно в разделе Включение InfiniBand.

  • MPI. Виртуальные машины тех размеров, которые поддерживают SR-IOV в Azure, также поддерживают использование практически всех версий MPI с Mellanox OFED. Дополнительные сведения о настройке MPI на виртуальных машинах HPC в Azure см. в статье Настройка MPI для HPC.

    Примечание.

    Адресное пространство сети RDMA. Сеть RDMA в Azure резервирует адресное пространство 172.16.0.0/16. Чтобы выполнять приложения MPI в экземплярах, развернутых в виртуальной сети Azure, убедитесь, что адресное пространство виртуальной сети не пересекается с сетью RDMA.

Параметры конфигурации кластера

Azure предоставляет несколько вариантов для создания кластеров виртуальных машин HPC, которые могут взаимодействовать с помощью сети RDMA, включая:

  • Виртуальные машины. Разверните виртуальные машины HPC с поддержкой RDMA в одном масштабируемом наборе или группе доступности (используя модель развертывания Azure Resource Manager). Если вы используете классическую модель развертывания, разверните виртуальные машины в одну облачную службу.

  • Масштабируемый набор виртуальных машин. В масштабируемом наборе виртуальных машин ограничьте развертывание одной группой размещения, чтобы обеспечить возможность обмена данными по протоколу InfiniBand в масштабируемом наборе. Например, в шаблоне Resource Manager задайте значение true для свойства singlePlacementGroup. Обратите внимание, что максимальный размер масштабируемого набора, который можно установить с помощью свойства singlePlacementGroup=true, по умолчанию ограничен до 100 виртуальных машин. Если потребность в масштабировании заданий HPC превышает 100 виртуальных машин в одном арендаторе, вы можете запросить увеличение, отправив бесплатный запрос в службу поддержки клиентов. Ограничение на количество виртуальных машин в одном масштабируемом наборе можно повысить до 300. Обратите внимание, что при развертывании виртуальных машин с использованием групп доступности верхнее ограничение составляет 200 виртуальных машин на группу.

    Примечание.

    MPI между виртуальными машинами. Если между виртуальными машинами требуется обеспечить RDMA (например, с использованием MPI-соединения), убедитесь, что эти машины находятся в одном масштабируемом наборе виртуальных машин или группе доступности.

  • Azure CycleCloud. Для запуска заданий MPI создайте кластер HPC в Azure CycleCloud.

  • Пакетная служба Azure. Создайте пул пакетной службы Azure для выполнения рабочих нагрузок MPI. Сведения об использовании экземпляров для ресурсоемких вычислений при запуске приложений MPI с использованием пакетной службы Azure см. в статье Использование задач с несколькими экземплярами для запуска приложений с интерфейсом передачи сообщений в пакетной службе.

  • Пакет Microsoft HPC - Пакет HPC включает среду выполнения для MS-MPI, которая использует сеть Azure RDMA при развертывании на виртуальных машинах Linux с поддержкой RDMA. Примеры развертываний см. в статье Настройка кластера RDMA в Linux с помощью пакета HPC для запуска приложений MPI.

Рекомендации по развертыванию

  • Подписка Azure. Чтобы развернуть большое число экземпляров для ресурсоемких вычислений, рекомендуем подписку с оплатой по мере использования или другие варианты покупки. Если вы используете бесплатную учетную запись Azure, вам доступно ограниченное количество вычислительных ядер Azure.

  • Цены и доступность. Вы можете уточнить цены и доступность виртуальных машин по регионам Azure.

  • Квота ядер. Вам может потребоваться увеличить стандартную квоту на число ядер в подписке Azure. Кроме того, количество ядер, которые можно развернуть для некоторых семейств размеров виртуальных машин (включая серию H), может быть ограничено условиями вашей подписки. Чтобы увеличить квоту, отправьте запрос в службу поддержки. Это бесплатная услуга. (Ограничения по умолчанию могут быть разными в зависимости от категории подписки).

    Примечание.

    Если вам нужны ресурсы в очень большом объеме, обратитесь в службу поддержки Azure. Квоты Azure — это ограничения по кредитам, а не гарантированная емкость. Вне зависимости от квоты с вас будет взиматься плата только за используемые ядра.

  • Виртуальная сетьвиртуальная сеть Azure не требуется для использования ресурсоемких экземпляров. Но для нескольких развертываний вам потребуется по крайней мере облачная виртуальная сеть Azure или подключение типа "сеть — сеть", если нужен доступ к локальным ресурсам. При необходимости создайте виртуальную сеть, чтобы развернуть экземпляры. Добавление виртуальных машин для ресурсоемких вычислений в виртуальную сеть в территориальной группе не поддерживается.

  • Изменение размера. Из-за специализированного оборудования изменить можно только размер экземпляров для ресурсоемких вычислений одного семейства размеров (серии H или N). Например, можно изменить только размер виртуальной машины серии H (один размер из серии H на другой размер из этой же серии). Для некоторых виртуальных машин существуют дополнительные факторы, связанные с поддержкой драйвера InfiniBand и дисков NVMe.

Остальные размеры

Следующие шаги