Введение в высокопроизводительные вычисления (HPC) в Azure

Общие сведения об HPC

Высокопроизводительные вычисления (HPC), также называемые "большими вычислениями", используют большое количество компьютеров на основе ЦП или GPU для решения сложных математических задач.

Во многих отраслях HPC используются для решения самых сложных проблем. Сюда входят следующие рабочие нагрузки:

  • Геномика
  • модели для нефтяной и газовой промышленности;
  • Finance
  • разработка полупроводников;
  • Разработка
  • Моделирование погоды

Чем отличается HPC в облаке?

Одним из основных различий между локальной системой HPC и одной из них в облаке является возможность динамического добавления и удаления ресурсов по мере их необходимости. Динамическое масштабирование исключает избыточную вычислительную емкость, предоставляя клиентам инфраструктуру требуемого в соответствии с поставленными задачами размера.

Следующие материалы содержат дополнительные сведения об этой возможности динамического масштабирования.

Контрольный список для реализации

Если вам нужно реализовать собственное решение HPC в Azure, см. следующие материалы:

Инфраструктура

Существует множество компонентов инфраструктуры, необходимых для создания системы HPC. Вычислительные ресурсы, хранилище и сеть предоставляют базовые компоненты независимо от того, как вы решили управлять рабочими нагрузками HPC.

Примеры архитектуры HPC

Существует множество различных способов проектирования и реализации архитектуры HPC в Azure. Приложения HPC позволяют масштабировать тысячи вычислительных ядер, расширять локальные кластеры и выполнять полностью облачные решения.

Приведенные ниже сценарии описывают некоторые распространенные способы создания решений HPC.

  • На схеме показан пример архитектуры HPC для служб инженеров с помощью компьютеров в Azure.

    Службы автоматизированного проектирования в Azure

    Предоставление платформы SaaS (программное обеспечение как услуга) для автоматизированного проектирования (CAE) в Azure.

  • На схеме показан пример архитектуры HPC для моделирования динамических вычислений в Azure.

    Моделирование сценариев вычислительной гидродинамики (CFD) в Azure.

    Моделирование сценариев CFD в Azure.

  • На схеме показан пример архитектуры HPC для трехмерной отрисовки видео в Azure.

    Отрисовка трехмерного видео на портале Azure

    Выполнение собственных рабочих нагрузок HPC в Azure с использованием пакетной службы Azure.

Службы вычислений

Azure предлагает решения разных размеров. Все они оптимизированы для рабочих нагрузок, которые потребляют много ресурсов ЦП и GPU.

Виртуальные машины на основе ЦП

Виртуальные машины с поддержкой GPU

Виртуальные машины серии N оснащены графическими процессорами NVIDIA и предназначены для приложений с ресурсоемкими вычислениями или графикой, в том числе для обучения искусственного интеллекта (AI) и визуализации.

Хранилище

Масштабные рабочие нагрузки пакетной службы и HPC требуют ресурсов для хранения данных и доступа, которые превышают возможности традиционных файловых систем в облаке. Существует множество решений, которые управляют скоростью и емкостью приложений HPC в Azure:

Дополнительные сведения о сравнении Lustre, GlusterFS и BeeGFS в Azure см . в электронной книге Azure и Lustre в блоге Azure .

Сеть

Виртуальные машины H16r, H16mr, A8 и A9 могут подключаться к сети RDMA серверной части с высокой пропускной способностью. Эта сеть может повысить производительность тесно связанных параллельных приложений, работающих в интерфейсе передачи сообщений Майкрософт, более известном как MPI или Intel MPI.

Управление

Модель "Сделай сам"

Создание системы HPC с нуля в Azure обеспечивает значительную гибкость, но часто очень интенсивное обслуживание.

  1. Настройте собственную среду кластера на виртуальных машинах Azure или Масштабируемые наборы виртуальных машин.
  2. Использование шаблонов Azure Resource Manager для развертывания лучших диспетчеров рабочих нагрузок, инфраструктуры и приложений.
  3. Выбор размеров виртуальной машины с поддержкой графического процессора и HPC, которые включают специальное оборудование и сетевые подключения для рабочих нагрузок графического процессора или MPI.
  4. Добавьте высокопроизводительные хранилища для рабочих нагрузок с интенсивным вводом-выводом.

Переход в гибридную и облачную среды

Если у вас есть локальная система HPC, которую вы хотите подключить к Azure, есть несколько ресурсов, которые помогут вам приступить к работе.

Для начала ознакомьтесь с вариантами подключения к локальной сети в Azure. Здесь можно найти дополнительные сведения об этих параметрах подключения:

Установив безопасное подключение к сети, вы можете начать работу, используя облачные вычислительные ресурсы по требованию и возможности расширения, предоставляемые доступным диспетчером рабочих нагрузок.

Решения из Marketplace

В Azure Marketplace предлагается множество диспетчеров рабочих нагрузок.

Пакетная служба Azure

пакетная служба Azure — это служба платформы для эффективного выполнения крупномасштабных параллельных приложений и приложений HPC в облаке. Пакетная служба Azure планирует запуск ресурсоемких вычислительных задач в управляемом пуле виртуальных машин и автоматически масштабирует вычислительные ресурсы, учитывая требования заданий.

Разработчики или поставщики SaaS могут использовать пакеты SDK для пакетной службы и средства для интеграции приложений HPC или контейнерных рабочих нагрузок с Azure, промежуточного хранения данных в Azure и создания конвейеров выполнения заданий.

На пакетная служба Azure все службы выполняются в облаке, на рисунке ниже показано, как архитектура выглядит с пакетная служба Azure, имея конфигурации масштабируемости и расписания заданий, выполняемые в облаке, а результаты и отчеты можно отправлять в локальную среду.

На схеме показан пример архитектуры HPC для пакетная служба Azure.

Azure CycleCloud

Azure CycleCloud — самый простой способ управлять рабочими нагрузками HPC в Azure с помощью любого планировщика, например Slurm, Grid Engine, HPC Pack, HTCondor, LSF, PBS Pro или Symphony.

CycleCloud позволяет:

  • Развертывайте полные кластеры и другие ресурсы, например планировщики, вычислительные виртуальные машины, хранилища, сети и кэш.
  • Координируйте рабочие процессы, связанные с заданиями, данными и облаком.
  • Предоставьте администраторам полный контроль над тем, какие пользователи могут запускать задания, где и с какими затратами.
  • Настраивайте и оптимизируйте кластеры с помощью расширенных политик и системы управления. В вашем распоряжении интеграция с Active Directory, средства контроля затрат, инструменты для мониторинга и отчетности, а также многое другое.
  • Работайте со своими имеющимися планировщиками и приложениями, не внося в них какие-либо изменения.
  • Используйте встроенные возможности автомасштабирования, а также проверенные на практике эталонные архитектуры для целого ряда отраслей и рабочих нагрузок HPC.
Гибридная или облачная модель ускорения

На этой схеме гибридного примера видно, как эти службы распределяются между облаком и локальной средой. Возможность выполнения заданий в обеих рабочих нагрузках. На схеме показан пример архитектуры HPC для CycleCloud в Azure в гибридной среде.

Облачная собственная модель

На приведенной ниже схеме облачной модели показано, как рабочая нагрузка в облаке будет обрабатывать все, сохраняя подключение к локальной среде.

На схеме показан пример архитектуры HPC для CycleCloud в Azure в облачной собственной модели.

Диаграмма сравнения

Функция Пакетная служба Azure Azure CycleCloud
Планировщик Api-интерфейсы и средства пакетной службы и скрипты командной строки в портал Azure (Cloud Native). Используйте стандартные планировщики HPC, такие как Slurm, PBS Pro, LSF, Grid Engine и HTCondor, или расширьте подключаемые модули автомасштабирования CycleCloud для работы с собственным планировщиком.
Вычислительные ресурсы Программное обеспечение как узлы службы — платформа как услуга Платформа как услуга — платформа как услуга
Мониторинг средств Azure Monitor Azure Monitor, Grafana
Пользовательская настройка Настраиваемые пулы образов, сторонние образы, доступ к пакетной службе API. Использование комплексного API RESTful для настройки и расширения функциональных возможностей, развертывания собственного планировщика и поддержки в существующих диспетчерах рабочих нагрузок
Интеграция Конвейеры Synapse, Фабрика данных Azure, Azure CLI Встроенный интерфейс командной строки для Windows и Linux
Тип пользователя Разработчики Классические администраторы и пользователи HPC
Вид работы Пакетная служба, рабочие процессы Тесно связан (интерфейс передачи сообщений или MPI).
Поддержка Windows Да Зависит от выбора планировщика

Диспетчеры рабочих нагрузок

Ниже приведены примеры диспетчеров рабочих нагрузок и кластеров, которые могут выполняться в инфраструктуре Azure. Создавайте автономные кластеры на виртуальных машинах Azure или переносите нагрузки из локального кластера на виртуальные машины Azure.

Контейнеры

Для управления некоторыми рабочими нагрузками HPC также можно использовать контейнеры. Такие решения, как Служба Azure Kubernetes (AKS), упрощают развертывание управляемого кластера Kubernetes в Azure.

Управление затратами

Управление затратами HPC в Azure может осуществляться разными способами. Чтобы определить наиболее подходящий для вас способ, ознакомьтесь с вариантами приобретения Azure.

Безопасность

Общие сведения об обеспечении безопасности в Azure см. в документации по системе безопасности Azure.

Помимо конфигураций сети, доступных в разделе "Ускорение облака", можно реализовать конфигурацию концентратора и периферийной сети для изоляции вычислительных ресурсов:

Приложения HPC

Запустите пользовательские или коммерческие приложения HPC в Azure. Некоторые приложения из этого раздела могут эффективно масштабироваться с помощью дополнительных виртуальных машин или вычислительных ядер. Чтобы получить готовые к развертыванию решения, посетите Azure Marketplace.

Примечание.

Проконсультируйтесь с поставщиками всех коммерческих приложений насчет лицензирования или иных ограничений на запуск приложений в облаке. Не все поставщики предлагают лицензирование с оплатой по мере использования. Для вашего решения может потребоваться сервер лицензий в облаке или локальный сервер лицензий.

Проектирование приложений

Графика и отрисовка

Искусственный интеллект и глубокое обучение

Поставщики MPI

Удаленная визуализация

Запустите виртуальные машины с поддержкой GPU в Azure в том же регионе, что и выходные данные HPC для наименьшей задержки, доступа и визуализации удаленно с помощью виртуального рабочего стола Azure, Citrix или VMware Horizon.

Тесты производительности

Истории клиентов

Существует множество клиентов, которые видели большой успех с помощью Azure для рабочих нагрузок HPC. Некоторые примеры представлены ниже.

Другие важные сведения

Следующие шаги

Последние объявления см. в следующих ресурсах:

Примеры заданий пакетной службы Microsoft

В этих руководствах содержатся сведения о выполнении приложений в Microsoft Batch: