Введение в высокопроизводительные вычисления (HPC) в Azure

Общие сведения об HPC

Высокопроизводительные вычисления (HPC), также называемые "большими вычислениями", используют большое количество компьютеров на базе ЦП или GPU для решения сложных математических задач.

Во многих отраслях HPC используются для решения самых сложных проблем. Сюда входят следующие рабочие нагрузки:

  • Genomics
  • модели для нефтяной и газовой промышленности;
  • Finance
  • разработка полупроводников;
  • Engineering
  • моделирование погоды.

Чем отличается HPC в облаке?

Одним из основных различий между локальной системой HPC и системой в облаке является возможность динамического добавления и удаления ресурсов по мере необходимости. Динамическое масштабирование исключает избыточную вычислительную емкость, предоставляя клиентам инфраструктуру требуемого в соответствии с поставленными задачами размера.

Следующие материалы содержат дополнительные сведения об этой возможности динамического масштабирования.

Контрольный список для реализации

Если вам нужно реализовать собственное решение HPC в Azure, см. следующие материалы:

Инфраструктура

Существует множество компонентов инфраструктуры, необходимых для создания системы HPC. Вычисления, хранилище и сеть предоставляют базовые компоненты независимо от того, как вы решите управлять рабочими нагрузками HPC.

Примеры архитектуры HPC

Существует множество различных способов проектирования и реализации архитектуры HPC в Azure. Приложения HPC позволяют масштабировать тысячи вычислительных ядер, расширять локальные кластеры и выполнять полностью облачные решения.

Приведенные ниже сценарии описывают некоторые распространенные способы создания решений HPC.

  • На схеме показан пример архитектуры HPC для автоматизированных инженерных служб в Azure.

    Службы автоматизированного проектирования в Azure

    Предоставление платформы SaaS (программное обеспечение как услуга) для автоматизированного проектирования (CAE) в Azure.

  • На схеме показан пример архитектуры HPC для моделирования вычислительной гидродинамики в Azure.

    Моделирование сценариев вычислительной гидродинамики (CFD) в Azure.

    Моделирование сценариев CFD в Azure.

  • На схеме показан пример архитектуры HPC для отрисовки трехмерного видео в Azure.

    Отрисовка трехмерного видео на портале Azure

    Выполнение собственных рабочих нагрузок HPC в Azure с использованием пакетной службы Azure.

Вычисления

Azure предлагает ряд размеров, оптимизированных для рабочих нагрузок gpu с интенсивным использованием ЦП & .

Виртуальные машины на основе ЦП

Виртуальные машины с поддержкой GPU

Виртуальные машины серии N оснащены графическими процессорами NVIDIA и предназначены для приложений с ресурсоемкими вычислениями или графикой, в том числе для обучения искусственного интеллекта (AI) и визуализации.

Память

Масштабные рабочие нагрузки пакетной службы и HPC требуют ресурсов для хранения данных и доступа, которые превышают возможности традиционных файловых систем в облаке. Существует множество решений, которые управляют потребностями в скорости и емкости приложений HPC в Azure.

Дополнительные сведения о сравнении Lustre, GlusterFS и BeeGFS в Azure см. в электронной книге Parallel Files Systems в Azure и в блоге Lustre в Azure .

Сеть

Виртуальные машины H16r, H16mr, A8 и A9 могут подключаться к сети RDMA серверной части с высокой пропускной способностью. Эта сеть может повысить производительность тесно связанных параллельных приложений, работающих в интерфейсе передачи сообщений Майкрософт, более известном как MPI или Intel MPI.

Управление

Модель "Сделай сам"

Создание системы HPC с нуля в Azure обеспечивает значительную гибкость, но часто очень интенсивное обслуживание.

  1. Настройте собственную кластерную среду на виртуальных машинах Azure или Масштабируемые наборы виртуальных машин.
  2. Использование шаблонов Azure Resource Manager для развертывания лучших диспетчеров рабочих нагрузок, инфраструктуры и приложений.
  3. Выберите размеры виртуальных машин HPC и GPU, которые включают специализированное оборудование и сетевые подключения для рабочих нагрузок MPI или GPU.
  4. Добавьте высокопроизводительное хранилище для рабочих нагрузок с интенсивным вводом-выводом.

Переход в гибридную и облачную среды

Если у вас есть локальная система HPC, которую вы хотите подключить к Azure, есть несколько ресурсов, которые помогут вам приступить к работе.

Для начала ознакомьтесь с вариантами подключения к локальной сети в Azure. Здесь можно найти дополнительные сведения о следующих вариантах подключения:

Установив безопасное подключение к сети, вы можете начать работу, используя облачные вычислительные ресурсы по требованию и возможности расширения, предоставляемые доступным диспетчером рабочих нагрузок.

Решения Marketplace

В Azure Marketplace предлагается множество менеджеров рабочих нагрузок.

Пакетная служба Azure

пакетная служба Azure — это служба платформы для эффективного выполнения крупномасштабных параллельных приложений и приложений HPC в облаке. Пакетная служба Azure планирует запуск ресурсоемких вычислительных задач в управляемом пуле виртуальных машин и автоматически масштабирует вычислительные ресурсы, учитывая требования заданий.

Разработчики или поставщики SaaS могут использовать пакеты SDK для пакетной службы и средства для интеграции приложений HPC или контейнерных рабочих нагрузок с Azure, промежуточного хранения данных в Azure и создания конвейеров выполнения заданий.

В пакетная служба Azure все службы работают в облаке, на рисунке ниже показано, как выглядит архитектура с пакетная служба Azure, с конфигурацией масштабируемости и расписания заданий, запущенных в облаке, а результаты и отчеты можно отправлять в локальную среду.

На схеме показан пример архитектуры HPC для пакетная служба Azure.

Azure CycleCloud

Azure CycleCloud — самый простой способ управлять рабочими нагрузками HPC в Azure с помощью любого планировщика, например Slurm, Grid Engine, HPC Pack, HTCondor, LSF, PBS Pro или Symphony.

CycleCloud позволяет:

  • развертывать полные кластеры и другие ресурсы, например планировщики, вычислительные виртуальные машины, хранилища, сети и кэш;
  • координировать рабочие процессы, связанные с заданиями, данными и облаком;
  • предоставлять администраторам полный контроль над тем, какие пользователи могут запускать задания, а также где они могут это делать и с какими затратами;
  • настраивать и оптимизировать кластеры с помощью расширенных политик и системы управления, включая интеграцию с Active Directory, средства контроля затрат, а также инструменты для мониторинга и отчетности;
  • использовать доступные планировщики и приложения, не внося в них какие-либо изменения;
  • использовать встроенные возможности автомасштабирования, а также проверенные на практике эталонные архитектуры для целого ряда отраслей и рабочих нагрузок HPC.
Гибридная или облачная модель ускорения

На этой схеме гибридного примера видно, как эти службы распределяются между облаком и локальной средой. Возможность выполнения заданий в обеих рабочих нагрузках. На схеме показан пример архитектуры HPC для CycleCloud в Azure в гибридной среде.

Собственная облачная модель

На приведенной ниже схеме собственной облачной модели показано, как рабочая нагрузка в облаке будет обрабатывать все, сохраняя при этом подключение к локальной среде.

На схеме показан пример архитектуры HPC для CycleCloud в Azure в облаке.

Сравнивная диаграмма

Компонент Пакетная служба Azure Azure CycleCloud
Планировщик API пакетной службы, средства и скрипты командной строки в портал Azure (Cloud Native). Используйте стандартные планировщики HPC, такие как Slurm, PBS Pro, LSF, Grid Engine и HTCondor, или расширьте подключаемые модули автомасштабирования CycleCloud для работы с собственным планировщиком.
Вычислительные ресурсы Узлы программного обеспечения как услуги — платформа как услуга Программное обеспечение платформы как услуги — платформа как услуга
Средства мониторинга Azure Monitor Azure Monitor, Grafana
Настройка Пулы пользовательских образов, сторонние образы, доступ к API пакетной службы. Используйте комплексный RESTful API для настройки и расширения функциональных возможностей, развертывания собственного планировщика и поддержки в существующих диспетчерах рабочих нагрузок.
Интеграция Synapse Pipelines, Фабрика данных Azure, Azure CLI интерфейс командной строки Built-In для Windows и Linux
Тип пользователя Разработчикам Классические администраторы и пользователи HPC
Тип работы Пакетная служба, рабочие процессы Тесно связан (интерфейс передачи сообщений или MPI).
Поддержка Windows Да Зависит от выбора планировщика

Диспетчеры рабочих нагрузок

Ниже приведены примеры диспетчеров рабочих нагрузок и кластеров, которые могут выполняться в инфраструктуре Azure. Создавайте автономные кластеры на виртуальных машинах Azure или переносите нагрузки из локального кластера на виртуальные машины Azure.

Контейнеры

Для управления некоторыми рабочими нагрузками HPC также можно использовать контейнеры. Такие решения, как Служба Azure Kubernetes (AKS), упрощают развертывание управляемого кластера Kubernetes в Azure.

управления затратами;

Управление затратами HPC в Azure может осуществляться разными способами. Чтобы определить наиболее подходящий для вас способ, ознакомьтесь с вариантами приобретения Azure.

Безопасность

Общие сведения об обеспечении безопасности в Azure см. в документации по системе безопасности Azure.

Помимо сетевых конфигураций, доступных в разделе Ускорение облака , вы можете реализовать звездообразную конфигурацию для изоляции вычислительных ресурсов:

Приложения HPC

Запустите пользовательские или коммерческие приложения HPC в Azure. Некоторые приложения из этого раздела могут эффективно масштабироваться с помощью дополнительных виртуальных машин или вычислительных ядер. Чтобы получить готовые к развертыванию решения, посетите Azure Marketplace.

Примечание

Проконсультируйтесь с поставщиками всех коммерческих приложений насчет лицензирования или иных ограничений на запуск приложений в облаке. Не все поставщики предлагают лицензирование с оплатой по мере использования. Для вашего решения может потребоваться сервер лицензий в облаке или локальный сервер лицензий.

Проектирование приложений

Графика и отрисовка

Искусственный интеллект и глубокое обучение

Поставщики MPI

Удаленная визуализация

Запустите виртуальные машины на основе GPU в Azure в том же регионе, что и выходные данные HPC, чтобы обеспечить наименьшую задержку, доступ и визуализировать их удаленно с помощью Виртуального рабочего стола Azure, Citrix или VMware Horizon.

Тесты производительности

Истории клиентов

Есть много клиентов, которые достигли большого успеха, используя Azure для своих рабочих нагрузок HPC. Некоторые примеры представлены ниже.

Другие важные сведения

Дальнейшие действия

Последние объявления см. в следующих ресурсах:

Примеры заданий пакетной службы Microsoft

В этих руководствах содержатся сведения о выполнении приложений в пакетной службе Майкрософт: