Поделиться через


Высокопроизводительные вычисления (HPC) на Azure

Общие сведения об HPC

Высокопроизводительные вычисления (HPC), также называемые большими вычислениями, используют большое количество компьютеров на основе ЦП или GPU для решения сложных математических задач.

Во многих отраслях HPC используются для решения самых сложных проблем. Сюда входят следующие рабочие нагрузки:

  • Геномика
  • модели для нефтяной и газовой промышленности;
  • Финансы
  • разработка полупроводников;
  • Инженерия
  • Моделирование погоды

Чем отличается HPC в облаке?

Одним из основных различий между локальной системой HPC и одной из них в облаке является возможность динамического добавления и удаления ресурсов по мере их необходимости. Динамическое масштабирование исключает избыточную вычислительную емкость, предоставляя клиентам инфраструктуру требуемого в соответствии с поставленными задачами размера.

Следующие материалы содержат дополнительные сведения об этой возможности динамического масштабирования.

Контрольный список для реализации

По мере реализации собственного решения HPC на Azure убедитесь, что вы ознакомились со следующими разделами:

Инфраструктура

Существует множество компонентов инфраструктуры, необходимых для создания системы HPC. Вычислительные ресурсы, хранилище и сеть предоставляют базовые компоненты независимо от того, как вы решили управлять рабочими нагрузками HPC.

Compute

Azure предлагает ассортимент размеров, оптимизированных для интенсивных рабочих нагрузок ЦП и ГП.

Виртуальные машины на основе ЦП

Виртуальные машины с поддержкой GPU

Виртуальные машины серии N оснащены графическими процессорами NVIDIA и предназначены для приложений с ресурсоемкими вычислениями или графикой, в том числе для обучения искусственного интеллекта (AI) и визуализации.

Хранение

Масштабные рабочие нагрузки пакетной службы и HPC требуют ресурсов для хранения данных и доступа, которые превышают возможности традиционных файловых систем в облаке. Существует множество решений, которые управляют потребностями в скорости и емкости приложений HPC на Azure:

Дополнительные сведения о сравнении Lustre, GlusterFS и BeeGFS на Azure см. в электронной книге Parallel File Systems on Azure и в блоге Lustre на Azure.

Сети

Виртуальные машины H16r, H16mr, A8 и A9 могут подключаться к сети RDMA серверной части с высокой пропускной способностью. Эта сеть может улучшить производительность плотно интегрированных параллельных приложений, работающих под управлением интерфейса передачи сообщений, более известного как MPI или Intel MPI.

Управление

Сделай сам

Создание системы HPC с нуля на Azure обеспечивает значительную гибкость, но часто очень интенсивное обслуживание.

  1. Настройте собственную среду кластера в виртуальных машинах Azure или масштабируемых наборах виртуальных машин.
  2. Используйте шаблоны Azure Resource Manager для развертывания ведущих диспетчеров рабочих нагрузок, инфраструктуры и приложений.
  3. Выберите размеры ВМ с поддержкой HPC и графического процессора, которые включают в себя специализированное оборудование и сетевые подключения для рабочих нагрузок MPI или графического процессора.
  4. Добавьте высокопроизводительные хранилища для рабочих нагрузок с интенсивным вводом-выводом.

Гибридные облачные решения и динамическое масштабирование в облаке

Если у вас есть локальная система HPC, которую вы хотите подключить к Azure, есть несколько ресурсов, которые помогут вам приступить к работе.

Сначала ознакомьтесь с статьей «Варианты подключения локальной сети к Azure» в документации. Здесь можно найти дополнительные сведения об этих параметрах подключения:

Установив безопасное подключение к сети, вы можете начать работу, используя облачные вычислительные ресурсы по требованию и возможности расширения, предоставляемые доступным диспетчером рабочих нагрузок.

Решения из Marketplace

В Майкрософт Marketplace предлагается множество диспетчеров рабочих нагрузок.

пакетная служба Azure

пакетная служба Azure — это служба платформы для эффективного выполнения крупномасштабных параллельных приложений и приложений HPC в облаке. пакетная служба Azure планирует выполнение вычислительных ресурсов в управляемом пуле виртуальных машин и может автоматически масштабировать вычислительные ресурсы в соответствии с потребностями ваших заданий.

Поставщики или разработчики SaaS могут использовать Batch-пакеты SDK и средства для интеграции приложений HPC или контейнерных рабочих нагрузок с Azure, перенос данных в Azure и создания конвейеров выполнения заданий.

В пакетная служба Azure все службы выполняются в облаке. На следующем рисунке показано, как архитектура выглядит с пакетная служба Azure, имея конфигурации масштабируемости и расписания заданий, выполняемые в облаке, а результаты и отчеты можно отправлять в локальную среду.

Diagram показывает пример архитектуры HPC для пакетная служба Azure.

Azure CycleCloud

Azure CycleCloud Предоставляет самый простой способ управления рабочими нагрузками HPC с помощью любого планировщика (например, Slurm, Grid Engine, пакета HPC, HTCondor, LSF, PBS Pro или Симфонии) на Azure

CycleCloud позволяет:

  • Развертывайте полные кластеры и другие ресурсы, например планировщики, вычислительные виртуальные машины, хранилища, сети и кэш.
  • Координируйте рабочие процессы, связанные с заданиями, данными и облаком.
  • Предоставьте администраторам полный контроль над тем, какие пользователи могут запускать задания, где и с какими затратами.
  • Настройка и оптимизация кластеров с помощью расширенных функций политики и управления, включая средства управления затратами, интеграцию Active Directory, мониторинг и отчеты
  • Работайте со своими имеющимися планировщиками и приложениями, не внося в них какие-либо изменения.
  • Используйте встроенные возможности автомасштабирования, а также проверенные на практике эталонные архитектуры для целого ряда отраслей и рабочих нагрузок HPC.
Гибридная или облачная модель ускорения

На этой схеме гибридного примера видно, как эти службы распределяются между облаком и локальной средой. Возможность выполнения заданий в обеих рабочих нагрузках. Диаграмма показывает пример архитектуры HPC для CycleCloud на Azure в гибридной среде.

Облачная собственная модель

На следующей схеме собственной модели облака показано, как рабочая нагрузка в облаке будет обрабатывать все, сохраняя подключение к локальной среде.

Диаграмма показывает пример архитектуры HPC для CycleCloud на Azure в облачной нативной модели.

Диаграмма сравнения

Функция пакетная служба Azure Azure CycleCloud
Планировщик Пакетные API, инструменты и скрипты командной строки в портале Azure (Cloud Native). Используйте стандартные системы планирования HPC, такие как Slurm, PBS Pro, LSF, Grid Engine и HTCondor, или расширьте модули CycleCloud для автомасштабирования для работы с собственной системой планирования.
Вычислительные ресурсы Программное обеспечение как услуга, узлы – платформа как услуга Платформа как услуга (PaaS) — платформа как услуга (PaaS)
Инструменты мониторинга Azure Monitor Azure Monitor, Графана
Настройка Пользовательские пулы образов, сторонние образы, пакетный доступ к API. Использование комплексного API RESTful для настройки и расширения функциональных возможностей, развертывания собственного планировщика и поддержки в существующих диспетчерах рабочих нагрузок
Интеграция Фабрика данных в Microsoft Fabric, Фабрика данных Azure, Azure CLI Встроенный интерфейс командной строки для Windows и Linux
Тип пользователя Разработчики Классические администраторы и пользователи HPC
Вид работы Пакетная обработка, рабочие процессы Жёстко связанный (Интерфейс передачи сообщений/MPI).
поддержка Windows Да Вариируется, в зависимости от выбора планировщика

Диспетчеры рабочих нагрузок

Ниже приведены примеры диспетчеров кластеров и рабочих нагрузок, которые могут выполняться в инфраструктуре Azure. Создавайте автономные кластеры на виртуальных машинах Azure или используйте виртуальные машины Azure из локального кластера.

Контейнеры

Для управления некоторыми рабочими нагрузками HPC также можно использовать контейнеры. Такие службы, как Azure Kubernetes Service (AKS) упрощают развертывание управляемого кластера Kubernetes в Azure.

Управление затратами

Управление затратами HPC на Azure можно выполнить несколькими разными способами. Убедитесь, что вы изучили варианты приобретения Azure, чтобы найти метод, который лучше всего подходит для вашей организации.

Безопасность

Общие сведения о рекомендациях по обеспечению безопасности Azure см. в документации по безопасности Azure.

Помимо конфигураций сети, доступных в разделе "Ускорение облака", можно реализовать конфигурацию концентратора и периферийной сети для изоляции вычислительных ресурсов:

Приложения HPC

Запустите пользовательские или коммерческие приложения HPC в Azure. Некоторые приложения из этого раздела могут эффективно масштабироваться с помощью дополнительных виртуальных машин или вычислительных ядер. Посетите Майкрософт Marketplace для готовых решений.

Замечание

Проконсультируйтесь с поставщиками всех коммерческих приложений насчет лицензирования или иных ограничений на запуск приложений в облаке. Не все поставщики предлагают лицензирование с оплатой по мере использования. Для вашего решения может потребоваться сервер лицензий в облаке или локальный сервер лицензий.

Инженерные приложения

Графика и отрисовка

Искусственный интеллект и глубокое обучение

Поставщики MPI

Удаленная визуализация

Запустите виртуальные машины с поддержкой GPU в Azure в том же регионе, что и выходные данные HPC для наименьшей задержки, доступа и удаленного визуализации с помощью Виртуальный рабочий стол Azure.

Тесты производительности

Другие важные сведения

Дальнейшие действия

Последние объявления см. в следующих ресурсах:

Примеры Майкрософт Batch

В этих руководствах содержатся сведения о выполнении приложений в пакетной службе Майкрософт: