Рекомендации по высокопроизводительной вычислительной нагрузке (HPC) и рекомендации по вариантам хранения

В этом руководстве представлены лучшие практики, рекомендации, подробное сравнение и технические спецификации решений для хранения данных, которые оптимально подходят для нагрузки высокопроизводительных вычислений (HPC) на виртуальных машинах Azure. Она включает метрики производительности, поддержку протокола, уровни затрат и выравнивание вариантов использования для каждого типа хранилища. Обычно существует компромисс между оптимизацией затрат и оптимизацией производительности. Если рабочая нагрузка не так велика, могут потребоваться не все рекомендуемые варианты оптимизации. При оценке этих рекомендаций учитывайте актуальные потребности в производительности, затраты и характер рабочих нагрузок.

Обзор

Хранилище для рабочих нагрузок HPC состоит из основного хранилища и в некоторых случаях акселератора. Основное хранилище выступает в качестве постоянного дома для ваших данных. Он содержит широкие возможности управления данными и является устойчивым, доступным, масштабируемым, эластичным и безопасным. Акселератор улучшает основное хранилище, предоставляя высокопроизводительный доступ к данным. Акселератор может быть предоставлен по запросу и значительно ускоряет доступ вычислительных задач к данным.

Сравнение служб хранилища

Функция Стандартный BLOB Blob уровня "Премиум" Файлы (цен. категории "Премиум") Файлы Azure NetApp Управляемый сервис Lustre в Azure
Емкость 20+ PiB 20+ PiB 100 ТиБ 500 ТиБ 1 PiB
Пропускная способность 15 ГБ/с 15 ГБ/с 10 ГБ/с 10 ГиБ/с До 512 ГБ/с
IOPS 20 000 20 000 100 000 800 000 >100,000
Задержка <100 мс <10 мс 2–4 мс <1 мс <2 мс
Протоколы REST, HDFS, NFSv3, SFTP, FUSE, CSI Тот же REST, NFSv4.1, SMB3, CSI NFSv3/4.1, SMB3, CSI Lustre, CSI

Начальное рассмотрение

Если вы начинаете с нуля, ознакомьтесь с разделом "Общие сведения о моделях хранилища данных " для выбора хранилища данных и выбора службы хранилища Azure или "Введение в службу хранилища Azure ", чтобы получить представление о вариантах службы хранилища.

Вкратце

Начните с объема данных, которые планируется хранить. Затем рассмотрим количество ядер ЦП, используемых рабочей нагрузкой, и размер файлов. Эти факторы помогают определить, какая основная служба хранения лучше всего подходит вашей рабочей нагрузке, и решить, использовать ли акселератор для повышения производительности.

Конфигурация Ядра ЦП Размеры файлов Рекомендация по основному хранилищу Рекомендация по акселератору
До 50 ТиБ Не применимо Не применимо Файлы Azure или Azure NetApp Files. Нет акселератора
50 ТиБ - 5000 ТиБ Менее 500 Не применимо Файлы Azure или Azure NetApp Files. Нет акселератора
50 ТиБ - 5000 ТиБ Более 500 1 МиБ и больше Стандартный Blob Azure. Он поддерживается всеми акселераторами, поддерживает множество протоколов и экономична. Управляемый Azure Lustre.
50 ТиБ - 5000 ТиБ Более 500 Меньше 1 МиБ Большой двоичный объект Azure уровня "Премиум" или большой двоичный объект Azure уровня "Стандартный". Управляемый Azure Lustre.
50 ТиБ - 5000 ТиБ Более 500 Меньше 512 КИБ Azure NetApp Files. Нет акселератора
Более 5000 ТиБ Не применимо Не применимо Поговорите с командой по работе с полевыми проектами или аккаунтами.

Описание решения

Если вы по-прежнему колеблетесь между вариантами после использования деревьев принятия решений, вот более подробная информация о каждом решении.

Решение Оптимальная производительность и масштабирование Доступ к данным (протокол доступа) Модель выставления счетов Основное хранилище или акселератор
Стандартный блоб Azure * Хорошо подходит для больших файлов и рабочих нагрузок, требующих высокой пропускной способности.
* Предназначен для неструктурированных данных.
* Поддерживает рабочие нагрузки с высокой пропускной способностью.
* Хорошо подходит для традиционных (файловых) и облачно-нативных (REST) приложений HPC.
* Простой доступ, совместное использование и управление наборами данных.
* Работает со всеми акселераторами.
Платите за то, что вы используете. Основное хранилище.
Большой двоичный объект Azure Premium * IOPS и задержка лучше, чем у стандартного Blob.
* Хорошо подходит для наборов данных с большим количеством файлов среднего размера и смешанных размеров файлов.
Подходит для традиционных (файловых) и нативных для облака (REST) приложений HPC.
Простой доступ, совместное использование и управление наборами данных.
Работает со всеми акселераторами.
Платите за то, что вы используете. Основное хранилище.
Файлы Azure уровня "Премиум" * Емкость и пропускная способность, подходящие для меньшего масштаба (<1k ядер).
* Операции ввода-вывода в секунду и задержка хороши для файлов среднего размера (>512 КиБ).
* Предлагает номера SKU уровня "Премиум" (низкая задержка, высокий объем операций ввода-вывода в секунду).
* Гибридный доступ с помощью Azure File Sync.
Простая интеграция с Linux (NFS) и Windows (SMB), но не может использовать оба NFS+SMB для доступа к одинаковым данным. Платите за то, что вы подготавливаете. Основное хранилище.
Azure NetApp Files * Емкость и пропускная способность подходят для заданий среднего уровня (1k-10k ядер).
* IOPS и задержка хороши для наборов данных с небольшими файлами (<512 КИБ).
* Отлично подходит для небольших рабочих нагрузок, содержащих много файлов.
* Хранилище файлов корпоративного уровня с технологией ONTAP.
* Динамическое масштабирование производительности на уровнях "Стандартный", "Премиум", "Ультра".
Легко интегрировать для Linux и Windows, поддерживает многопротокол для рабочих процессов с помощью Linux и Windows. Платите за то, что вы подготавливаете. Каждый.
Управляемый Lustre в Azure Пропускная способность для поддержки всех размеров заданий (1k – >10k ядер).
* Операции ввода-вывода в секунду (IOPS) и задержка достаточны для работы с тысячами файлов среднего объёма (>512 КиБ).
* Лучше всего подходит для рабочих нагрузок с интенсивным чтением и записью.
* Параллельная файловая система, оптимизированная для HPC/AI.
* Простая интеграция с BLOB-объектами Azure для многоуровневого хранилища.
Lustre, CSI. Платите за то, что вы подготавливаете. Достаточно прочный для работы как самостоятельной основной системы хранения, наиболее рентабельный в качестве ускорителя.

Специализированные решения для хранения

Azure предлагает ряд служб хранилища, адаптированных для удовлетворения потребностей рабочих нагрузок HPC. Каждое решение оптимизировано для различных характеристик производительности, шаблонов доступа и профилей затрат. Ниже приведен обзор наиболее актуальных вариантов хранения и их наилучшего применения в сценариях HPC.

Решение хранилища Варианты использования Тесты производительности Параметры масштабируемости Интеграция с другими службами Azure
Azure Blob-хранилище * Аналитика данных
* Распределение содержимого
* Резервное копирование и архивация
Пропускная способность до 30 ГБ/с с помощью BLOBFuse2 * Учетные записи хранения до 5 PiB на учетную запись
* Неограниченное количество контейнеров для каждой учетной записи
* Azure AI
* AKS
* Azure Data Lake
Файлы Azure * DevOps
*Резервные копии
* Удаленная работа
Шифрование при передаче (TLS 1.3 для общих папок NFS) * Файловые хранилища до 100 ТиБ на каждый (стандартные)
* Операций ввода-вывода в секунду до 100 000 (Премиум)
* Azure Backup
* Azure Monitor
* Идентификатор Microsoft Entra
Файлы Azure NetApp *Баз данных
* VDI
* Вычислительные системы высокой производительности (HPC)
IOPS и пропускная способность измерены с помощью FIO * Пулы емкости до 100 ТиБ для каждого пула
* Объёмы до 100 ТиБ на том
* AKS
* Azure Backup
* Azure Monitor
Управляемый сервис Lustre в Azure * Крупномасштабные имитации
* Genomics
* Научные рабочие нагрузки
Пропускная способность до 30 ГБ/с с с уровня производительности 250 МБ/с/TiB * Файловые системы с ёмкостью до 1,5 ПБ
* Пропускная способность до 375 ГБ/с
* Хранилище BLOB-объектов Azure
* AKS
* Azure Monitor

Требования к хранилищу рабочих нагрузок ИИ и RAG

Требования к хранилищу для рабочих нагрузок ИИ и RAG зависят от разных этапов. На этапе обучения важно иметь высокую пропускную способность, контрольные точки, локальное кэширование и возможность загрузки больших моделей. Для этапа вывода требуются быстрый доступ к модели, низкая задержка и одновременный доступ к GPU. На этапе RAG необходимо обеспечить безопасное неструктурированное хранилище, интеграцию векторной базы данных, свежесть и низкую задержку.


Решения партнеров

Партнёр Протоколы Шкала Уникальные функции
Qumulo NFS, SMB, S3 200 PiB Azure-native SaaS, глобальное пространство имен, экономичное
Dell APEX NFS, SMB, S3, HDFS 5.6 PiB Паритет локальных систем, многоуровневая организация на основе политик
Nasuni NFS, SMB, S3 Блокировка файлов, BLOB в качестве основного уровня
Хаммерспейс NFS, SMB, S3, pNFS Глобальное пространство имен, альтернативное кэширование
Weka NFS, SMB, S3 14 EB Высокие IOPS, низкая задержка, линейное горизонтальное масштабирование
IBM SpectrumScale GPFS, NFS, SMB Полный стек GPFS
DDN Exascaler Lustre, NFS, SMB Петабайты Полный стек Lustre DDN

Советы по оптимизации производительности

  • Определяйте размер томов, основываясь на производительности, а не только на емкости.
  • Используйте зоны доступности для управления задержкой.
  • Используйте функции для работы с большими данными в ANF для достижения максимально возможной пропускной способности.
  • Рекомендуется использовать стратегии кэширования и распределения по уровням для повышения эффективности затрат.

Сравнение цен на основное хранилище

В порядке от самого дорогого к самому дешёвому, цены на основное хранилище следующие:

  • Файлы Azure NetApp
  • Azure Premium Blob и Azure Premium Files
  • Стандартный объект хранения Azure

Дополнительные сведения о ценах см. в разделе о ценах на продукты Azure.