Поделиться через


Руководство по миграции для вычислительных рабочих нагрузок GPU в Azure

Так как более мощные графические процессоры становятся доступными в Marketplace и в центрах обработки данных Microsoft Azure, мы рекомендуем повторно оценить производительность рабочих нагрузок и рассмотреть возможность миграции на более новые GPU.

По той же причине, а также для поддержания высококачественного и надежного предложения службы Azure периодически удаляет оборудование, которое обеспечивает более старые размеры виртуальных машин. Первая группа продуктов GPU, которые должны быть прекращены в Azure, — это исходные виртуальные машины NC, NC версии 2 и серии ND, на основе ускорителей GPU NVIDIA Tesla K80, P100 и P40. Эти продукты будут прекращены 31 августа 2023 года, а самые старые виртуальные машины в этой серии запущены в 2016 году.

С тех пор GPU добились невероятных успехов вместе с развитием всей отрасли глубокого обучения и высокопроизводительных вычислительных систем, обычно увеличивая производительность в два раза между поколениями. С момента запуска GPU K80, P40 и P100 GPU Azure поставляет несколько новых поколений и категорий продуктов виртуальных машин, ориентированных на вычислительные ресурсы с ускорением GPU и ИИ, основанные на GPU T4, V100 и A100 GPU, и отличаются дополнительными функциями, такими как структуры взаимодействия на основе InfiniBand. Это все варианты, которые мы рекомендуем клиентам изучить в качестве путей миграции.

В большинстве случаев значительное увеличение производительности, предлагаемое новыми поколениями GPU, снижает общую стоимость владения (TCO), сокращая продолжительность задания для поддающихся изменению заданий, а также уменьшая общее количество виртуальных машин с поддержкой GPU, необходимых для обеспечения фиксированного спроса на вычислительные ресурсы, несмотря на то, что затраты на час GPU могут варьироваться. В дополнение к этим преимуществам клиенты могут улучшить время на решение с помощью более высокопроизводительных виртуальных машин, а также повысить работоспособность и поддержку своего решения путем внедрения более новых программ, среды выполнения CUDA и версий драйверов.

Миграция и оптимизация

Azure осознает, что у клиентов есть множество требований, которые могут диктовать выбор определенного продукта виртуальной машины GPU, включая архитектурные особенности GPU, соединения, TCO, время до решения и региональную доступность на основе соответствия нормам или требований к задержке, а некоторые из них могут изменяться с течением времени.

В то же время ускорение GPU является новой и быстро развивающейся областью.

Таким образом, нет истинных одноуровневых рекомендаций для этой области продукта, и миграция является идеальным временем для повторной оценки потенциально драматических изменений в рабочей нагрузке, например переход от кластеризованной модели развертывания к одной большой 8-GPU виртуальной машины или наоборот, используя сокращенные типы данных точности, применяя такие функции, как GPU с несколькими экземплярами, и многое другое.

Эти аспекты, когда рассматриваются в контексте уже значительных увеличений производительности GPU с каждым новым поколением, где такая функция, как добавление TensorCores, может повысить производительность на порядок, крайне зависят от характера рабочей нагрузки.

Объединение миграции с повторной архитектурой приложений может обеспечить огромную ценность и улучшение затрат и времени на решение.

Однако эти улучшения выходят за рамки данного документа, который сосредоточен на прямых классах эквивалентности для общих рабочих нагрузок, которые могут выполняться клиентами сегодня, чтобы определить наиболее аналогичные варианты виртуальных машин по цене и производительности графических процессоров (GPU) для существующих семейств виртуальных машин, находящихся в процессе вывода из использования.

Таким образом, в этом документе предполагается, что пользователь не может иметь никакого анализа или контроля над свойствами, связанными с рабочей нагрузкой, такими как количество обязательных экземпляров виртуальных машин, GPU, межсоединений и многое другое.

NC-Series виртуальные машины с графическими процессорами NVIDIA K80

Виртуальные машины серии NC (версии 1) — это самый старый тип вычислительной виртуальной машины с ускорением GPU Azure, на основе 1 до 4 ускорителей GPU nvidia Tesla K80, сопряженных с процессорами Intel Xeon E5-2690 v3 (Haswell). Бывший флагманский тип виртуальной машины для требовательных приложений ИИ, машинного обучения и высокопроизводительных вычислений, они оставались популярным выбором даже в конце жизненного цикла продукта (особенно благодаря рекламным ценам серии NC) для пользователей, которые предпочитали очень низкую абсолютную стоимость на GPU-час, чем GPUs с более высокой производительностью на каждый потраченный доллар.

Сегодня, учитывая относительно низкую производительность вычислений устаревшей платформы GPU NVIDIA K80, в сравнении с сериями виртуальных машин с новыми GPU, популярным вариантом использования для серии NC является анализ и аналитические задачи, для которых ускоренная виртуальная машина должна быть доступна в стабильном состоянии для обслуживания запросов от приложений по мере их поступления. В таких случаях объем или размер пакета запросов может оказаться недостаточным, чтобы воспользоваться более эффективными графическими процессорами. Виртуальные машины NC также популярны среди разработчиков и студентов, которые изучают, разрабатывают или экспериментируют с ускорением GPU и которым требуется недорогая облачная среда для развертывания CUDA, не нуждающаяся в производительности на уровне производства для итеративных улучшений.

В целом, клиенты NC-Series должны рассмотреть переход непосредственно от размеров NC к размерам NC T4 версии 3, новой платформы Azure с ускорением GPU для легких рабочих нагрузок, работающей на GPU Tesla T4 от NVIDIA.

Текущий размер виртуальной машины Целевой размер виртуальной машины Разница в спецификации
Standard_NC6
Standard_NC6_Promo
Standard_NC4as_T4_v3
или
Standard_NC8as_T4
ЦП: Intel Haswell против AMD Rome
Количество GPU: 1 (то же)
Поколение GPU: NVIDIA Keppler vs. Turing (+2 поколения, ~2x FP32 FLOPs)
Память GPU (ГиБ на GPU): 16 (+4)
VCPU: 4 (-2) или 8 (+2)
Память ГиБ: 16 (-40) или 56 (то же самое)
Temp Storage (SSD) GiB: 180 (-160) или 360 (+20)
Максимальное число дисков данных: 8 (-4) или 16 (+4)
Ускорение сети: Да (+)
Хранилище класса Premium: Да (+)
Standard_NC12
Standard_NC12_Promo
Standard_NC16as_T4_v3 ЦП: Intel Haswell против AMD Rome
Количество GPU: 1 (-1)
Поколение GPU: NVIDIA Keppler vs. Turing (+2 поколения, ~2x FP32 FLOPs)
Память GPU (ГиБ на GPU): 16 (+4)
VCPU: 16 (+4)
Память ГиБ: 110 (-2)
Temp Storage (SSD) GiB: 360 (-320)
Максимальное число дисков данных: 48 (+16)
Ускорение сети: Да (+)
Хранилище класса Premium: Да (+)
Standard_NC24
Standard_NC24_Promo
Standard_NC64as_T4_v3* ЦП: Intel Haswell против AMD Rome
Количество GPU: 4 (то же)
Поколение GPU: NVIDIA Keppler vs. Turing (+2 поколения, ~2x FP32 FLOPs)
Память GPU (ГиБ на GPU): 16 (+4)
vCPU: 64 (+40)
Память ГиБ: 440 (+216)
Temp Storage (SSD) GiB: 2880 (+1440)
Максимальное количество дисков данных: 32 (-32)
Ускорение сети: Да (+)
Хранилище класса Premium: Да (+)
Standard_NC24r
Standard_NC24r_Promo
Standard_NC64as_T4_v3* ЦП: Intel Haswell против AMD Rome
Количество GPU: 4 (то же)
Поколение GPU: NVIDIA Keppler vs. Turing (+2 поколения, ~2x FP32 FLOPs)
Память GPU (ГиБ на GPU): 16 (+4)
vCPU: 64 (+40)
Память ГиБ: 440 (+216)
Temp Storage (SSD) GiB: 2880 (+1440)
Максимальное количество дисков данных: 32 (-32)
Ускорение сети: Да (+)
Хранилище класса Premium: Да (+)
Межсоединение InfiniBand: Нет

Виртуальные машины серии NC версии 2 с графическими процессорами NVIDIA Tesla P100

Виртуальные машины серии NC версии 2 являются флагманской платформой, изначально предназначенной для рабочих нагрузок искусственного интеллекта и глубокого обучения. Они предложили отличную производительность для обучения на основе глубокого обучения, с производительностью на один GPU примерно в 2 раза выше, чем у исходного NC-Series, и работают на GPU NVIDIA Tesla P100 и процессорах Intel Xeon E5-2690 v4 (Broadwell). Как и в серии NC и ND, NC версии 2 предлагает конфигурацию со вторичной низкой задержкой, сетью с высокой пропускной способностью через RDMA и подключение InfiniBand, чтобы можно было выполнять крупномасштабные задания обучения, охватывающие множество gpu.

В общем, клиенты NCv2-Series должны рассмотреть возможность перехода непосредственно на размеры NC A100 v4 — новую платформу Azure, ускоренную с помощью графических процессоров NVIDIA Ampere A100 PCIe.

Текущий размер виртуальной машины Целевой размер виртуальной машины Разница в спецификации
Standard_NC6s_v2 Standard_NC24ads_A100_v4 ЦП: Intel Broadwell против AMD Милан
Количество GPU: 1 (то же)
Поколение GPU: NVIDIA Pascal и Ampere (+2 поколение)
Память GPU (ГиБ на GPU): 80 (+64)
vCPU: 24 (+18)
Память ГиБ: 220 (+108)
Temp Storage (SSD) GiB: 1123 (+387)
Максимальное число дисков данных: 12 (то же)
Ускорение сети: Да (+)
Хранилище класса Premium: Да (+)
Standard_NC12s_v2 Standard_NC48ads_A100_v4 ЦП: Intel Broadwell против AMD Милан
Количество GPU: 2 (то же)
Поколение GPU: NVIDIA Pascal и Ampere (+2 поколения)
Память GPU (ГиБ на GPU): 80 (+64)
VCPU: 48 (+36)
Память ГиБ: 440 (+216)
Temp Storage (SSD) GiB: 2246 (+772)
Максимальное количество дисков данных: 24 (то же)
Ускорение сети: Да (+)
Хранилище класса Premium: Да (+)
Standard_NC24s_v2 Standard_NC96ads_A100_v4 ЦП: Intel Broadwell против AMD Милан
Количество GPU: 4 (то же)
Поколение GPU: NVIDIA Pascal и Ampere (+2 поколения)
Память GPU (ГиБ на GPU): 80 (+64)
vCPU: 96 (+72)
Память ГиБ: 880 (+432)
Temp Storage (SSD) GiB: 4492 (+1544)
Максимальное число дисков данных: 32 (то же)
Ускорение сети: Да (+)
Хранилище класса Premium: Да (+)
Standard_NC24rs_v2 Standard_NC96ads_A100_v4 ЦП: Intel Broadwell против AMD Милан
Количество GPU: 4 (то же)
Поколение GPU: NVIDIA Pascal и Ampere (+2 поколения)
Память GPU (ГиБ на GPU): 80 (+64)
vCPU: 96 (+72)
Память ГиБ: 880 (+432)
Temp Storage (SSD) GiB: 4492 (+1544)
Максимальное число дисков данных: 32 (то же)
Ускорение сети: Да (+)
Хранилище класса Premium: Да (+)
Межсоединение InfiniBand: Нет (-)

ND-Series виртуальные машины с графическими процессорами NVIDIA Tesla P40

Виртуальные машины серии ND — это платформа среднего уровня, предназначенная для рабочих нагрузок искусственного интеллекта и глубокого обучения. Они предложили отличную производительность для пакетного инференса с помощью улучшенных операций с одиночной точностью плавающей запятой по сравнению с их предшественниками и основаны на графических процессорах NVIDIA Tesla P40 и центральных процессорах Intel Xeon E5-2690 v4 (Broadwell). Как и серии NC и NC v2, ND-Series предлагает конфигурацию с вторичной сетью с низкой задержкой и высокой пропускной способностью через RDMA, а также подключением InfiniBand, чтобы можно было выполнять крупномасштабные задачи обучения, охватывающие множество GPU.

Текущий размер виртуальной машины Целевой размер виртуальной машины Разница в спецификации
Standard_ND6 Standard_NC4as_T4_v3
или
Standard_NC8as_T4_v3
ЦП: Intel Broadwell против AMD Rome
Количество GPU: 1 (то же)
Поколение GPU: NVIDIA Pascal и Turing (+1 поколение)
Память GPU (ГиБ на GPU): 16 (-8)
VCPU: 4 (-2) или 8 (+2)
Память ГиБ: 16 (-40) или 56 (-56)
Temp Storage (SSD) GiB: 180 (-552) или 360 (-372)
Максимальное число дисков данных: 8 (-4) или 16 (+4)
Ускорение сети: Да (+)
Хранилище класса Premium: Да (+)
Standard_ND12 Standard_NC16as_T4_v3 ЦП: Intel Broadwell против AMD Rome
Количество GPU: 1 (-1)
Поколение GPU: NVIDIA Pascal и Turing (+1 поколения)
Память GPU (ГиБ на GPU): 16 (-8)
VCPU: 16 (+4)
Память ГиБ: 110 (-114)
Temp Storage (SSD) GiB: 360 (-114)
Максимальное число дисков данных: 48 (+16)
Ускорение сети: Да (+)
Хранилище класса Premium: Да (+)
Standard_ND24 Standard_NC64as_T4_v3* ЦП: Intel Broadwell против AMD Rome
Количество GPU: 4 (то же)
Поколение GPU: NVIDIA Pascal и Turing (+1 поколения)
Память GPU (ГиБ на GPU): 16 (-8)
vCPU: 64 (+40)
Память ГиБ: 440 (то же)
Temp Storage (SSD) GiB: 2880 (то же)
Максимальное число дисков данных: 32 (то же)
Ускорение сети: Да (+)
Хранилище класса Premium: Да (+)
Standard_ND24r Standard_ND96amsr_A100_v4 ЦП: Intel Broadwell против AMD Rome
Количество GPU: 8 (+4)
Поколение GPU: NVIDIA Pascal и Ampere (+2 поколение)
Память GPU (ГиБ на GPU): 80 (+56)
vCPU: 96 (+72)
Память ГиБ: 1,900 (+1,452)
Temp Storage (SSD) GiB: 6400 (+3452)
Максимальное число дисков данных: 32 (то же)
Ускорение сети: Да (+)
Хранилище класса Premium: Да (+)
Межсоединение InfiniBand: Да (то же)

Шаги переноса

Общие изменения

  1. Выберите серию и размер для миграции. Используйте калькулятор цен для получения дополнительных сведений.

  2. Получение квоты для целевой серии виртуальных машин

  3. Измените размер текущей виртуальной машины серии N* на целевой размер. Это также может быть хорошим временем для обновления операционной системы, используемой в образе вашей виртуальной машины, или выбора одного из образов HPC с предварительно установленными драйверами для начала работы.

    Это важно

    Возможно, образ виртуальной машины был создан с более старой версией среды выполнения CUDA, драйвера NVIDIA и (если применимо, только для размеров с поддержкой RDMA) драйверов Mellanox OFED, чем требуется для новой серии виртуальных машин с GPU. Эти версии можно обновить, следуя инструкциям в документации Azure.

Разрушающие изменения

Выбор целевого размера для миграции

После оценки текущего использования выберите нужный тип виртуальной машины GPU. В зависимости от требований рабочей нагрузки у вас есть несколько различных вариантов.

Замечание

Рекомендуется выбрать размер виртуальной машины на основе затрат и производительности. Рекомендации, приведенные в этом руководстве, основаны на сравнении метрик производительности по принципу один-к-одному, общего назначения и ближайшем совпадении в другой серии виртуальных машин. Прежде чем выбрать нужный размер, получите сравнение затрат с помощью калькулятора цен Azure.

Это важно

Все устаревшие размеры NC, NC версии 2 и ND-Series доступны в конфигурациях с несколькими GPU, включая версии с 4-GPU, с поддержкой и без поддержки InfiniBand для горизонтального масштабирования и тесно связанных рабочих нагрузок, требующих больше вычислительной мощности, чем может предоставить одна виртуальная машина с 4-GPU или один GPU K80, P40 или P100 соответственно. Хотя приведенные выше рекомендации предлагают простой путь вперед, пользователи этих размеров должны рассмотреть возможность достижения своих целей производительности с более мощными сериями виртуальных машин на основе GPU NVIDIA V100, такими как серия NC версии 3 и ND версии 2, которые обычно обеспечивают одинаковый уровень производительности рабочей нагрузки при более низких затратах и с улучшенной управляемостью, обеспечивая значительно большую производительность на GPU и на каждую виртуальную машину до настройки нескольких GPU и нескольких узлов, соответственно.

Получение квоты для целевого семейства виртуальных машин

Следуйте инструкциям, чтобы запросить увеличение квоты виртуальных ЦП по семейству виртуальных машин. Выберите целевой размер виртуальной машины, выбранный для миграции.

Изменение размера текущей виртуальной машины

Вы можете изменить размер виртуальной машины.

Дальнейшие шаги

Полный список размеров виртуальных машин с поддержкой GPU см. в разделе GPU — обзор ускорения вычислений