Руководство по миграции для рабочих нагрузок службы вычислений GPU в Azure

Статья
08/24/2024

Так как в marketplace и в центрах обработки данных Microsoft Azure доступны более мощные графические процессоры (GPU), рекомендуется повторно оценить производительность рабочих нагрузок и рассмотреть миграцию на более новые GPU.

По той же причине, а также для поддержки высококачественного и надежного предложения услуги Azure периодически завершает поддержку оборудования с устаревшими размерами виртуальных машин. К первой группе устройств GPU, поддержка которых будет прекращена в Azure, относятся исходные виртуальные машины серии NC, NC v2, ND с ускорителями GPU центров обработки данных NVIDIA Tesla K80, P100 и P40 соответственно. Поддержка этих продуктов будет прекращена 31 августа 2023 г., а самые старые виртуальные машины в этой серии запущены в 2016 году.

С этого момента GPU сделали невероятный шаг вперед вместе со всей отраслью HPC и глубокого обучения, как правило, с повышением производительности между поколениями в два раза. С момента запуска графических процессоров NVIDIA K80, P40 и P100 в Azure предоставлено несколько новых поколений и категорий продуктов виртуальных машин, предназначенных для вычислений на базе GPU и искусственного интеллекта, а также на основе GPU NVIDIA серии T4, V100 и A100, дифференцированных по дополнительным функциям, таким как структуры внутренних соединений на основе InfiniBand. Это все варианты, которые мы рекомендуем клиентам в качестве процесса миграции.

В большинстве случаев значительное увеличение производительности, обеспечиваемое новыми поколениями GPU, снижает общую совокупную стоимость владения за счет уменьшения длительности задания, для выполнения задач с высокой производительностью или уменьшения количества общих виртуальных машин с поддержкой GPU, необходимых для охвата ресурсов вычислений фиксированного объема, даже если затраты на каждый GPU-час могут различаться. Помимо этих преимуществ, клиенты могут улучшить время решения с помощью высокопроизводительных виртуальных машин и улучшить работоспособность и поддержку своих решений за счет использования нового программного обеспечения, среды выполнения CUDA и версий драйверов.

Сравнение миграции и оптимизации

Azure распознает наличие у клиентов множества требований, которые могут зависеть от выбора конкретного продукта виртуальной машины GPU, в том числе рекомендации по архитектуре GPU, взаимосвязи, совокупной стоимости владения, времени для решения и региональным возможностям на основе требований к локализации или задержкам, некоторые из них даже меняются со временем.

В то же время ускорение GPU — это новая и быстро развивающаяся область.

Таким образом, для этой области продукта не существует истинного размера, а миграция — это идеальный вариант для повторной оценки возможных значительных изменений в рабочей нагрузке (например, перемещение из кластеризованной модели развертывания на одну крупную виртуальную машину с 8 GPU или наоборот) с использованием типов данных пониженной точности и внедрением таких функций, как многоэкземплярные GPU, и многое другое.

Помимо существенного увеличения производительности графического процессора для каждого поколения, где такая функция, как добавление ядер TensorCores, может повысить производительность на порядок, такие рекомендации в значительной степени зависят от рабочей нагрузки.

Сочетание миграции с реструктуризацией приложений может принести большую пользу и снизить стоимость и время принятия решения.

Однако эти улучшения выходят за рамки настоящего документа, целью которого являются классы прямой эквивалентности для общих рабочих нагрузок, выполняющиеся клиентами в настоящее время для определения наиболее похожих параметров виртуальных машин как по цене, так и по производительности на один GPU для существующего семейства виртуальных машин, поддержка которых завершается.

Таким образом, в настоящем документе предполагается, что пользователь не может получить аналитические сведения о таких свойствах рабочих нагрузок (и не может управлять ими), как количество требуемых экземпляров виртуальных машин, графических процессоров (GPU), внутренних подключений и т. д.

Рекомендуемые пути обновления

виртуальных машин серии NC с поддержкой графических процессоров NVIDIA K80

Виртуальные машины серии NC (v1) — это самый старый тип вычислительных виртуальных машин с GPU в Azure на базе от 1 до 4 ускорителей GPU центра обработки данных NVIDIA Tesla K80, сопряженных с процессорами Intel Xeon E5-2690 v3 (Haswell). Когда-то ведущий тип виртуальных машин для требовательных приложений ИИ, ML и HPC оставался популярным выбором в жизненном цикле продукта (в частности, по продвигаемому по акции ценообразованию серии NC) для пользователей, имеющих очень низкую относительную стоимость на один GPU-час на графических процессорах с более высокой пропускной способностью на один доллар.

На сегодняшний день, с учетом относительно низкой производительности вычислений платформы NVIDIA K80 GPU по сравнению с серией виртуальных машин, в которой используются более новые графические процессоры, популярным вариантом использования серии NC являются рабочие нагрузки для вывода данных в реальном времени и вывода аналитики, где ускоренная виртуальная машина должна быть доступна в стабильном состоянии для обслуживания запросов от приложений по мере их поступления. В этих случаях размер тома или пакета запросов может быть недостаточным для использования более производительных GPU. Виртуальные машины NC также являются популярными для разработчиков и учащихся, занимающихся изучением, разработкой или экспериментированием с ускорением GPU, которым нужен недорогой облачный целевой объект развертывания CUDA, требующий выполнения итерации не на рабочих уровнях.

Как правило, клиенты серии NC должны рассмотреть возможность перехода непосредственно от размеров NC до размеров NC T4 версии 3 , новой платформы gpu-ускорения Azure для легких рабочих нагрузок, управляемых NVIDIA Tesla T4 GPU.

Текущий размер виртуальной машины	Целевой размер виртуальной машины	Разница в спецификации
Standard_NC6 Standard_NC6_Promo	Standard_NC4as_T4_v3 or Standard_NC8as_T4	ЦП: Intel Haswell VS AMD Rome Число GPU: 1 (то же самое) Поколение GPU: NVIDIA Keppler — Turing (+2 поколения, ~ 2x FP32 FLOPs) Память GPU (ГиБ на один GPU): 16 (+4) Виртуальные ЦП: 4 (–2) или 8 (+2) Память, ГиБ: 16 (–40) или 56 (то же самое) Временное хранилище (SSD) ГиБ: 180 (–160) или 360 (+20) Максимальное число дисков данных: 8 (–4) или 16 (+4) Ускорение сети: да (+) Хранилище класса Premium: да (+)
Standard_NC12 Standard_NC12_Promo	Standard_NC16as_T4_v3	ЦП: Intel Haswell VS AMD Rome Число ЦП: 1 (–1) Поколение GPU: NVIDIA Keppler — Turing (+2 поколения, ~ 2x FP32 FLOPs) Память GPU (ГиБ на один GPU): 16 (+4) Виртуальные ЦП: 16 (+4) Память, ГиБ: 110 (–2) Временное хранилище (SSD), ГиБ: 360 (+320) Макс. число дисков данных: 48 (+16) Ускорение сети: да (+) Хранилище класса Premium: да (+)
Standard_NC24 Standard_NC24_Promo	Standard_NC64as_T4_v3*	ЦП: Intel Haswell VS AMD Rome Число GPU: 4 (то же самое) Поколение GPU: NVIDIA Keppler — Turing (+2 поколения, ~ 2x FP32 FLOPs) Память GPU (ГиБ на один GPU): 16 (+4) Виртуальные ЦП: 64 (+40) Память, ГиБ: 440 (+216) Временное хранилище (SSD), ГиБ: 2880 (+1440) Макс. число дисков данных: 32 (–32) Ускорение сети: да (+) Хранилище класса Premium: да (+)
Standard_NC24r Standard_NC24r_Promo	Standard_NC64as_T4_v3*	ЦП: Intel Haswell VS AMD Rome Число GPU: 4 (то же самое) Поколение GPU: NVIDIA Keppler — Turing (+2 поколения, ~ 2x FP32 FLOPs) Память GPU (ГиБ на один GPU): 16 (+4) Виртуальные ЦП: 64 (+40) Память, ГиБ: 440 (+216) Временное хранилище (SSD), ГиБ: 2880 (+1440) Макс. число дисков данных: 32 (–32) Ускорение сети: да (+) хранилище класса Premium: Да (+) Межсоединение InfiniBand: Нет

Виртуальные машины серии NC v2 с графическими процессорами NVIDIA Tesla P100 GPU

Виртуальные машины серии NC v2 — это платформа высокого уровня, изначально разработанная для рабочих нагрузок ИИ и глубокого обучения. Они обеспечивают превосходную производительность для глубокого обучения, при этом производительность ориентировочно на одном GPU примерно вдвое выше, чем у исходной серии NC. Виртуальные машины содержат графические процессоры NVIDIA Tesla P100 GPU и центральные процессоры Intel Xeon E5-2690 v4 (Broadwell). Как и в серии NC и ND, конфигурация серии NC v2 предусматривает низкую задержку (менее секунды), высокую пропускную способность сети за счет использования RDMA и подключения InfiniBand. Это позволяет выполнять масштабные задания, связанные с обучением, в которых задействованы многочисленные GPU.

Как правило, клиенты серии NCv2 должны рассмотреть возможность перехода непосредственно между размерами NC A100 версии 4 , новой платформой с ускорением GPU Azure, созданной gpu ampere A100 PCIe GPU.

Текущий размер виртуальной машины	Целевой размер виртуальной машины	Разница в спецификации
Standard_NC6s_v2	Standard_NC24ads_A100_v4	ЦП: Intel Broadwell против AMD Милан Число GPU: 1 (то же самое) Поколение GPU: NVIDIA Pascal и Ampere (+2 поколение) Память GPU (ГиБ на GPU): 80 (+64) VCPU: 24 (+18) Память ГиБ: 220 (+108) Temp Storage (SSD) GiB: 1123 (+387) Максимальное число дисков данных: 12 (то же самое) Ускорение сети: да (+) Хранилище класса Premium: да (+)
Standard_NC12s_v2	Standard_NC48ads_A100_v4	ЦП: Intel Broadwell против AMD Милан Число GPU: 2 (то же самое) Поколение GPU: NVIDIA Pascal и Ampere (+2 поколения) Память GPU (ГиБ на GPU): 80 (+64) VCPU: 48 (+36) Память, ГиБ: 440 (+216) Temp Storage (SSD) GiB: 2246 (+772) Максимальное число дисков данных: 24 (то же самое) Ускорение сети: да (+) Хранилище класса Premium: да (+)
Standard_NC24s_v2	Standard_NC96ads_A100_v4	ЦП: Intel Broadwell против AMD Милан Число GPU: 4 (то же самое) Поколение GPU: NVIDIA Pascal и Ampere (+2 поколения) Память GPU (ГиБ на GPU): 80 (+64) VCPU: 96 (+72) Память ГиБ: 880 (+432) Temp Storage (SSD) GiB: 4492 (+1544) Максимальное число дисков данных: 32 (то же самое) Ускорение сети: да (+) Хранилище класса Premium: да (+)
Standard_NC24rs_v2	Standard_NC96ads_A100_v4	ЦП: Intel Broadwell против AMD Милан Количество GPU: 4 (то же) Поколение GPU: NVIDIA Pascal и Ampere (+2 поколения) Память GPU (ГиБ на GPU): 80 (+64) VCPU: 96 (+72) Память ГиБ: 880 (+432) Temp Storage (SSD) GiB: 4492 (+1544) Максимальное число дисков данных: 32 (то же самое) Ускорение сети: да (+) Хранилище класса Premium: да (+) Межсоединение InfiniBand: Нет (-)

Виртуальные машины серии ND с графическими процессорами NVIDIA Tesla P40 GPU

Виртуальные машины серии ND — это платформа среднего уровня, изначально разработанная для рабочих нагрузок ИИ и глубокого обучения. Они обеспечивают превосходную производительность для пакетного вывода с помощью улучшенных операций с плавающей запятой и обычной точностью по сравнению со своими предшественниками, и оснащены графическими процессорами NVIDIA Tesla P40 GPU и центральными процессорами Intel Xeon E5-2690 V4 (Broadwell). Как и в серии NC и NC v2, конфигурация серии ND предусматривает низкую задержку (менее секунды), высокую пропускную способность сети за счет использования RDMA и подключения InfiniBand. Это позволяет выполнять масштабные задания, связанные с обучением, в которых задействованы многочисленные GPU.

Текущий размер виртуальной машины	Целевой размер виртуальной машины	Разница в спецификации
Standard_ND6	Standard_NC4as_T4_v3 or Standard_NC8as_T4_v3	ЦП: Intel Broadwell — AMD Rome Число GPU: 1 (то же самое) Поколение GPU: NVIDIA Pascal — Turing (+1 поколение) Память GPU (ГиБ на один GPU): 16 (–8) Виртуальные ЦП: 4 (–2) или 8 (+2) Память, ГиБ: 16 (–40) или 56 (–56) Временное хранилище (SSD), ГиБ: 180 (–552) или 360 (–372) Максимальное число дисков данных: 8 (–4) или 16 (+4) Ускорение сети: да (+) Хранилище класса Premium: да (+)
Standard_ND12	Standard_NC16as_T4_v3	ЦП: Intel Broadwell — AMD Rome Число ЦП: 1 (–1) Поколение GPU: NVIDIA Pascal — Turing (+1 поколение) Память GPU (ГиБ на один GPU): 16 (–8) Виртуальные ЦП: 16 (+4) Память, ГиБ: 110 (–114) Временное хранилище (SSD), ГиБ: 360 (–1,114) Макс. число дисков данных: 48 (+16) Ускорение сети: да (+) Хранилище класса Premium: да (+)
Standard_ND24	Standard_NC64as_T4_v3*	ЦП: Intel Broadwell — AMD Rome Число GPU: 4 (то же самое) Поколение GPU: NVIDIA Pascal — Turing (+1 поколение) Память GPU (ГиБ на один GPU): 16 (–8) Виртуальные ЦП: 64 (+40) Память, ГиБ: 440 (то же самое) Временное хранилище (SSD), ГиБ: 2880 (то же самое) Максимальное число дисков данных: 32 (то же самое) Ускорение сети: да (+) Хранилище класса Premium: да (+)
Standard_ND24r	Standard_ND96amsr_A100_v4	ЦП: Intel Broadwell — AMD Rome Количество GPU: 8 (+4) Поколение GPU: NVIDIA Pascal и Ampere (+2 поколение) Память GPU (ГиБ на GPU): 80 (+56) VCPU: 96 (+72) Память ГиБ: 1900 (+1452) Temp Storage (SSD) GiB: 6400 (+3452) Максимальное число дисков данных: 32 (то же самое) Ускорение сети: да (+) Хранилище класса Premium: да (+) Внутреннее соединение InfiniBand: да (то же самое)

Шаги переноса

Общие изменения

Выберите серию и размер для миграции. Воспользуйтесь калькулятором цен для получения дополнительных аналитических сведений.
Получение квоты для серии целевых виртуальных машин
Измените текущий размер виртуальной машины серии N* на целевое значение. Кроме того, это может быть полезно для обновления операционной системы, используемой в образе виртуальной машины, или внедрения одного из образов HPC с драйверами, предварительно установленными на начальном этапе.

Внимание

Образ виртуальной машины можно создать с помощью более старой версии среды выполнения CUDA, драйвера NVIDIA и (если применимо, только для размеров с поддержкой RDMA) драйверов Mellanox OFED, чем требуется для новой серии виртуальных машин GPU. Обновления можно выполнить в соответствии с инструкциями, указанными в документации по Azure.

Критические изменения

Выбор целевого размера для миграции

После оценки текущего использования необходимо принять решение, какой тип виртуальной машины GPU вам нужен. В зависимости от требований к рабочей нагрузке у вас может быть несколько различных вариантов.

Примечание.

Рекомендуется выбирать размер виртуальной машины в зависимости от стоимости и производительности. Рекомендации, приведенные в настоящем руководстве, основаны на сравнении метрик производительности "один к одному" общего назначения и ближайшего соответствия с другой серии виртуальной машиной. Прежде чем выбрать правильный размер, сравните затраты, используя калькулятор цен Azure.

Внимание

Все устаревшие размеры серий NC, NC v2 и ND доступны в размерах с несколькими GPU, включая размеры 4-GPU с внутренними соединениями InfiniBand и без них для горизонтального увеличения масштаба, тесно связанные рабочие нагрузки, требующие дополнительной мощности вычислений, чем одна виртуальная машина с 4-GPU, или один графический процессор K80, P40 или P100 могут быть предоставлены соответственно. Хотя приведенные выше рекомендации предлагают прямолинейный путь выполнения, пользователи этих размеров должны сосредоточиться на достижении своей производительности с помощью более мощной серии виртуальных машин NVIDIA V100 на основе GPU, например серии NC v3-Series и ND v2, что, как правило, обеспечивает тот же уровень производительности рабочей нагрузки при меньших затратах и улучшает управляемость за счет значительно большей производительности, приходящейся на один GPU, и на одну виртуальную машину до тех пор, пока не потребуются конфигурации с несколькими GPU и несколькими узлами.

Получение квоты для семейства целевых виртуальных машин

Следуйте указаниям, чтобы запросить увеличение квоты виртуальных ЦП для семейства виртуальных машин. Выберите целевой размер виртуальной машины, выбранный для миграции.

Изменение размера текущей виртуальной машины

Измените размер виртуальной машины.

Следующие шаги

Полный список размеров виртуальных машин с поддержкой GPU см. в статье Обзор GPU: ускоренные вычисления

Поделиться через