Поделиться через


Виртуальная машина графического процессора в Azure Stack Hub

В этой статье описывается, какие модели графической обработки (GPU) поддерживаются в интегрированной системе Azure Stack Hub. В статье также содержатся инструкции по установке драйверов, используемых с графическими процессорами. Поддержка GPU в Azure Stack Hub обеспечивает такие решения, как искусственный интеллект, обучение, вывод и визуализация данных. AMD Radeon Instinct MI25 можно использовать для поддержки приложений с интенсивным использованием графики, таких как Autodesk AutoCAD.

Вы можете выбрать три модели GPU. Они доступны в GPU NVIDIA V100, NVIDIA T4 и AMD MI25. Эти физические графические процессоры соответствуют следующим типам виртуальных машин серии Azure, как показано ниже.

Предупреждение

Виртуальные машины GPU не поддерживаются в этом выпуске. Необходимо обновить до Azure Stack Hub 2005 или более поздней версии. Кроме того, оборудование Azure Stack Hub должно иметь физические GPU.

NCv3

Виртуальные машины серии NCv3 созданы на базе GPU Tesla V100 от NVIDIA. Клиенты могут воспользоваться этими обновленными GPU для традиционных рабочих нагрузок HPC. Вы сможете реализовать такие сценарии, как пластовое моделирование, секвенирование ДНК, анализ белков, моделирование методом Монте-Карло и другие.

Размер Виртуальные ЦП Память, ГиБ Временное хранилище (SSD): ГиБ GPU Память GPU: ГиБ Макс. количество дисков данных Макс. количество сетевых адаптеров
Standard_NC6s_v3 6 112 736 1 16 12 4
Standard_NC12s_v3 12 224 1474 2 32 24 8
Standard_NC24s_v3 24 448 2948 4 64 32 8

NVv4

Виртуальные машины серии NVv4 работают с GPU AMD Radeon Instinct MI25. В серии NVv4 Azure Stack Hub предоставляет виртуальные машины с частичными графическими процессорами. Этот размер можно использовать для графических приложений и виртуальных рабочих столов с ускорением GPU. Виртуальные машины NVv4 в настоящее время поддерживают только гостевую операционную систему Windows.

Размер Виртуальные ЦП Память, ГиБ Временное хранилище (SSD): ГиБ GPU Память GPU: ГиБ Макс. количество дисков данных Макс. количество сетевых адаптеров
Standard_NV4as_v4 4 14 88 1/8 2 4 2
Standard_NV8as_v4 8 28 176 1/4 4 8 4
Standard_NV16as_v4 16 56 352 1/2 8 16 8
Standard_NV32as_v4 32 112 704 1 16 32 8

NCasT4_v3

Размер Виртуальные ЦП Память, ГиБ GPU Память GPU: ГиБ Макс. количество дисков данных Макс. количество сетевых адаптеров
Standard_NC4as_T4_v3 4 28 1 16 8 4
Standard_NC8as_T4_v3 8 56 1 16 16 8
Standard_NC16as_T4_v3 16 110 1 16 32 8
Standard_NC64as_T4_v3 64 440 4 64 32 8

NC_A100 версии 4

Виртуальные машины серии NC_A100 поддерживаются GPU NVIDIA Ampere A100, преемником GPU Tesla V100. Эти обновленные графические процессоры можно использовать для традиционных рабочих нагрузок HPC, таких как моделирование водохранилища, секвенирование ДНК, анализ белка, моделирование Монте-Карло и другие.

Размер Виртуальные ЦП Память, ГиБ Временное хранилище, Гиб Макс. количество дисков данных GPU ГиБ памяти GPU Макс. количество сетевых адаптеров
Standard_NC24ads_A100_v4 24 220 1123 12 1 80 2
Standard_NC48ads_A100_v4 48 440 2246 24 2 160 4

NC_L40S версии 4

Размер Виртуальные ЦП Память, ГиБ Временное хранилище, Гиб Макс. количество дисков данных GPU ГиБ памяти GPU Макс. количество сетевых адаптеров
Standard_NC24ads_L40S_v4 24 220 1123 8 1 80 2
Standard_NC48ads_L40S_v4 48 440 2246 16 2 160 4

Рекомендации по системе GPU

  • GPU должен быть одним из этих номеров SKU: AMD MI-25, Nvidia V100 (и вариантов), Nvidia T4.
  • Количество поддерживаемых GPU на сервер (1, 2, 3, 4). Предпочтительнее: 1, 2 и 4.
  • Все графические процессоры должны иметь одинаковый номер SKU на всех единицах масштабирования.
  • Все объемы GPU на сервере должны быть одинаковыми в единицах масштабирования.
  • Размер секции GPU (для AMD Mi25) должен быть одинаковым на всех виртуальных машинах GPU в единице масштабирования.

Планирование ресурсов

Планировщик емкости Azure Stack Hub был обновлен для поддержки конфигураций GPU. Он доступен здесь.

Добавление gpu в существующий Azure Stack Hub

Azure Stack Hub теперь поддерживает добавление gpu в любую существующую систему. Чтобы добавить GPU, выполните stop-azurestackпроцедуру stop-azurestack, добавьте графические процессоры, а затем запустите start-azurestack до завершения. Если у системы уже были gpu, все ранее созданные виртуальные машины GPU должны быть stop-deallocated перезапущены.

Исправление и обновление, поведение FRU виртуальных машин

Виртуальные машины GPU проходят простой во время таких операций, как исправление и обновление (PnU) и замена оборудования (FRU) Azure Stack Hub. В следующей таблице описывается состояние виртуальной машины, наблюдаемое во время этих действий, и действие вручную, которое можно сделать, чтобы эти виртуальные машины были доступны после операции.

Операция PnU — полное обновление, обновление Update, OEM FRU
Состояние виртуальной машины Недоступно во время обновления. Можно сделать доступным с помощью ручной операции. Виртуальная машина автоматически обновляется в сети. Недоступно во время FRU. Можно сделать доступным с помощью ручной операции. Виртуальная машина должна быть возвращена после FRU
Операция, выполняемая вручную Если виртуальная машина должна быть доступна во время обновления, если есть доступные разделы GPU, виртуальная машина может быть перезапущена на портале, нажав кнопку "Перезапустить ". Виртуальная машина автоматически выполняет резервное копирование после обновления. Виртуальная машина недоступна во время FRU. Если есть доступные gpu, виртуальная машина может быть остановлена и перезапущена во время FRU. После завершения FRU виртуальная машина должна использовать stop-deallocated кнопку "Остановить ", а затем перезапустить с помощью кнопки "Пуск ".

Установка гостевого драйвера

Для установки драйверов можно использовать следующие командлеты PowerShell:

$VmName = <VM Name In Portal>
$ResourceGroupName = <Resource Group of VM>
$Location = "redmond"
$driverName = <Give a name to the driver>
$driverPublisher = "Microsoft.HpcCompute"
$driverType = <Specify Driver Type> #GPU Driver Types: "NvidiaGpuDriverWindows"; "NvidiaGpuDriverLinux"; "AmdGpuDriverWindows"
$driverVersion = <Specify Driver Version> #Nvidia Driver Version:"1.3"; AMD Driver Version:"1.0"

Set-AzureRmVMExtension  -Location $Location `
                            -Publisher $driverPublisher `
                            -ExtensionType $driverType `
                            -TypeHandlerVersion $driverVersion `
                            -VMName $VmName `
                            -ResourceGroupName $ResourceGroupName `
                            -Name $driverName `
                            -Settings $Settings ` # If no settings are set, omit this parameter
                            -Verbose

В зависимости от ОС, типа и подключения виртуальной машины GPU Azure Stack Hub необходимо заменить эти значения параметрами ниже.

AMD MI25

Версия гостевого драйвера должна соответствовать версии Azure Stack Hub независимо от состояния подключения. Использование более новых версий, не связанных с версией Azure Stack Hub, может привести к проблемам с удобством использования.

Версия Azure Stack Hub Гостевой драйвер AMD
2206 и более поздних версий 21.Q2-1, 20.Q4-1
2108 21.Q2-1, 20.Q4-1
2102 21.Q2-1, 20.Q4-1

Connected

Используйте сценарий PowerShell в предыдущем разделе с соответствующим типом драйвера для AMD. В статье Установка драйверов AMD GPU на виртуальных машинах серии N под управлением Windows содержит инструкции по установке драйвера для AMD Instinct MI25 на виртуальной машине с поддержкой GPU NVv4, а также инструкции по проверке установки драйвера.

Отключено

Так как расширение извлекает драйвер из расположения в Интернете, виртуальная машина, отключенная от внешней сети, не может получить к ней доступ. Драйвер можно скачать из предыдущей таблицы и отправить в учетную запись хранения в локальной сети, доступной виртуальной машине.

Добавьте драйвер AMD в учетную запись хранения и укажите URL-адрес этой учетной записи Settings. Эти параметры необходимо использовать в командлете Set-AzureRMVMExtension . Например:

$Settings = @{
"DriverURL" = <URL to driver in storage account>
}

NVIDIA

Драйверы NVIDIA должны быть установлены на виртуальной машине для рабочих нагрузок CUDA или GRID с помощью GPU.

Вариант использования: графика или визуализация GRID

Для этого сценария требуется использование драйверов GRID. Драйверы GRID можно скачать с помощью Центра приложений NVIDIA, если у вас есть необходимые лицензии. Для драйверов GRID также требуется сервер лицензий GRID с соответствующими лицензиями GRID перед использованием драйверов GRID на виртуальной машине.

$Settings = @{
"DriverURL" = "https://download.microsoft.com/download/e/8/2/e8257939-a439-4da8-a927-b64b63743db1/431.79_grid_win10_server2016_server2019_64bit_international.exe"; "DriverCertificateUrl" = "https://go.microsoft.com/fwlink/?linkid=871664"; 
"DriverType"="GRID"
}

Вариант использования: вычисление/CUDA — подключено

Драйверы CUDA не нуждаются в сервере лицензий и не нуждаются в измененных параметрах.

Вариант использования: вычисление/CUDA — отключен

Ссылки на драйверы NVIDIA CUDA можно получить с помощью ссылки: https://raw.githubusercontent.com/Azure/azhpc-extensions/master/NvidiaGPU/resources.json

Windows:

$Settings = @{
"DriverURL" = "";
"DriverCertificateUrl" = "https://go.microsoft.com/fwlink/?linkid=871664"; 
"DriverType"="CUDA"
}

Linux:

Для параметров необходимо ссылаться на некоторые URL-адреса:

URL Примечания.
PUBKEY_URL PUBKEY_URL — это открытый ключ для репозитория драйверов Nvidia, а не для виртуальной машины Linux. Он используется для установки драйвера для Ubuntu.
DRIVER_URL DRIVER_URL — это URL-адрес для скачивания сведений о репозитории драйвера Nvidia и добавляется в список репозиториев виртуальной машины Linux.

Добавьте URL-адреса в параметры.

$Settings=@{
"isCustomInstall"=$true;
"DRIVER_URL"="https://go.microsoft.com/fwlink/?linkid=874273";
"CUDA_ver"="10.0.130";
"PUBKEY_URL"="http://download.microsoft.com/download/F/F/A/FFAC979D-AD9C-4684-A6CE-C92BB9372A3B/7fa2af80.pub";
"DKMS_URL"="https://dl.fedoraproject.org/pub/epel/epel-release-latest-7.noarch.rpm";
"LIS_URL"="https://aka.ms/lis";
"LIS_RHEL_ver"="3.10.0-1062.9.1.el7"
}

Следующие шаги