Виртуальная машина графического процессора в Azure Stack Hub
В этой статье описывается, какие модели графической обработки (GPU) поддерживаются в интегрированной системе Azure Stack Hub. В статье также содержатся инструкции по установке драйверов, используемых с графическими процессорами. Поддержка GPU в Azure Stack Hub обеспечивает такие решения, как искусственный интеллект, обучение, вывод и визуализация данных. AMD Radeon Instinct MI25 можно использовать для поддержки приложений с интенсивным использованием графики, таких как Autodesk AutoCAD.
Вы можете выбрать три модели GPU. Они доступны в GPU NVIDIA V100, NVIDIA T4 и AMD MI25. Эти физические графические процессоры соответствуют следующим типам виртуальных машин серии Azure, как показано ниже.
Предупреждение
Виртуальные машины GPU не поддерживаются в этом выпуске. Необходимо обновить до Azure Stack Hub 2005 или более поздней версии. Кроме того, оборудование Azure Stack Hub должно иметь физические GPU.
NCv3
Виртуальные машины серии NCv3 созданы на базе GPU Tesla V100 от NVIDIA. Клиенты могут воспользоваться этими обновленными GPU для традиционных рабочих нагрузок HPC. Вы сможете реализовать такие сценарии, как пластовое моделирование, секвенирование ДНК, анализ белков, моделирование методом Монте-Карло и другие.
Размер | Виртуальные ЦП | Память, ГиБ | Временное хранилище (SSD): ГиБ | GPU | Память GPU: ГиБ | Макс. количество дисков данных | Макс. количество сетевых адаптеров |
---|---|---|---|---|---|---|---|
Standard_NC6s_v3 | 6 | 112 | 736 | 1 | 16 | 12 | 4 |
Standard_NC12s_v3 | 12 | 224 | 1474 | 2 | 32 | 24 | 8 |
Standard_NC24s_v3 | 24 | 448 | 2948 | 4 | 64 | 32 | 8 |
NVv4
Виртуальные машины серии NVv4 работают с GPU AMD Radeon Instinct MI25. В серии NVv4 Azure Stack Hub предоставляет виртуальные машины с частичными графическими процессорами. Этот размер можно использовать для графических приложений и виртуальных рабочих столов с ускорением GPU. Виртуальные машины NVv4 в настоящее время поддерживают только гостевую операционную систему Windows.
Размер | Виртуальные ЦП | Память, ГиБ | Временное хранилище (SSD): ГиБ | GPU | Память GPU: ГиБ | Макс. количество дисков данных | Макс. количество сетевых адаптеров |
---|---|---|---|---|---|---|---|
Standard_NV4as_v4 | 4 | 14 | 88 | 1/8 | 2 | 4 | 2 |
Standard_NV8as_v4 | 8 | 28 | 176 | 1/4 | 4 | 8 | 4 |
Standard_NV16as_v4 | 16 | 56 | 352 | 1/2 | 8 | 16 | 8 |
Standard_NV32as_v4 | 32 | 112 | 704 | 1 | 16 | 32 | 8 |
NCasT4_v3
Размер | Виртуальные ЦП | Память, ГиБ | GPU | Память GPU: ГиБ | Макс. количество дисков данных | Макс. количество сетевых адаптеров |
---|---|---|---|---|---|---|
Standard_NC4as_T4_v3 | 4 | 28 | 1 | 16 | 8 | 4 |
Standard_NC8as_T4_v3 | 8 | 56 | 1 | 16 | 16 | 8 |
Standard_NC16as_T4_v3 | 16 | 110 | 1 | 16 | 32 | 8 |
Standard_NC64as_T4_v3 | 64 | 440 | 4 | 64 | 32 | 8 |
NC_A100 версии 4
Виртуальные машины серии NC_A100 поддерживаются GPU NVIDIA Ampere A100, преемником GPU Tesla V100. Эти обновленные графические процессоры можно использовать для традиционных рабочих нагрузок HPC, таких как моделирование водохранилища, секвенирование ДНК, анализ белка, моделирование Монте-Карло и другие.
Размер | Виртуальные ЦП | Память, ГиБ | Временное хранилище, Гиб | Макс. количество дисков данных | GPU | ГиБ памяти GPU | Макс. количество сетевых адаптеров |
---|---|---|---|---|---|---|---|
Standard_NC24ads_A100_v4 | 24 | 220 | 1123 | 12 | 1 | 80 | 2 |
Standard_NC48ads_A100_v4 | 48 | 440 | 2246 | 24 | 2 | 160 | 4 |
NC_L40S версии 4
Размер | Виртуальные ЦП | Память, ГиБ | Временное хранилище, Гиб | Макс. количество дисков данных | GPU | ГиБ памяти GPU | Макс. количество сетевых адаптеров |
---|---|---|---|---|---|---|---|
Standard_NC24ads_L40S_v4 | 24 | 220 | 1123 | 8 | 1 | 80 | 2 |
Standard_NC48ads_L40S_v4 | 48 | 440 | 2246 | 16 | 2 | 160 | 4 |
Рекомендации по системе GPU
- GPU должен быть одним из этих номеров SKU: AMD MI-25, Nvidia V100 (и вариантов), Nvidia T4.
- Количество поддерживаемых GPU на сервер (1, 2, 3, 4). Предпочтительнее: 1, 2 и 4.
- Все графические процессоры должны иметь одинаковый номер SKU на всех единицах масштабирования.
- Все объемы GPU на сервере должны быть одинаковыми в единицах масштабирования.
- Размер секции GPU (для AMD Mi25) должен быть одинаковым на всех виртуальных машинах GPU в единице масштабирования.
Планирование ресурсов
Планировщик емкости Azure Stack Hub был обновлен для поддержки конфигураций GPU. Он доступен здесь.
Добавление gpu в существующий Azure Stack Hub
Azure Stack Hub теперь поддерживает добавление gpu в любую существующую систему. Чтобы добавить GPU, выполните stop-azurestack
процедуру stop-azurestack
, добавьте графические процессоры, а затем запустите start-azurestack
до завершения. Если у системы уже были gpu, все ранее созданные виртуальные машины GPU должны быть stop-deallocated
перезапущены.
Исправление и обновление, поведение FRU виртуальных машин
Виртуальные машины GPU проходят простой во время таких операций, как исправление и обновление (PnU) и замена оборудования (FRU) Azure Stack Hub. В следующей таблице описывается состояние виртуальной машины, наблюдаемое во время этих действий, и действие вручную, которое можно сделать, чтобы эти виртуальные машины были доступны после операции.
Операция | PnU — полное обновление, обновление Update, OEM | FRU |
---|---|---|
Состояние виртуальной машины | Недоступно во время обновления. Можно сделать доступным с помощью ручной операции. Виртуальная машина автоматически обновляется в сети. | Недоступно во время FRU. Можно сделать доступным с помощью ручной операции. Виртуальная машина должна быть возвращена после FRU |
Операция, выполняемая вручную | Если виртуальная машина должна быть доступна во время обновления, если есть доступные разделы GPU, виртуальная машина может быть перезапущена на портале, нажав кнопку "Перезапустить ". Виртуальная машина автоматически выполняет резервное копирование после обновления. | Виртуальная машина недоступна во время FRU. Если есть доступные gpu, виртуальная машина может быть остановлена и перезапущена во время FRU. После завершения FRU виртуальная машина должна использовать stop-deallocated кнопку "Остановить ", а затем перезапустить с помощью кнопки "Пуск ". |
Установка гостевого драйвера
Для установки драйверов можно использовать следующие командлеты PowerShell:
$VmName = <VM Name In Portal>
$ResourceGroupName = <Resource Group of VM>
$Location = "redmond"
$driverName = <Give a name to the driver>
$driverPublisher = "Microsoft.HpcCompute"
$driverType = <Specify Driver Type> #GPU Driver Types: "NvidiaGpuDriverWindows"; "NvidiaGpuDriverLinux"; "AmdGpuDriverWindows"
$driverVersion = <Specify Driver Version> #Nvidia Driver Version:"1.3"; AMD Driver Version:"1.0"
Set-AzureRmVMExtension -Location $Location `
-Publisher $driverPublisher `
-ExtensionType $driverType `
-TypeHandlerVersion $driverVersion `
-VMName $VmName `
-ResourceGroupName $ResourceGroupName `
-Name $driverName `
-Settings $Settings ` # If no settings are set, omit this parameter
-Verbose
В зависимости от ОС, типа и подключения виртуальной машины GPU Azure Stack Hub необходимо заменить эти значения параметрами ниже.
AMD MI25
Версия гостевого драйвера должна соответствовать версии Azure Stack Hub независимо от состояния подключения. Использование более новых версий, не связанных с версией Azure Stack Hub, может привести к проблемам с удобством использования.
Версия Azure Stack Hub | Гостевой драйвер AMD |
---|---|
2206 и более поздних версий | 21.Q2-1, 20.Q4-1 |
2108 | 21.Q2-1, 20.Q4-1 |
2102 | 21.Q2-1, 20.Q4-1 |
Connected
Используйте сценарий PowerShell в предыдущем разделе с соответствующим типом драйвера для AMD. В статье Установка драйверов AMD GPU на виртуальных машинах серии N под управлением Windows содержит инструкции по установке драйвера для AMD Instinct MI25 на виртуальной машине с поддержкой GPU NVv4, а также инструкции по проверке установки драйвера.
Отключено
Так как расширение извлекает драйвер из расположения в Интернете, виртуальная машина, отключенная от внешней сети, не может получить к ней доступ. Драйвер можно скачать из предыдущей таблицы и отправить в учетную запись хранения в локальной сети, доступной виртуальной машине.
Добавьте драйвер AMD в учетную запись хранения и укажите URL-адрес этой учетной записи Settings
. Эти параметры необходимо использовать в командлете Set-AzureRMVMExtension . Например:
$Settings = @{
"DriverURL" = <URL to driver in storage account>
}
NVIDIA
Драйверы NVIDIA должны быть установлены на виртуальной машине для рабочих нагрузок CUDA или GRID с помощью GPU.
Вариант использования: графика или визуализация GRID
Для этого сценария требуется использование драйверов GRID. Драйверы GRID можно скачать с помощью Центра приложений NVIDIA, если у вас есть необходимые лицензии. Для драйверов GRID также требуется сервер лицензий GRID с соответствующими лицензиями GRID перед использованием драйверов GRID на виртуальной машине.
$Settings = @{
"DriverURL" = "https://download.microsoft.com/download/e/8/2/e8257939-a439-4da8-a927-b64b63743db1/431.79_grid_win10_server2016_server2019_64bit_international.exe"; "DriverCertificateUrl" = "https://go.microsoft.com/fwlink/?linkid=871664";
"DriverType"="GRID"
}
Вариант использования: вычисление/CUDA — подключено
Драйверы CUDA не нуждаются в сервере лицензий и не нуждаются в измененных параметрах.
Вариант использования: вычисление/CUDA — отключен
Ссылки на драйверы NVIDIA CUDA можно получить с помощью ссылки: https://raw.githubusercontent.com/Azure/azhpc-extensions/master/NvidiaGPU/resources.json
Windows:
$Settings = @{
"DriverURL" = "";
"DriverCertificateUrl" = "https://go.microsoft.com/fwlink/?linkid=871664";
"DriverType"="CUDA"
}
Linux:
Для параметров необходимо ссылаться на некоторые URL-адреса:
URL | Примечания. |
---|---|
PUBKEY_URL | PUBKEY_URL — это открытый ключ для репозитория драйверов Nvidia, а не для виртуальной машины Linux. Он используется для установки драйвера для Ubuntu. |
DRIVER_URL | DRIVER_URL — это URL-адрес для скачивания сведений о репозитории драйвера Nvidia и добавляется в список репозиториев виртуальной машины Linux. |
Добавьте URL-адреса в параметры.
$Settings=@{
"isCustomInstall"=$true;
"DRIVER_URL"="https://go.microsoft.com/fwlink/?linkid=874273";
"CUDA_ver"="10.0.130";
"PUBKEY_URL"="http://download.microsoft.com/download/F/F/A/FFAC979D-AD9C-4684-A6CE-C92BB9372A3B/7fa2af80.pub";
"DKMS_URL"="https://dl.fedoraproject.org/pub/epel/epel-release-latest-7.noarch.rpm";
"LIS_URL"="https://aka.ms/lis";
"LIS_RHEL_ver"="3.10.0-1062.9.1.el7"
}