Maszyna wirtualna z procesorem graficznym (GPU) w usłudze Azure Stack Hub

Artykuł
10/30/2024

W tym artykule opisano, które modele procesora graficznego (GPU) są obsługiwane w zintegrowanym systemie usługi Azure Stack Hub. Artykuł zawiera również instrukcje dotyczące instalowania sterowników używanych z procesorami GPU. Obsługa procesora GPU w usłudze Azure Stack Hub umożliwia rozwiązania, takie jak sztuczna inteligencja, trenowanie, wnioskowanie i wizualizacja danych. Oprogramowanie AMDTyn Instinct MI25 może służyć do obsługi aplikacji intensywnie korzystających z grafiki, takich jak Autodesk AutoCAD.

Możesz wybrać spośród trzech modeli procesora GPU. Są one dostępne w procesorach GPU NVIDIA V100, NVIDIA T4 i AMD MI25. Te fizyczne procesory GPU są zgodne z następującymi typami maszyn wirtualnych serii N platformy Azure w następujący sposób:

Ostrzeżenie

Maszyny wirtualne procesora GPU nie są obsługiwane w tej wersji. Musisz przeprowadzić uaktualnienie do usługi Azure Stack Hub 2005 lub nowszej. Ponadto sprzęt usługi Azure Stack Hub musi mieć fizyczne procesory GPU.

NCv3

Maszyny wirtualne serii NCv3 są obsługiwane przez procesory GPU NVIDIA Tesla V100. Klienci mogą korzystać z tych zaktualizowanych procesorów GPU dla tradycyjnych obciążeń HPC, takich jak modelowanie zbiorników, sekwencjonowanie DNA, analiza białek, symulacje Monte Carlo i inne.

Rozmiar	Procesor wirtualny	Pamięć: GiB	Magazyn tymczasowy (SSD): GiB	Procesor GPU	Pamięć procesora GPU: GiB	Maks. liczba dysków danych	Maksymalna liczba kart sieciowych
Standard_NC6s_v3	6	112	736	1	16	12	4
Standard_NC12s_v3	12	224	1474	2	32	24	8
Standard_NC24s_v3	24	448	2948	100	64	32	8

NVv4

Maszyny wirtualne serii NVv4 są obsługiwane przez procesory GPU AMD Instinct MI25. W przypadku serii NVv4 usługa Azure Stack Hub wprowadza maszyny wirtualne z częściowymi procesorami GPU. Tego rozmiaru można używać w przypadku przyspieszonych aplikacji graficznych procesora GPU i pulpitów wirtualnych. Maszyny wirtualne NVv4 obsługują obecnie tylko system operacyjny gościa systemu Windows.

Rozmiar	Procesor wirtualny	Pamięć: GiB	Magazyn tymczasowy (SSD): GiB	Procesor GPU	Pamięć procesora GPU: GiB	Maks. liczba dysków danych	Maksymalna liczba kart sieciowych
Standard_NV4as_v4	100	14	88	1/8	2	4	2
Standard_NV8as_v4	8	28	176	1/4	4	8	100
Standard_NV16as_v4	16	56	352	1/2	8	16	8
Standard_NV32as_v4	32	112	704	1	16	32	8

NCasT4_v3

Rozmiar	Procesor wirtualny	Pamięć: GiB	Procesor GPU	Pamięć procesora GPU: GiB	Maks. liczba dysków danych	Maksymalna liczba kart sieciowych
Standard_NC4as_T4_v3	100	28	1	16	8	100
Standard_NC8as_T4_v3	8	56	1	16	16	8
Standard_NC16as_T4_v3	16	110	1	16	32	8
Standard_NC64as_T4_v3	64	440	100	64	32	8

NC_A100 w wersji 4

Maszyny wirtualne z serii NC_A100 są obsługiwane przez procesory GPU NVIDIA Ampere A100, następcę procesorów GPU Tesla V100. Możesz skorzystać z tych zaktualizowanych procesorów GPU dla tradycyjnych obciążeń HPC, takich jak modelowanie zbiorników, sekwencjonowanie DNA, analiza białek, symulacje Monte Carlo i inne.

Rozmiar	Procesor wirtualny	Pamięć: GiB	Magazyn tymczasowy (GiB)	Maks. liczba dysków danych	Procesor GPU	GiB pamięci procesora GPU	Maksymalna liczba kart sieciowych
Standard_NC24ads_A100_v4	24	220	1123	12	1	80	2
Standard_NC48ads_A100_v4	48	440	2246	24	2	160	100

NC_L40S w wersji 4

Rozmiar	Procesor wirtualny	Pamięć: GiB	Magazyn tymczasowy (GiB)	Maks. liczba dysków danych	Procesor GPU	GiB pamięci procesora GPU	Maksymalna liczba kart sieciowych
Standard_NC24ads_L40S_v4	24	220	1123	8	1	80	2
Standard_NC48ads_L40S_v4	48	440	2246	16	2	160	100

Zagadnienia dotyczące systemu procesora GPU

Procesor GPU musi być jednym z następujących jednostek SKU: AMD MI-25, Nvidia V100 (i warianty), Nvidia T4.
Liczba obsługiwanych procesorów GPU na serwer (1, 2, 3, 4). Preferowane są: 1, 2 i 4.
Wszystkie procesory GPU muszą mieć dokładnie taką samą jednostkę SKU w całej jednostce skalowania.
Wszystkie ilości procesora GPU na serwer muszą być takie same w całej jednostce skalowania.
Rozmiar partycji procesora GPU (dla rozwiązania AMD Mi25) musi być taki sam na wszystkich maszynach wirtualnych procesora GPU w jednostce skalowania.

Planowanie zdolności produkcyjnych

Planista pojemności usługi Azure Stack Hub został zaktualizowany w celu obsługi konfiguracji procesora GPU. Jest dostępny tutaj.

Dodawanie procesorów GPU w istniejącej usłudze Azure Stack Hub

Usługa Azure Stack Hub obsługuje teraz dodawanie procesorów GPU do dowolnego istniejącego systemu. Aby dodać procesor GPU, uruchom polecenie , uruchom stop-azurestackprocedurę stop-azurestack, dodaj procesory GPU, a następnie uruchom start-azurestack polecenie aż do ukończenia. Jeśli system miał już procesory GPU, należy ponownie uruchomić wszystkie wcześniej utworzone maszyny stop-deallocated wirtualne procesora GPU.

Stosowanie poprawek i aktualizacji, zachowanie jednostki FRU maszyn wirtualnych

Maszyny wirtualne procesora GPU przechodzą przestoje podczas operacji, takich jak stosowanie poprawek i aktualizacji (PnU) oraz wymiana sprzętu (FRU) usługi Azure Stack Hub. W poniższej tabeli opisano stan maszyny wirtualnej obserwowany podczas tych działań oraz akcję ręczną, którą można wykonać, aby te maszyny wirtualne były dostępne po wykonaniu operacji.

Operacja	PnU — pełna aktualizacja, aktualizacja producenta OEM	FRU
Stan maszyny wirtualnej	Niedostępne podczas aktualizacji. Można udostępnić za pomocą operacji ręcznej. Maszyna wirtualna jest automatycznie aktualizowana po aktualizacji online.	Niedostępne podczas fru. Można udostępnić za pomocą operacji ręcznej. Maszyna wirtualna musi zostać przywrócona po frU
Operacja ręczna	Jeśli maszyna wirtualna musi zostać udostępniona podczas aktualizacji, jeśli są dostępne partycje procesora GPU, maszynę wirtualną można ponownie uruchomić w portalu, klikając przycisk Uruchom ponownie . Maszyna wirtualna automatycznie wraca po aktualizacji.	Maszyna wirtualna nie jest dostępna podczas trwania usługi FRU. Jeśli są dostępne procesory GPU, maszyna wirtualna może zostać cofnięto przydział i została ponownie uruchomiona podczas jednostki FRU. Po ukończeniu jednostki FRU maszyna wirtualna musi używać `stop-deallocated` przycisku Zatrzymaj , a następnie ponownie uruchomić przy użyciu przycisku Uruchom .

Instalacja sterownika gościa

Następujące polecenia cmdlet programu PowerShell mogą służyć do instalacji sterownika:

$VmName = <VM Name In Portal>
$ResourceGroupName = <Resource Group of VM>
$Location = "redmond"
$driverName = <Give a name to the driver>
$driverPublisher = "Microsoft.HpcCompute"
$driverType = <Specify Driver Type> #GPU Driver Types: "NvidiaGpuDriverWindows"; "NvidiaGpuDriverLinux"; "AmdGpuDriverWindows"
$driverVersion = <Specify Driver Version> #Nvidia Driver Version:"1.3"; AMD Driver Version:"1.0"

Set-AzureRmVMExtension  -Location $Location `
                            -Publisher $driverPublisher `
                            -ExtensionType $driverType `
                            -TypeHandlerVersion $driverVersion `
                            -VMName $VmName `
                            -ResourceGroupName $ResourceGroupName `
                            -Name $driverName `
                            -Settings $Settings ` # If no settings are set, omit this parameter
                            -Verbose

W zależności od systemu operacyjnego typ i łączność maszyny wirtualnej z procesorem GPU usługi Azure Stack Hub należy zastąpić te wartości ustawieniami poniżej.

AMD MI25

Wersja sterownika gościa musi być zgodna z wersją usługi Azure Stack Hub, niezależnie od stanu łączności. Korzystanie z nowszych wersji, które nie są zgodne z wersją usługi Azure Stack Hub, może powodować problemy z użytecznością.

Wersja usługi Azure Stack Hub	Sterownik gościa AMD
2206 i nowsze	21.Q2-1, 20.Q4-1
2108	21.Q2-1, 20.Q4-1
2102	21.Q2-1, 20.Q4-1

Połączono

Użyj skryptu programu PowerShell w poprzedniej sekcji z odpowiednim typem sterownika dla firmy AMD. Artykuł Instalowanie sterowników procesorów GPU AMD na maszynach wirtualnych serii N z systemem Windows zawiera instrukcje dotyczące instalowania sterownika dla sterownika AMD Firmy Amd Firmy Amd Instinct MI25 na maszynie wirtualnej z włączoną obsługą procesora GPU NVv4 oraz instrukcje dotyczące sposobu weryfikowania instalacji sterownika.

Odłączony

Ponieważ rozszerzenie ściąga sterownik z lokalizacji w Internecie, maszyna wirtualna odłączona od sieci zewnętrznej nie może uzyskać do niego dostępu. Sterownik można pobrać z poprzedniej tabeli i przekazać do konta magazynu w sieci lokalnej, która jest dostępna dla maszyny wirtualnej.

Dodaj sterownik AMD do konta magazynu i określ adres URL tego konta w pliku Settings. Te ustawienia muszą być używane w poleceniu cmdlet Set-AzureRMVMExtension . Na przykład:

$Settings = @{
"DriverURL" = <URL to driver in storage account>
}

NVIDIA

Sterowniki NVIDIA muszą być zainstalowane wewnątrz maszyny wirtualnej dla obciążeń CUDA lub GRID przy użyciu procesora GPU.

Przypadek użycia: grafika/wizualizacja GRID

Ten scenariusz wymaga użycia sterowników GRID. Sterowniki GRID można pobrać za pośrednictwem usługi NVIDIA Application Hub, pod warunkiem, że masz wymagane licencje. Sterowniki GRID wymagają również serwera licencji GRID z odpowiednimi licencjami GRID przed użyciem sterowników GRID na maszynie wirtualnej.

$Settings = @{
"DriverURL" = "https://download.microsoft.com/download/e/8/2/e8257939-a439-4da8-a927-b64b63743db1/431.79_grid_win10_server2016_server2019_64bit_international.exe"; "DriverCertificateUrl" = "https://go.microsoft.com/fwlink/?linkid=871664"; 
"DriverType"="GRID"
}

Przypadek użycia: obliczenia/CUDA — połączone

Sterowniki CUDA nie potrzebują serwera licencji i nie wymagają zmodyfikowanych ustawień.

Przypadek użycia: obliczenia/CUDA — rozłączone

Linki do sterowników NVIDIA CUDA można uzyskać za pomocą linku: https://raw.githubusercontent.com/Azure/azhpc-extensions/master/NvidiaGPU/resources.json

Windows:

$Settings = @{
"DriverURL" = "";
"DriverCertificateUrl" = "https://go.microsoft.com/fwlink/?linkid=871664"; 
"DriverType"="CUDA"
}

Linux:

Musisz odwołać się do niektórych adresów URL ustawień:

URL	Uwagi
PUBKEY_URL	PUBKEY_URL jest kluczem publicznym dla repozytorium sterowników firmy Nvidia, a nie dla maszyny wirtualnej z systemem Linux. Służy do instalowania sterownika dla systemu Ubuntu.
DRIVER_URL	DRIVER_URL to adres URL pobierania informacji o repozytorium sterownika firmy Nvidia i jest dodawany do listy repozytoriów maszyny wirtualnej z systemem Linux.

Dodaj adresy URL do ustawień.

$Settings=@{
"isCustomInstall"=$true;
"DRIVER_URL"="https://go.microsoft.com/fwlink/?linkid=874273";
"CUDA_ver"="10.0.130";
"PUBKEY_URL"="http://download.microsoft.com/download/F/F/A/FFAC979D-AD9C-4684-A6CE-C92BB9372A3B/7fa2af80.pub";
"DKMS_URL"="https://dl.fedoraproject.org/pub/epel/epel-release-latest-7.noarch.rpm";
"LIS_URL"="https://aka.ms/lis";
"LIS_RHEL_ver"="3.10.0-1062.9.1.el7"
}

Udostępnij za pośrednictwem