Maszyna wirtualna z procesorem graficznym (GPU) w usłudze Azure Stack Hub
W tym artykule opisano, które modele procesora graficznego (GPU) są obsługiwane w zintegrowanym systemie usługi Azure Stack Hub. Artykuł zawiera również instrukcje dotyczące instalowania sterowników używanych z procesorami GPU. Obsługa procesora GPU w usłudze Azure Stack Hub umożliwia rozwiązania, takie jak sztuczna inteligencja, trenowanie, wnioskowanie i wizualizacja danych. Oprogramowanie AMDTyn Instinct MI25 może służyć do obsługi aplikacji intensywnie korzystających z grafiki, takich jak Autodesk AutoCAD.
Możesz wybrać spośród trzech modeli procesora GPU. Są one dostępne w procesorach GPU NVIDIA V100, NVIDIA T4 i AMD MI25. Te fizyczne procesory GPU są zgodne z następującymi typami maszyn wirtualnych serii N platformy Azure w następujący sposób:
Ostrzeżenie
Maszyny wirtualne procesora GPU nie są obsługiwane w tej wersji. Musisz przeprowadzić uaktualnienie do usługi Azure Stack Hub 2005 lub nowszej. Ponadto sprzęt usługi Azure Stack Hub musi mieć fizyczne procesory GPU.
NCv3
Maszyny wirtualne serii NCv3 są obsługiwane przez procesory GPU NVIDIA Tesla V100. Klienci mogą korzystać z tych zaktualizowanych procesorów GPU dla tradycyjnych obciążeń HPC, takich jak modelowanie zbiorników, sekwencjonowanie DNA, analiza białek, symulacje Monte Carlo i inne.
Rozmiar | Procesor wirtualny | Pamięć: GiB | Magazyn tymczasowy (SSD): GiB | Procesor GPU | Pamięć procesora GPU: GiB | Maks. liczba dysków danych | Maksymalna liczba kart sieciowych |
---|---|---|---|---|---|---|---|
Standard_NC6s_v3 | 6 | 112 | 736 | 1 | 16 | 12 | 4 |
Standard_NC12s_v3 | 12 | 224 | 1474 | 2 | 32 | 24 | 8 |
Standard_NC24s_v3 | 24 | 448 | 2948 | 100 | 64 | 32 | 8 |
NVv4
Maszyny wirtualne serii NVv4 są obsługiwane przez procesory GPU AMD Instinct MI25. W przypadku serii NVv4 usługa Azure Stack Hub wprowadza maszyny wirtualne z częściowymi procesorami GPU. Tego rozmiaru można używać w przypadku przyspieszonych aplikacji graficznych procesora GPU i pulpitów wirtualnych. Maszyny wirtualne NVv4 obsługują obecnie tylko system operacyjny gościa systemu Windows.
Rozmiar | Procesor wirtualny | Pamięć: GiB | Magazyn tymczasowy (SSD): GiB | Procesor GPU | Pamięć procesora GPU: GiB | Maks. liczba dysków danych | Maksymalna liczba kart sieciowych |
---|---|---|---|---|---|---|---|
Standard_NV4as_v4 | 100 | 14 | 88 | 1/8 | 2 | 4 | 2 |
Standard_NV8as_v4 | 8 | 28 | 176 | 1/4 | 4 | 8 | 100 |
Standard_NV16as_v4 | 16 | 56 | 352 | 1/2 | 8 | 16 | 8 |
Standard_NV32as_v4 | 32 | 112 | 704 | 1 | 16 | 32 | 8 |
NCasT4_v3
Rozmiar | Procesor wirtualny | Pamięć: GiB | Procesor GPU | Pamięć procesora GPU: GiB | Maks. liczba dysków danych | Maksymalna liczba kart sieciowych |
---|---|---|---|---|---|---|
Standard_NC4as_T4_v3 | 100 | 28 | 1 | 16 | 8 | 100 |
Standard_NC8as_T4_v3 | 8 | 56 | 1 | 16 | 16 | 8 |
Standard_NC16as_T4_v3 | 16 | 110 | 1 | 16 | 32 | 8 |
Standard_NC64as_T4_v3 | 64 | 440 | 100 | 64 | 32 | 8 |
NC_A100 w wersji 4
Maszyny wirtualne z serii NC_A100 są obsługiwane przez procesory GPU NVIDIA Ampere A100, następcę procesorów GPU Tesla V100. Możesz skorzystać z tych zaktualizowanych procesorów GPU dla tradycyjnych obciążeń HPC, takich jak modelowanie zbiorników, sekwencjonowanie DNA, analiza białek, symulacje Monte Carlo i inne.
Rozmiar | Procesor wirtualny | Pamięć: GiB | Magazyn tymczasowy (GiB) | Maks. liczba dysków danych | Procesor GPU | GiB pamięci procesora GPU | Maksymalna liczba kart sieciowych |
---|---|---|---|---|---|---|---|
Standard_NC24ads_A100_v4 | 24 | 220 | 1123 | 12 | 1 | 80 | 2 |
Standard_NC48ads_A100_v4 | 48 | 440 | 2246 | 24 | 2 | 160 | 100 |
NC_L40S w wersji 4
Rozmiar | Procesor wirtualny | Pamięć: GiB | Magazyn tymczasowy (GiB) | Maks. liczba dysków danych | Procesor GPU | GiB pamięci procesora GPU | Maksymalna liczba kart sieciowych |
---|---|---|---|---|---|---|---|
Standard_NC24ads_L40S_v4 | 24 | 220 | 1123 | 8 | 1 | 80 | 2 |
Standard_NC48ads_L40S_v4 | 48 | 440 | 2246 | 16 | 2 | 160 | 100 |
Zagadnienia dotyczące systemu procesora GPU
- Procesor GPU musi być jednym z następujących jednostek SKU: AMD MI-25, Nvidia V100 (i warianty), Nvidia T4.
- Liczba obsługiwanych procesorów GPU na serwer (1, 2, 3, 4). Preferowane są: 1, 2 i 4.
- Wszystkie procesory GPU muszą mieć dokładnie taką samą jednostkę SKU w całej jednostce skalowania.
- Wszystkie ilości procesora GPU na serwer muszą być takie same w całej jednostce skalowania.
- Rozmiar partycji procesora GPU (dla rozwiązania AMD Mi25) musi być taki sam na wszystkich maszynach wirtualnych procesora GPU w jednostce skalowania.
Planowanie zdolności produkcyjnych
Planista pojemności usługi Azure Stack Hub został zaktualizowany w celu obsługi konfiguracji procesora GPU. Jest dostępny tutaj.
Dodawanie procesorów GPU w istniejącej usłudze Azure Stack Hub
Usługa Azure Stack Hub obsługuje teraz dodawanie procesorów GPU do dowolnego istniejącego systemu. Aby dodać procesor GPU, uruchom polecenie , uruchom stop-azurestack
procedurę stop-azurestack
, dodaj procesory GPU, a następnie uruchom start-azurestack
polecenie aż do ukończenia. Jeśli system miał już procesory GPU, należy ponownie uruchomić wszystkie wcześniej utworzone maszyny stop-deallocated
wirtualne procesora GPU.
Stosowanie poprawek i aktualizacji, zachowanie jednostki FRU maszyn wirtualnych
Maszyny wirtualne procesora GPU przechodzą przestoje podczas operacji, takich jak stosowanie poprawek i aktualizacji (PnU) oraz wymiana sprzętu (FRU) usługi Azure Stack Hub. W poniższej tabeli opisano stan maszyny wirtualnej obserwowany podczas tych działań oraz akcję ręczną, którą można wykonać, aby te maszyny wirtualne były dostępne po wykonaniu operacji.
Operacja | PnU — pełna aktualizacja, aktualizacja producenta OEM | FRU |
---|---|---|
Stan maszyny wirtualnej | Niedostępne podczas aktualizacji. Można udostępnić za pomocą operacji ręcznej. Maszyna wirtualna jest automatycznie aktualizowana po aktualizacji online. | Niedostępne podczas fru. Można udostępnić za pomocą operacji ręcznej. Maszyna wirtualna musi zostać przywrócona po frU |
Operacja ręczna | Jeśli maszyna wirtualna musi zostać udostępniona podczas aktualizacji, jeśli są dostępne partycje procesora GPU, maszynę wirtualną można ponownie uruchomić w portalu, klikając przycisk Uruchom ponownie . Maszyna wirtualna automatycznie wraca po aktualizacji. | Maszyna wirtualna nie jest dostępna podczas trwania usługi FRU. Jeśli są dostępne procesory GPU, maszyna wirtualna może zostać cofnięto przydział i została ponownie uruchomiona podczas jednostki FRU. Po ukończeniu jednostki FRU maszyna wirtualna musi używać stop-deallocated przycisku Zatrzymaj , a następnie ponownie uruchomić przy użyciu przycisku Uruchom . |
Instalacja sterownika gościa
Następujące polecenia cmdlet programu PowerShell mogą służyć do instalacji sterownika:
$VmName = <VM Name In Portal>
$ResourceGroupName = <Resource Group of VM>
$Location = "redmond"
$driverName = <Give a name to the driver>
$driverPublisher = "Microsoft.HpcCompute"
$driverType = <Specify Driver Type> #GPU Driver Types: "NvidiaGpuDriverWindows"; "NvidiaGpuDriverLinux"; "AmdGpuDriverWindows"
$driverVersion = <Specify Driver Version> #Nvidia Driver Version:"1.3"; AMD Driver Version:"1.0"
Set-AzureRmVMExtension -Location $Location `
-Publisher $driverPublisher `
-ExtensionType $driverType `
-TypeHandlerVersion $driverVersion `
-VMName $VmName `
-ResourceGroupName $ResourceGroupName `
-Name $driverName `
-Settings $Settings ` # If no settings are set, omit this parameter
-Verbose
W zależności od systemu operacyjnego typ i łączność maszyny wirtualnej z procesorem GPU usługi Azure Stack Hub należy zastąpić te wartości ustawieniami poniżej.
AMD MI25
Wersja sterownika gościa musi być zgodna z wersją usługi Azure Stack Hub, niezależnie od stanu łączności. Korzystanie z nowszych wersji, które nie są zgodne z wersją usługi Azure Stack Hub, może powodować problemy z użytecznością.
Wersja usługi Azure Stack Hub | Sterownik gościa AMD |
---|---|
2206 i nowsze | 21.Q2-1, 20.Q4-1 |
2108 | 21.Q2-1, 20.Q4-1 |
2102 | 21.Q2-1, 20.Q4-1 |
Połączono
Użyj skryptu programu PowerShell w poprzedniej sekcji z odpowiednim typem sterownika dla firmy AMD. Artykuł Instalowanie sterowników procesorów GPU AMD na maszynach wirtualnych serii N z systemem Windows zawiera instrukcje dotyczące instalowania sterownika dla sterownika AMD Firmy Amd Firmy Amd Instinct MI25 na maszynie wirtualnej z włączoną obsługą procesora GPU NVv4 oraz instrukcje dotyczące sposobu weryfikowania instalacji sterownika.
Odłączony
Ponieważ rozszerzenie ściąga sterownik z lokalizacji w Internecie, maszyna wirtualna odłączona od sieci zewnętrznej nie może uzyskać do niego dostępu. Sterownik można pobrać z poprzedniej tabeli i przekazać do konta magazynu w sieci lokalnej, która jest dostępna dla maszyny wirtualnej.
Dodaj sterownik AMD do konta magazynu i określ adres URL tego konta w pliku Settings
. Te ustawienia muszą być używane w poleceniu cmdlet Set-AzureRMVMExtension . Na przykład:
$Settings = @{
"DriverURL" = <URL to driver in storage account>
}
NVIDIA
Sterowniki NVIDIA muszą być zainstalowane wewnątrz maszyny wirtualnej dla obciążeń CUDA lub GRID przy użyciu procesora GPU.
Przypadek użycia: grafika/wizualizacja GRID
Ten scenariusz wymaga użycia sterowników GRID. Sterowniki GRID można pobrać za pośrednictwem usługi NVIDIA Application Hub, pod warunkiem, że masz wymagane licencje. Sterowniki GRID wymagają również serwera licencji GRID z odpowiednimi licencjami GRID przed użyciem sterowników GRID na maszynie wirtualnej.
$Settings = @{
"DriverURL" = "https://download.microsoft.com/download/e/8/2/e8257939-a439-4da8-a927-b64b63743db1/431.79_grid_win10_server2016_server2019_64bit_international.exe"; "DriverCertificateUrl" = "https://go.microsoft.com/fwlink/?linkid=871664";
"DriverType"="GRID"
}
Przypadek użycia: obliczenia/CUDA — połączone
Sterowniki CUDA nie potrzebują serwera licencji i nie wymagają zmodyfikowanych ustawień.
Przypadek użycia: obliczenia/CUDA — rozłączone
Linki do sterowników NVIDIA CUDA można uzyskać za pomocą linku: https://raw.githubusercontent.com/Azure/azhpc-extensions/master/NvidiaGPU/resources.json
Windows:
$Settings = @{
"DriverURL" = "";
"DriverCertificateUrl" = "https://go.microsoft.com/fwlink/?linkid=871664";
"DriverType"="CUDA"
}
Linux:
Musisz odwołać się do niektórych adresów URL ustawień:
URL | Uwagi |
---|---|
PUBKEY_URL | PUBKEY_URL jest kluczem publicznym dla repozytorium sterowników firmy Nvidia, a nie dla maszyny wirtualnej z systemem Linux. Służy do instalowania sterownika dla systemu Ubuntu. |
DRIVER_URL | DRIVER_URL to adres URL pobierania informacji o repozytorium sterownika firmy Nvidia i jest dodawany do listy repozytoriów maszyny wirtualnej z systemem Linux. |
Dodaj adresy URL do ustawień.
$Settings=@{
"isCustomInstall"=$true;
"DRIVER_URL"="https://go.microsoft.com/fwlink/?linkid=874273";
"CUDA_ver"="10.0.130";
"PUBKEY_URL"="http://download.microsoft.com/download/F/F/A/FFAC979D-AD9C-4684-A6CE-C92BB9372A3B/7fa2af80.pub";
"DKMS_URL"="https://dl.fedoraproject.org/pub/epel/epel-release-latest-7.noarch.rpm";
"LIS_URL"="https://aka.ms/lis";
"LIS_RHEL_ver"="3.10.0-1062.9.1.el7"
}