Udostępnij za pośrednictwem


Maszyna wirtualna z procesorem graficznym (GPU) w usłudze Azure Stack Hub

W tym artykule opisano, które modele procesora graficznego (GPU) są obsługiwane w zintegrowanym systemie usługi Azure Stack Hub. Artykuł zawiera również instrukcje dotyczące instalowania sterowników używanych z procesorami GPU. Obsługa procesora GPU w usłudze Azure Stack Hub umożliwia rozwiązania, takie jak sztuczna inteligencja, trenowanie, wnioskowanie i wizualizacja danych. Oprogramowanie AMDTyn Instinct MI25 może służyć do obsługi aplikacji intensywnie korzystających z grafiki, takich jak Autodesk AutoCAD.

Możesz wybrać spośród trzech modeli procesora GPU. Są one dostępne w procesorach GPU NVIDIA V100, NVIDIA T4 i AMD MI25. Te fizyczne procesory GPU są zgodne z następującymi typami maszyn wirtualnych serii N platformy Azure w następujący sposób:

Ostrzeżenie

Maszyny wirtualne procesora GPU nie są obsługiwane w tej wersji. Musisz przeprowadzić uaktualnienie do usługi Azure Stack Hub 2005 lub nowszej. Ponadto sprzęt usługi Azure Stack Hub musi mieć fizyczne procesory GPU.

NCv3

Maszyny wirtualne serii NCv3 są obsługiwane przez procesory GPU NVIDIA Tesla V100. Klienci mogą korzystać z tych zaktualizowanych procesorów GPU dla tradycyjnych obciążeń HPC, takich jak modelowanie zbiorników, sekwencjonowanie DNA, analiza białek, symulacje Monte Carlo i inne.

Rozmiar Procesor wirtualny Pamięć: GiB Magazyn tymczasowy (SSD): GiB Procesor GPU Pamięć procesora GPU: GiB Maks. liczba dysków danych Maksymalna liczba kart sieciowych
Standard_NC6s_v3 6 112 736 1 16 12 4
Standard_NC12s_v3 12 224 1474 2 32 24 8
Standard_NC24s_v3 24 448 2948 100 64 32 8

NVv4

Maszyny wirtualne serii NVv4 są obsługiwane przez procesory GPU AMD Instinct MI25. W przypadku serii NVv4 usługa Azure Stack Hub wprowadza maszyny wirtualne z częściowymi procesorami GPU. Tego rozmiaru można używać w przypadku przyspieszonych aplikacji graficznych procesora GPU i pulpitów wirtualnych. Maszyny wirtualne NVv4 obsługują obecnie tylko system operacyjny gościa systemu Windows.

Rozmiar Procesor wirtualny Pamięć: GiB Magazyn tymczasowy (SSD): GiB Procesor GPU Pamięć procesora GPU: GiB Maks. liczba dysków danych Maksymalna liczba kart sieciowych
Standard_NV4as_v4 100 14 88 1/8 2 4 2
Standard_NV8as_v4 8 28 176 1/4 4 8 100
Standard_NV16as_v4 16 56 352 1/2 8 16 8
Standard_NV32as_v4 32 112 704 1 16 32 8

NCasT4_v3

Rozmiar Procesor wirtualny Pamięć: GiB Procesor GPU Pamięć procesora GPU: GiB Maks. liczba dysków danych Maksymalna liczba kart sieciowych
Standard_NC4as_T4_v3 100 28 1 16 8 100
Standard_NC8as_T4_v3 8 56 1 16 16 8
Standard_NC16as_T4_v3 16 110 1 16 32 8
Standard_NC64as_T4_v3 64 440 100 64 32 8

NC_A100 w wersji 4

Maszyny wirtualne z serii NC_A100 są obsługiwane przez procesory GPU NVIDIA Ampere A100, następcę procesorów GPU Tesla V100. Możesz skorzystać z tych zaktualizowanych procesorów GPU dla tradycyjnych obciążeń HPC, takich jak modelowanie zbiorników, sekwencjonowanie DNA, analiza białek, symulacje Monte Carlo i inne.

Rozmiar Procesor wirtualny Pamięć: GiB Magazyn tymczasowy (GiB) Maks. liczba dysków danych Procesor GPU GiB pamięci procesora GPU Maksymalna liczba kart sieciowych
Standard_NC24ads_A100_v4 24 220 1123 12 1 80 2
Standard_NC48ads_A100_v4 48 440 2246 24 2 160 100

NC_L40S w wersji 4

Rozmiar Procesor wirtualny Pamięć: GiB Magazyn tymczasowy (GiB) Maks. liczba dysków danych Procesor GPU GiB pamięci procesora GPU Maksymalna liczba kart sieciowych
Standard_NC24ads_L40S_v4 24 220 1123 8 1 80 2
Standard_NC48ads_L40S_v4 48 440 2246 16 2 160 100

Zagadnienia dotyczące systemu procesora GPU

  • Procesor GPU musi być jednym z następujących jednostek SKU: AMD MI-25, Nvidia V100 (i warianty), Nvidia T4.
  • Liczba obsługiwanych procesorów GPU na serwer (1, 2, 3, 4). Preferowane są: 1, 2 i 4.
  • Wszystkie procesory GPU muszą mieć dokładnie taką samą jednostkę SKU w całej jednostce skalowania.
  • Wszystkie ilości procesora GPU na serwer muszą być takie same w całej jednostce skalowania.
  • Rozmiar partycji procesora GPU (dla rozwiązania AMD Mi25) musi być taki sam na wszystkich maszynach wirtualnych procesora GPU w jednostce skalowania.

Planowanie zdolności produkcyjnych

Planista pojemności usługi Azure Stack Hub został zaktualizowany w celu obsługi konfiguracji procesora GPU. Jest dostępny tutaj.

Dodawanie procesorów GPU w istniejącej usłudze Azure Stack Hub

Usługa Azure Stack Hub obsługuje teraz dodawanie procesorów GPU do dowolnego istniejącego systemu. Aby dodać procesor GPU, uruchom polecenie , uruchom stop-azurestackprocedurę stop-azurestack, dodaj procesory GPU, a następnie uruchom start-azurestack polecenie aż do ukończenia. Jeśli system miał już procesory GPU, należy ponownie uruchomić wszystkie wcześniej utworzone maszyny stop-deallocated wirtualne procesora GPU.

Stosowanie poprawek i aktualizacji, zachowanie jednostki FRU maszyn wirtualnych

Maszyny wirtualne procesora GPU przechodzą przestoje podczas operacji, takich jak stosowanie poprawek i aktualizacji (PnU) oraz wymiana sprzętu (FRU) usługi Azure Stack Hub. W poniższej tabeli opisano stan maszyny wirtualnej obserwowany podczas tych działań oraz akcję ręczną, którą można wykonać, aby te maszyny wirtualne były dostępne po wykonaniu operacji.

Operacja PnU — pełna aktualizacja, aktualizacja producenta OEM FRU
Stan maszyny wirtualnej Niedostępne podczas aktualizacji. Można udostępnić za pomocą operacji ręcznej. Maszyna wirtualna jest automatycznie aktualizowana po aktualizacji online. Niedostępne podczas fru. Można udostępnić za pomocą operacji ręcznej. Maszyna wirtualna musi zostać przywrócona po frU
Operacja ręczna Jeśli maszyna wirtualna musi zostać udostępniona podczas aktualizacji, jeśli są dostępne partycje procesora GPU, maszynę wirtualną można ponownie uruchomić w portalu, klikając przycisk Uruchom ponownie . Maszyna wirtualna automatycznie wraca po aktualizacji. Maszyna wirtualna nie jest dostępna podczas trwania usługi FRU. Jeśli są dostępne procesory GPU, maszyna wirtualna może zostać cofnięto przydział i została ponownie uruchomiona podczas jednostki FRU. Po ukończeniu jednostki FRU maszyna wirtualna musi używać stop-deallocated przycisku Zatrzymaj , a następnie ponownie uruchomić przy użyciu przycisku Uruchom .

Instalacja sterownika gościa

Następujące polecenia cmdlet programu PowerShell mogą służyć do instalacji sterownika:

$VmName = <VM Name In Portal>
$ResourceGroupName = <Resource Group of VM>
$Location = "redmond"
$driverName = <Give a name to the driver>
$driverPublisher = "Microsoft.HpcCompute"
$driverType = <Specify Driver Type> #GPU Driver Types: "NvidiaGpuDriverWindows"; "NvidiaGpuDriverLinux"; "AmdGpuDriverWindows"
$driverVersion = <Specify Driver Version> #Nvidia Driver Version:"1.3"; AMD Driver Version:"1.0"

Set-AzureRmVMExtension  -Location $Location `
                            -Publisher $driverPublisher `
                            -ExtensionType $driverType `
                            -TypeHandlerVersion $driverVersion `
                            -VMName $VmName `
                            -ResourceGroupName $ResourceGroupName `
                            -Name $driverName `
                            -Settings $Settings ` # If no settings are set, omit this parameter
                            -Verbose

W zależności od systemu operacyjnego typ i łączność maszyny wirtualnej z procesorem GPU usługi Azure Stack Hub należy zastąpić te wartości ustawieniami poniżej.

AMD MI25

Wersja sterownika gościa musi być zgodna z wersją usługi Azure Stack Hub, niezależnie od stanu łączności. Korzystanie z nowszych wersji, które nie są zgodne z wersją usługi Azure Stack Hub, może powodować problemy z użytecznością.

Wersja usługi Azure Stack Hub Sterownik gościa AMD
2206 i nowsze 21.Q2-1, 20.Q4-1
2108 21.Q2-1, 20.Q4-1
2102 21.Q2-1, 20.Q4-1

Połączono

Użyj skryptu programu PowerShell w poprzedniej sekcji z odpowiednim typem sterownika dla firmy AMD. Artykuł Instalowanie sterowników procesorów GPU AMD na maszynach wirtualnych serii N z systemem Windows zawiera instrukcje dotyczące instalowania sterownika dla sterownika AMD Firmy Amd Firmy Amd Instinct MI25 na maszynie wirtualnej z włączoną obsługą procesora GPU NVv4 oraz instrukcje dotyczące sposobu weryfikowania instalacji sterownika.

Odłączony

Ponieważ rozszerzenie ściąga sterownik z lokalizacji w Internecie, maszyna wirtualna odłączona od sieci zewnętrznej nie może uzyskać do niego dostępu. Sterownik można pobrać z poprzedniej tabeli i przekazać do konta magazynu w sieci lokalnej, która jest dostępna dla maszyny wirtualnej.

Dodaj sterownik AMD do konta magazynu i określ adres URL tego konta w pliku Settings. Te ustawienia muszą być używane w poleceniu cmdlet Set-AzureRMVMExtension . Na przykład:

$Settings = @{
"DriverURL" = <URL to driver in storage account>
}

NVIDIA

Sterowniki NVIDIA muszą być zainstalowane wewnątrz maszyny wirtualnej dla obciążeń CUDA lub GRID przy użyciu procesora GPU.

Przypadek użycia: grafika/wizualizacja GRID

Ten scenariusz wymaga użycia sterowników GRID. Sterowniki GRID można pobrać za pośrednictwem usługi NVIDIA Application Hub, pod warunkiem, że masz wymagane licencje. Sterowniki GRID wymagają również serwera licencji GRID z odpowiednimi licencjami GRID przed użyciem sterowników GRID na maszynie wirtualnej.

$Settings = @{
"DriverURL" = "https://download.microsoft.com/download/e/8/2/e8257939-a439-4da8-a927-b64b63743db1/431.79_grid_win10_server2016_server2019_64bit_international.exe"; "DriverCertificateUrl" = "https://go.microsoft.com/fwlink/?linkid=871664"; 
"DriverType"="GRID"
}

Przypadek użycia: obliczenia/CUDA — połączone

Sterowniki CUDA nie potrzebują serwera licencji i nie wymagają zmodyfikowanych ustawień.

Przypadek użycia: obliczenia/CUDA — rozłączone

Linki do sterowników NVIDIA CUDA można uzyskać za pomocą linku: https://raw.githubusercontent.com/Azure/azhpc-extensions/master/NvidiaGPU/resources.json

Windows:

$Settings = @{
"DriverURL" = "";
"DriverCertificateUrl" = "https://go.microsoft.com/fwlink/?linkid=871664"; 
"DriverType"="CUDA"
}

Linux:

Musisz odwołać się do niektórych adresów URL ustawień:

URL Uwagi
PUBKEY_URL PUBKEY_URL jest kluczem publicznym dla repozytorium sterowników firmy Nvidia, a nie dla maszyny wirtualnej z systemem Linux. Służy do instalowania sterownika dla systemu Ubuntu.
DRIVER_URL DRIVER_URL to adres URL pobierania informacji o repozytorium sterownika firmy Nvidia i jest dodawany do listy repozytoriów maszyny wirtualnej z systemem Linux.

Dodaj adresy URL do ustawień.

$Settings=@{
"isCustomInstall"=$true;
"DRIVER_URL"="https://go.microsoft.com/fwlink/?linkid=874273";
"CUDA_ver"="10.0.130";
"PUBKEY_URL"="http://download.microsoft.com/download/F/F/A/FFAC979D-AD9C-4684-A6CE-C92BB9372A3B/7fa2af80.pub";
"DKMS_URL"="https://dl.fedoraproject.org/pub/epel/epel-release-latest-7.noarch.rpm";
"LIS_URL"="https://aka.ms/lis";
"LIS_RHEL_ver"="3.10.0-1062.9.1.el7"
}

Następne kroki