Udostępnij za pośrednictwem


Instalowanie sterowników procesora GPU FIRMY NVIDIA na maszynach wirtualnych serii N z systemem Windows

Dotyczy: ✔️ Maszyny wirtualne z systemem Linux ✔️ Maszyny wirtualne z systemem Windows ✔️ Elastyczne zestawy skalowania

Aby korzystać z możliwości procesora GPU maszyn wirtualnych serii N platformy Azure wspieranych przez procesory GPU FIRMY NVIDIA, należy zainstalować sterowniki procesora GPU FIRMY NVIDIA. Rozszerzenie sterownika procesora GPU firmy NVIDIA instaluje odpowiednie sterowniki NVIDIA CUDA lub GRID na maszynie wirtualnej serii N. Zainstaluj lub zarządzaj rozszerzeniem za pomocą portalu Azure lub narzędzi takich jak Azure PowerShell czy szablony Azure Resource Manager. Zapoznaj się z dokumentacją rozszerzenia sterownika procesora GPU firmy NVIDIA , aby zapoznać się z obsługiwanymi systemami operacyjnymi i krokami wdrażania.

Jeśli zdecydujesz się ręcznie zainstalować sterowniki procesora GPU firmy NVIDIA, ten artykuł zawiera obsługiwane systemy operacyjne, sterowniki i kroki instalacji i weryfikacji. Informacje o ręcznym konfigurowaniu sterowników są również dostępne dla maszyn wirtualnych z systemem Linux.

Aby zapoznać się z podstawowymi specyfikacjami, pojemnościami pamięci i szczegółami dysku, zobacz Rozmiary GPU dla maszyn wirtualnych z systemem Windows.

Obsługiwane systemy operacyjne i sterowniki

Sterowniki NVIDIA Tesla (CUDA)

Uwaga / Notatka

Maszyny wirtualne azure NVads A10 v5 obsługują tylko wersję sterownika vGPU 16.x(536.25) lub nowszą. Sterownik vGPU dla jednostki SKU A10 to ujednolicony sterownik obsługujący zarówno obciążenia graficzne, jak i obliczeniowe.

Sterowniki NVIDIA Tesla (CUDA) dla wszystkich maszyn wirtualnych z serii NC* i ND (opcjonalnie dla serii NV) są ogólne, a nie specyficzne dla platformy Azure. Najnowsze sterowniki można znaleźć w witrynie internetowej firmy NVIDIA .

Wskazówka

Proponowaną alternatywą dla ręcznej instalacji sterownika CUDA na maszynie wirtualnej z systemem Windows Server jest wdrożenie obrazu Azure Data Science Virtual Machine. Wersje DSVM dla systemu Windows Server 2016 mają wstępnie zainstalowane sterowniki NVIDIA CUDA, bibliotekę głębokich sieci neuronowych CUDA oraz inne narzędzia.

Sterowniki NVIDIA GRID/vGPU

Uwaga / Notatka

VGPU18 jest dostępny dla serii NCasT4_v3. Udostępnimy aktualizację po udostępnieniu wersji vGPU18 dla serii NVadsA10_v5.

Uwaga / Notatka

W przypadku maszyn wirtualnych azure NVads A10 v5 zalecamy klientom, aby zawsze używali najnowszej wersji sterownika. Najnowsza główna gałąź sterownika NVIDIA (n) jest tylko zgodność wsteczna z poprzednią główną gałęzią (n-1). Na przykład procesor vGPU 17.x jest zgodny z poprzednimi wersjami z procesorem vGPU 16.x. Wszystkie maszyny wirtualne nadal działają n-2 lub niższe mogą powodować błędy sterowników, gdy najnowsza gałąź dysku jest wdrażana na hostach platformy Azure.

NVs_v3 maszyny wirtualne obsługują tylko wersję sterownika vGPU 16 lub mniejszą .

Obsługa systemu Windows Server 2019 jest dostępna tylko do wersji vGPU 16.x.

Firma Microsoft redystrybuuje instalatory sterowników NVIDIA GRID dla urządzeń NV, NVv3 i NVads A10 z serii V5 używanych jako wirtualne stacje robocze lub aplikacje wirtualne. Zainstaluj tylko te sterowniki GRID na maszynach wirtualnych serii NV platformy Azure, tylko w systemach operacyjnych wymienionych w poniższej tabeli. Sterowniki te obejmują licencjonowanie oprogramowania wirtualnego procesora GPU GRID na platformie Azure. Nie musisz konfigurować serwera licencji oprogramowania NVIDIA vGPU.

Sterowniki GRID dystrybuowane przez platformę Azure nie działają na maszynach wirtualnych serii innych niż NV, takich jak NCv2, NCv3, ND i NDv2 serii. Jednym wyjątkiem jest seria maszyn wirtualnych NCas_T4_V3, w której sterowniki GRID umożliwiają działanie grafiki podobne do serii NV.

Rozszerzenie Nvidia zawsze instaluje najnowszy sterownik.

W przypadku systemu Windows 11 do 24H2, Windows 10 do 22H2, Server 2022:

Poniższe linki do poprzednich wersji są udostępniane w celu obsługi zależności od starszych wersji sterowników.

W systemie Windows Server 2016 1607, 1709:

  • GRID 14.1 (512.78) (.exe) to ostatni obsługiwany sterownik firmy NVIDIA. Nowsze wersje 15.x i nowsze nie obsługują systemu Windows Server 2016.

W systemie Windows Server 2012 R2:

Aby uzyskać linki do wszystkich poprzednich wersji sterowników nvidia GRID, odwiedź witrynę GitHub.

Instalacja sterownika

  1. Nawiąż połączenie za pomocą pulpitu zdalnego z każdą maszyną wirtualną serii N.

  2. Pobierz, wyodrębnij i zainstaluj obsługiwany sterownik dla systemu operacyjnego Windows.

Po zainstalowaniu sterownika GRID na maszynie wirtualnej wymagane jest ponowne uruchomienie. Po zainstalowaniu sterownika CUDA ponowne uruchomienie nie jest wymagane.

Sprawdź instalację sterowników

Należy pamiętać, że panel sterowania FIRMY NVIDIA jest dostępny tylko z instalacją sterownika GRID. Jeśli zainstalowano sterowniki CUDA, panel sterowania FIRMY NVIDIA nie będzie widoczny.

Możesz sprawdzić instalację sterownika w Menedżerze urządzeń. W poniższym przykładzie pokazano pomyślną konfigurację karty Tesla K80 na maszynie wirtualnej Azure NC.

Właściwości sterownika procesora GPU

Uwaga / Notatka

Jeśli korzystasz z systemu Windows 10 build 1903 lub nowszego, narzędzie dxdiag nie wyświetla żadnych informacji na karcie "Wyświetlanie". Użyj opcji "Zapisz wszystkie informacje" u dołu, a plik wyjściowy zawiera informacje związane z procesorem GPU firmy NVIDIA.

Aby wykonać zapytanie dotyczące stanu urządzenia z procesorem GPU, uruchom narzędzie wiersza polecenia nvidia-smi zainstalowane ze sterownikiem.

  1. Otwórz wiersz polecenia i przejdź do katalogu C:\Program Files\NVIDIA Corporation\NVSMI .

  2. Uruchom program nvidia-smi. Jeśli sterownik jest zainstalowany, zostaną wyświetlone dane wyjściowe podobne do poniższych. Procesor GPU-Util pokazuje 0% chyba że obecnie uruchomiono obciążenie GPU na maszynie wirtualnej. Wersja sterownika i szczegóły procesora GPU mogą różnić się od wyświetlanych.

Stan urządzenia NVIDIA

Łączność sieciowa RDMA

Łączność sieciową RDMA można włączyć w przypadku maszyn wirtualnych serii N z obsługą RDMA, takich jak NC24r, które są wdrożone w tym samym zestawie dostępności lub w jednej grupie umieszczania w zestawie skalowania maszyn wirtualnych. Rozszerzenie HpcVmDrivers należy dodać w celu zainstalowania sterowników urządzeń sieciowych z systemem Windows, które umożliwiają łączność RDMA. Aby dodać rozszerzenie maszyny wirtualnej do maszyny wirtualnej serii N z włączoną funkcją RDMA, użyj poleceń cmdlet programu Azure PowerShell dla usługi Azure Resource Manager.

Aby zainstalować najnowsze rozszerzenie HpcVMDrivers w wersji 1.1 na istniejącej maszynie wirtualnej z funkcją RDMA o nazwie myVM w regionie Zachodnie stany USA:

Set-AzVMExtension -ResourceGroupName "myResourceGroup" -Location "westus" -VMName "myVM" -ExtensionName "HpcVmDrivers" -Publisher "Microsoft.HpcCompute" -Type "HpcVmDrivers" -TypeHandlerVersion "1.1"

Aby uzyskać więcej informacji, zobacz Rozszerzenia i funkcje maszyny wirtualnej dla systemu Windows.

Sieć RDMA obsługuje ruch interfejsu MPI (Message Passing Interface) dla aplikacji działających z programem Microsoft MPI lub Intel MPI 5.x.

Dalsze kroki

  • Deweloperzy tworzący aplikacje przyspieszone przez procesor GPU firmy NVIDIA Tesla mogą również pobrać i zainstalować najnowszy zestaw narzędzi CUDA Toolkit. Aby uzyskać więcej informacji, zobacz Przewodnik instalacji CUDA.