Udostępnij za pośrednictwem


Instalowanie sterowników procesora GPU FIRMY NVIDIA na maszynach wirtualnych serii N z systemem Windows

Dotyczy: ✔️ Maszyny wirtualne z systemem Linux Maszyny wirtualne z systemem Windows — elastyczne zestawy ✔️ ✔️ skalowania

Aby korzystać z możliwości procesora GPU maszyn wirtualnych serii N platformy Azure wspieranych przez procesory GPU FIRMY NVIDIA, należy zainstalować sterowniki procesora GPU FIRMY NVIDIA. Rozszerzenie sterownika procesora GPU firmy NVIDIA instaluje odpowiednie sterowniki NVIDIA CUDA lub GRID na maszynie wirtualnej serii N. Zainstaluj rozszerzenie lub zarządzaj nim przy użyciu witryny Azure Portal lub narzędzi, takich jak program Azure PowerShell lub szablony usługi Azure Resource Manager. Zapoznaj się z dokumentacją rozszerzenia sterownika procesora GPU firmy NVIDIA, aby zapoznać się z obsługiwanymi systemami operacyjnymi i krokami wdrażania.

Jeśli zdecydujesz się ręcznie zainstalować sterowniki procesora GPU firmy NVIDIA, ten artykuł zawiera obsługiwane systemy operacyjne, sterowniki i kroki instalacji i weryfikacji. Informacje o ręcznym konfigurowaniu sterowników są również dostępne dla maszyn wirtualnych z systemem Linux.

Aby uzyskać podstawowe specyfikacje, pojemności magazynu i szczegóły dysku, zobacz Rozmiary maszyn wirtualnych z systemem Windows z procesorem GPU.

Obsługiwane systemy operacyjne i sterowniki

Sterowniki NVIDIA Tesla (CUDA)

Uwaga

Maszyny wirtualne azure NVads A10 v5 obsługują tylko wersję sterownika vGPU 14.1(510.73) lub nowszą. Sterownik vGPU dla jednostki SKU A10 to ujednolicony sterownik obsługujący zarówno obciążenia graficzne, jak i obliczeniowe.

Sterowniki NVIDIA Tesla (CUDA) dla wszystkich maszyn wirtualnych z serii NC* i ND (opcjonalnie dla serii NV) są ogólne, a nie specyficzne dla platformy Azure. Aby uzyskać najnowsze sterowniki, odwiedź witrynę internetową firmy NVIDIA.

Napiwek

Alternatywą dla ręcznej instalacji sterownika CUDA na maszynie wirtualnej z systemem Windows Server można wdrożyć obraz maszyny wirtualnej platformy Azure Nauka o danych. Wersje DSVM dla systemu Windows Server 2016 wstępnie zainstalują sterowniki NVIDIA CUDA, bibliotekę sieci neuronowej CUDA CUDA i inne narzędzia.

Sterowniki NVIDIA GRID/vGPU

Uwaga

W przypadku maszyn wirtualnych azure NVads A10 v5 zalecamy klientom, aby zawsze używali najnowszej wersji sterownika. Najnowsza główna gałąź sterownika NVIDIA (n) jest tylko zgodność wsteczna z poprzednią główną gałęzią (n-1). Na przykład procesor vGPU 17.x jest zgodny z poprzednimi wersjami z procesorem vGPU 16.x. Wszystkie maszyny wirtualne nadal działają n-2 lub niższe mogą powodować błędy sterowników, gdy najnowsza gałąź dysku jest wdrażana na hostach platformy Azure.

NVs_v3 maszyny wirtualne obsługują tylko wersję sterownika vGPU 16 lub mniejszą .

Obsługa systemu Windows Server 2016 zniknie z wersji vGPU 17.x.

Firma Microsoft redystrybuuje instalatory sterowników NVIDIA GRID dla urządzeń NV, NVv3 i NVads A10 z serii V5 używanych jako wirtualne stacje robocze lub aplikacje wirtualne. Zainstaluj tylko te sterowniki GRID na maszynach wirtualnych serii NV platformy Azure, tylko w systemach operacyjnych wymienionych w poniższej tabeli. Sterowniki te obejmują licencjonowanie oprogramowania wirtualnego procesora GPU GRID na platformie Azure. Nie musisz konfigurować serwera licencji oprogramowania NVIDIA vGPU.

Sterowniki GRID dystrybuowane przez platformę Azure nie działają na maszynach wirtualnych serii innych niż NV, takich jak NCv2, NCv3, ND i NDv2 serii. Jednym wyjątkiem jest seria maszyn wirtualnych NCas_T4_V3, w której sterowniki GRID umożliwiają działanie grafiki podobne do serii NV.

Rozszerzenie Firmy Nvidia zawsze instaluje najnowszy sterownik.

W przypadku systemu Windows 11 do 23H2, Windows 10 do 22H2, Server 2019/2022:

Poniższe linki do poprzednich wersji są udostępniane w celu obsługi zależności od starszych wersji sterowników.

W systemie Windows Server 2016 1607, 1709:

  • GRID 14.1 (512.78) (.exe) to ostatni obsługiwany sterownik firmy NVIDIA. Nowsze wersje 15.x i nowsze nie obsługują systemu Windows Server 2016.

W systemie Windows Server 2012 R2:

Uwaga

Proces instalatora vGPU 15.1/15.2 wykonuje dodatkowe zdalne wywołanie ngx.download.nvidia.com. Jest to nieoczekiwana zmiana zachowania i firma NVIDIA wyłączy tę funkcję domyślnie, począwszy od wersji vGPU 15.3 lub nowszej. W międzyczasie zaktualizuj następujący klucz rejestru przed zainstalowaniem sterownika vGPU 15.1/15.2.

Aby wyłączyć zdalne wywołanie ngx.

[HKEY_LOCAL_MACHINE\SOFTWARE\NVIDIA Corporation\Global\NGXCore]

"EnableOTA"=dword:00000000

Aby ponownie włączyć zdalne wywołanie, zmień ustawienie na 1 lub po prostu usuń klucz rejestru.

Aby uzyskać linki do wszystkich poprzednich wersji sterowników nvidia GRID, odwiedź witrynę GitHub.

Instalacja sterownika

  1. Nawiąż połączenie za pomocą pulpitu zdalnego z każdą maszyną wirtualną serii N.

  2. Pobierz, wyodrębnij i zainstaluj obsługiwany sterownik dla systemu operacyjnego Windows.

Po zainstalowaniu sterownika GRID na maszynie wirtualnej wymagane jest ponowne uruchomienie. Po zainstalowaniu sterownika CUDA ponowne uruchomienie nie jest wymagane.

Weryfikowanie instalacji sterownika

Należy pamiętać, że panel sterowania firmy Nvidia jest dostępny tylko z instalacją sterownika GRID. Jeśli zainstalowano sterowniki CUDA, panel sterowania firmy Nvidia nie będzie widoczny.

Możesz zweryfikować instalację sterownika w Menedżer urządzeń. W poniższym przykładzie pokazano pomyślną konfigurację karty Tesla K80 na maszynie wirtualnej kontrolera domeny platformy Azure.

Właściwości sterownika procesora GPU

Aby wykonać zapytanie dotyczące stanu urządzenia z procesorem GPU, uruchom narzędzie wiersza polecenia nvidia-smi zainstalowane ze sterownikiem.

  1. Otwórz wiersz polecenia i przejdź do katalogu C:\Program Files\NVIDIA Corporation\NVSMI .

  2. Uruchom program nvidia-smi. Jeśli sterownik jest zainstalowany, zostaną wyświetlone dane wyjściowe podobne do poniższych. Narzędzie GPU-Util pokazuje 0% , chyba że obecnie uruchomiono obciążenie procesora GPU na maszynie wirtualnej. Wersja sterownika i szczegóły procesora GPU mogą różnić się od wyświetlanych.

Stan urządzenia NVIDIA

Łączność sieciowa RDMA

Łączność sieciowa RDMA można włączyć na maszynach wirtualnych serii N z obsługą rdMA, takich jak NC24r wdrożonych w tym samym zestawie dostępności lub w jednej grupie umieszczania w zestawie skalowania maszyn wirtualnych. Rozszerzenie HpcVmDrivers należy dodać w celu zainstalowania sterowników urządzeń sieciowych z systemem Windows, które umożliwiają łączność RDMA. Aby dodać rozszerzenie maszyny wirtualnej do maszyny wirtualnej serii N z włączoną funkcją RDMA, użyj poleceń cmdlet programu Azure PowerShell dla usługi Azure Resource Manager.

Aby zainstalować najnowsze rozszerzenie HpcVMDrivers w wersji 1.1 na istniejącej maszynie wirtualnej z funkcją RDMA o nazwie myVM w regionie Zachodnie stany USA:

Set-AzVMExtension -ResourceGroupName "myResourceGroup" -Location "westus" -VMName "myVM" -ExtensionName "HpcVmDrivers" -Publisher "Microsoft.HpcCompute" -Type "HpcVmDrivers" -TypeHandlerVersion "1.1"

Aby uzyskać więcej informacji, zobacz Virtual machine extensions and features for Windows (Rozszerzenia i funkcje maszyny wirtualnej dla systemu Windows).

Sieć RDMA obsługuje ruch interfejsu MPI (Message Passing Interface) dla aplikacji działających z programem Microsoft MPI lub Intel MPI 5.x.

Następne kroki

  • Deweloperzy tworzący aplikacje przyspieszone przez procesor GPU firmy NVIDIA Tesla mogą również pobrać i zainstalować najnowszy zestaw narzędzi CUDA Toolkit. Aby uzyskać więcej informacji, zobacz Przewodnik instalacji CUDA.