Rozszerzenie sterownika procesora GPU firmy NVIDIA dla systemu Linux

Artykuł
08/25/2024

To rozszerzenie instaluje sterowniki procesora GPU FIRMY NVIDIA na maszynach wirtualnych z serii N systemu Linux. W zależności od rodziny maszyn wirtualnych rozszerzenie instaluje sterowniki CUDA lub GRID. Podczas instalowania sterowników FIRMY NVIDIA przy użyciu tego rozszerzenia akceptujesz warunki umowy licencyjnej użytkownika końcowego firmy NVIDIA i zgadzasz się na nie. Podczas procesu instalacji maszyna wirtualna może zostać ponownie uruchomiona, aby ukończyć konfigurację sterownika.

Dostępne są instrukcje dotyczące ręcznej instalacji sterowników i bieżących obsługiwanych wersji. Rozszerzenie jest również dostępne do instalowania sterowników procesora GPU FIRMY NVIDIA na maszynach wirtualnych z serii N systemu Windows.

Uwaga

Po włączeniu bezpiecznego rozruchu wszystkie składniki rozruchu systemu operacyjnego (moduł ładujący rozruchu, jądro, sterowniki jądra) muszą być podpisane przez zaufanych wydawców (klucz zaufany przez system). Bezpieczny rozruch nie jest obsługiwany przy użyciu rozszerzeń systemu Windows lub Linux. Aby uzyskać więcej informacji na temat ręcznego instalowania sterowników procesora GPU z włączonym bezpiecznym rozruchem, zobacz Konfiguracja sterownika procesora GPU serii N platformy Azure dla systemu Linux.

Uwaga

Rozszerzenia sterowników procesora GPU nie aktualizują automatycznie sterownika po zainstalowaniu rozszerzenia. Jeśli musisz przejść do nowszej wersji sterownika, pobierz ręcznie i zainstaluj sterownik lub usuń i ponownie dodaj rozszerzenie.

Wymagania wstępne

System operacyjny

To rozszerzenie obsługuje następujące dystrybucje systemu operacyjnego, w zależności od obsługi sterowników dla określonej wersji systemu operacyjnego:

Dystrybucja	Wersja
Linux Ubuntu:	20.04 LTS
Linux: Red Hat Enterprise Linux	7,9

Uwaga

Najnowsze obsługiwane sterowniki CUDA dla maszyn wirtualnych serii NC są obecnie 470.82.01. Nowsze wersje sterowników nie są obsługiwane na kartach K80 w nc. Chociaż rozszerzenie jest aktualizowane z tym końcem obsługi nc, zainstaluj sterowniki CUDA ręcznie dla kart K80 w serii NC.

Ważne

Ten dokument odwołuje się do wersji systemu Linux, która zbliża się lub znajduje się w końcu życia (EOL). Rozważ aktualizację do nowszej wersji.

Łączność z Internetem

Rozszerzenie platformy Microsoft Azure dla sterowników procesora GPU firmy NVIDIA wymaga, aby docelowa maszyna wirtualna została połączona z Internetem i ma dostęp.

Schemat rozszerzenia

Poniższy kod JSON przedstawia schemat rozszerzenia:

{
  "name": "<myExtensionName>",
  "type": "extensions",
  "apiVersion": "2015-06-15",
  "location": "<location>",
  "dependsOn": [
    "[concat('Microsoft.Compute/virtualMachines/', <myVM>)]"
  ],
  "properties": {
    "publisher": "Microsoft.HpcCompute",
    "type": "NvidiaGpuDriverLinux",
    "typeHandlerVersion": "1.6",
    "autoUpgradeMinorVersion": true,
    "settings": {
    }
  }
}

Właściwości

Nazwisko	Wartość/przykład	Typ danych
apiVersion	2015-06-15	data
wydawca	Microsoft.HpcCompute	string
type	NvidiaGpuDriverLinux	string
typeHandlerVersion	1.6	int

Ustawienia

Wszystkie ustawienia są opcjonalne. Domyślne zachowanie polega na tym, aby nie aktualizować jądra, jeśli nie jest to wymagane w przypadku instalacji sterownika i instalowania najnowszego obsługiwanego sterownika i zestawu narzędzi CUDA (zgodnie z potrzebami).

Nazwa/nazwisko	opis	Domyślna wartość	Prawidłowe wartości	Typ danych
updateOS	Zaktualizuj jądro, nawet jeśli nie jest wymagane do instalacji sterownika.	fałsz	wartość true, false	boolean
driverVersion	NV: wersja sterownika GRID. NC/ND: wersja zestawu narzędzi CUDA. Najnowsze sterowniki dla wybranej funkcji CUDA są instalowane automatycznie.	latest	Lista obsługiwanych wersji sterowników	string
installCUDA	Zainstaluj zestaw narzędzi CUDA. Dotyczy tylko maszyn wirtualnych serii NC/ND.	prawda	wartość true, false	boolean

Wdrożenie

Azure Portal

Rozszerzenia maszyn wirtualnych nvidia platformy Azure można wdrożyć w witrynie Azure Portal.

Otwórz portal Azure w przeglądarce.
Przejdź do maszyny wirtualnej, na której chcesz zainstalować sterownik.
W menu po lewej stronie wybierz pozycję Rozszerzenia.
Wybierz Dodaj.
Przewiń, aby znaleźć i wybrać rozszerzenie sterownika procesora GPU FIRMY NVIDIA, a następnie wybierz przycisk Dalej.
Wybierz pozycję Przejrzyj i utwórz, a następnie wybierz pozycję Utwórz. Poczekaj kilka minut na wdrożenie sterownika.
Sprawdź, czy rozszerzenie zostało dodane do listy zainstalowanych rozszerzeń.

Szablon usługi Azure Resource Manager

Szablony usługi Azure Resource Manager umożliwiają wdrażanie rozszerzeń maszyn wirtualnych platformy Azure. Szablony są idealne podczas wdrażania co najmniej jednej maszyny wirtualnej wymagającej konfiguracji po wdrożeniu.

Konfiguracja JSON rozszerzenia maszyny wirtualnej może być zagnieżdżona wewnątrz zasobu maszyny wirtualnej lub umieszczona na poziomie głównym lub najwyższym szablonu JSON usługi Resource Manager. Umieszczanie konfiguracji JSON wpływa na wartość nazwy i typu zasobu. Aby uzyskać więcej informacji, zobacz Ustawianie nazwy i typu dla zasobów podrzędnych.

W poniższym przykładzie założono, że rozszerzenie jest zagnieżdżone wewnątrz zasobu maszyny wirtualnej. Po zagnieżdżeniu zasobu rozszerzenia kod JSON jest umieszczany w "resources": [] obiekcie maszyny wirtualnej.

{
  "name": "myExtensionName",
  "type": "extensions",
  "location": "[resourceGroup().location]",
  "apiVersion": "2015-06-15",
  "dependsOn": [
    "[concat('Microsoft.Compute/virtualMachines/', myVM)]"
  ],
  "properties": {
    "publisher": "Microsoft.HpcCompute",
    "type": "NvidiaGpuDriverLinux",
    "typeHandlerVersion": "1.6",
    "autoUpgradeMinorVersion": true,
    "settings": {
    }
  }
}

Program PowerShell

Set-AzVMExtension
    -ResourceGroupName "myResourceGroup" `
    -VMName "myVM" `
    -Location "southcentralus" `
    -Publisher "Microsoft.HpcCompute" `
    -ExtensionName "NvidiaGpuDriverLinux" `
    -ExtensionType "NvidiaGpuDriverLinux" `
    -TypeHandlerVersion 1.6 `
    -SettingString '{ `
	}'

Interfejs wiersza polecenia platformy Azure

Poniższy przykład odzwierciedla powyższe przykłady usługi Resource Manager i programu PowerShell:

az vm extension set \
  --resource-group myResourceGroup \
  --vm-name myVM \
  --name NvidiaGpuDriverLinux \
  --publisher Microsoft.HpcCompute \
  --version 1.6

W poniższym przykładzie dodano również dwa opcjonalne ustawienia niestandardowe jako przykład instalacji niezdefaultowego sterownika. W szczególności aktualizuje jądro systemu operacyjnego do najnowszej wersji i instaluje określony sterownik wersji zestawu narzędzi CUDA. Ponownie zwróć uwagę, że --settings wartości są opcjonalne i domyślne. Aktualizowanie jądra może zwiększyć czas instalacji rozszerzenia. Ponadto wybranie określonej (starszej) wersji zestawu narzędzi CUDA może nie zawsze być zgodne z nowszymi jądrami.

az vm extension set \
  --resource-group myResourceGroup \
  --vm-name myVM \
  --name NvidiaGpuDriverLinux \
  --publisher Microsoft.HpcCompute \
  --version 1.6 \
  --settings '{ \
    "updateOS": true, \
    "driverVersion": "10.0.130" \
  }'

Rozwiązywanie problemów i pomoc techniczna

Rozwiązywanie problemów

Dane dotyczące stanu wdrożeń rozszerzeń można pobrać z witryny Azure Portal i przy użyciu programu Azure PowerShell i interfejsu wiersza polecenia platformy Azure. Aby wyświetlić stan wdrożenia rozszerzeń dla danej maszyny wirtualnej, uruchom następujące polecenie:

Get-AzVMExtension -ResourceGroupName myResourceGroup -VMName myVM -Name myExtensionName

az vm extension list --resource-group myResourceGroup --vm-name myVM -o table

Dane wyjściowe wykonywania rozszerzenia są rejestrowane w następującym pliku. Zapoznaj się z tym plikiem, aby śledzić stan każdej długotrwałej instalacji i rozwiązać problemy z błędami.

/var/log/azure/nvidia-vmext-status

Kody zakończenia

Kod zakończenia	Znaczenie	Możliwe działanie
0	Operacja powiodła się
1	Nieprawidłowe użycie rozszerzenia	Sprawdź dziennik danych wyjściowych wykonywania.
10	Usługi integracji z systemem Linux dla funkcji Hyper-V i platformy Azure są niedostępne lub zainstalowane	Sprawdź dane wyjściowe lspci.
11	Nie można odnaleźć procesora GPU firmy NVIDIA w tym rozmiarze maszyny wirtualnej	Użyj obsługiwanego rozmiaru maszyny wirtualnej i systemu operacyjnego.
12	Oferta obrazu nie jest obsługiwana
13	Rozmiar maszyny wirtualnej nie jest obsługiwany	Do wdrożenia użyj maszyny wirtualnej serii N.
14	Operacja nie powiodła się	Sprawdź dziennik danych wyjściowych wykonywania.

Pomoc techniczna

Jeśli potrzebujesz więcej pomocy w dowolnym momencie tego artykułu, skontaktuj się z ekspertami platformy Azure na forach MSDN Azure i Stack Overflow. Alternatywnie możesz zgłosić zdarzenie pomoc techniczna platformy Azure. Przejdź do pomoc techniczna platformy Azure i wybierz pozycję Uzyskaj pomoc techniczną. Aby uzyskać informacje na temat korzystania z pomoc techniczna platformy Azure, przeczytaj często zadawane pytania dotyczące pomoc techniczna platformy Azure.

Następne kroki

Aby uzyskać więcej informacji na temat rozszerzeń, zobacz Rozszerzenia i funkcje maszyny wirtualnej dla systemu Linux.
Aby uzyskać więcej informacji na temat maszyn wirtualnych serii N, zobacz Rozmiary maszyn wirtualnych zoptymalizowanych pod kątem procesora GPU.

Udostępnij za pośrednictwem

Rozszerzenie sterownika procesora GPU firmy NVIDIA dla systemu Linux

Wymagania wstępne

System operacyjny

Łączność z Internetem

Schemat rozszerzenia

Właściwości

Ustawienia

Wdrożenie

Azure Portal

Szablon usługi Azure Resource Manager

Program PowerShell

Interfejs wiersza polecenia platformy Azure

Rozwiązywanie problemów i pomoc techniczna

Rozwiązywanie problemów

Kody zakończenia

Pomoc techniczna

Następne kroki

Opinia

Dodatkowe zasoby