Rozszerzenie sterownika procesora GPU firmy NVIDIA dla systemu Linux

Uwaga

W tym artykule odwołuje się do systemu CentOS — dystrybucji systemu Linux, która zbliża się do stanu zakończenia życia (EOL). Rozważ odpowiednie użycie i zaplanuj. Aby uzyskać więcej informacji, zobacz wskazówki dotyczące zakończenia życia systemu CentOS.

To rozszerzenie instaluje sterowniki procesora GPU FIRMY NVIDIA na maszynach wirtualnych z serii N systemu Linux. W zależności od rodziny maszyn wirtualnych rozszerzenie instaluje sterowniki CUDA lub GRID. Podczas instalowania sterowników FIRMY NVIDIA przy użyciu tego rozszerzenia akceptujesz warunki umowy licencyjnej użytkownika końcowego firmy NVIDIA i zgadzasz się na nie. Podczas procesu instalacji maszyna wirtualna może zostać ponownie uruchomiona, aby ukończyć konfigurację sterownika.

Dostępne są instrukcje dotyczące ręcznej instalacji sterowników i bieżących obsługiwanych wersji. Rozszerzenie jest również dostępne do instalowania sterowników procesora GPU FIRMY NVIDIA na maszynach wirtualnych z serii N systemu Windows.

Uwaga

Po włączeniu bezpiecznego rozruchu wszystkie składniki rozruchu systemu operacyjnego (moduł ładujący rozruchu, jądro, sterowniki jądra) muszą być podpisane przez zaufanych wydawców (klucz zaufany przez system). Bezpieczny rozruch nie jest obsługiwany przy użyciu rozszerzeń systemu Windows lub Linux. Aby uzyskać więcej informacji na temat ręcznego instalowania sterowników procesora GPU z włączonym bezpiecznym rozruchem, zobacz Konfiguracja sterownika procesora GPU serii N platformy Azure dla systemu Linux.

Uwaga

Rozszerzenia sterowników procesora GPU nie aktualizują automatycznie sterownika po zainstalowaniu rozszerzenia. Jeśli musisz przejść do nowszej wersji sterownika, pobierz ręcznie i zainstaluj sterownik lub usuń i ponownie dodaj rozszerzenie.

Wymagania wstępne

System operacyjny

To rozszerzenie obsługuje następujące dystrybucje systemu operacyjnego, w zależności od obsługi sterowników dla określonej wersji systemu operacyjnego:

Dystrybucja Wersja
Linux Ubuntu: 20.04 LTS
Linux: Red Hat Enterprise Linux 7,9
Linux: CentOS 7

Uwaga

Najnowsze obsługiwane sterowniki CUDA dla maszyn wirtualnych serii NC są obecnie 470.82.01. Nowsze wersje sterowników nie są obsługiwane na kartach K80 w nc. Chociaż rozszerzenie jest aktualizowane z tym końcem obsługi nc, zainstaluj sterowniki CUDA ręcznie dla kart K80 w serii NC.

Ważne

Ten dokument odwołuje się do wersji systemu Linux, która zbliża się lub znajduje się w końcu życia (EOL). Rozważ aktualizację do nowszej wersji.

Łączność z Internetem

Rozszerzenie platformy Microsoft Azure dla sterowników procesora GPU firmy NVIDIA wymaga, aby docelowa maszyna wirtualna została połączona z Internetem i ma dostęp.

Schemat rozszerzenia

Poniższy kod JSON przedstawia schemat rozszerzenia:

{
  "name": "<myExtensionName>",
  "type": "extensions",
  "apiVersion": "2015-06-15",
  "location": "<location>",
  "dependsOn": [
    "[concat('Microsoft.Compute/virtualMachines/', <myVM>)]"
  ],
  "properties": {
    "publisher": "Microsoft.HpcCompute",
    "type": "NvidiaGpuDriverLinux",
    "typeHandlerVersion": "1.6",
    "autoUpgradeMinorVersion": true,
    "settings": {
    }
  }
}

Właściwości

Nazwisko Wartość/przykład Typ danych
apiVersion 2015-06-15 data
Wydawca Microsoft.HpcCompute string
type NvidiaGpuDriverLinux string
typeHandlerVersion 1.6 int

Ustawienia

Wszystkie ustawienia są opcjonalne. Domyślne zachowanie polega na tym, aby nie aktualizować jądra, jeśli nie jest to wymagane w przypadku instalacji sterownika i instalowania najnowszego obsługiwanego sterownika i zestawu narzędzi CUDA (zgodnie z potrzebami).

Nazwa/nazwisko opis Domyślna wartość Prawidłowe wartości Typ danych
updateOS Zaktualizuj jądro, nawet jeśli nie jest wymagane do instalacji sterownika. fałsz wartość true, false boolean
driverVersion NV: wersja sterownika GRID.
NC/ND: wersja zestawu narzędzi CUDA. Najnowsze sterowniki dla wybranej funkcji CUDA są instalowane automatycznie.
latest Lista obsługiwanych wersji sterowników string
installCUDA Zainstaluj zestaw narzędzi CUDA. Dotyczy tylko maszyn wirtualnych serii NC/ND. prawda wartość true, false boolean

Wdrożenie

Azure Portal

Rozszerzenia maszyn wirtualnych nvidia platformy Azure można wdrożyć w witrynie Azure Portal.

  1. Otwórz portal Azure w przeglądarce.

  2. Przejdź do maszyny wirtualnej, na której chcesz zainstalować sterownik.

  3. W menu po lewej stronie wybierz pozycję Rozszerzenia.

    Zrzut ekranu przedstawiający wybieranie pozycji Rozszerzenia w menu witryny Azure Portal.

  4. Wybierz Dodaj.

    Zrzut ekranu przedstawiający dodawanie rozszerzenia V M dla wybranej maszyny wirtualnej.

  5. Przewiń, aby znaleźć i wybrać rozszerzenie sterownika procesora GPU FIRMY NVIDIA, a następnie wybierz przycisk Dalej.

    Zrzut ekranu przedstawiający wybieranie rozszerzenia sterownika NVIDIA G P U.

  6. Wybierz pozycję Przejrzyj i utwórz, a następnie wybierz pozycję Utwórz. Poczekaj kilka minut na wdrożenie sterownika.

    Zrzut ekranu przedstawiający wybieranie przycisku Przeglądanie i tworzenie.

  7. Sprawdź, czy rozszerzenie zostało dodane do listy zainstalowanych rozszerzeń.

    Zrzut ekranu przedstawiający nowe rozszerzenie na liście rozszerzeń dla maszyny wirtualnej.

Szablon usługi Azure Resource Manager

Szablony usługi Azure Resource Manager umożliwiają wdrażanie rozszerzeń maszyn wirtualnych platformy Azure. Szablony są idealne podczas wdrażania co najmniej jednej maszyny wirtualnej wymagającej konfiguracji po wdrożeniu.

Konfiguracja JSON rozszerzenia maszyny wirtualnej może być zagnieżdżona wewnątrz zasobu maszyny wirtualnej lub umieszczona na poziomie głównym lub najwyższym szablonu JSON usługi Resource Manager. Umieszczanie konfiguracji JSON wpływa na wartość nazwy i typu zasobu. Aby uzyskać więcej informacji, zobacz Ustawianie nazwy i typu dla zasobów podrzędnych.

W poniższym przykładzie założono, że rozszerzenie jest zagnieżdżone wewnątrz zasobu maszyny wirtualnej. Po zagnieżdżeniu zasobu rozszerzenia kod JSON jest umieszczany w "resources": [] obiekcie maszyny wirtualnej.

{
  "name": "myExtensionName",
  "type": "extensions",
  "location": "[resourceGroup().location]",
  "apiVersion": "2015-06-15",
  "dependsOn": [
    "[concat('Microsoft.Compute/virtualMachines/', myVM)]"
  ],
  "properties": {
    "publisher": "Microsoft.HpcCompute",
    "type": "NvidiaGpuDriverLinux",
    "typeHandlerVersion": "1.6",
    "autoUpgradeMinorVersion": true,
    "settings": {
    }
  }
}

Program PowerShell

Set-AzVMExtension
    -ResourceGroupName "myResourceGroup" `
    -VMName "myVM" `
    -Location "southcentralus" `
    -Publisher "Microsoft.HpcCompute" `
    -ExtensionName "NvidiaGpuDriverLinux" `
    -ExtensionType "NvidiaGpuDriverLinux" `
    -TypeHandlerVersion 1.6 `
    -SettingString '{ `
	}'

Interfejs wiersza polecenia platformy Azure

Poniższy przykład odzwierciedla powyższe przykłady usługi Resource Manager i programu PowerShell:

az vm extension set \
  --resource-group myResourceGroup \
  --vm-name myVM \
  --name NvidiaGpuDriverLinux \
  --publisher Microsoft.HpcCompute \
  --version 1.6

W poniższym przykładzie dodano również dwa opcjonalne ustawienia niestandardowe jako przykład instalacji niezdefaultowego sterownika. W szczególności aktualizuje jądro systemu operacyjnego do najnowszej wersji i instaluje określony sterownik wersji zestawu narzędzi CUDA. Ponownie zwróć uwagę, że --settings wartości są opcjonalne i domyślne. Aktualizowanie jądra może zwiększyć czas instalacji rozszerzenia. Ponadto wybranie określonej (starszej) wersji zestawu narzędzi CUDA może nie zawsze być zgodne z nowszymi jądrami.

az vm extension set \
  --resource-group myResourceGroup \
  --vm-name myVM \
  --name NvidiaGpuDriverLinux \
  --publisher Microsoft.HpcCompute \
  --version 1.6 \
  --settings '{ \
    "updateOS": true, \
    "driverVersion": "10.0.130" \
  }'

Rozwiązywanie problemów i pomoc techniczna

Rozwiązywanie problemów

Dane dotyczące stanu wdrożeń rozszerzeń można pobrać z witryny Azure Portal i przy użyciu programu Azure PowerShell i interfejsu wiersza polecenia platformy Azure. Aby wyświetlić stan wdrożenia rozszerzeń dla danej maszyny wirtualnej, uruchom następujące polecenie:

Get-AzVMExtension -ResourceGroupName myResourceGroup -VMName myVM -Name myExtensionName
az vm extension list --resource-group myResourceGroup --vm-name myVM -o table

Dane wyjściowe wykonywania rozszerzenia są rejestrowane w następującym pliku. Zapoznaj się z tym plikiem, aby śledzić stan każdej długotrwałej instalacji i rozwiązać problemy z błędami.

/var/log/azure/nvidia-vmext-status

Kody zakończenia

Kod zakończenia Znaczenie Możliwe działanie
0 Operacja powiodła się
1 Nieprawidłowe użycie rozszerzenia Sprawdź dziennik danych wyjściowych wykonywania.
10 Usługi integracji z systemem Linux dla funkcji Hyper-V i platformy Azure są niedostępne lub zainstalowane Sprawdź dane wyjściowe lspci.
11 Nie można odnaleźć procesora GPU firmy NVIDIA w tym rozmiarze maszyny wirtualnej Użyj obsługiwanego rozmiaru maszyny wirtualnej i systemu operacyjnego.
12 Oferta obrazu nie jest obsługiwana
13 Rozmiar maszyny wirtualnej nie jest obsługiwany Do wdrożenia użyj maszyny wirtualnej serii N.
14 Operacja nie powiodła się Sprawdź dziennik danych wyjściowych wykonywania.

Pomoc techniczna

Jeśli potrzebujesz więcej pomocy w dowolnym momencie tego artykułu, skontaktuj się z ekspertami platformy Azure na forach MSDN Azure i Stack Overflow. Alternatywnie możesz zgłosić zdarzenie pomoc techniczna platformy Azure. Przejdź do pomoc techniczna platformy Azure i wybierz pozycję Uzyskaj pomoc techniczną. Aby uzyskać informacje na temat korzystania z pomoc techniczna platformy Azure, przeczytaj często zadawane pytania dotyczące pomoc techniczna platformy Azure.

Następne kroki