Rozszerzenie sterownika procesora GPU firmy NVIDIA dla systemu Linux
To rozszerzenie instaluje sterowniki procesora GPU FIRMY NVIDIA na maszynach wirtualnych z serii N systemu Linux. W zależności od rodziny maszyn wirtualnych rozszerzenie instaluje sterowniki CUDA lub GRID. Podczas instalowania sterowników FIRMY NVIDIA przy użyciu tego rozszerzenia akceptujesz warunki umowy licencyjnej użytkownika końcowego firmy NVIDIA i zgadzasz się na nie. Podczas procesu instalacji maszyna wirtualna może zostać ponownie uruchomiona, aby ukończyć konfigurację sterownika.
Dostępne są instrukcje dotyczące ręcznej instalacji sterowników i bieżących obsługiwanych wersji. Rozszerzenie jest również dostępne do instalowania sterowników procesora GPU FIRMY NVIDIA na maszynach wirtualnych z serii N systemu Windows.
Uwaga
Po włączeniu bezpiecznego rozruchu wszystkie składniki rozruchu systemu operacyjnego (moduł ładujący rozruchu, jądro, sterowniki jądra) muszą być podpisane przez zaufanych wydawców (klucz zaufany przez system). Bezpieczny rozruch nie jest obsługiwany przy użyciu rozszerzeń systemu Windows lub Linux. Aby uzyskać więcej informacji na temat ręcznego instalowania sterowników procesora GPU z włączonym bezpiecznym rozruchem, zobacz Konfiguracja sterownika procesora GPU serii N platformy Azure dla systemu Linux.
Uwaga
Rozszerzenia sterowników procesora GPU nie aktualizują automatycznie sterownika po zainstalowaniu rozszerzenia. Jeśli musisz przejść do nowszej wersji sterownika, pobierz ręcznie i zainstaluj sterownik lub usuń i ponownie dodaj rozszerzenie.
Wymagania wstępne
System operacyjny
To rozszerzenie obsługuje następujące dystrybucje systemu operacyjnego, w zależności od obsługi sterowników dla określonej wersji systemu operacyjnego:
Dystrybucja | Wersja |
---|---|
Linux Ubuntu: | 20.04 LTS |
Linux: Red Hat Enterprise Linux | 7,9 |
Uwaga
Najnowsze obsługiwane sterowniki CUDA dla maszyn wirtualnych serii NC są obecnie 470.82.01. Nowsze wersje sterowników nie są obsługiwane na kartach K80 w nc. Chociaż rozszerzenie jest aktualizowane z tym końcem obsługi nc, zainstaluj sterowniki CUDA ręcznie dla kart K80 w serii NC.
Ważne
Ten dokument odwołuje się do wersji systemu Linux, która zbliża się lub znajduje się w końcu życia (EOL). Rozważ aktualizację do nowszej wersji.
Łączność z Internetem
Rozszerzenie platformy Microsoft Azure dla sterowników procesora GPU firmy NVIDIA wymaga, aby docelowa maszyna wirtualna została połączona z Internetem i ma dostęp.
Schemat rozszerzenia
Poniższy kod JSON przedstawia schemat rozszerzenia:
{
"name": "<myExtensionName>",
"type": "extensions",
"apiVersion": "2015-06-15",
"location": "<location>",
"dependsOn": [
"[concat('Microsoft.Compute/virtualMachines/', <myVM>)]"
],
"properties": {
"publisher": "Microsoft.HpcCompute",
"type": "NvidiaGpuDriverLinux",
"typeHandlerVersion": "1.6",
"autoUpgradeMinorVersion": true,
"settings": {
}
}
}
Właściwości
Nazwisko | Wartość/przykład | Typ danych |
---|---|---|
apiVersion | 2015-06-15 | data |
wydawca | Microsoft.HpcCompute | string |
type | NvidiaGpuDriverLinux | string |
typeHandlerVersion | 1.6 | int |
Ustawienia
Wszystkie ustawienia są opcjonalne. Domyślne zachowanie polega na tym, aby nie aktualizować jądra, jeśli nie jest to wymagane w przypadku instalacji sterownika i instalowania najnowszego obsługiwanego sterownika i zestawu narzędzi CUDA (zgodnie z potrzebami).
Nazwa/nazwisko | opis | Domyślna wartość | Prawidłowe wartości | Typ danych |
---|---|---|---|---|
updateOS | Zaktualizuj jądro, nawet jeśli nie jest wymagane do instalacji sterownika. | fałsz | wartość true, false | boolean |
driverVersion | NV: wersja sterownika GRID. NC/ND: wersja zestawu narzędzi CUDA. Najnowsze sterowniki dla wybranej funkcji CUDA są instalowane automatycznie. |
latest | Lista obsługiwanych wersji sterowników | string |
installCUDA | Zainstaluj zestaw narzędzi CUDA. Dotyczy tylko maszyn wirtualnych serii NC/ND. | prawda | wartość true, false | boolean |
Wdrożenie
Azure Portal
Rozszerzenia maszyn wirtualnych nvidia platformy Azure można wdrożyć w witrynie Azure Portal.
Otwórz portal Azure w przeglądarce.
Przejdź do maszyny wirtualnej, na której chcesz zainstalować sterownik.
W menu po lewej stronie wybierz pozycję Rozszerzenia.
Wybierz Dodaj.
Przewiń, aby znaleźć i wybrać rozszerzenie sterownika procesora GPU FIRMY NVIDIA, a następnie wybierz przycisk Dalej.
Wybierz pozycję Przejrzyj i utwórz, a następnie wybierz pozycję Utwórz. Poczekaj kilka minut na wdrożenie sterownika.
Sprawdź, czy rozszerzenie zostało dodane do listy zainstalowanych rozszerzeń.
Szablon usługi Azure Resource Manager
Szablony usługi Azure Resource Manager umożliwiają wdrażanie rozszerzeń maszyn wirtualnych platformy Azure. Szablony są idealne podczas wdrażania co najmniej jednej maszyny wirtualnej wymagającej konfiguracji po wdrożeniu.
Konfiguracja JSON rozszerzenia maszyny wirtualnej może być zagnieżdżona wewnątrz zasobu maszyny wirtualnej lub umieszczona na poziomie głównym lub najwyższym szablonu JSON usługi Resource Manager. Umieszczanie konfiguracji JSON wpływa na wartość nazwy i typu zasobu. Aby uzyskać więcej informacji, zobacz Ustawianie nazwy i typu dla zasobów podrzędnych.
W poniższym przykładzie założono, że rozszerzenie jest zagnieżdżone wewnątrz zasobu maszyny wirtualnej. Po zagnieżdżeniu zasobu rozszerzenia kod JSON jest umieszczany w "resources": []
obiekcie maszyny wirtualnej.
{
"name": "myExtensionName",
"type": "extensions",
"location": "[resourceGroup().location]",
"apiVersion": "2015-06-15",
"dependsOn": [
"[concat('Microsoft.Compute/virtualMachines/', myVM)]"
],
"properties": {
"publisher": "Microsoft.HpcCompute",
"type": "NvidiaGpuDriverLinux",
"typeHandlerVersion": "1.6",
"autoUpgradeMinorVersion": true,
"settings": {
}
}
}
Program PowerShell
Set-AzVMExtension
-ResourceGroupName "myResourceGroup" `
-VMName "myVM" `
-Location "southcentralus" `
-Publisher "Microsoft.HpcCompute" `
-ExtensionName "NvidiaGpuDriverLinux" `
-ExtensionType "NvidiaGpuDriverLinux" `
-TypeHandlerVersion 1.6 `
-SettingString '{ `
}'
Interfejs wiersza polecenia platformy Azure
Poniższy przykład odzwierciedla powyższe przykłady usługi Resource Manager i programu PowerShell:
az vm extension set \
--resource-group myResourceGroup \
--vm-name myVM \
--name NvidiaGpuDriverLinux \
--publisher Microsoft.HpcCompute \
--version 1.6
W poniższym przykładzie dodano również dwa opcjonalne ustawienia niestandardowe jako przykład instalacji niezdefaultowego sterownika. W szczególności aktualizuje jądro systemu operacyjnego do najnowszej wersji i instaluje określony sterownik wersji zestawu narzędzi CUDA. Ponownie zwróć uwagę, że --settings
wartości są opcjonalne i domyślne. Aktualizowanie jądra może zwiększyć czas instalacji rozszerzenia. Ponadto wybranie określonej (starszej) wersji zestawu narzędzi CUDA może nie zawsze być zgodne z nowszymi jądrami.
az vm extension set \
--resource-group myResourceGroup \
--vm-name myVM \
--name NvidiaGpuDriverLinux \
--publisher Microsoft.HpcCompute \
--version 1.6 \
--settings '{ \
"updateOS": true, \
"driverVersion": "10.0.130" \
}'
Rozwiązywanie problemów i pomoc techniczna
Rozwiązywanie problemów
Dane dotyczące stanu wdrożeń rozszerzeń można pobrać z witryny Azure Portal i przy użyciu programu Azure PowerShell i interfejsu wiersza polecenia platformy Azure. Aby wyświetlić stan wdrożenia rozszerzeń dla danej maszyny wirtualnej, uruchom następujące polecenie:
Get-AzVMExtension -ResourceGroupName myResourceGroup -VMName myVM -Name myExtensionName
az vm extension list --resource-group myResourceGroup --vm-name myVM -o table
Dane wyjściowe wykonywania rozszerzenia są rejestrowane w następującym pliku. Zapoznaj się z tym plikiem, aby śledzić stan każdej długotrwałej instalacji i rozwiązać problemy z błędami.
/var/log/azure/nvidia-vmext-status
Kody zakończenia
Kod zakończenia | Znaczenie | Możliwe działanie |
---|---|---|
0 | Operacja powiodła się | |
1 | Nieprawidłowe użycie rozszerzenia | Sprawdź dziennik danych wyjściowych wykonywania. |
10 | Usługi integracji z systemem Linux dla funkcji Hyper-V i platformy Azure są niedostępne lub zainstalowane | Sprawdź dane wyjściowe lspci. |
11 | Nie można odnaleźć procesora GPU firmy NVIDIA w tym rozmiarze maszyny wirtualnej | Użyj obsługiwanego rozmiaru maszyny wirtualnej i systemu operacyjnego. |
12 | Oferta obrazu nie jest obsługiwana | |
13 | Rozmiar maszyny wirtualnej nie jest obsługiwany | Do wdrożenia użyj maszyny wirtualnej serii N. |
14 | Operacja nie powiodła się | Sprawdź dziennik danych wyjściowych wykonywania. |
Pomoc techniczna
Jeśli potrzebujesz więcej pomocy w dowolnym momencie tego artykułu, skontaktuj się z ekspertami platformy Azure na forach MSDN Azure i Stack Overflow. Alternatywnie możesz zgłosić zdarzenie pomoc techniczna platformy Azure. Przejdź do pomoc techniczna platformy Azure i wybierz pozycję Uzyskaj pomoc techniczną. Aby uzyskać informacje na temat korzystania z pomoc techniczna platformy Azure, przeczytaj często zadawane pytania dotyczące pomoc techniczna platformy Azure.
Następne kroki
- Aby uzyskać więcej informacji na temat rozszerzeń, zobacz Rozszerzenia i funkcje maszyny wirtualnej dla systemu Linux.
- Aby uzyskać więcej informacji na temat maszyn wirtualnych serii N, zobacz Rozmiary maszyn wirtualnych zoptymalizowanych pod kątem procesora GPU.