Partager via


Installer l’extension GPU sur des machines virtuelles pour votre appareil Azure Stack Edge Pro avec GPU

Attention

Cet article fait référence à CentOS, une distribution Linux proche de l’état EOL (End Of Life). Faites le point sur votre utilisation afin de vous organiser en conséquence. Pour plus d’informations, consultez l’aide relative à la fin de vie de CentOS.

S’APPLIQUE À :Yes for Pro - Référence SKU GPUAzure Stack Edge Pro – GPUOui pour la référence SKU Pro 2Azure Stack Edge Pro 2Oui pour la référence SKU Pro RAzure Stack Edge Pro R

Cet article explique comment installer l’extension du pilote GPU pour installer les pilotes NVIDIA appropriés sur les machines virtuelles GPU s’exécutant sur votre appareil Azure Stack Edge. L’article couvre les étapes d’installation d’une extension GPU à l’aide de modèles Azure Resource Manager sur des machines virtuelles Windows et Linux.

Remarque

Prérequis

Avant d’installer l’extension GPU sur les machines virtuelles GPU exécutées sur votre appareil, assurez-vous que :

  1. Vous avez accès à un appareil Azure Stack Edge sur lequel vous avez déployé une ou plusieurs machines virtuelles GPU. Sachez comment Déployer une machine virtuelle GPU sur votre appareil.

    • Assurez-vous que le port activé pour le réseau de calcul sur votre appareil est connecté à Internet et qu’il y a accès. Les pilotes GPU sont téléchargés via l’accès à Internet.

      Dans l’exemple suivant, le port 2 était connecté à Internet et a été utilisé pour activer le réseau de calcul. Si Kubernetes n’est pas déployé sur votre environnement, vous pouvez ignorer l’IP du nœud Kubernetes et l’attribution de l’IP du service externe.

      Capture d’écran du volet Calcul d’un appareil Azure Stack Edge. Les paramètres de calcul pour le port 2 sont mis en évidence.

  2. Téléchargez les fichiers de paramètres et les modèles d’extension GPU sur votre ordinateur client. Décompressez-les dans le répertoire qui vous servira de répertoire de travail.

  3. Vérifiez que le client que vous allez utiliser pour accéder à votre appareil est toujours connecté à l’instance Azure Resource Manager sur Azure PowerShell. La connexion à Azure Resource Manager expire toutes les 1,5 heures ou si votre appareil Azure Stack Edge redémarre. Dans ce cas, toute cmdlet que vous exécutez retourne un message d’erreur indiquant que vous n’êtes plus connecté à Azure. Vous devez vous reconnecter. Pour obtenir des instructions détaillées, consultez Se connecter à Azure Resource Manager sur votre appareil Azure Stack Edge.

Modification du fichier de paramètres

Selon le système d’exploitation de votre machine virtuelle, vous pouvez installer l’extension GPU pour Windows ou pour Linux.

Pour déployer des pilotes GPU Nvidia pour une machine virtuelle existante, modifiez le fichier de paramètres addGPUExtWindowsVM.parameters.json, puis déployez le modèle addGPUextensiontoVM.json.

Versions 2205 et ultérieures

Le fichier addGPUExtWindowsVM.parameters.json prend les paramètres suivants :

"parameters": {
	"vmName": {
	"value": "<name of the VM>"
	},
	"extensionName": {
	"value": "<name for the extension. Example: windowsGpu>"
	},
	"publisher": {
	"value": "Microsoft.HpcCompute"
	},
	"type": {
	"value": "NvidiaGpuDriverWindows"
	},
	"typeHandlerVersion": {
	"value": "1.5"
	},
	"settings": {
	"value": {
	"DriverURL" : "http://us.download.nvidia.com/tesla/511.65/511.65-data-center-tesla-desktop-winserver-2016-2019-2022-dch-international.exe",
	"DriverCertificateUrl" : "https://go.microsoft.com/fwlink/?linkid=871664",
	"DriverType":"CUDA"
	}
	}
	}

Versions antérieures à la version 2205

Le fichier addGPUExtWindowsVM.parameters.json prend les paramètres suivants :

"parameters": {
	"vmName": {
	"value": "<name of the VM>"
	},
	"extensionName": {
	"value": "<name for the extension. Example: windowsGpu>"
	},
	"publisher": {
	"value": "Microsoft.HpcCompute"
	},
	"type": {
	"value": "NvidiaGpuDriverWindows"
	},
	"typeHandlerVersion": {
	"value": "1.3"
	},
	"settings": {
	"value": {
	"DriverURL" : "http://us.download.nvidia.com/tesla/442.50/442.50-tesla-desktop-winserver-2019-2016-international.exe",
	"DriverCertificateUrl" : "https://go.microsoft.com/fwlink/?linkid=871664",
	"DriverType":"CUDA"
	}
	}
	}

Déployer un modèle

Déployez le modèle addGPUextensiontoVM.json pour installer l’extension sur une machine virtuelle existante.

Exécutez la commande suivante :

$templateFile = "<Path to addGPUextensiontoVM.json>"
$templateParameterFile = "<Path to addGPUExtWindowsVM.parameters.json>"
RGName = "<Name of your resource group>"
New-AzureRmResourceGroupDeployment -ResourceGroupName $RGName -TemplateFile $templateFile -TemplateParameterFile $templateParameterFile -Name "<Name for your deployment>"

Remarque

Le déploiement de l’extension est une opération durable qui prend environ 10 minutes.

Voici un exemple de sortie :

PS C:\WINDOWS\system32> "C:\12-09-2020\ExtensionTemplates\addGPUextensiontoVM.json"
C:\12-09-2020\ExtensionTemplates\addGPUextensiontoVM.json
PS C:\WINDOWS\system32> $templateFile = "C:\12-09-2020\ExtensionTemplates\addGPUextensiontoVM.json"
PS C:\WINDOWS\system32> $templateParameterFile = "C:\12-09-2020\ExtensionTemplates\addGPUExtWindowsVM.parameters.json"
PS C:\WINDOWS\system32> $RGName = "myasegpuvm1"
PS C:\WINDOWS\system32> New-AzureRmResourceGroupDeployment -ResourceGroupName $RGName -TemplateFile $templateFile -TemplateParameterFile $templateParameterFile -Name "deployment3"

DeploymentName          : deployment3
ResourceGroupName       : myasegpuvm1
ProvisioningState       : Succeeded
Timestamp               : 12/16/2020 12:18:50 AM
Mode                    : Incremental
TemplateLink            :
Parameters              :
                       Name             Type                       Value
                       ===============  =========================  ==========
                       vmName           String                     VM2
                       extensionName    String                     windowsgpuext
                       publisher        String                     Microsoft.HpcCompute
                       type             String                     NvidiaGpuDriverWindows
                       typeHandlerVersion  String                     1.3
                       settings         Object                     {
                         "DriverURL": "http://us.download.nvidia.com/tesla/442.50/442.50-tesla-desktop-winserver-2019-2016-international.exe",
                         "DriverCertificateUrl": "https://go.microsoft.com/fwlink/?linkid=871664",
                         "DriverType": "CUDA"
                       }

Outputs                 :
DeploymentDebugLogLevel :
PS C:\WINDOWS\system32>

Suivre le déploiement

Pour suivre l’état du déploiement des extensions pour une machine virtuelle donnée, ouvrez une autre session PowerShell (exécuter en tant qu’administrateur), puis exécutez la commande suivante :

Get-AzureRmVMExtension -ResourceGroupName <Name of resource group> -VMName <Name of VM> -Name <Name of the extension>

Voici un exemple de sortie :

PS C:\WINDOWS\system32> Get-AzureRmVMExtension -ResourceGroupName myasegpuvm1 -VMName VM2 -Name windowsgpuext

ResourceGroupName       : myasegpuvm1
VMName                  : VM2
Name                    : windowsgpuext
Location                : dbelocal
Etag                    : null
Publisher               : Microsoft.HpcCompute
ExtensionType           : NvidiaGpuDriverWindows
TypeHandlerVersion      : 1.3
Id                      : /subscriptions/947b3cfd-7a1b-4a90-7cc5-e52caf221332/resourceGroups/myasegpuvm1/providers/Microsoft.Compute/virtualMachines/VM2/extensions/windowsgpuext
PublicSettings          : {
                            "DriverURL": "http://us.download.nvidia.com/tesla/442.50/442.50-tesla-desktop-winserver-2019-2016-international.exe",
                            "DriverCertificateUrl": "https://go.microsoft.com/fwlink/?linkid=871664",
                            "DriverType": "CUDA"
                          }
ProtectedSettings       :
ProvisioningState       : Creating
Statuses                :
SubStatuses             :
AutoUpgradeMinorVersion : True
ForceUpdateTag          :

PS C:\WINDOWS\system32>

La sortie de l’exécution de l’extension est enregistrée dans le fichier suivant. Reportez-vous à ce fichier C:\Packages\Plugins\Microsoft.HpcCompute.NvidiaGpuDriverWindows\1.3.0.0\Status pour suivre l’état de l’installation.

Quand une installation a réussi, message a pour valeur Enable Extension et status a pour valeur success.

"status":  {
                       "formattedMessage":  {
                                                "message":  "Enable Extension",
                                                "lang":  "en"
                                            },
                       "name":  "NvidiaGpuDriverWindows",
                       "status":  "success",

Vérification de l’installation du pilote

Connectez-vous à la machine virtuelle et exécutez l’utilitaire en ligne de commande nvidia-smi installé avec le pilote.

Versions 2205 et ultérieures

Le fichier nvidia-smi.exe se trouve à l’emplacement C:\Windows\System32\nvidia-smi.exe. Si vous ne voyez pas le fichier, il est possible que l’installation du pilote soit toujours en cours d’exécution en arrière-plan. Attendez 10 minutes, puis vérifiez à nouveau.

Versions antérieures à la version 2205

Le fichier nvidia-smi.exe se trouve à l’emplacement C:\Program Files\NVIDIA Corporation\NVSMI\nvidia-smi.exe. Si vous ne voyez pas le fichier, il est possible que l’installation du pilote soit toujours en cours d’exécution en arrière-plan. Attendez 10 minutes, puis vérifiez à nouveau.

Si le pilote est installé, le résultat obtenu ressemble à l’exemple suivant :

PS C:\Users\Administrator> cd "C:\Program Files\NVIDIA Corporation\NVSMI"
PS C:\Program Files\NVIDIA Corporation\NVSMI> ls

    Directory: C:\Program Files\NVIDIA Corporation\NVSMI

Mode                LastWriteTime         Length Name
----                -------------         ------ ----
-a----        2/26/2020  12:00 PM         849640 MCU.exe
-a----        2/26/2020  12:00 PM         443104 nvdebugdump.exe
-a----        2/25/2020   2:06 AM          81823 nvidia-smi.1.pdf
-a----        2/26/2020  12:01 PM         566880 nvidia-smi.exe
-a----        2/26/2020  12:01 PM         991344 nvml.dll

PS C:\Program Files\NVIDIA Corporation\NVSMI> .\nvidia-smi.exe
Wed Dec 16 00:35:51 2020
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 442.50       Driver Version: 442.50       CUDA Version: 10.2     |
|-------------------------------+----------------------+----------------------+
| GPU  Name            TCC/WDDM | Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|===============================+======================+======================|
|   0  Tesla T4            TCC  | 0000503C:00:00.0 Off |                    0 |
| N/A   35C    P8    11W /  70W |      8MiB / 15205MiB |      0%      Default |
+-------------------------------+----------------------+----------------------+

+-----------------------------------------------------------------------------+
| Processes:                                                       GPU Memory |
|  GPU       PID   Type   Process name                             Usage      |
|=============================================================================|
|  No running processes found                                                 |
+-----------------------------------------------------------------------------+
PS C:\Program Files\NVIDIA Corporation\NVSMI>

Pour plus d’informations, consultez Extension du pilote GPU Nvidia pour Windows.

Remarque

Une fois que vous avez terminé l’installation du pilote et de l’extension du GPU, vous n’avez plus besoin d’utiliser un port avec accès Internet pour le calcul.

Supprimer l’extension GPU

Pour supprimer l’extension GPU, utilisez la commande suivante :

Remove-AzureRmVMExtension -ResourceGroupName <Resource group name> -VMName <VM name> -Name <Extension name>

Voici un exemple de sortie :

PS C:\azure-stack-edge-deploy-vms> Remove-AzureRmVMExtension -ResourceGroupName rgl -VMName WindowsVM -Name windowsgpuext
Virtual machine extension removal operation
This cmdlet will remove the specified virtual machine extension. Do you want to continue? [Y] Yes [N] No [S] Suspend [?] Help (default is "Y"): y
Requestld IsSuccessStatusCode StatusCode ReasonPhrase
--------- ------------------- ---------- ------------
          True                OK         OK

Étapes suivantes

Découvrez comment :