تثبيت ملحق GPU على الأجهزة الظاهرية لجهاز Azure Stack Edge Pro GPU
ينطبق على: Azure Stack Edge Pro - GPUAzure Stack Edge Pro 2Azure Stack Edge Pro R
توضح هذه المقالة كيفية تثبيت ملحق برنامج تشغيل GPU لتثبيت برامج تشغيل Nvidia المناسبة على الأجهزة الظاهرية لوحدة معالجة الرسومات التي تعمل على جهاز Azure Stack Edge. تتناول المقالة خطوات التثبيت لتثبيت ملحق GPU باستخدام قوالب Azure Resource Manager على كل من Windows وLinux VMs.
إشعار
- في مدخل Microsoft Azure، يمكنك تثبيت ملحق GPU أثناء إنشاء الجهاز الظاهري أو بعد نشر الجهاز الظاهري. للحصول على الخطوات والمتطلبات، راجع نشر الأجهزة الظاهرية لوحدة معالجة الرسومات.
- إذا كنت تقوم بتشغيل Windows 2016 VHD، يجب تمكين TLS 1.2 داخل الجهاز الظاهري قبل تثبيت ملحق GPU على 2205 والإصدارات الأحدث. للحصول على خطوات مفصلة، راجع استكشاف مشكلات ملحق GPU وإصلاحها لأجهزة GPU الظاهرية على وحدة معالجة الرسومات Azure Stack Edge Pro GPU.
المتطلبات الأساسية
قبل تثبيت ملحق GPU على الأجهزة الظاهرية لوحدة معالجة الرسومات التي تعمل على جهازك، تأكد من:
لديك حق الوصول إلى جهاز Azure Stack Edge الذي تقوم بنشر جهاز ظاهري واحد أو أكثر من GPU عليه. تعرف على كيفية نشر جهاز ظاهري لوحدة معالجة الرسومات على جهازك.
تأكد من أن المنفذ الذي تم تمكينه لشبكة الحوسبة على جهازك متصل بالإنترنت ولديه حق الوصول. يتم تنزيل برامج تشغيل GPU من خلال الوصول إلى الإنترنت.
فيما يلي مثال حيث تم توصيل المنفذ 2 بالإنترنت وتم استخدامه لتمكين شبكة الحوسبة. إذا لم يتم نشر Kubernetes على بيئتك، يمكنك تخطي IP عقدة Kubernetes وتعيين IP للخدمة الخارجية.
قم بتنزيل قوالب ملحق GPU وملفات المعلمات إلى جهاز العميل الخاص بك. قم بإلغاء ضغطه في دليل تستخدمه كدليل عمل.
تحقق من أن العميل الذي ستستخدمه للوصول إلى جهازك لا يزال متصلا ب Azure Resource Manager عبر Azure PowerShell. تنتهي صلاحية الاتصال ب Azure Resource Manager كل 1.5 ساعة أو إذا تم إعادة تشغيل جهاز Azure Stack Edge. إذا حدث ذلك، فإن أي أوامر cmdlets تقوم بتنفيذها ستعيد رسائل الخطأ إلى التأثير الذي لم تعد متصلا ب Azure. يجب عليك تسجيل الدخول مرة أخرى. للحصول على إرشادات مفصلة، راجع الاتصال ب Azure Resource Manager على جهاز Azure Stack Edge.
تحرير ملف المعلمات
اعتمادا على نظام التشغيل للجهاز الظاهري الخاص بك، يمكنك تثبيت ملحق GPU لنظام التشغيل Windows أو Linux.
لنشر برامج تشغيل Nvidia GPU لجهاز ظاهري موجود، قم بتحرير addGPUExtWindowsVM.parameters.json
ملف المعلمات ثم نشر القالب addGPUextensiontoVM.json
.
الإصدار 2205 والإصدارات الأحدث
يأخذ الملف addGPUExtWindowsVM.parameters.json
المعلمات التالية:
"parameters": {
"vmName": {
"value": "<name of the VM>"
},
"extensionName": {
"value": "<name for the extension. Example: windowsGpu>"
},
"publisher": {
"value": "Microsoft.HpcCompute"
},
"type": {
"value": "NvidiaGpuDriverWindows"
},
"typeHandlerVersion": {
"value": "1.5"
},
"settings": {
"value": {
"DriverURL" : "http://us.download.nvidia.com/tesla/511.65/511.65-data-center-tesla-desktop-winserver-2016-2019-2022-dch-international.exe",
"DriverCertificateUrl" : "https://go.microsoft.com/fwlink/?linkid=871664",
"DriverType":"CUDA"
}
}
}
الإصدارات الأقل من 2205
يأخذ الملف addGPUExtWindowsVM.parameters.json
المعلمات التالية:
"parameters": {
"vmName": {
"value": "<name of the VM>"
},
"extensionName": {
"value": "<name for the extension. Example: windowsGpu>"
},
"publisher": {
"value": "Microsoft.HpcCompute"
},
"type": {
"value": "NvidiaGpuDriverWindows"
},
"typeHandlerVersion": {
"value": "1.3"
},
"settings": {
"value": {
"DriverURL" : "http://us.download.nvidia.com/tesla/442.50/442.50-tesla-desktop-winserver-2019-2016-international.exe",
"DriverCertificateUrl" : "https://go.microsoft.com/fwlink/?linkid=871664",
"DriverType":"CUDA"
}
}
}
نشر القالب
انشر القالب addGPUextensiontoVM.json
لتثبيت الملحق على جهاز ظاهري موجود.
شغّل الأمر التالي:
$templateFile = "<Path to addGPUextensiontoVM.json>"
$templateParameterFile = "<Path to addGPUExtWindowsVM.parameters.json>"
RGName = "<Name of your resource group>"
New-AzureRmResourceGroupDeployment -ResourceGroupName $RGName -TemplateFile $templateFile -TemplateParameterFile $templateParameterFile -Name "<Name for your deployment>"
إشعار
نشر الملحق هو مهمة طويلة الأمد ويستغرق حوالي 10 دقائق لإكمالها.
إليك عينة من المخرجات:
PS C:\WINDOWS\system32> "C:\12-09-2020\ExtensionTemplates\addGPUextensiontoVM.json"
C:\12-09-2020\ExtensionTemplates\addGPUextensiontoVM.json
PS C:\WINDOWS\system32> $templateFile = "C:\12-09-2020\ExtensionTemplates\addGPUextensiontoVM.json"
PS C:\WINDOWS\system32> $templateParameterFile = "C:\12-09-2020\ExtensionTemplates\addGPUExtWindowsVM.parameters.json"
PS C:\WINDOWS\system32> $RGName = "myasegpuvm1"
PS C:\WINDOWS\system32> New-AzureRmResourceGroupDeployment -ResourceGroupName $RGName -TemplateFile $templateFile -TemplateParameterFile $templateParameterFile -Name "deployment3"
DeploymentName : deployment3
ResourceGroupName : myasegpuvm1
ProvisioningState : Succeeded
Timestamp : 12/16/2020 12:18:50 AM
Mode : Incremental
TemplateLink :
Parameters :
Name Type Value
=============== ========================= ==========
vmName String VM2
extensionName String windowsgpuext
publisher String Microsoft.HpcCompute
type String NvidiaGpuDriverWindows
typeHandlerVersion String 1.3
settings Object {
"DriverURL": "http://us.download.nvidia.com/tesla/442.50/442.50-tesla-desktop-winserver-2019-2016-international.exe",
"DriverCertificateUrl": "https://go.microsoft.com/fwlink/?linkid=871664",
"DriverType": "CUDA"
}
Outputs :
DeploymentDebugLogLevel :
PS C:\WINDOWS\system32>
تعقب التوزيع
للتحقق من حالة نشر الملحقات لجهاز ظاهري معين، افتح جلسة PowerShell أخرى (قم بتشغيلها كمسؤول)، ثم قم بتشغيل الأمر التالي:
Get-AzureRmVMExtension -ResourceGroupName <Name of resource group> -VMName <Name of VM> -Name <Name of the extension>
إليك عينة من المخرجات:
PS C:\WINDOWS\system32> Get-AzureRmVMExtension -ResourceGroupName myasegpuvm1 -VMName VM2 -Name windowsgpuext
ResourceGroupName : myasegpuvm1
VMName : VM2
Name : windowsgpuext
Location : dbelocal
Etag : null
Publisher : Microsoft.HpcCompute
ExtensionType : NvidiaGpuDriverWindows
TypeHandlerVersion : 1.3
Id : /subscriptions/947b3cfd-7a1b-4a90-7cc5-e52caf221332/resourceGroups/myasegpuvm1/providers/Microsoft.Compute/virtualMachines/VM2/extensions/windowsgpuext
PublicSettings : {
"DriverURL": "http://us.download.nvidia.com/tesla/442.50/442.50-tesla-desktop-winserver-2019-2016-international.exe",
"DriverCertificateUrl": "https://go.microsoft.com/fwlink/?linkid=871664",
"DriverType": "CUDA"
}
ProtectedSettings :
ProvisioningState : Creating
Statuses :
SubStatuses :
AutoUpgradeMinorVersion : True
ForceUpdateTag :
PS C:\WINDOWS\system32>
يتم تسجيل إخراج تنفيذ الملحق إلى الملف التالي. راجع هذا الملف C:\Packages\Plugins\Microsoft.HpcCompute.NvidiaGpuDriverWindows\1.3.0.0\Status
لتعقب حالة التثبيت.
يعرض message
التثبيت الناجح مع Enable Extension
و status
من success
.
"status": {
"formattedMessage": {
"message": "Enable Extension",
"lang": "en"
},
"name": "NvidiaGpuDriverWindows",
"status": "success",
التحقق من تثبيت برنامج التشغيل
سجل الدخول إلى الجهاز الظاهري وقم بتشغيل الأداة المساعدة لسطر الأوامر nvidia-smi المثبتة مع برنامج التشغيل.
الإصدار 2205 والإصدارات الأحدث
nvidia-smi.exe
يقع في C:\Windows\System32\nvidia-smi.exe
. إذا لم تشاهد الملف، فمن المحتمل أن يكون تثبيت برنامج التشغيل لا يزال قيد التشغيل في الخلفية. انتظر لمدة 10 دقائق وتحقق مرة أخرى.
الإصدارات الأقل من 2205
nvidia-smi.exe
يقع في C:\Program Files\NVIDIA Corporation\NVSMI\nvidia-smi.exe
. إذا لم تشاهد الملف، فمن المحتمل أن يكون تثبيت برنامج التشغيل لا يزال قيد التشغيل في الخلفية. انتظر لمدة 10 دقائق وتحقق مرة أخرى.
إذا تم تثبيت برنامج التشغيل، فسترى إخراجا مشابها للعينة التالية:
PS C:\Users\Administrator> cd "C:\Program Files\NVIDIA Corporation\NVSMI"
PS C:\Program Files\NVIDIA Corporation\NVSMI> ls
Directory: C:\Program Files\NVIDIA Corporation\NVSMI
Mode LastWriteTime Length Name
---- ------------- ------ ----
-a---- 2/26/2020 12:00 PM 849640 MCU.exe
-a---- 2/26/2020 12:00 PM 443104 nvdebugdump.exe
-a---- 2/25/2020 2:06 AM 81823 nvidia-smi.1.pdf
-a---- 2/26/2020 12:01 PM 566880 nvidia-smi.exe
-a---- 2/26/2020 12:01 PM 991344 nvml.dll
PS C:\Program Files\NVIDIA Corporation\NVSMI> .\nvidia-smi.exe
Wed Dec 16 00:35:51 2020
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 442.50 Driver Version: 442.50 CUDA Version: 10.2 |
|-------------------------------+----------------------+----------------------+
| GPU Name TCC/WDDM | Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. |
|===============================+======================+======================|
| 0 Tesla T4 TCC | 0000503C:00:00.0 Off | 0 |
| N/A 35C P8 11W / 70W | 8MiB / 15205MiB | 0% Default |
+-------------------------------+----------------------+----------------------+
+-----------------------------------------------------------------------------+
| Processes: GPU Memory |
| GPU PID Type Process name Usage |
|=============================================================================|
| No running processes found |
+-----------------------------------------------------------------------------+
PS C:\Program Files\NVIDIA Corporation\NVSMI>
لمزيد من المعلومات، راجع ملحق برنامج تشغيل Nvidia GPU لنظام التشغيل Windows.
إشعار
بعد الانتهاء من تثبيت برنامج تشغيل GPU وملحق GPU، لم تعد بحاجة إلى استخدام منفذ مع الوصول إلى الإنترنت للحساب.
إزالة ملحق GPU
لإزالة ملحق GPU، استخدم الأمر التالي:
Remove-AzureRmVMExtension -ResourceGroupName <Resource group name> -VMName <VM name> -Name <Extension name>
إليك عينة من المخرجات:
PS C:\azure-stack-edge-deploy-vms> Remove-AzureRmVMExtension -ResourceGroupName rgl -VMName WindowsVM -Name windowsgpuext
Virtual machine extension removal operation
This cmdlet will remove the specified virtual machine extension. Do you want to continue? [Y] Yes [N] No [S] Suspend [?] Help (default is "Y"): y
Requestld IsSuccessStatusCode StatusCode ReasonPhrase
--------- ------------------- ---------- ------------
True OK OK
الخطوات التالية
تعلم كيف: