使用分区管理 GPU (预览版)

适用于:Azure Stack HCI 版本 23H2

本文介绍如何使用 Arc 虚拟机(VM)管理 GPU-P。 有关在 Azure Arc 启用的 AKS 上使用 GPU-P 管理,请参阅 将 GPU 用于计算密集型工作负荷

GPU 分区(GPU-P)允许通过将 GPU 拆分为专用的小数分区,与多个工作负荷共享图形处理单元(GPU)。

重要

此功能目前处于预览状态。 有关 beta 版本、预览版或尚未正式发布的版本的 Azure 功能所适用的法律条款,请参阅 Microsoft Azure 预览版的补充使用条款

限制

使用 GPU-P 功能时,请考虑以下限制:

  • 如果配置不是同构的,则不支持 GPU 分区。 下面是一些不受支持的配置示例:

    • 在同一群集中混合使用不同供应商的 GPU。

    • 在同一群集中使用同一供应商的不同产品系列的不同 GPU 型号。

  • 不能将物理 GPU 分配为离散设备分配(DDA)和可分区 GPU(GPU-P)。 可以将它分配为 DDA 或可分区 GPU,但不能同时分配两者。

  • 只能将单个 GPU 分区分配到 VM。

  • 系统会自动为 VM 分配分区。 无法为特定 VM 选择特定分区。

  • 目前,Azure Stack HCI 上的 GPU 分区不支持 VM 实时迁移。 但是如果出现故障,VM 可以自动重启并放置在 GPU 资源可用的位置。

  • 可以使用 Azure 命令行接口 (CLI) 对 GPU 进行分区。 建议使用 Azure CLI 配置和分配 GPU 分区。 必须手动确保为群集中所有服务器的 GPU 维护同构配置。

先决条件

  • 有关要求以及准备 Azure Stack HCI 群集和 Arc VM 以及确保 GPU 已准备好和分区,请参阅 “为 Azure Stack HCI 准备 GPU”。

在创建 Arc VM 期间附加 GPU

按照 Azure Stack HCI 上的“创建 Arc 虚拟机”中所述的步骤操作,并利用其他硬件配置文件详细信息将 GPU 添加到创建过程。 运行以下操作:

az stack-hci-vm create --name $vmName --resource-group $resource_group --admin-username $userName --admin-password $password --computer-name $computerName --image $imageName --location $location --authentication-type all --nics $nicName --custom-location $customLocationID --hardware-profile memory-mb="8192" processors="4" --storage-path-id $storagePathId --gpus GpuP

有关详细信息,请参阅 az stack-hci-vm create

创建 Arc VM 后附加 GPU

使用以下 CLI 命令附加 GPU:

az stack-hci-vm stop --name your_VM_name --resource-group your_resource_group

可以在命令中指定分区大小,如下所示。 分区大小与 minPartitionVRAM Hyper-V 上的分区 Get-VMHostPartitionableGpu 大小相同。 还可以使用命令而不指定分区大小,如上面的示例所示。

az stack-hci-vm gpu attach --resource-group "test-rg" --custom-location "test-location" --vm-name "test-vm" --gpus GpuP

附加 GPU 分区后,输出将显示完整的 VM 详细信息。 可以通过查看硬件配置文件 virtualMachineGPUs 部分来确认已附加 GPU。 输出如下所示:

"properties":{
	"hardwareProfile":{
		"virtualMachineGPUs":[
			{
				"assignmentType": "GpuP",
				"gpuName": null,
				"partitionSizeMb": 3648
			}
         ],

有关 GPU 附加命令的详细信息,请参阅 az stack-hci-vm gpu

分离 GPU

使用以下 CLI 命令分离 GPU:

az stack-hci-vm gpu detach --resource-group "test-rg" --custom-location "test-location" --vm-name "test-vm" --gpus GpuP

分离 GPU 分区后,输出会显示完整的 VM 详细信息。 可以通过查看硬件配置文件 virtualMachineGPUs来确认 GPU 已分离。 输出如下所示:

"properties":{
	"hardwareProfile":{
		"virtualMachineGPUs":[],

有关 GPU 附加命令的详细信息,请参阅 az stack-hci-vm gpu

后续步骤