Usar GPUs com VMs clusterizadas

Artigo
10/25/2024
Aplica-se a:

✅ Windows Server 2025, ✅ Windows Server 2022, ✅ Windows Server 2019, ✅ Windows Server 2016, ✅ Azure Stack HCI, versions 23H2 and 22H2

Aplica-se a: Azure Stack HCI, versões 23H2 e 22H2

Observação

A maneira recomendada de criar e gerenciar VMs no Azure Stack HCI 23H2 é usando o plano de controle do Azure Arc. Use o mecanismo descrito abaixo para gerenciar suas VMs somente se você precisar de funcionalidade que não esteja disponível nas VMs do Azure Arc.

Você pode incluir GPUs em seus clusters para fornecer aceleração de GPU às cargas de trabalho executadas em VMs em cluster. A aceleração de GPU pode ser fornecida por meio de DDA (Atribuição de Dispositivo Discreto), que permite dedicar uma ou mais GPUs físicas a uma VM, ou por meio de Particionamento de GPU. As VMs em cluster podem aproveitar a aceleração da GPU e os recursos de clustering, como a alta disponibilidade por meio de failover. No momento, não há suporte para a migração em tempo real de VMs (máquinas virtuais), mas as VMs podem ser reiniciadas automaticamente e colocadas onde os recursos de GPU estiverem disponíveis se houver uma falha.

Neste artigo, você aprenderá a usar GPUs (unidades de processamento gráfico) com VMs em cluster para fornecer aceleração de GPU a cargas de trabalho usando a atribuição de dispositivos discretos. Este artigo o orienta na preparação do cluster, na atribuição de uma GPU a uma VM de cluster e na ocorrência de falha nessa VM usando o Windows Admin Center e o PowerShell.

Pré-requisitos

Há vários requisitos e pontos a serem considerados antes de você começar a usar GPUs com VMs em cluster:

Você precisa de um cluster do Azure Stack HCI executando o Azure Stack HCI, versão 22H2 ou posterior.

Você precisa de um cluster do Windows Server Failover executando o Windows Server 2025 ou posterior.

Você deve instalar a mesma marca e modelo de GPUs em todos os servidores do seu cluster.
Analise e siga as instruções do fabricante da GPU para instalar os drivers e o software necessários em cada servidor do cluster.
Dependendo do fornecedor do hardware, talvez você também precise configurar os requisitos de licenciamento da GPU.
Você precisa de uma máquina com o Windows Admin Center instalado. Essa máquina pode ser um dos nós de seu cluster.

Crie uma VM para atribuir a GPU. Prepare essa VM para o DDA definindo seu comportamento de cache, ação de parada e propriedades de E/S mapeadas na memória (MMIO) de acordo com as instruções em Implantar dispositivos gráficos usando a atribuição de dispositivos discretos..
Prepare as GPUs em cada servidor instalando drivers de controle de segurança em cada servidor, desativando as GPUs e desmontando-as do host. Para saber mais sobre esse processo, consulte Implantar dispositivos gráficos usando a Atribuição de dispositivos discretos.

Siga as etapas em Planejar a implantação de dispositivos usando a Atribuição de dispositivos discretos para preparar os dispositivos de GPU no cluster.
Verifique se o dispositivo tem espaço MMIO suficiente alocado na VM. Para obter mais informações, confira Espaço MMIO.
Crie uma VM para atribuir a GPU. Prepare essa VM para o DDA definindo seu comportamento de cache, ação de parada e propriedades de E/S mapeadas na memória (MMIO) de acordo com as instruções em Implantar dispositivos gráficos usando a atribuição de dispositivos discretos..
Prepare as GPUs em cada servidor instalando drivers de controle de segurança em cada servidor, desativando as GPUs e desmontando-as do host. Para saber mais sobre esse processo, consulte Implantar dispositivos gráficos usando a Atribuição de dispositivos discretos.

Observação

Seu sistema deve ser compatível com a solução Azure Stack HCI com suporte a GPU. Para procurar as opções, visite o Catálogo do Azure Stack HCI.

Preparar o cluster

Quando os pré-requisitos forem atendidos, você poderá preparar o cluster para usar GPUs com VMs em cluster.

A preparação do cluster envolve a criação de um pool de recursos que contém as GPUs disponíveis para atribuição às VMs. O cluster usa esse pool para determinar o posicionamento da VM para todas as VMs iniciadas ou movidas que são atribuídas ao pool de recursos da GPU.

Windows Admin Center
PowerShell

Usando o Windows Admin Center, siga estas etapas para preparar o cluster para usar GPUs com VMs em cluster.

Para preparar o cluster e atribuir uma VM a um pool de recursos de GPU:

Inicie o Windows Admin Center e verifique se a extensão GPUs já está instalada.
Selecione Gerenciador de Cluster no menu suspenso superior e conecte-se ao cluster.
No menu Configurações, selecione Extensões>GPUs.
No manu Ferramentas, em Extensões, selecione GPUs para abrir a ferramenta.
Na página principal da ferramenta, selecione a guia Pools de GPU e, em seguida, selecione Criar pool de GPU.
Na página Novo pool de GPUs, especifique o seguinte e selecione Salvar:
1. Nome do servidor
2. Nome do pool de GPU
3. GPUs que você deseja adicionar ao pool
Após a conclusão do processo, você receberá um prompt de sucesso que mostra o nome do novo pool de GPUs e o servidor host.

Siga estas etapas para preparar o cluster para usar GPUs com VMs em cluster usando o PowerShell.

Crie um novo pool de recursos vazio em cada servidor que contém os recursos de GPU em cluster. Certifique-se de fornecer o mesmo nome de pool em cada servidor.

No PowerShell, execute o seguinte cmdlet como administrador:
```
 New-VMResourcePool -ResourcePoolType PciExpress -Name "GpuChildPool"
```
Adicione as GPUs desmontadas de cada servidor ao pool de recursos que você criou na etapa anterior.

No PowerShell, execute os seguintes comandos:
```
 $gpu = Get-VMHostAssignableDevice

 Add-VMHostAssignableDevice -HostAssignableDevice $gpu -ResourcePoolName "GpuChildPool"
```

Agora você tem um pool de recursos em todo o cluster (denominado GpuChildPool) que é preenchido com GPUs atribuíveis. O cluster usa esse pool para determinar o posicionamento da VM para todas as VMs iniciadas ou movidas que são atribuídas ao pool de recursos da GPU.

Atribua uma VM a um pool de recursos de GPU

Agora você pode atribuir uma VM a um pool de recursos de GPU. Você pode atribuir uma ou mais VMs a um pool de recursos de GPU em cluster e remover uma VM de um pool de recursos de GPU em cluster.

Windows Admin Center
PowerShell

Siga estas etapas para atribuir uma VM existente a um pool de recursos de GPU usando o Windows Admin Center.

Observação

Você também precisa instalar drivers do fabricante da GPU dentro da VM para que os aplicativos na VM possam aproveitar a GPU atribuída a eles.

Na página Atribuir VM ao pool de GPUs, especifique o seguinte e selecione Atribuir:
1. Nome do servidor
2. Nome do pool de GPU
3. Máquina virtual à qual você deseja atribuir a GPU do pool de GPUs.
Você também pode definir valores de configuração avançados para espaços de E/S mapeados em memória (MMIO) para determinar os requisitos de recursos para uma única GPU.

Após a conclusão do processo, você receberá um prompt de confirmação que mostra que você atribuiu com êxito a GPU do pool de recursos da GPU à VM, que é exibida em VMs atribuídas.

Para cancelar a atribuição de uma VM de um pool de recursos de GPU:

Na guia pools de GPU, selecione a GPU que você deseja cancelar a atribuição e, em seguida, selecione Cancelar atribuição de VM.
Na página Cancelar atribuição de VM do pool de GPU, na caixa de listagem Máquinas virtuais, especifique o nome da VM e selecione Cancelar atribuição.

Após a conclusão do processo, você receberá um aviso de sucesso informando que a VM foi desatribuída do pool de GPUs e, em Status de atribuição, a GPU mostrará Disponível (Não atribuída)..

Siga estas etapas para atribuir uma VM existente a um pool de recursos de GPU usando o PowerShell.

Configure a ação offline padrão do recurso de VM do cluster como force-shutdown em vez de save. Certifique-se de substituir <vmname> pelo nome da VM que você deseja atribuir ao pool de recursos da GPU.

No PowerShell, execute o seguinte cmdlet:
```
 Get-ClusterResource -name <vmname> | Set-ClusterParameter -Name "OfflineAction" -Value 3
```
Atribua o pool de recursos que você criou anteriormente à VM. A atribuição do pool de recursos declara ao cluster que a VM requer um dispositivo atribuído do GpuChildPool pool quando é iniciada ou movida.

No PowerShell, execute o seguinte cmdlet:
```
 Get-ClusterResource -name <vmname> | Add-VMAssignableDevice -ResourcePoolName "GpuChildPool"
```
Observação

Se você quiser adicionar mais de uma GPU à VM, primeiro verifique se o pool de recursos tem mais de uma GPU atribuível disponível e, em seguida, execute o comando anterior novamente.

Você também pode remover uma GPU atribuída de uma VM. Para fazer isso no PowerShell, execute o comando a seguir. Certifique-se de substituir <vmname> pelo nome da VM que você deseja atribuir ao pool de recursos da GPU.
```
 Add-VMAssignableDevice -VMName $vm -ResourcePoolName "GpuChildPool"

 $vm | Remove-VMAssignableDevice
```

Quando você inicia a VM, o cluster garante que a VM seja colocada em um servidor com recursos de GPU disponíveis desse pool em todo o cluster. O cluster também atribui a GPU à VM por meio do DDA, o que permite que a GPU seja acessada a partir de cargas de trabalho dentro da VM.

Fazer failover de uma VM com uma GPU atribuída

Para testar a capacidade do cluster de manter a carga de trabalho da GPU disponível, execute uma operação de drenagem no servidor em que a VM está sendo executada com uma GPU atribuída. Para drenar o servidor, siga as instruções em Procedimentos de manutenção do cluster de failover. O cluster reinicia a VM em outro servidor do cluster, desde que outro servidor tenha recursos de GPU disponíveis suficientes no pool que você criou.

Para obter mais informações sobre o uso de GPUs com suas VMs em cluster, consulte:

Para obter mais informações sobre como usar GPUs com suas VMs e particionamento de GPU, consulte:

Compartilhar via

Usar GPUs com VMs clusterizadas

Pré-requisitos

Preparar o cluster

Atribua uma VM a um pool de recursos de GPU

Fazer failover de uma VM com uma GPU atribuída

Comentários

Recursos adicionais

Compartilhar via

Usar GPUs com VMs clusterizadas

Pré-requisitos

Preparar o cluster

Atribua uma VM a um pool de recursos de GPU

Fazer failover de uma VM com uma GPU atribuída

Conteúdo relacionado

Comentários

Recursos adicionais