Share via


RDMA- of GPU-exemplaren gebruiken in Batch-pools

Let op

In dit artikel wordt verwezen naar CentOS, een Linux-distributie die de status End Of Life (EOL) nadert. Overweeg uw gebruik en planning dienovereenkomstig. Zie de Richtlijnen voor het einde van de levensduur van CentOS voor meer informatie.

Als u bepaalde Batch-taken wilt uitvoeren, kunt u profiteren van Azure VM-grootten die zijn ontworpen voor grootschalige berekeningen. Voorbeeld:

  • Als u MPI-workloads met meerdere exemplaren wilt uitvoeren, kiest u H-serie of andere grootten met een netwerkinterface voor Remote Direct Memory Access (RDMA). Deze grootten maken verbinding met een InfiniBand-netwerk voor communicatie tussen knooppunten, waardoor MPI-toepassingen kunnen worden versneld.

  • Voor CUDA-toepassingen kiest u N-seriegrootten die NVIDIA Tesla GPU-kaarten (Graphics Processing Unit) bevatten.

Dit artikel bevat richtlijnen en voorbeelden voor het gebruik van enkele gespecialiseerde grootten van Azure in Batch-pools. Zie voor specificaties en achtergrond:

Notitie

Bepaalde VM-grootten zijn mogelijk niet beschikbaar in de regio's waar u uw Batch-accounts maakt. Als u wilt controleren of er een grootte beschikbaar is, raadpleegt u Producten die beschikbaar zijn per regio en kiest u een VM-grootte voor een Batch-pool.

Afhankelijkheden

De RDMA- of GPU-mogelijkheden van rekenintensieve grootten in Batch worden alleen ondersteund in bepaalde besturingssystemen. (De lijst met ondersteunde besturingssystemen is een subset van de ondersteunde besturingssystemen voor virtuele machines die in deze grootten zijn gemaakt.) Afhankelijk van hoe u uw Batch-pool maakt, moet u mogelijk extra stuurprogramma's of andere software op de knooppunten installeren of configureren. In de volgende tabellen worden deze afhankelijkheden samengevat. Zie gekoppelde artikelen voor meer informatie. Zie verderop in dit artikel voor opties voor het configureren van Batch-pools.

Linux-pools - Configuratie van virtuele machines

Tekengrootte Mogelijkheid Besturingssystemen Vereiste software Poolinstellingen
H16r, H16mr
NC24r, NC24rs_v2, NC24rs_v3, ND24rs*
RDMA Ubuntu 22.04 LTS of
HpC op basis van CentOS
(Azure Marketplace)
Intel MPI 5

RdMA-stuurprogramma's voor Linux
Communicatie tussen knooppunten inschakelen, gelijktijdige taakuitvoering uitschakelen
NC, NCv2, NCv3, NDv2 serie NVIDIA Tesla GPU (verschilt per serie) Ubuntu 22.04 LTS of
CentOS 8.1
(Azure Marketplace)
STUURPROGRAMMA's voor NVIDIA CUDA of CUDA Toolkit N.v.t.
NV, NVv2, NVv4 serie NVIDIA Tesla M60 GPU Ubuntu 22.04 LTS of
CentOS 8.1
(Azure Marketplace)
NVIDIA GRID-stuurprogramma's N.v.t.

*RDMA-compatibele N-serie maten omvatten ook NVIDIA Tesla GPU's

Belangrijk

Dit document verwijst naar een releaseversie van Linux die bijna of aan het einde van de levensduur (EOL) nadert. Overweeg om bij te werken naar een recentere versie.

Windows-pools - Configuratie van virtuele machines

Tekengrootte Mogelijkheid Besturingssystemen Vereiste software Poolinstellingen
H16r, H16mr
NC24r, NC24rs_v2, NC24rs_v3, ND24rs*
RDMA Windows Server 2016, 2012 R2 of
2012 (Azure Marketplace)
Microsoft MPI 2012 R2 of hoger, of
Intel MPI 5

Windows RDMA-stuurprogramma's
Communicatie tussen knooppunten inschakelen, gelijktijdige taakuitvoering uitschakelen
NC, NCv2, NCv3, ND, NDv2-serie NVIDIA Tesla GPU (verschilt per serie) Windows Server 2016 of
2012 R2 (Azure Marketplace)
STUURPROGRAMMA's voor NVIDIA CUDA of CUDA Toolkit N.v.t.
NV, NVv2, NVv4 serie NVIDIA Tesla M60 GPU Windows Server 2016 of
2012 R2 (Azure Marketplace)
NVIDIA GRID-stuurprogramma's N.v.t.

*RDMA-compatibele N-serie maten omvatten ook NVIDIA Tesla GPU's

Windows-pools - Cloud Services-configuratie

Waarschuwing

Cloud Services-configuratiegroepen zijn afgeschaft. Gebruik in plaats daarvan configuratiegroepen voor virtuele machines.

Tekengrootte Mogelijkheid Besturingssystemen Vereiste software Poolinstellingen
H16r, H16mr RDMA Windows Server 2016, 2012 R2, 2012 of
2008 R2 (familie van gastbesturingssystemen)
Microsoft MPI 2012 R2 of hoger, of
Intel MPI 5

Windows RDMA-stuurprogramma's
Communicatie tussen knooppunten inschakelen
gelijktijdige taakuitvoering uitschakelen

Notitie

Grootten van N-serie worden niet ondersteund in Cloud Services-configuratiegroepen.

Opties voor poolconfiguratie

Als u een gespecialiseerde VM-grootte voor uw Batch-pool wilt configureren, hebt u verschillende opties om vereiste software of stuurprogramma's te installeren:

Voorbeeld: NVIDIA GPU-stuurprogramma's in Windows NC VM-pool

Als u CUDA-toepassingen wilt uitvoeren op een groep Windows NC-knooppunten, moet u NVDIA GPU-stuurprogramma's installeren. In de volgende voorbeeldstappen wordt een toepassingspakket gebruikt om de NVIDIA GPU-stuurprogramma's te installeren. U kunt deze optie kiezen als uw workload afhankelijk is van een specifieke VERSIE van het GPU-stuurprogramma.

  1. Download een installatiepakket voor de GPU-stuurprogramma's op Windows Server 2016 vanaf de NVIDIA-website , bijvoorbeeld versie 411.82. Sla het bestand lokaal op met een korte naam, zoals GPUDriverSetup.exe.
  2. Maak een ZIP-bestand van het pakket.
  3. Upload het pakket naar uw Batch-account. Zie de richtlijnen voor toepassingspakketten voor stappen. Geef een toepassings-id op, zoals GPUDriver, en een versie zoals 411.82.
  4. Maak met behulp van de Batch-API's of Azure Portal een pool in de configuratie van de virtuele machine met het gewenste aantal knooppunten en schaal. In de volgende tabel ziet u voorbeeldinstellingen voor het installeren van de NVIDIA GPU-stuurprogramma's op de achtergrond met behulp van een begintaak:
Instelling Weergegeven als
Type installatiekopie Marketplace (Linux/Windows)
Uitgever MicrosoftWindowsServer
Aanbieding WindowsServer
SKU 2016-Datacenter
Knooppuntgrootte NC6 Standard
Verwijzingen naar toepassingspakketten GPUDriver, versie 411.82
Taak starten ingeschakeld Waar
Opdrachtregel - cmd /c "%AZ_BATCH_APP_PACKAGE_GPUDriver#411.82%\\GPUDriverSetup.exe /s"
Gebruikersidentiteit - Pool autouser, beheerder
Wachten op succes - Waar

Voorbeeld: NVIDIA GPU-stuurprogramma's in een Linux NC VM-pool

Als u CUDA-toepassingen wilt uitvoeren op een pool met Linux NC-knooppunten, moet u de benodigde NVIDIA Tesla GPU-stuurprogramma's installeren vanuit de CUDA Toolkit. Met de volgende voorbeeldstappen maakt en implementeert u een aangepaste Ubuntu 22.04 LTS-installatiekopie met de GPU-stuurprogramma's:

  1. Implementeer een VM uit de Azure NC-serie waarop Ubuntu 22.04 LTS wordt uitgevoerd. Maak bijvoorbeeld de virtuele machine in de regio VS - zuid-centraal.
  2. Voeg de extensie NVIDIA GPU-stuurprogramma's toe aan de VIRTUELE machine met behulp van Azure Portal, een clientcomputer die verbinding maakt met het Azure-abonnement of Azure Cloud Shell. U kunt ook de stappen volgen om verbinding te maken met de VIRTUELE machine en CUDA-stuurprogramma's handmatig te installeren.
  3. Volg de stappen voor het maken van een Azure Compute Gallery-installatiekopieën voor Batch.
  4. Maak een Batch-account in een regio die NC-VM's ondersteunt.
  5. Maak met behulp van de Batch-API's of Azure Portal een pool met behulp van de aangepaste installatiekopieën en het gewenste aantal knooppunten en schaal. In de volgende tabel ziet u voorbeeldpoolinstellingen voor de afbeelding:
Instelling Weergegeven als
Type installatiekopie Aangepaste installatiekopie
Aangepaste installatiekopieën Naam van de afbeelding
Knooppuntagent-SKU batch.node.ubuntu 22.04
Knooppuntgrootte NC6 Standard

Voorbeeld: Microsoft MPI in een Windows H16r VM-pool

Als u Windows MPI-toepassingen wilt uitvoeren op een pool met Azure H16r VM-knooppunten, moet u de HpcVmDrivers-extensie configureren en Microsoft MPI installeren. Hier volgen voorbeeldstappen voor het implementeren van een aangepaste Installatiekopieën van Windows Server 2016 met de benodigde stuurprogramma's en software:

  1. Implementeer een Azure H16r-VM met Windows Server 2016. Maak bijvoorbeeld de virtuele machine in de regio US - west.
  2. Voeg de HpcVmDrivers-extensie toe aan de virtuele machine door een Azure PowerShell-opdracht uit te voeren vanaf een clientcomputer die verbinding maakt met uw Azure-abonnement of met behulp van Azure Cloud Shell.
  3. Maak een verbinding met extern bureaublad met de virtuele machine.
  4. Download het installatiepakket (MSMpiSetup.exe) voor de nieuwste versie van Microsoft MPI en installeer Microsoft MPI.
  5. Volg de stappen voor het maken van een Azure Compute Gallery-installatiekopieën voor Batch.
  6. Maak met behulp van de Batch-API's of Azure Portal een pool met behulp van de Azure Compute Gallery en met het gewenste aantal knooppunten en schaal. In de volgende tabel ziet u voorbeeldpoolinstellingen voor de afbeelding:
Instelling Weergegeven als
Type installatiekopie Aangepaste installatiekopie
Aangepaste installatiekopieën Naam van de afbeelding
Knooppuntagent-SKU batch.node.windows amd64
Knooppuntgrootte H16r Standard
Communicatie tussen knooppunten ingeschakeld Waar
Maximum aantal taken per knooppunt 1

Voorbeeld: Intel MPI in een Linux H16r VM-pool

Als u MPI-toepassingen wilt uitvoeren op een pool met knooppunten uit de Linux HB-serie, kunt u de op CentOS gebaseerde 8.1 HPC-installatiekopieën van Azure Marketplace gebruiken. Linux RDMA-stuurprogramma's en Intel MPI zijn vooraf geïnstalleerd. Deze installatiekopieën ondersteunen ook Docker-containerworkloads.

Maak met behulp van de Batch-API's of Azure Portal een pool met behulp van deze installatiekopieën en met het gewenste aantal knooppunten en schaal. In de volgende tabel ziet u voorbeeldpoolinstellingen:

Instelling Weergegeven als
Type installatiekopie Marketplace (Linux/Windows)
Uitgever OpenLogic
Aanbieding CentOS-HPC
SKU 8.1
Knooppuntgrootte H16r Standard
Communicatie tussen knooppunten ingeschakeld Waar
Maximum aantal taken per knooppunt 1

Volgende stappen