Använda RDMA- eller GPU-instanser i Batch-pooler

Artikel
06/13/2024

Om du vill köra vissa Batch-jobb kan du dra nytta av storlekar på virtuella Azure-datorer som är utformade för storskalig beräkning. Till exempel:

Om du vill köra MPI-arbetsbelastningar för flera instanser väljer du HB-, HC-, NC- eller ND-serien eller andra storlekar som har ett nätverksgränssnitt för Fjärrdirigeringsåtkomst (RDMA). Dessa storlekar ansluter till ett InfiniBand-nätverk för kommunikation mellan noder, vilket kan påskynda MPI-program.
För CUDA-program väljer du N-seriens storlekar som innehåller NVIDIA Tesla-grafikprocessorkort (GPU).

Den här artikeln innehåller vägledning och exempel för att använda några av Azures specialiserade storlekar i Batch-pooler. Information om specifikationer och bakgrund finns i:

Vm-storlekar med höga prestanda (Linux, Windows)
GPU-aktiverade VM-storlekar (Linux, Windows)

Kommentar

Vissa VM-storlekar kanske inte är tillgängliga i de regioner där du skapar dina Batch-konton. Information om hur du kontrollerar att en storlek är tillgänglig finns i Produkter tillgängliga per region och Välj en VM-storlek för en Batch-pool.

Beroenden

RDMA- eller GPU-funktionerna i beräkningsintensiva storlekar i Batch stöds endast i vissa operativsystem. De operativsystem som stöds för dessa VM-storlekar innehåller endast en delmängd av de som är tillgängliga för att skapa virtuella datorer. Beroende på hur du skapar batchpoolen kan du behöva installera eller konfigurera extra drivrutin eller annan programvara på noderna. Följande tabeller sammanfattar dessa beroenden. Mer information finns i länkade artiklar. Alternativ för att konfigurera Batch-pooler finns i senare i den här artikeln.

Linux-pooler – Konfiguration av virtuell dator

Storlek	Kapacitet	Operativsystem	Nödvändig programvara	Poolinställningar
H16r, H16mr NC24r, NC24rs_v2, NC24rs_v3, ND24rs^*	RDMA	Ubuntu 22.04 LTS (Azure Marketplace)	Intel MPI 5 Linux RDMA-drivrutiner	Aktivera kommunikation mellan noder, inaktivera samtidig aktivitetskörning
NCv3, NDv2, NDv4, NDv5-serien	NVIDIA Tesla GPU (varierar efter serie)	Ubuntu 22.04 LTS (Azure Marketplace)	NVIDIA CUDA- eller CUDA Toolkit-drivrutiner	Ej tillämpligt
NVv3, NVv4, NVv5-serien	GPU för accelererad visualisering	Ubuntu 22.04 LTS (Azure Marketplace)	NVIDIA GRID-drivrutiner (om det behövs)	Ej tillämpligt

^*RDMA-kompatibla N-serien storlekar inkluderar också NVIDIA Tesla GPU:er

Viktigt!

Det här dokumentet refererar till en versionsversion av Linux som närmar sig eller vid End of Life (EOL). Överväg att uppdatera till en mer aktuell version.

Windows-pooler – Konfiguration av virtuell dator

Storlek	Kapacitet	Operativsystem	Nödvändig programvara	Poolinställningar
H16r, H16mr NC24r, NC24rs_v2, NC24rs_v3, ND24rs^*	RDMA	Windows Server 2016, 2012 R2 eller 2012 (Azure Marketplace)	Microsoft MPI 2012 R2 eller senare, eller Intel MPI 5 Windows RDMA-drivrutiner	Aktivera kommunikation mellan noder, inaktivera samtidig aktivitetskörning
NC, NCv2, NCv3, ND, NDv2-serien	NVIDIA Tesla GPU (varierar efter serie)	Windows Server 2016 eller 2012 R2 (Azure Marketplace)	NVIDIA CUDA- eller CUDA Toolkit-drivrutiner	Ej tillämpligt
NV, NVv2, NVv4-serien	NVIDIA Tesla M60 GPU	Windows Server 2016 eller 2012 R2 (Azure Marketplace)	NVIDIA GRID-drivrutiner	Ej tillämpligt

^*RDMA-kompatibla N-serien storlekar inkluderar också NVIDIA Tesla GPU:er

Windows-pooler – Cloud Services-konfiguration

Varning

Cloud Services-konfigurationspooler är inaktuella. Använd vm-konfigurationspooler i stället.

Storlek	Kapacitet	Operativsystem	Nödvändig programvara	Poolinställningar
H16r, H16mr	RDMA	Windows Server 2016, 2012 R2, 2012 eller 2008 R2 (gästoperativsystemfamilj)	Microsoft MPI 2012 R2 eller senare, eller Intel MPI 5 Windows RDMA-drivrutiner	Aktivera kommunikation mellan noder, inaktivera samtidig aktivitetskörning

Kommentar

N-seriens storlekar stöds inte i Cloud Services-konfigurationspooler.

Konfigurationsalternativ för pool

Om du vill konfigurera en särskild VM-storlek för batchpoolen har du flera alternativ för att installera nödvändig programvara eller drivrutiner:

För pooler i konfigurationen av den virtuella datorn väljer du en förkonfigurerad virtuell Azure Marketplace-avbildning med förinstallerade drivrutiner och programvara. Exempel:
Data Science Virtual Machine för Linux eller Windows – innehåller NVIDIA CUDA-drivrutiner
Linux-avbildningar för Batch-containerarbetsbelastningar som även innehåller GPU- och RDMA-drivrutiner:
Ubuntu Server (med GPU- och RDMA-drivrutiner) för Azure Batch-containerpooler
Skapa en anpassad virtuell Windows- eller Linux-avbildning med installerade drivrutiner, programvara eller andra inställningar som krävs för vm-storleken.
Skapa ett Batch-programpaket från en zippad drivrutin eller programinstallationsprogram. Konfigurera sedan Batch för att distribuera det här paketet till poolnoder och installera en gång när varje nod skapas. Om programpaketet till exempel är ett installationsprogram skapar du en startaktivitetskommandorad för att tyst installera appen på alla poolnoder. Överväg att använda ett programpaket och en poolstartaktivitet om din arbetsbelastning är beroende av en viss drivrutinsversion.

Kommentar

Startaktiviteten måste köras med utökade (administratörsbehörigheter) och den måste vänta tills den har slutförts. Långvariga uppgifter ökar tiden för att etablera en Batch-pool.

Exempel: NVIDIA GPU-drivrutiner i Windows NC VM-pool

Om du vill köra CUDA-program på en pool med Windows NC-noder måste du installera NVDIA GPU-drivrutiner. Följande exempelsteg använder ett programpaket för att installera NVIDIA GPU-drivrutinerna. Du kan välja det här alternativet om din arbetsbelastning är beroende av en specifik GPU-drivrutinsversion.

Ladda ned ett installationspaket för GPU-drivrutinerna på Windows Server 2016 från NVIDIA-webbplatsen , till exempel version 411.82. Spara filen lokalt med ett kort namn som GPUDriverSetup.exe.
Skapa en zip-fil för paketet.
Ladda upp paketet till ditt Batch-konto. Anvisningar finns i vägledningen för programpaket . Ange ett program-ID som GPUDriver och en version som 411.82.
Använd Batch-API:er eller Azure-portalen och skapa en pool i konfigurationen av den virtuella datorn med önskat antal noder och skala. I följande tabell visas exempelinställningar för att installera NVIDIA GPU-drivrutinerna tyst med hjälp av en startuppgift:

Inställning	Värde
Avbildningstyp	Marketplace (Linux/Windows)
Utgivare	MicrosoftWindowsServer
Erbjudande	WindowsServer
Sku	2016-Datacenter
Nodstorlek	NC6 Standard
Programpaketreferenser	GPUDriver, version 411.82
Startaktivitet aktiverad	Sant Kommandorad - `cmd /c "%AZ_BATCH_APP_PACKAGE_GPUDriver#411.82%\\GPUDriverSetup.exe /s"` Användaridentitet – Automatisk användare av pool, administratör Vänta på framgång – Sant

Exempel: NVIDIA GPU-drivrutiner på en virtuell Linux NC-pool

Om du vill köra CUDA-program på en pool med Linux NC-noder måste du installera nödvändiga NVIDIA Tesla GPU-drivrutiner från CUDA Toolkit. Följande exempelsteg skapar och distribuerar en anpassad Ubuntu 22.04 LTS-avbildning med GPU-drivrutinerna:

Distribuera en virtuell dator i Azure NC-serien som kör Ubuntu 22.04 LTS. Skapa till exempel den virtuella datorn i regionen USA, södra centrala.
Lägg till NVIDIA GPU Drivers-tillägget till den virtuella datorn med hjälp av Azure-portalen, en klientdator som ansluter till Azure-prenumerationen eller Azure Cloud Shell. Du kan också följa stegen för att ansluta till den virtuella datorn och installera CUDA-drivrutiner manuellt.
Följ stegen för att skapa en Azure Compute Gallery-avbildning för Batch.
Skapa ett Batch-konto i en region som stöder virtuella NC-datorer.
Med hjälp av Batch-API:er eller Azure-portalen skapar du en pool med den anpassade avbildningen och med önskat antal noder och skala. I följande tabell visas exempelpoolinställningar för bilden:

Inställning	Värde
Avbildningstyp	Anpassad avbildning
Anpassad avbildning	Namnet på avbildningen
Node agent SKU	batch.node.ubuntu 22.04
Nodstorlek	NC6 Standard

Exempel: Microsoft MPI på en virtuell Windows H16r-pool

Om du vill köra Windows MPI-program på en pool med virtuella Azure H16r-noder måste du konfigurera HpcVmDrivers-tillägget och installera Microsoft MPI. Här följer exempelsteg för att distribuera en anpassad Windows Server 2016-avbildning med nödvändiga drivrutiner och programvara:

Distribuera en virtuell Azure H16r-dator som kör Windows Server 2016. Skapa till exempel den virtuella datorn i regionen USA, västra.
Lägg till HpcVmDrivers-tillägget till den virtuella datorn genom att köra ett Azure PowerShell-kommando från en klientdator som ansluter till din Azure-prenumeration eller med Azure Cloud Shell.
Upprätta en fjärrskrivbordsanslutning till den virtuella datorn.
Ladda ned installationspaketet (MSMpiSetup.exe) för den senaste versionen av Microsoft MPI och installera Microsoft MPI.
Följ stegen för att skapa en Azure Compute Gallery-avbildning för Batch.
Med hjälp av Batch-API:er eller Azure-portalen skapar du en pool med hjälp av Azure Compute Gallery och med önskat antal noder och skalning. I följande tabell visas exempelpoolinställningar för bilden:

Inställning	Värde
Avbildningstyp	Anpassad avbildning
Anpassad avbildning	Namnet på avbildningen
Node agent SKU	batch.node.windows amd64
Nodstorlek	H16r Standard
Internode-kommunikation aktiverad	Sant
Maximalt antal aktiviteter per nod	1

Nästa steg

Information om hur du kör MPI-jobb i en Azure Batch-pool finns i Windows- eller Linux-exemplen.

Dela via