Dela via


Använda RDMA- eller GPU-instanser i Batch-pooler

Om du vill köra vissa Batch-jobb kan du dra nytta av storlekar på virtuella Azure-datorer som är utformade för storskalig beräkning. Till exempel:

  • Om du vill köra MPI-arbetsbelastningar för flera instanser väljer du HB-, HC-, NC- eller ND-serien eller andra storlekar som har ett nätverksgränssnitt för Fjärrdirigeringsåtkomst (RDMA). Dessa storlekar ansluter till ett InfiniBand-nätverk för kommunikation mellan noder, vilket kan påskynda MPI-program.

  • För CUDA-program väljer du N-seriens storlekar som innehåller NVIDIA Tesla-grafikprocessorkort (GPU).

Den här artikeln innehåller vägledning och exempel för att använda några av Azures specialiserade storlekar i Batch-pooler. Information om specifikationer och bakgrund finns i:

Kommentar

Vissa VM-storlekar kanske inte är tillgängliga i de regioner där du skapar dina Batch-konton. Information om hur du kontrollerar att en storlek är tillgänglig finns i Produkter tillgängliga per region och Välj en VM-storlek för en Batch-pool.

Beroenden

RDMA- eller GPU-funktionerna i beräkningsintensiva storlekar i Batch stöds endast i vissa operativsystem. De operativsystem som stöds för dessa VM-storlekar innehåller endast en delmängd av de som är tillgängliga för att skapa virtuella datorer. Beroende på hur du skapar batchpoolen kan du behöva installera eller konfigurera extra drivrutin eller annan programvara på noderna. Följande tabeller sammanfattar dessa beroenden. Mer information finns i länkade artiklar. Alternativ för att konfigurera Batch-pooler finns i senare i den här artikeln.

Linux-pooler – Konfiguration av virtuell dator

Storlek Kapacitet Operativsystem Nödvändig programvara Poolinställningar
H16r, H16mr
NC24r, NC24rs_v2, NC24rs_v3, ND24rs*
RDMA Ubuntu 22.04 LTS
(Azure Marketplace)
Intel MPI 5

Linux RDMA-drivrutiner
Aktivera kommunikation mellan noder, inaktivera samtidig aktivitetskörning
NCv3, NDv2, NDv4, NDv5-serien NVIDIA Tesla GPU (varierar efter serie) Ubuntu 22.04 LTS
(Azure Marketplace)
NVIDIA CUDA- eller CUDA Toolkit-drivrutiner Ej tillämpligt
NVv3, NVv4, NVv5-serien GPU för accelererad visualisering Ubuntu 22.04 LTS
(Azure Marketplace)
NVIDIA GRID-drivrutiner (om det behövs) Ej tillämpligt

*RDMA-kompatibla N-serien storlekar inkluderar också NVIDIA Tesla GPU:er

Viktigt!

Det här dokumentet refererar till en versionsversion av Linux som närmar sig eller vid End of Life (EOL). Överväg att uppdatera till en mer aktuell version.

Windows-pooler – Konfiguration av virtuell dator

Storlek Kapacitet Operativsystem Nödvändig programvara Poolinställningar
H16r, H16mr
NC24r, NC24rs_v2, NC24rs_v3, ND24rs*
RDMA Windows Server 2016, 2012 R2 eller
2012 (Azure Marketplace)
Microsoft MPI 2012 R2 eller senare, eller
Intel MPI 5

Windows RDMA-drivrutiner
Aktivera kommunikation mellan noder, inaktivera samtidig aktivitetskörning
NC, NCv2, NCv3, ND, NDv2-serien NVIDIA Tesla GPU (varierar efter serie) Windows Server 2016 eller
2012 R2 (Azure Marketplace)
NVIDIA CUDA- eller CUDA Toolkit-drivrutiner Ej tillämpligt
NV, NVv2, NVv4-serien NVIDIA Tesla M60 GPU Windows Server 2016 eller
2012 R2 (Azure Marketplace)
NVIDIA GRID-drivrutiner Ej tillämpligt

*RDMA-kompatibla N-serien storlekar inkluderar också NVIDIA Tesla GPU:er

Windows-pooler – Cloud Services-konfiguration

Varning

Cloud Services-konfigurationspooler är inaktuella. Använd vm-konfigurationspooler i stället.

Storlek Kapacitet Operativsystem Nödvändig programvara Poolinställningar
H16r, H16mr RDMA Windows Server 2016, 2012 R2, 2012 eller
2008 R2 (gästoperativsystemfamilj)
Microsoft MPI 2012 R2 eller senare, eller
Intel MPI 5

Windows RDMA-drivrutiner
Aktivera kommunikation mellan noder,
inaktivera samtidig aktivitetskörning

Kommentar

N-seriens storlekar stöds inte i Cloud Services-konfigurationspooler.

Konfigurationsalternativ för pool

Om du vill konfigurera en särskild VM-storlek för batchpoolen har du flera alternativ för att installera nödvändig programvara eller drivrutiner:

  • För pooler i konfigurationen av den virtuella datorn väljer du en förkonfigurerad virtuell Azure Marketplace-avbildning med förinstallerade drivrutiner och programvara. Exempel:

  • Data Science Virtual Machine för Linux eller Windows – innehåller NVIDIA CUDA-drivrutiner

  • Linux-avbildningar för Batch-containerarbetsbelastningar som även innehåller GPU- och RDMA-drivrutiner:

  • Ubuntu Server (med GPU- och RDMA-drivrutiner) för Azure Batch-containerpooler

  • Skapa en anpassad virtuell Windows- eller Linux-avbildning med installerade drivrutiner, programvara eller andra inställningar som krävs för vm-storleken.

  • Skapa ett Batch-programpaket från en zippad drivrutin eller programinstallationsprogram. Konfigurera sedan Batch för att distribuera det här paketet till poolnoder och installera en gång när varje nod skapas. Om programpaketet till exempel är ett installationsprogram skapar du en startaktivitetskommandorad för att tyst installera appen på alla poolnoder. Överväg att använda ett programpaket och en poolstartaktivitet om din arbetsbelastning är beroende av en viss drivrutinsversion.

    Kommentar

    Startaktiviteten måste köras med utökade (administratörsbehörigheter) och den måste vänta tills den har slutförts. Långvariga uppgifter ökar tiden för att etablera en Batch-pool.

Exempel: NVIDIA GPU-drivrutiner i Windows NC VM-pool

Om du vill köra CUDA-program på en pool med Windows NC-noder måste du installera NVDIA GPU-drivrutiner. Följande exempelsteg använder ett programpaket för att installera NVIDIA GPU-drivrutinerna. Du kan välja det här alternativet om din arbetsbelastning är beroende av en specifik GPU-drivrutinsversion.

  1. Ladda ned ett installationspaket för GPU-drivrutinerna på Windows Server 2016 från NVIDIA-webbplatsen , till exempel version 411.82. Spara filen lokalt med ett kort namn som GPUDriverSetup.exe.
  2. Skapa en zip-fil för paketet.
  3. Ladda upp paketet till ditt Batch-konto. Anvisningar finns i vägledningen för programpaket . Ange ett program-ID som GPUDriver och en version som 411.82.
  4. Använd Batch-API:er eller Azure-portalen och skapa en pool i konfigurationen av den virtuella datorn med önskat antal noder och skala. I följande tabell visas exempelinställningar för att installera NVIDIA GPU-drivrutinerna tyst med hjälp av en startuppgift:
Inställning Värde
Avbildningstyp Marketplace (Linux/Windows)
Utgivare MicrosoftWindowsServer
Erbjudande WindowsServer
Sku 2016-Datacenter
Nodstorlek NC6 Standard
Programpaketreferenser GPUDriver, version 411.82
Startaktivitet aktiverad Sant
Kommandorad - cmd /c "%AZ_BATCH_APP_PACKAGE_GPUDriver#411.82%\\GPUDriverSetup.exe /s"
Användaridentitet – Automatisk användare av pool, administratör
Vänta på framgång – Sant

Exempel: NVIDIA GPU-drivrutiner på en virtuell Linux NC-pool

Om du vill köra CUDA-program på en pool med Linux NC-noder måste du installera nödvändiga NVIDIA Tesla GPU-drivrutiner från CUDA Toolkit. Följande exempelsteg skapar och distribuerar en anpassad Ubuntu 22.04 LTS-avbildning med GPU-drivrutinerna:

  1. Distribuera en virtuell dator i Azure NC-serien som kör Ubuntu 22.04 LTS. Skapa till exempel den virtuella datorn i regionen USA, södra centrala.
  2. Lägg till NVIDIA GPU Drivers-tillägget till den virtuella datorn med hjälp av Azure-portalen, en klientdator som ansluter till Azure-prenumerationen eller Azure Cloud Shell. Du kan också följa stegen för att ansluta till den virtuella datorn och installera CUDA-drivrutiner manuellt.
  3. Följ stegen för att skapa en Azure Compute Gallery-avbildning för Batch.
  4. Skapa ett Batch-konto i en region som stöder virtuella NC-datorer.
  5. Med hjälp av Batch-API:er eller Azure-portalen skapar du en pool med den anpassade avbildningen och med önskat antal noder och skala. I följande tabell visas exempelpoolinställningar för bilden:
Inställning Värde
Avbildningstyp Anpassad avbildning
Anpassad avbildning Namnet på avbildningen
Node agent SKU batch.node.ubuntu 22.04
Nodstorlek NC6 Standard

Exempel: Microsoft MPI på en virtuell Windows H16r-pool

Om du vill köra Windows MPI-program på en pool med virtuella Azure H16r-noder måste du konfigurera HpcVmDrivers-tillägget och installera Microsoft MPI. Här följer exempelsteg för att distribuera en anpassad Windows Server 2016-avbildning med nödvändiga drivrutiner och programvara:

  1. Distribuera en virtuell Azure H16r-dator som kör Windows Server 2016. Skapa till exempel den virtuella datorn i regionen USA, västra.
  2. Lägg till HpcVmDrivers-tillägget till den virtuella datorn genom att köra ett Azure PowerShell-kommando från en klientdator som ansluter till din Azure-prenumeration eller med Azure Cloud Shell.
  3. Upprätta en fjärrskrivbordsanslutning till den virtuella datorn.
  4. Ladda ned installationspaketet (MSMpiSetup.exe) för den senaste versionen av Microsoft MPI och installera Microsoft MPI.
  5. Följ stegen för att skapa en Azure Compute Gallery-avbildning för Batch.
  6. Med hjälp av Batch-API:er eller Azure-portalen skapar du en pool med hjälp av Azure Compute Gallery och med önskat antal noder och skalning. I följande tabell visas exempelpoolinställningar för bilden:
Inställning Värde
Avbildningstyp Anpassad avbildning
Anpassad avbildning Namnet på avbildningen
Node agent SKU batch.node.windows amd64
Nodstorlek H16r Standard
Internode-kommunikation aktiverad Sant
Maximalt antal aktiviteter per nod 1

Nästa steg

  • Information om hur du kör MPI-jobb i en Azure Batch-pool finns i Windows- eller Linux-exemplen.