Použití instancí RDMA nebo GPU ve fondech služby Batch

Článek
02/13/2024

Upozornění

Tento článek odkazuje na CentOS, linuxovou distribuci, která se blíží stavu Konec životnosti (EOL). Zvažte své použití a plánování odpovídajícím způsobem. Další informace najdete v doprovodných materiálech CentOS End Of Life.

Pokud chcete spouštět určité úlohy Batch, můžete využít velikosti virtuálních počítačů Azure navržené pro rozsáhlé výpočty. Příklad:

Pokud chcete spouštět úlohy MPI s více instancemi, zvolte řady H-series nebo jiné velikosti, které mají síťové rozhraní pro přímý přístup do paměti vzdáleného počítače (RDMA). Tyto velikosti se připojují k síti InfiniBand pro komunikaci mezi uzly, což může urychlit aplikace MPI.
U aplikací CUDA zvolte velikosti N-series, které obsahují karty GRAFICKÉho procesoru NVIDIA Tesla (GPU).

Tento článek obsahuje pokyny a příklady použití některých specializovaných velikostí Azure ve fondech Batch. Informace o specifikacích a pozadí najdete tady:

Velikosti virtuálních počítačů s vysokým výkonem (Linux, Windows)
Velikosti virtuálních počítačů s podporou GPU (Linux, Windows)

Poznámka:

Některé velikosti virtuálních počítačů nemusí být dostupné v oblastech, ve kterých vytváříte účty Batch. Pokud chcete zkontrolovat, jestli je dostupná velikost, podívejte se na produkty dostupné v jednotlivých oblastech a zvolte velikost virtuálního počítače pro fond Batch.

Závislosti

Funkce RDMA nebo GPU pro velikosti náročné na výpočetní výkon ve službě Batch se podporují jenom v určitých operačních systémech. (Seznam podporovaných operačních systémů je podmnožinou podporovaných pro virtuální počítače vytvořené v těchto velikostech.) V závislosti na tom, jak vytvoříte fond Batch, budete možná muset nainstalovat nebo nakonfigurovat další ovladač nebo jiný software na uzlech. Následující tabulky shrnují tyto závislosti. Podrobnosti najdete v odkazovaných článcích. Možnosti konfigurace fondů Batch najdete dále v tomto článku.

Fondy Linuxu – Konfigurace virtuálního počítače

Velikost	Schopnost	Operační systémy	Požadovaný software	Nastavení fondu
H16r, H16mr NC24r, NC24rs_v2, NC24rs_v3, ND24rs^*	RDMA	Ubuntu 22.04 LTS nebo Prostředí HPC založené na CentOS (Azure Marketplace)	Intel MPI 5 Linuxové ovladače RDMA	Povolení komunikace mezi uzly, zakázání souběžného spouštění úloh
NC, NCv2, NCv3, řada NDv2	NVIDIA Tesla GPU (liší se podle řad)	Ubuntu 22.04 LTS nebo CentOS 8.1 (Azure Marketplace)	Ovladače NVIDIA CUDA nebo CUDA Toolkit	–
NV, NVv2, řada NVv4	NVIDIA Tesla M60 GPU	Ubuntu 22.04 LTS nebo CentOS 8.1 (Azure Marketplace)	Ovladače NVIDIA GRID	–

^*Velikosti N-řad podporující RDMA zahrnují také gpu NVIDIA Tesla.

Důležité

Tento dokument odkazuje na verzi Linuxu, která se blíží nebo na konci životnosti (EOL). Zvažte aktualizaci na aktuálnější verzi.

Fondy Windows – Konfigurace virtuálního počítače

Velikost	Schopnost	Operační systémy	Požadovaný software	Nastavení fondu
H16r, H16mr NC24r, NC24rs_v2, NC24rs_v3, ND24rs^*	RDMA	Windows Server 2016, 2012 R2 nebo 2012 (Azure Marketplace)	Microsoft MPI 2012 R2 nebo novější nebo Intel MPI 5 Ovladače RDMA systému Windows	Povolení komunikace mezi uzly, zakázání souběžného spouštění úloh
NC, NCv2, NCv3, ND, NDv2	NVIDIA Tesla GPU (liší se podle řad)	Windows Server 2016 nebo 2012 R2 (Azure Marketplace)	Ovladače NVIDIA CUDA nebo CUDA Toolkit	–
NV, NVv2, řada NVv4	NVIDIA Tesla M60 GPU	Windows Server 2016 nebo 2012 R2 (Azure Marketplace)	Ovladače NVIDIA GRID	–

^*Velikosti N-řad podporující RDMA zahrnují také gpu NVIDIA Tesla.

Fondy Windows – Konfigurace cloudových služeb

Upozorňující

Fondy konfigurace cloudových služeb jsou zastaralé. Místo toho použijte fondy konfigurace virtuálních počítačů.

Velikost	Schopnost	Operační systémy	Požadovaný software	Nastavení fondu
H16r, H16mr	RDMA	Windows Server 2016, 2012 R2, 2012 nebo 2008 R2 (rodina hostovaného operačního systému)	Microsoft MPI 2012 R2 nebo novější nebo Intel MPI 5 Ovladače RDMA systému Windows	Povolení komunikace mezi uzly zakázat souběžné provádění úloh

Poznámka:

Velikosti N-series nejsou podporovány ve fondech konfigurace cloudových služeb.

Možnosti konfigurace fondu

Pokud chcete pro fond Batch nakonfigurovat specializovanou velikost virtuálního počítače, máte několik možností instalace požadovaného softwaru nebo ovladačů:

Pro fondy v konfiguraci virtuálního počítače zvolte předkonfigurovanou image virtuálního počítače Azure Marketplace s předinstalovanými ovladači a softwarem. Příklady:
- HpC s procesorem CentOS 8.1 – zahrnuje ovladače RDMA a Intel MPI 5.1
- Datová Věda virtuální počítač pro Linux nebo Windows – zahrnuje ovladače NVIDIA CUDA
- Image Linuxu pro úlohy kontejnerů Batch, které zahrnují také ovladače GPU a RDMA:
  - CentOS (s ovladači GPU a RDMA) pro fondy kontejnerů Azure Batch
  - Ubuntu Server (s ovladači GPU a RDMA) pro fondy kontejnerů Azure Batch
Vytvořte vlastní image virtuálního počítače s Windows nebo Linuxem, na které máte nainstalované ovladače, software nebo jiná nastavení požadovaná pro velikost virtuálního počítače.
Vytvořte balíček aplikace Batch z komprimovaného ovladače nebo instalačního programu aplikace a nakonfigurujte Batch tak, aby nasadil balíček do uzlů fondu a nainstaloval se jednou při vytvoření každého uzlu. Pokud je například balíček aplikace instalační program, vytvořte příkazový řádek spouštěcí úlohy , který aplikaci bezobslužně nainstaluje na všechny uzly fondu. Pokud vaše úloha závisí na konkrétní verzi ovladače, zvažte použití balíčku aplikace a spouštěcí úlohy fondu.

Poznámka:

Spouštěcí úkol musí běžet se zvýšenými oprávněními (správce) a musí čekat na úspěch. Dlouhotrvající úlohy zvětší dobu zřízení fondu Batch.

Příklad: Ovladače NVIDIA GPU ve fondu virtuálních počítačů s Windows NC

Pokud chcete spouštět aplikace CUDA ve fondu uzlů nc systému Windows, musíte nainstalovat ovladače NVDIA GPU. Následující ukázkové kroky používají balíček aplikace k instalaci ovladačů NVIDIA GPU. Tuto možnost můžete zvolit, pokud vaše úloha závisí na konkrétní verzi ovladače GPU.

Stáhněte instalační balíček pro ovladače GPU ve Windows Serveru 2016 z webu NVIDIA , například verze 411.82. Uložte soubor místně pomocí krátkého názvu, jako je GPUDriverSetup.exe.
Vytvořte soubor ZIP balíčku.
Nahrajte balíček do účtu Batch. Postup najdete v pokynech k balíčkům aplikací. Zadejte ID aplikace, jako je GPUDriver, a verzi, například 411.82.
Pomocí rozhraní API služby Batch nebo webu Azure Portal vytvořte fond v konfiguraci virtuálního počítače s požadovaným počtem uzlů a škálováním. Následující tabulka ukazuje ukázková nastavení pro instalaci ovladačů NVIDIA GPU bezobslužně pomocí spouštěcí úlohy:

Nastavení	Hodnota
Typ image	Marketplace (Linux/Windows)
Vydavatel	MicrosoftWindowsServer
Nabídka	WindowsServer
Sku	2016-Datacenter
Velikost uzlu	NC6 Standard
Odkazy na balíčky aplikací	GPUDriver verze 411.82
Povoleno spuštění úkolu	True Příkazový řádek - `cmd /c "%AZ_BATCH_APP_PACKAGE_GPUDriver#411.82%\\GPUDriverSetup.exe /s"` Identita uživatele – automatického uživatele fondu, správce Čekání na úspěch – Pravda

Příklad: Ovladače NVIDIA GPU ve fondu virtuálních počítačů s linuxovým síťovým adaptérem

Pokud chcete spouštět aplikace CUDA ve fondu uzlů síťových adaptérů Linuxu, musíte nainstalovat potřebné ovladače NVIDIA Tesla GPU ze sady CUDA Toolkit. Následující ukázkový postup vytvoří a nasadí vlastní image Ubuntu 22.04 LTS s ovladači GPU:

Nasaďte virtuální počítač řady NC-series Azure s Ubuntu 22.04 LTS. Vytvořte například virtuální počítač v oblasti USA – středojiž.
Přidejte do virtuálního počítače rozšíření OVLADAČE NVIDIA GPU pomocí webu Azure Portal, klientského počítače, který se připojuje k předplatnému Azure nebo k Azure Cloud Shellu. Případně se podle pokynů připojte k virtuálnímu počítači a nainstalujte ovladače CUDA ručně.
Postupujte podle pokynů k vytvoření image Galerie výpočetních prostředků Azure pro Službu Batch.
Vytvořte účet Batch v oblasti, která podporuje virtuální počítače nc.
Pomocí rozhraní API služby Batch nebo webu Azure Portal vytvořte fond pomocí vlastní image a s požadovaným počtem uzlů a škálováním. Následující tabulka ukazuje ukázková nastavení fondu pro obrázek:

Nastavení	Hodnota
Typ image	Vlastní image
Vlastní image	Název obrázku
Skladová položka agenta uzlu	batch.node.ubuntu 22.04
Velikost uzlu	NC6 Standard

Příklad: Microsoft MPI ve fondu virtuálních počítačů s Windows H16r

Pokud chcete spouštět aplikace WINDOWS MPI ve fondu uzlů virtuálních počítačů Azure H16r, musíte nakonfigurovat rozšíření HpcVmDrivers a nainstalovat Microsoft MPI. Tady jsou ukázkové kroky pro nasazení vlastní image Windows Serveru 2016 s potřebnými ovladači a softwarem:

Nasaďte virtuální počítač Azure H16r s Windows Serverem 2016. Vytvořte například virtuální počítač v oblasti USA – západ.
Přidejte do virtuálního počítače rozšíření HpcVmDrivers spuštěním příkazu Azure PowerShellu z klientského počítače, který se připojuje k vašemu předplatnému Azure nebo pomocí Azure Cloud Shellu.
Připojení ke vzdálené ploše k virtuálnímu počítači
Stáhněte instalační balíček (MSMpiSetup.exe) pro nejnovější verzi programu Microsoft MPI a nainstalujte microsoft MPI.
Postupujte podle pokynů k vytvoření image Galerie výpočetních prostředků Azure pro Službu Batch.
Pomocí rozhraní API služby Batch nebo webu Azure Portal vytvořte fond pomocí Galerie výpočetních prostředků Azure a s požadovaným počtem uzlů a škálováním. Následující tabulka ukazuje ukázková nastavení fondu pro obrázek:

Nastavení	Hodnota
Typ image	Vlastní image
Vlastní image	Název obrázku
Skladová položka agenta uzlu	batch.node.windows amd64
Velikost uzlu	H16r Standard
Komunikace mezi uzlu povolená	True
Maximální počet úkolů na uzel	0

Příklad: Intel MPI ve fondu virtuálních počítačů s Linuxem H16r

Pokud chcete spouštět aplikace MPI ve fondu uzlů řady HB-series s Linuxem, je jednou z možností použití image PROSTŘEDÍ HPC založené na CentOS 8.1 z Azure Marketplace. Ovladače RDMA s Linuxem a Intel MPI jsou předinstalované. Tato image podporuje také úlohy kontejnerů Dockeru.

Pomocí rozhraní API služby Batch nebo webu Azure Portal vytvořte fond pomocí této image a s požadovaným počtem uzlů a škálováním. Následující tabulka ukazuje ukázková nastavení fondu:

Nastavení	Hodnota
Typ image	Marketplace (Linux/Windows)
Vydavatel	OpenLogic
Nabídka	CentOS-HPC
Sku	8.1
Velikost uzlu	H16r Standard
Komunikace mezi uzlu povolená	True
Maximální počet úkolů na uzel	0

Další kroky

Pokud chcete spouštět úlohy MPI ve fondu Azure Batch, podívejte se na příklady windows nebo Linuxu .

Share via