Použití instancí RDMA nebo GPU ve fondech služby Batch

Upozornění

Tento článek odkazuje na CentOS, linuxovou distribuci, která se blíží stavu Konec životnosti (EOL). Zvažte své použití a plánování odpovídajícím způsobem. Další informace najdete v doprovodných materiálech CentOS End Of Life.

Pokud chcete spouštět určité úlohy Batch, můžete využít velikosti virtuálních počítačů Azure navržené pro rozsáhlé výpočty. Příklad:

  • Pokud chcete spouštět úlohy MPI s více instancemi, zvolte řady H-series nebo jiné velikosti, které mají síťové rozhraní pro přímý přístup do paměti vzdáleného počítače (RDMA). Tyto velikosti se připojují k síti InfiniBand pro komunikaci mezi uzly, což může urychlit aplikace MPI.

  • U aplikací CUDA zvolte velikosti N-series, které obsahují karty GRAFICKÉho procesoru NVIDIA Tesla (GPU).

Tento článek obsahuje pokyny a příklady použití některých specializovaných velikostí Azure ve fondech Batch. Informace o specifikacích a pozadí najdete tady:

  • Velikosti virtuálních počítačů s vysokým výkonem (Linux, Windows)

  • Velikosti virtuálních počítačů s podporou GPU (Linux, Windows)

Poznámka:

Některé velikosti virtuálních počítačů nemusí být dostupné v oblastech, ve kterých vytváříte účty Batch. Pokud chcete zkontrolovat, jestli je dostupná velikost, podívejte se na produkty dostupné v jednotlivých oblastech a zvolte velikost virtuálního počítače pro fond Batch.

Závislosti

Funkce RDMA nebo GPU pro velikosti náročné na výpočetní výkon ve službě Batch se podporují jenom v určitých operačních systémech. (Seznam podporovaných operačních systémů je podmnožinou podporovaných pro virtuální počítače vytvořené v těchto velikostech.) V závislosti na tom, jak vytvoříte fond Batch, budete možná muset nainstalovat nebo nakonfigurovat další ovladač nebo jiný software na uzlech. Následující tabulky shrnují tyto závislosti. Podrobnosti najdete v odkazovaných článcích. Možnosti konfigurace fondů Batch najdete dále v tomto článku.

Fondy Linuxu – Konfigurace virtuálního počítače

Velikost Schopnost Operační systémy Požadovaný software Nastavení fondu
H16r, H16mr
NC24r, NC24rs_v2, NC24rs_v3, ND24rs*
RDMA Ubuntu 22.04 LTS nebo
Prostředí HPC založené na CentOS
(Azure Marketplace)
Intel MPI 5

Linuxové ovladače RDMA
Povolení komunikace mezi uzly, zakázání souběžného spouštění úloh
NC, NCv2, NCv3, řada NDv2 NVIDIA Tesla GPU (liší se podle řad) Ubuntu 22.04 LTS nebo
CentOS 8.1
(Azure Marketplace)
Ovladače NVIDIA CUDA nebo CUDA Toolkit
NV, NVv2, řada NVv4 NVIDIA Tesla M60 GPU Ubuntu 22.04 LTS nebo
CentOS 8.1
(Azure Marketplace)
Ovladače NVIDIA GRID

*Velikosti N-řad podporující RDMA zahrnují také gpu NVIDIA Tesla.

Důležité

Tento dokument odkazuje na verzi Linuxu, která se blíží nebo na konci životnosti (EOL). Zvažte aktualizaci na aktuálnější verzi.

Fondy Windows – Konfigurace virtuálního počítače

Velikost Schopnost Operační systémy Požadovaný software Nastavení fondu
H16r, H16mr
NC24r, NC24rs_v2, NC24rs_v3, ND24rs*
RDMA Windows Server 2016, 2012 R2 nebo
2012 (Azure Marketplace)
Microsoft MPI 2012 R2 nebo novější nebo
Intel MPI 5

Ovladače RDMA systému Windows
Povolení komunikace mezi uzly, zakázání souběžného spouštění úloh
NC, NCv2, NCv3, ND, NDv2 NVIDIA Tesla GPU (liší se podle řad) Windows Server 2016 nebo
2012 R2 (Azure Marketplace)
Ovladače NVIDIA CUDA nebo CUDA Toolkit
NV, NVv2, řada NVv4 NVIDIA Tesla M60 GPU Windows Server 2016 nebo
2012 R2 (Azure Marketplace)
Ovladače NVIDIA GRID

*Velikosti N-řad podporující RDMA zahrnují také gpu NVIDIA Tesla.

Fondy Windows – Konfigurace cloudových služeb

Upozorňující

Fondy konfigurace cloudových služeb jsou zastaralé. Místo toho použijte fondy konfigurace virtuálních počítačů.

Velikost Schopnost Operační systémy Požadovaný software Nastavení fondu
H16r, H16mr RDMA Windows Server 2016, 2012 R2, 2012 nebo
2008 R2 (rodina hostovaného operačního systému)
Microsoft MPI 2012 R2 nebo novější nebo
Intel MPI 5

Ovladače RDMA systému Windows
Povolení komunikace mezi uzly
zakázat souběžné provádění úloh

Poznámka:

Velikosti N-series nejsou podporovány ve fondech konfigurace cloudových služeb.

Možnosti konfigurace fondu

Pokud chcete pro fond Batch nakonfigurovat specializovanou velikost virtuálního počítače, máte několik možností instalace požadovaného softwaru nebo ovladačů:

  • Pro fondy v konfiguraci virtuálního počítače zvolte předkonfigurovanou image virtuálního počítače Azure Marketplace s předinstalovanými ovladači a softwarem. Příklady:

  • Vytvořte vlastní image virtuálního počítače s Windows nebo Linuxem, na které máte nainstalované ovladače, software nebo jiná nastavení požadovaná pro velikost virtuálního počítače.

  • Vytvořte balíček aplikace Batch z komprimovaného ovladače nebo instalačního programu aplikace a nakonfigurujte Batch tak, aby nasadil balíček do uzlů fondu a nainstaloval se jednou při vytvoření každého uzlu. Pokud je například balíček aplikace instalační program, vytvořte příkazový řádek spouštěcí úlohy , který aplikaci bezobslužně nainstaluje na všechny uzly fondu. Pokud vaše úloha závisí na konkrétní verzi ovladače, zvažte použití balíčku aplikace a spouštěcí úlohy fondu.

    Poznámka:

    Spouštěcí úkol musí běžet se zvýšenými oprávněními (správce) a musí čekat na úspěch. Dlouhotrvající úlohy zvětší dobu zřízení fondu Batch.

Příklad: Ovladače NVIDIA GPU ve fondu virtuálních počítačů s Windows NC

Pokud chcete spouštět aplikace CUDA ve fondu uzlů nc systému Windows, musíte nainstalovat ovladače NVDIA GPU. Následující ukázkové kroky používají balíček aplikace k instalaci ovladačů NVIDIA GPU. Tuto možnost můžete zvolit, pokud vaše úloha závisí na konkrétní verzi ovladače GPU.

  1. Stáhněte instalační balíček pro ovladače GPU ve Windows Serveru 2016 z webu NVIDIA , například verze 411.82. Uložte soubor místně pomocí krátkého názvu, jako je GPUDriverSetup.exe.
  2. Vytvořte soubor ZIP balíčku.
  3. Nahrajte balíček do účtu Batch. Postup najdete v pokynech k balíčkům aplikací. Zadejte ID aplikace, jako je GPUDriver, a verzi, například 411.82.
  4. Pomocí rozhraní API služby Batch nebo webu Azure Portal vytvořte fond v konfiguraci virtuálního počítače s požadovaným počtem uzlů a škálováním. Následující tabulka ukazuje ukázková nastavení pro instalaci ovladačů NVIDIA GPU bezobslužně pomocí spouštěcí úlohy:
Nastavení Hodnota
Typ image Marketplace (Linux/Windows)
Vydavatel MicrosoftWindowsServer
Nabídka WindowsServer
Sku 2016-Datacenter
Velikost uzlu NC6 Standard
Odkazy na balíčky aplikací GPUDriver verze 411.82
Povoleno spuštění úkolu True
Příkazový řádek - cmd /c "%AZ_BATCH_APP_PACKAGE_GPUDriver#411.82%\\GPUDriverSetup.exe /s"
Identita uživatele – automatického uživatele fondu, správce
Čekání na úspěch – Pravda

Příklad: Ovladače NVIDIA GPU ve fondu virtuálních počítačů s linuxovým síťovým adaptérem

Pokud chcete spouštět aplikace CUDA ve fondu uzlů síťových adaptérů Linuxu, musíte nainstalovat potřebné ovladače NVIDIA Tesla GPU ze sady CUDA Toolkit. Následující ukázkový postup vytvoří a nasadí vlastní image Ubuntu 22.04 LTS s ovladači GPU:

  1. Nasaďte virtuální počítač řady NC-series Azure s Ubuntu 22.04 LTS. Vytvořte například virtuální počítač v oblasti USA – středojiž.
  2. Přidejte do virtuálního počítače rozšíření OVLADAČE NVIDIA GPU pomocí webu Azure Portal, klientského počítače, který se připojuje k předplatnému Azure nebo k Azure Cloud Shellu. Případně se podle pokynů připojte k virtuálnímu počítači a nainstalujte ovladače CUDA ručně.
  3. Postupujte podle pokynů k vytvoření image Galerie výpočetních prostředků Azure pro Službu Batch.
  4. Vytvořte účet Batch v oblasti, která podporuje virtuální počítače nc.
  5. Pomocí rozhraní API služby Batch nebo webu Azure Portal vytvořte fond pomocí vlastní image a s požadovaným počtem uzlů a škálováním. Následující tabulka ukazuje ukázková nastavení fondu pro obrázek:
Nastavení Hodnota
Typ image Vlastní image
Vlastní image Název obrázku
Skladová položka agenta uzlu batch.node.ubuntu 22.04
Velikost uzlu NC6 Standard

Příklad: Microsoft MPI ve fondu virtuálních počítačů s Windows H16r

Pokud chcete spouštět aplikace WINDOWS MPI ve fondu uzlů virtuálních počítačů Azure H16r, musíte nakonfigurovat rozšíření HpcVmDrivers a nainstalovat Microsoft MPI. Tady jsou ukázkové kroky pro nasazení vlastní image Windows Serveru 2016 s potřebnými ovladači a softwarem:

  1. Nasaďte virtuální počítač Azure H16r s Windows Serverem 2016. Vytvořte například virtuální počítač v oblasti USA – západ.
  2. Přidejte do virtuálního počítače rozšíření HpcVmDrivers spuštěním příkazu Azure PowerShellu z klientského počítače, který se připojuje k vašemu předplatnému Azure nebo pomocí Azure Cloud Shellu.
  3. Připojení ke vzdálené ploše k virtuálnímu počítači
  4. Stáhněte instalační balíček (MSMpiSetup.exe) pro nejnovější verzi programu Microsoft MPI a nainstalujte microsoft MPI.
  5. Postupujte podle pokynů k vytvoření image Galerie výpočetních prostředků Azure pro Službu Batch.
  6. Pomocí rozhraní API služby Batch nebo webu Azure Portal vytvořte fond pomocí Galerie výpočetních prostředků Azure a s požadovaným počtem uzlů a škálováním. Následující tabulka ukazuje ukázková nastavení fondu pro obrázek:
Nastavení Hodnota
Typ image Vlastní image
Vlastní image Název obrázku
Skladová položka agenta uzlu batch.node.windows amd64
Velikost uzlu H16r Standard
Komunikace mezi uzlu povolená True
Maximální počet úkolů na uzel 0

Příklad: Intel MPI ve fondu virtuálních počítačů s Linuxem H16r

Pokud chcete spouštět aplikace MPI ve fondu uzlů řady HB-series s Linuxem, je jednou z možností použití image PROSTŘEDÍ HPC založené na CentOS 8.1 z Azure Marketplace. Ovladače RDMA s Linuxem a Intel MPI jsou předinstalované. Tato image podporuje také úlohy kontejnerů Dockeru.

Pomocí rozhraní API služby Batch nebo webu Azure Portal vytvořte fond pomocí této image a s požadovaným počtem uzlů a škálováním. Následující tabulka ukazuje ukázková nastavení fondu:

Nastavení Hodnota
Typ image Marketplace (Linux/Windows)
Vydavatel OpenLogic
Nabídka CentOS-HPC
Sku 8.1
Velikost uzlu H16r Standard
Komunikace mezi uzlu povolená True
Maximální počet úkolů na uzel 0

Další kroky

  • Pokud chcete spouštět úlohy MPI ve fondu Azure Batch, podívejte se na příklady windows nebo Linuxu.