Průvodce migrací výpočetních úloh GPU v Azure

S tím, jak budou na marketplace a v datacentrech Microsoft Azure k dispozici výkonnější GPU, doporučujeme znovu posoudit výkon vašich úloh a zvážit migraci na novější GPU.

Ze stejného důvodu a také kvůli zachování vysoce kvalitní a spolehlivé nabídky služeb Azure pravidelně vyřazuje hardware, který pohání starší velikosti virtuálních počítačů. První skupinou produktů GPU, které se mají v Azure vyřadit, jsou původní virtuální počítače řady NC, NC v2 a ND-series, které využívají akcelerátory GPU datacenter NVIDIA Tesla K80, P100 a P40. Tyto produkty budou vyřazeny 31. srpna 2023 a nejstarší virtuální počítače v této sérii budou uvedeny na trh v roce 2016.

Od té doby grafické procesory učinily neuvěřitelné pokroky společně s celým odvětvím hlubokého učení a hpc, což obvykle překračuje zdvojnásobení výkonu mezi generacemi. Od uvedení grafických procesorů NVIDIA K80, P40 a P100 azure dodává několik novějších generací a kategorií produktů virtuálních počítačů, které jsou zaměřené na výpočetní prostředky akcelerované pomocí GPU a umělé inteligence založené na grafických procesorech NVIDIA T4, V100 a A100 a liší se volitelnými funkcemi, jako jsou prostředky infrastruktury založené na InfiniBandu. Všechny tyto možnosti doporučujeme zákazníkům prozkoumat jako cesty migrace.

Ve většině případů dramatický nárůst výkonu nabízený novějšími generacemi grafických procesorů snižuje celkové celkové náklady na vlastnictví snížením doby trvání úlohy u úloh s možností nárazového volání nebo snížením celkového množství virtuálních počítačů s podporou GPU potřebných k pokrytí poptávky po výpočetních prostředcích s pevnou velikostí, i když se náklady na hodinu GPU můžou lišit. Kromě těchto výhod můžou zákazníci vylepšit funkci Time-to-Solution prostřednictvím výkonnějších virtuálních počítačů a zlepšit stav a možnosti podpory svého řešení tím, že přijmou novější software, modul runtime CUDA a verze ovladačů.

Migrace vs. optimalizace

Azure si uvědomuje, že zákazníci mají velké množství požadavků, které můžou diktovat výběr konkrétního produktu virtuálního počítače GPU, včetně aspektů architektury GPU, propojení, celkových nákladů na vlastnictví, čas do řešení a regionální dostupnosti v závislosti na lokalitě dodržování předpisů nebo požadavcích na latenci– a některé z nich se dokonce v průběhu času mění.

Akcelerace GPU je zároveň novou a rychle se vyvíjející oblastí.

Pro tuto oblast produktu tedy neexistují žádné skutečné univerzální pokyny a migrace je ideální čas k opětovnému vyhodnocení potenciálně dramatických změn úloh – například přechod z clusterovaného modelu nasazení na jeden velký virtuální počítač s 8 GPU nebo naopak, využití datových typů s nižší přesností, přijetí funkcí, jako je gpu s více instancemi a mnoho dalšího.

Tento druh aspektů – pokud je to kontext už tak dramatického zvýšení výkonu GPU za každou generaci, kde funkce, jako je přidání TensorCores, může zvýšit výkon o řád, jsou extrémně specifické pro úlohu.

Kombinace migrace s re-architekturou aplikací může přinést obrovskou hodnotu a zlepšit náklady a čas na řešení.

Tyto druhy vylepšení jsou však nad rámec tohoto dokumentu, jehož cílem je zaměřit se na třídy přímé ekvivalence pro zobecněné úlohy, které můžou dnes provozovat zákazníci, a identifikovat nejpodobnější možnosti virtuálních počítačů v ceně i výkonu na GPU stávajícím rodinám virtuálních počítačů, které procházejí vyřazením z provozu.

Tento dokument proto předpokládá, že uživatel nemusí mít přehled ani kontrolu nad vlastnostmi specifickými pro úlohy, jako je počet požadovaných instancí virtuálních počítačů, GPU, propojení a další.

NC-Series virtuálních počítačů s grafickými procesory NVIDIA K80

Virtuální počítače řady NC (v1)-Series jsou nejstarším výpočetním typem virtuálního počítače azure s akcelerovanými GPU pomocí GPU s 1 až 4 akcelerátory GPU datacenter NVIDIA Tesla K80 spárované s procesory Intel Xeon E5-2690 v3 (Haswell). Tyto virtuální počítače, které byly jednou vlajkovou lodí pro náročné aplikace s AI, ML a HPC, zůstaly oblíbenou volbou v průběhu životního cyklu produktu (zejména prostřednictvím propagačních cen řady NC) pro uživatele, kteří si cenili velmi nízké absolutní náklady na GPU za hodinu oproti GPU s vyšší propustností za dolar.

Vzhledem k relativně nízkému výpočetnímu výkonu stárnoucí platformy NVIDIA K80 GPU v porovnání s řadou virtuálních počítačů s novějšími GPU jsou oblíbeným případem použití řady NC-series úlohy odvozování a analýzy v reálném čase, kde musí být akcelerovaný virtuální počítač k dispozici v stabilním stavu, aby obsloužil požadavky z aplikací hned, jak přicházejí. V těchto případech může být objem nebo velikost dávky požadavků nedostatečná, aby bylo možné využívat výkonnější grafické procesory. Nc virtuální počítače jsou také oblíbené pro vývojáře a studenty, kteří se učí, vyvíjejí akceleraci GPU nebo experimentují s ní, a potřebují levný cloudový cíl nasazení CUDA, podle kterého iterovat, který nemusí provádět na produkčních úrovních.

Obecně platí, že NC-Series zákazníci by měli zvážit přechod přímo z velikosti NC na velikosti NC T4 v3 , novou platformu Azure s akcelerací GPU pro lehké úlohy využívající grafické procesory NVIDIA Tesla T4, i když u úloh s podporou infiniBandU A100 v4 by se měly zvážit další skladové položky virtuálních počítačů.

Aktuální velikost virtuálního počítače Velikost cílového virtuálního počítače Rozdíl ve specifikaci
Standard_NC6
Standard_NC6_Promo
Standard_NC4as_T4_v3
nebo
Standard_NC8as_T4
CPU: Intel Haswell vs AMD Rome
Počet GPU: 1 (stejný)
Generace GPU: NVIDIA Keppler vs. Turing (+2 generace, ~2x FP32 FLOPs)
Paměť GPU (GiB na GPU): 16 (+4)
vCPU: 4 (-2) nebo 8 (+2)
Velikost paměti: 16 (-40) nebo 56 (stejné)
Temp Storage (SSD) GiB: 180 (-160) nebo 360 (+20)
Maximální počet datových disků: 8 (-4) nebo 16 (+4)
Akcelerované síťové služby: Ano (+)
Premium Storage: Ano (+)
Standard_NC12
Standard_NC12_Promo
Standard_NC16as_T4_v3 CPU: Intel Haswell vs AMD Rome
Počet GPU: 1 (-1)
Generace GPU: NVIDIA Keppler vs. Turing (+2 generace, ~2x FP32 FLOPs)
Paměť GPU (GiB na GPU): 16 (+4)
vCPU: 16 (+4)
Velikost paměti: 110 (-2)
Temp Storage (SSD) GiB: 360 (-320)
Maximální počet datových disků: 48 (+16)
Akcelerované síťové služby: Ano (+)
Premium Storage: Ano (+)
Standard_NC24
Standard_NC24_Promo
Standard_NC64as_T4_v3* CPU: Intel Haswell vs AMD Rome
Počet GPU: 4 (stejný)
Generace GPU: NVIDIA Keppler vs. Turing (+2 generace, ~2x FP32 FLOPs)
Paměť GPU (GiB na GPU): 16 (+4)
vCPU: 64 (+40)
Velikost paměti: 440 (+216)
Dočasné úložiště (SSD): 2880 (+1440)
Maximální počet datových disků: 32 (-32)
Akcelerované síťové služby: Ano (+)
Premium Storage: Ano (+)
Standard_NC24r
Standard_NC24r_Promo

(Velikosti s podporou clusteringu InfiniBand)
Standard_ND96amsr_A100_v4 CPU: Intel Haswell vs AMD Rome
Počet GPU: 8 (+4)
Generace GPU: NVIDIA Keppler vs. Ampere (+3 generace)
Paměť GPU (GiB na GPU): 80 (+72)
vCPU: 96 (+72)
Paměť GiB:1900 (+1676)
Temp Storage (SSD) GiB: 6400 (+4960)
Maximální počet datových disků: 32 (stejné)
Akcelerované síťové služby: Ano (+)
Premium Storage: Ano (+)
Propojení InfiniBand: Ano

ND-Series virtuálních počítačů s grafickými procesory NVIDIA Tesla P40

Virtuální počítače řady ND-series jsou platformou střední kategorie, která byla původně navržená pro úlohy umělé inteligence a hlubokého učení. Nabízejí vynikající výkon pro dávkové odvozování prostřednictvím vylepšených operací s plovoucí desetinou čárkou s jednou přesností oproti svým předchůdcům a jsou poháněny procesory NVIDIA Tesla P40 a procesory Intel Xeon E5-2690 v4 (Broadwell). Stejně jako NC a NC v2-Series nabízí ND-Series konfiguraci se sekundární sítí s nízkou latencí, vysokou propustností prostřednictvím RDMA a připojením InfiniBand, takže můžete spouštět rozsáhlé trénovací úlohy zahrnující mnoho GPU.

Aktuální velikost virtuálního počítače Velikost cílového virtuálního počítače Rozdíl ve specifikaci
Standard_ND6 Standard_NC4as_T4_v3
nebo
Standard_NC8as_T4_v3
CPU: Intel Broadwell vs AMD Rome
Počet GPU: 1 (stejný)
Generace GPU: NVIDIA Pascal vs. Turing (+1 generace)
Paměť GPU (GiB na GPU): 16 (-8)
vCPU: 4 (-2) nebo 8 (+2)
Velikost paměti: 16 (-40) nebo 56 (-56)
Temp Storage (SSD) GiB: 180 (-552) nebo 360 (-372)
Maximální počet datových disků: 8 (-4) nebo 16 (+4)
Akcelerované síťové služby: Ano (+)
Premium Storage: Ano (+)
Standard_ND12 Standard_NC16as_T4_v3 CPU: Intel Broadwell vs AMD Rome
Počet GPU: 1 (-1)
Generace GPU: NVIDIA Pascal vs. Turing (+1 generace)
Paměť GPU (GiB na GPU): 16 (-8)
vCPU: 16 (+4)
Velikost paměti: 110 (-114)
Temp Storage (SSD) GiB: 360 (-1 114)
Maximální počet datových disků: 48 (+16)
Akcelerované síťové služby: Ano (+)
Premium Storage: Ano (+)
Standard_ND24 Standard_NC64as_T4_v3* CPU: Intel Broadwell vs AMD Rome
Počet GPU: 4 (stejný)
Generace GPU: NVIDIA Pascal vs. Turing (+1 generace)
Paměť GPU (GiB na GPU): 16 (-8)
vCPU: 64 (+40)
Velikost paměti: 440 (stejné)
Temp Storage (SSD) GiB: 2880 (stejné)
Maximální počet datových disků: 32 (stejné)
Akcelerované síťové služby: Ano (+)
Premium Storage: Ano (+)
Standard_ND24r Standard_ND96amsr_A100_v4 CPU: Intel Broadwell vs AMD Rome
Počet GPU: 8 (+4)
Generace GPU: NVIDIA Pascal vs. Ampere (+2 generace)
Paměť GPU (GiB na GPU): 80 (+56)
vCPU: 96 (+72)
Paměť GiB: 1900 (+1452)
Temp Storage (SSD) GiB: 6400 (+3452)
Maximální počet datových disků: 32 (stejné)
Akcelerované síťové služby: Ano (+)
Premium Storage: Ano (+)
Interconnect InfiniBand: Ano (Stejné)

Virtuální počítače NC řady v2 s grafickými procesory NVIDIA Tesla P100

Virtuální počítače řady NC v2 jsou vlajkovou platformou původně navrženou pro úlohy umělé inteligence a hlubokého učení. Nabízejí vynikající výkon pro trénování hlubokého učení, s výkonem na gpu přibližně 2x než původní NC-Series a jsou poháněny procesory NVIDIA Tesla P100 a Procesory Intel Xeon E5-2690 v4 (Broadwell). Stejně jako řada NC a ND -Series i NC v2-Series nabízí konfiguraci se sekundární sítí s nízkou latencí, vysokou propustností prostřednictvím RDMA a připojením InfiniBand, takže můžete spouštět rozsáhlé trénovací úlohy zahrnující mnoho GPU.

Obecně platí, že NCv2-Series zákazníci by měli zvážit přechod přímo na velikosti NC A100 v4 , novou platformu Azure s akcelerací GPU využívající grafické procesory NVIDIA Ampere A100 PCIe, i když u úloh s podporou infiniBandU A100 v4 by se měly zvážit další skladové položky virtuálních počítačů.

Aktuální velikost virtuálního počítače Velikost cílového virtuálního počítače Rozdíl ve specifikaci
Standard_NC6s_v2 Standard_NC24ads_A100_v4 PROCESOR: Intel Broadwell vs. AMD Milan
Počet GPU: 1 (stejný)
Generace GPU: NVIDIA Pascal vs. Ampere (+2 generace)
Paměť GPU (GiB na GPU): 80 (+64)
vCPU: 24 (+18)
Velikost paměti: 220 (+108)
Temp Storage (SSD) GiB: 1123 (+387)
Maximální počet datových disků: 12 (stejný)
Akcelerované síťové služby: Ano (+)
Premium Storage: Ano (+)
Standard_NC12s_v2 Standard_NC48ads_A100_v4 PROCESOR: Intel Broadwell vs. AMD Milan
Počet GPU: 2 (stejný)
Generace GPU: NVIDIA Pascal vs. Ampere (+2 generace)
Paměť GPU (GiB na GPU): 80 (+64)
vCPU: 48 (+36)
Velikost paměti: 440 (+216)
Temp Storage (SSD) GiB: 2246 (+772)
Maximální počet datových disků: 24 (stejné)
Akcelerované síťové služby: Ano (+)
Premium Storage: Ano (+)
Standard_NC24s_v2 Standard_NC96ads_A100_v4 PROCESOR: Intel Broadwell vs. AMD Milan
Počet GPU: 4 (stejný)
Generace GPU: NVIDIA Pascal vs. Ampere (+2 generace)
Paměť GPU (GiB na GPU): 80 (+64)
vCPU: 96 (+72)
Velikost paměti: 880 (+432)
Temp Storage (SSD) GiB: 4492 (+1544)
Maximální počet datových disků: 32 (stejné)
Akcelerované síťové služby: Ano (+)
Premium Storage: Ano (+)
Standard_NC24rs_v2 Standard_ND96amsr_A100_v4 CPU: Intel Broadwell vs AMD Rome
Počet GPU: 8 (+4)
Generace GPU: NVIDIA Pascal vs. Ampere (+2 generace)
Paměť GPU (GiB na GPU): 80 (+64)
vCPU: 96 (+72)
Paměť GiB: 1900 (stejné)
Temp Storage (SSD) GiB: 6400 (+3452)
Maximální počet datových disků: 32 (stejné)
Akcelerované síťové služby: Ano (+)
Premium Storage: Ano (+)
Interconnect InfiniBand: Ano (Stejné)

Postup migrace

Obecné změny

  1. Zvolte řadu a velikost pro migraci. Využijte cenovou kalkulačku k získání dalších přehledů.

  2. Získání kvóty pro cílovou řadu virtuálních počítačů

  3. Změňte velikost aktuálního virtuálního počítače řady N* na cílovou velikost. Může to být také vhodná doba k aktualizaci operačního systému používaného image virtuálního počítače nebo k přijetí některé z imagí prostředí HPC s předinstalovanými ovladači jako výchozí bod.

    Důležité

    Image virtuálního počítače může být vytvořena se starší verzí modulu runtime CUDA, ovladačem NVIDIA a (pokud je to možné, pouze pro velikosti SDMA) ovladači Mellanox OFED, než vyžaduje nová řada virtuálních počítačů GPU, které můžete aktualizovat podle pokynů v dokumentaci k Azure.

Zásadní změny

Vyberte cílovou velikost pro migraci.

Po posouzení aktuálního využití se rozhodněte, jaký typ virtuálního počítače GPU potřebujete. V závislosti na požadavcích úloh máte několik různých možností.

Poznámka

Osvědčeným postupem je vybrat velikost virtuálního počítače na základě nákladů i výkonu. Doporučení v této příručce jsou založená na obecném porovnání metrik výkonu 1:1 a nejbližší shody v jiné řadě virtuálních počítačů. Než se rozhodnete pro správnou velikost, získejte porovnání nákladů pomocí cenové kalkulačky Azure.

Důležité

Všechny starší velikosti NC, NC v2 a ND-Series jsou k dispozici ve velikostech s více GPU, včetně velikostí 4 GPU s propojením InfiniBand a bez rozhraní InfiniBand pro škálování na více instancí, které vyžadují větší výpočetní výkon než jeden virtuální počítač se 4 GPU nebo jeden gpu K80, P40 nebo P100. I když výše uvedená doporučení nabízejí přímočarou cestu vpřed, uživatelé těchto velikostí by měli zvážit dosažení svých výkonnostních cílů s výkonnější řadou virtuálních počítačů založených na gpu NVIDIA V100, jako jsou řady NC v3 aND v2, které obvykle umožňují stejnou úroveň výkonu úloh při nižších nákladech a s lepšími možnostmi správy tím, že poskytují výrazně vyšší výkon na GPU a virtuální počítač, než se vyžaduje konfigurace s více GPU a více uzly. v uvedeném pořadí.

Získání kvóty pro cílovou řadu virtuálních počítačů

Postupujte podle pokynů a požádejte o navýšení kvóty virtuálních procesorů podle rodiny virtuálních počítačů. Vyberte cílovou velikost virtuálního počítače, kterou jste vybrali pro migraci.

Změna velikosti aktuálního virtuálního počítače

Velikost virtuálního počítače můžete změnit.

Další kroky

Úplný seznam velikostí virtuálních počítačů s podporou GPU najdete v tématu Přehled akcelerovaných výpočetních prostředků GPU.