Migrálási útmutató GPU számítási feladatokhoz az Azure-ban

Cikk
08/24/2024

Mivel a nagyobb teljesítményű GPU-k elérhetővé válnak a piactéren és a Microsoft Azure-adatközpontokban, javasoljuk, hogy értékelje újra a számítási feladatok teljesítményét, és fontolgatja az újabb GPU-kra való migrálást.

Ugyanebből az okból, valamint a magas minőségű és megbízható szolgáltatásajánlat fenntartása érdekében az Azure rendszeresen kivonja a régebbi virtuálisgép-méreteket használó hardvereket. Az Azure-ban kivonandó GPU-termékek első csoportja az eredeti NC, NC v2 és ND sorozatú virtuális gépek, amelyek nvidia Tesla K80, P100 és P40 adatközponti GPU-gyorsítókból állnak. Ezeket a termékeket 2023. augusztus 31-én kivonjuk, és a sorozat legrégebbi virtuális gépei 2016-ban indulnak el.

Azóta a GPU-k hihetetlen lépéseket tettek a teljes mélytanulás és a HPC iparág mellett, általában a generációk közötti teljesítmény megduplázását. Az NVIDIA K80, P40 és P100 GPU-k bevezetése óta az Azure több újabb generációt és kategóriába sorolta a GPU-val felgyorsított számítási és AI-alapú virtuálisgép-termékeket, amelyek az NVIDIA T4, V100 és A100 GPU-jaira épülnek, és megkülönböztetik az opcionális funkciókat, például az InfiniBand-alapú összekapcsolási hálókat. Ezek mind olyan lehetőségek, amelyeket arra ösztönözünk, hogy az ügyfeleket migrálási útvonalként vizsgálja meg.

A legtöbb esetben a gpu-k újabb generációi által kínált drámai teljesítménynövekedés csökkenti a teljes TCO-t a feladat időtartamának csökkentésével, a kipukkanható feladatok esetében, vagy a gpu-kompatibilis virtuális gépek teljes mennyiségének csökkentésével, amely a számítási erőforrások rögzített méretű keresletének fedezéséhez szükséges, annak ellenére, hogy a GPU-óránkénti költségek eltérőek lehetnek. Ezen előnyök mellett az ügyfelek magasabb teljesítményű virtuális gépeken keresztül javíthatják a megoldáshoz szükséges időt, és az újabb szoftver- és CUDA-futtatókörnyezetek és illesztőprogram-verziók alkalmazásával javíthatják megoldásuk állapotát és támogatottságát.

Migrálás és optimalizálás

Az Azure felismeri, hogy az ügyfeleknek számos olyan követelményük van, amelyek meghatározhatják egy adott GPU virtuálisgép-termék kiválasztását, beleértve a GPU architekturális szempontjait, az összekapcsolásokat, a TCO-t, a megoldáshoz szükséges időt és a regionális rendelkezésre állást a megfelelőségi területi vagy késési követelmények alapján, és ezek némelyike idővel megváltozik.

Ugyanakkor a GPU-gyorsítás egy új és gyorsan fejlődő terület.

Így a termékterülethez nincs valódi egyméretű útmutató, és a migrálás tökéletes alkalom a számítási feladatok potenciálisan drámai változásainak újraértékelésére, például a fürtözött üzemi modellről egyetlen nagy, 8 GPU-s virtuális gépre való áttérésre, vagy fordítva, a csökkentett pontosságú adattípusok kihasználásával, olyan funkciók bevezetésével, mint a többpéldányos GPU és még sok más.

Ezek a szempontok – ha a már generációnkénti GPU-teljesítmény növekedésének kontextusát vesszük figyelembe, ahol egy olyan funkció, mint például a TensorCores hozzáadása, nagyságrendekkel növelheti a teljesítményt, rendkívül munkaterhelés-specifikusak.

A migrálás és az alkalmazás-újraarchitektúra kombinálása óriási értéket és javulást eredményezhet a költségekben és a megoldáshoz szükséges időértékekben.

Ezek a fejlesztések azonban túlmutatnak a dokumentum hatókörén, amelynek célja, hogy az ügyfelek által jelenleg futtatható általános számítási feladatok közvetlen egyenértékűségi osztályaira összpontosítson, hogy azonosítsa a GPU-nkénti árban és teljesítményben a leginkább hasonló virtuálisgép-lehetőségeket a meglévő, kivonás alatt álló virtuálisgép-családokhoz.

Így ez a dokumentum feltételezi, hogy a felhasználó nem rendelkezik semmilyen megállapítást vagy vezérlést a számítási feladatokra vonatkozó tulajdonságok, például a szükséges virtuálisgép-példányok száma, GPU-k, összekapcsolások stb. felett.

Ajánlott frissítési útvonalak

NVIDIA K80 GPU-kat tartalmazó NC-sorozatú virtuális gépek

Az NC (v1)-sorozatú virtuális gépek az Azure legrégebbi GPU-gyorsított számítási virtuális géptípusai, amelyek 1–4 NVIDIA Tesla K80 adatközponti GPU-gyorsítóval vannak párosítva Intel Xeon E5-2690 v3 (Haswell) processzorokkal. Miután az igényes AI-, ML- és HPC-alkalmazások egyik zászlóshajó virtuálisgép-típusa volt, később is népszerű választás maradt a termék életciklusában (különösen az NC-sorozat promóciós díjszabásán keresztül), azoknak a felhasználóknak, akik nagyra értékelték, hogy gpu-óránként nagyon alacsony abszolút költséggel rendelkeznek a gpu-kkal szemben, dolláronként magasabb átviteli sebességgel.

Az öregedő NVIDIA K80 GPU-platform viszonylag alacsony számítási teljesítménye miatt az újabb GPU-kat tartalmazó virtuálisgép-sorozatokhoz képest az NC-sorozat egyik népszerű használati esete a valós idejű következtetési és elemzési számítási feladatok, ahol a gyorsított virtuális gépnek stabil állapotban kell rendelkezésre állnia az alkalmazások kéréseinek kiszolgálásához, amikor megérkeznek. Ezekben az esetekben előfordulhat, hogy a kérelmek mennyisége vagy kötegmérete nem elegendő a nagyobb teljesítményű GPU-k előnyeinek kihasználásához. Az NC virtuális gépek olyan fejlesztők és diákok számára is népszerűek, akik gpu-gyorsítással ismerkednek, fejlesztenek vagy kísérleteznek, akiknek egy olcsó, felhőalapú CUDA üzembehelyezési célra van szükségük, amelyen az éles szinteken nem szükséges iterálni.

Általánosságban elmondható, hogy az NC-sorozatú ügyfeleknek érdemes megfontolni az NC-méretek közötti közvetlen váltást az NC T4 v3-méretekre , az Azure új GPU-gyorsított platformjára, amely az NVIDIA Tesla T4 GPU-k által üzemeltetett könnyű számítási feladatokhoz használható.

Aktuális virtuálisgép-méret	Cél virtuális gép mérete	A specifikáció különbsége
Standard_NC6 Standard_NC6_Promo	Standard_NC4as_T4_v3 vagy Standard_NC8as_T4	CPU: Intel Haswell vs AMD Rome GPU-szám: 1 (ugyanaz) GPU-generáció: NVIDIA Keppler és Turing (+2 generáció, ~2x FP32 FLOP) GPU-memória (GPU-nkénti GiB): 16 (+4) vCPU: 4 (-2) vagy 8 (+2) Memória GiB: 16 (-40) vagy 56 (ugyanaz) Temp Storage (SSD) GiB: 180 (-160) vagy 360 (+20) Maximális adatlemezek: 8 (-4) vagy 16 (+4) Gyorsított hálózatkezelés: Igen (+) Premium Storage: Igen (+)
Standard_NC12 Standard_NC12_Promo	Standard_NC16as_T4_v3	CPU: Intel Haswell vs AMD Rome GPU-szám: 1 (-1) GPU-generáció: NVIDIA Keppler és Turing (+2 generáció, ~2x FP32 FLOP) GPU-memória (GPU-nkénti GiB): 16 (+4) vCPU: 16 (+4) Memória GiB: 110 (-2) Temp Storage (SSD) Gib: 360 (-320) Maximális adatlemezek: 48 (+16) Gyorsított hálózatkezelés: Igen (+) Premium Storage: Igen (+)
Standard_NC24 Standard_NC24_Promo	Standard_NC64as_T4_v3*	CPU: Intel Haswell vs AMD Rome GPU-szám: 4 (ugyanaz) GPU-generáció: NVIDIA Keppler és Turing (+2 generáció, ~2x FP32 FLOP) GPU-memória (GPU-nkénti GiB): 16 (+4) vCPU: 64 (+40) Memória GiB: 440 (+216) Temp Storage (SSD) GiB: 2880 (+1440) Maximális adatlemezek: 32 (-32) Gyorsított hálózatkezelés: Igen (+) Premium Storage: Igen (+)
Standard_NC24r Standard_NC24r_Promo	Standard_NC64as_T4_v3*	CPU: Intel Haswell vs AMD Rome GPU-szám: 4 (ugyanaz) GPU-generáció: NVIDIA Keppler és Turing (+2 generáció, ~2x FP32 FLOP) GPU-memória (GPU-nkénti GiB): 16 (+4) vCPU: 64 (+40) Memória GiB: 440 (+216) Temp Storage (SSD) GiB: 2880 (+1440) Maximális adatlemezek: 32 (-32) Gyorsított hálózatkezelés: Igen (+) Premium Storage: Igen (+) InfiniBand-összekapcsolás: Nem

NVIDIA Tesla P100 GPU-kat tartalmazó NC v2-sorozatú virtuális gépek

Az NC v2-sorozatú virtuális gépek egy zászlóshajó platform, amelyet eredetileg AI- és Deep Learning-számítási feladatokhoz terveztek. Kiváló teljesítményt kínáltak a Mélytanulás betanításához, a GPU-nkénti teljesítmény nagyjából 2x az eredeti NC-sorozatéhoz, és NVIDIA Tesla P100 GPU-k és Intel Xeon E5-2690 v4 (Broadwell) processzorok hajtják őket. Az NC és az ND sorozathoz hasonlóan az NC v2 sorozat is kínál egy konfigurációt, amely egy másodlagos kis késésű, nagy átviteli sebességű hálózattal rendelkezik AZ RDMA és az InfiniBand kapcsolaton keresztül, így nagy léptékű betanítási feladatokat futtathat, amelyek több GPU-ra terjednek ki.

Általánosságban elmondható, hogy az NCv2-sorozatú ügyfeleknek érdemes közvetlenül áttérni az NC A100 v4-es méretre, az Azure új GPU-gyorsított platformjára, amelyet NVIDIA Ampere A100 PCIe GPU-k működtetnek.

Aktuális virtuálisgép-méret	Cél virtuális gép mérete	A specifikáció különbsége
Standard_NC6s_v2	Standard_NC24ads_A100_v4	CPU: Intel Broadwell vs AMD Milan GPU-szám: 1 (ugyanaz) GPU-generáció: NVIDIA Pascal és Ampere (+2 generáció) GPU-memória (GPU-nkénti GiB): 80 (+64) vCPU: 24 (+18) Memória GiB: 220 (+108) Temp Storage (SSD) Gib: 1123 (+387) Maximális adatlemezek: 12 (ugyanaz) Gyorsított hálózatkezelés: Igen (+) Premium Storage: Igen (+)
Standard_NC12s_v2	Standard_NC48ads_A100_v4	CPU: Intel Broadwell vs AMD Milan GPU-szám: 2 (ugyanaz) GPU-generáció: NVIDIA Pascal és Ampere (+2 generáció) GPU-memória (GPU-nkénti GiB): 80 (+64) vCPU: 48 (+36) Memória GiB: 440 (+216) Temp Storage (SSD) GiB: 2246 (+772) Maximális adatlemezek: 24 (ugyanaz) Gyorsított hálózatkezelés: Igen (+) Premium Storage: Igen (+)
Standard_NC24s_v2	Standard_NC96ads_A100_v4	CPU: Intel Broadwell vs AMD Milan GPU-szám: 4 (ugyanaz) GPU-generáció: NVIDIA Pascal és Ampere (+2 generáció) GPU-memória (GPU-nkénti GiB): 80 (+64) vCPU: 96 (+72) Memória GiB: 880 (+432) Temp Storage (SSD) GiB: 4492 (+1544) Maximális adatlemezek: 32 (ugyanaz) Gyorsított hálózatkezelés: Igen (+) Premium Storage: Igen (+)
Standard_NC24rs_v2	Standard_NC96ads_A100_v4	CPU: Intel Broadwell vs AMD Milan GPU-szám: 4 (ugyanaz) GPU-generáció: NVIDIA Pascal és Ampere (+2 generáció) GPU-memória (GPU-nkénti GiB): 80 (+64) vCPU: 96 (+72) Memória GiB: 880 (+432) Temp Storage (SSD) GiB: 4492 (+1544) Maximális adatlemezek: 32 (ugyanaz) Gyorsított hálózatkezelés: Igen (+) Premium Storage: Igen (+) InfiniBand interconnect: No (-)

NVIDIA Tesla P40 GPU-kat tartalmazó ND-sorozatú virtuális gépek

Az ND-sorozatú virtuális gépek egy középkategóriás platform, amelyet eredetileg AI- és Deep Learning-számítási feladatokhoz terveztek. Kiváló teljesítményt kínáltak a kötegelt következtetéshez a jobb egypontos lebegőpontos műveletek révén az elődjeiken keresztül, és nvidia Tesla P40 GPU-k és Intel Xeon E5-2690 v4 (Broadwell) processzorok működtetik őket. Az NC-hez és az NC v2-sorozathoz hasonlóan az ND-sorozat is kínál egy konfigurációt, amely egy másodlagos kis késésű, nagy átviteli sebességű hálózattal rendelkezik az RDMA-n és az InfiniBand-kapcsolaton keresztül, így nagy léptékű betanítási feladatokat futtathat, amelyek sok GPU-t érintenek.

Aktuális virtuálisgép-méret	Cél virtuális gép mérete	A specifikáció különbsége
Standard_ND6	Standard_NC4as_T4_v3 vagy Standard_NC8as_T4_v3	CPU: Intel Broadwell vs AMD Rome GPU-szám: 1 (ugyanaz) GPU-generáció: NVIDIA Pascal és Turing (+1 generáció) GPU-memória (GPU-nkénti GiB): 16 (-8) vCPU: 4 (-2) vagy 8 (+2) Memória GiB: 16 (-40) vagy 56 (-56) Temp Storage (SSD) GiB: 180 (-552) vagy 360 (-372) Maximális adatlemezek: 8 (-4) vagy 16 (+4) Gyorsított hálózatkezelés: Igen (+) Premium Storage: Igen (+)
Standard_ND12	Standard_NC16as_T4_v3	CPU: Intel Broadwell vs AMD Rome GPU-szám: 1 (-1) GPU-generáció: NVIDIA Pascal és Turing (+1 generáció) GPU-memória (GPU-nkénti GiB): 16 (-8) vCPU: 16 (+4) Memória GiB: 110 (-114) Temp Storage (SSD) Gib: 360 (-1,114) Maximális adatlemezek: 48 (+16) Gyorsított hálózatkezelés: Igen (+) Premium Storage: Igen (+)
Standard_ND24	Standard_NC64as_T4_v3*	CPU: Intel Broadwell vs AMD Rome GPU-szám: 4 (ugyanaz) GPU-generáció: NVIDIA Pascal és Turing (+1 generáció) GPU-memória (GPU-nkénti GiB): 16 (-8) vCPU: 64 (+40) Memória GiB: 440 (ugyanaz) Temp Storage (SSD) GiB: 2880 (ugyanaz) Maximális adatlemezek: 32 (ugyanaz) Gyorsított hálózatkezelés: Igen (+) Premium Storage: Igen (+)
Standard_ND24r	Standard_ND96amsr_A100_v4	CPU: Intel Broadwell vs AMD Rome GPU-szám: 8 (+4) GPU-generáció: NVIDIA Pascal és Ampere (+2 generáció) GPU-memória (GPU-nkénti GiB): 80 (+56) vCPU: 96 (+72) Memória GiB: 1900 (+1452) Temp Storage (SSD) GiB: 6400 (+3452) Maximális adatlemezek: 32 (ugyanaz) Gyorsított hálózatkezelés: Igen (+) Premium Storage: Igen (+) InfiniBand interconnect: Yes (Same)

A migrálás lépései

Általános módosítások

Válasszon egy sorozatot és méretet a migráláshoz. További információkért használja a díjkalkulátort .
Kvóta lekérése a cél virtuálisgép-sorozathoz
Méretezze át az aktuális N* sorozatú virtuális gép méretét a célméretre. Ez is jó alkalom lehet a virtuális gép lemezképe által használt operációs rendszer frissítésére, vagy a HPC-lemezképek egyikének kezdőpontjaként előre telepített illesztőprogramokkal történő bevezetésére.

Fontos

Előfordulhat, hogy a virtuálisgép-rendszerkép a CUDA-futtatókörnyezet régebbi verziójával, az NVIDIA-illesztőprogrammal és (ha lehetséges, csak RDMA-kompatibilis méretek esetén) a Mellanox OFED illesztőprogramokkal készült, mint az új GPU-alapú virtuálisgép-sorozathoz szükséges, amelyet az Azure dokumentációjában szereplő utasítások követésével frissíthet.

Kompatibilitástörő változások

A migrálás célméretének kiválasztása

Az aktuális használat felmérése után döntse el, hogy milyen típusú GPU virtuális gépre van szüksége. A számítási feladatokra vonatkozó követelményektől függően néhány különböző lehetőség közül választhat.

Feljegyzés

Ajánlott eljárás a virtuális gép méretének kiválasztása költség és teljesítmény alapján. Az útmutatóban szereplő javaslatok a teljesítménymetrikák általános célú, egy-az-egyhez összehasonlításán és egy másik virtuálisgép-sorozat legközelebbi egyezésén alapulnak. A megfelelő méret kiválasztása előtt kérje le a költség összehasonlítását az Azure Díjszabási kalkulátorával.

Fontos

Az örökölt NC, NC v2 és ND sorozatú méretek több GPU-s méretekben érhetők el, beleértve a 4 GPU-s méreteket az InfiniBand-kapcsolattal és anélkül a vertikális felskálázáshoz, a szorosan összekapcsolt számítási feladatokhoz, amelyek több számítási teljesítményt igényelnek, mint egy 4 GPU-s virtuális gép, vagy egyetlen K80, P40 vagy P100 GPU is rendelkezésre áll. Bár a fenti javaslatok egyértelmű előrelépést kínálnak, az ilyen méretű felhasználóknak érdemes megfontolniuk a teljesítménycéljaik elérését a nagyobb teljesítményű NVIDIA V100 GPU-alapú virtuálisgép-sorozatokkal, például az NC v3-sorozattal és az ND v2-sorozattal, amelyek általában alacsonyabb költségek mellett és jobb kezelhetőséggel teszik lehetővé ugyanazt a számítási feladat teljesítményét, mivel jelentősen nagyobb teljesítményt biztosítanak GPU-nként és virtuális gépenként, mielőtt több GPU- és többcsomópontos konfigurációkra lenne szükség, illetőleg.

Kvóta lekérése a cél virtuálisgép-családhoz

Kövesse az útmutatót a virtuálisgép-család vCPU-kvótájának növeléséhez. Válassza ki a migráláshoz kiválasztott cél virtuálisgép-méretet.

Az aktuális virtuális gép átméretezése

Átméretezheti a virtuális gépet.

Következő lépések

A GPU-kompatibilis virtuális gépek méreteinek teljes listáját lásd : GPU – gyorsított számítási áttekintés

Megosztás a következőn keresztül: