Migrálási útmutató GPU számítási feladatokhoz az Azure-ban

Ahogy a nagyobb teljesítményű GPU-k elérhetővé válnak a piactéren és a Microsoft Azure-adatközpontokban, javasoljuk, hogy értékelje újra a számítási feladatok teljesítményét, és mérlegelje az újabb GPU-kra való migrálást.

Ugyanezen okból, valamint a kiváló minőségű és megbízható szolgáltatásajánlat fenntartása érdekében az Azure rendszeresen kivonja a régebbi virtuálisgép-méreteket használó hardvereket. Az Azure-ban kivonandó GPU-termékek első csoportja az eredeti NC, NC v2 és ND sorozatú virtuális gépek, amelyeket NVIDIA Tesla K80, P100 és P40 adatközpont GPU-gyorsítók működtetnek. Ezeket a termékeket 2023. augusztus 31-én kivonjuk, és a sorozat legrégebbi virtuális gépei 2016-ban indulnak el.

Azóta a GPU-k hihetetlen lépéseket tettek a teljes mélytanulás és a HPC iparág mellett, jellemzően a generációk közötti teljesítmény megkettőződése mellett. Az NVIDIA K80, P40 és P100 GPU-k bevezetése óta az Azure több újabb generációt és kategóriát szállított a GPU-val gyorsított számítási és AI-alapú virtuálisgép-termékekhez, amelyek az NVIDIA T4, V100 és A100 GPU-jaira épülnek, és választható funkciókkal, például az InfiniBand-alapú összekapcsolási hálókkal vannak megkülönböztetve. Ezeket a lehetőségeket javasoljuk az ügyfeleknek, hogy migrálási útvonalakként ismerkedjenek meg.

A legtöbb esetben a GPU-k újabb generációi által kínált teljesítménynövekedés csökkenti a teljes TCO-t azáltal, hogy csökkenti a feladat időtartamát, a felpezsdíthető feladatokat, vagy csökkenti a GPU-kompatibilis virtuális gépek teljes mennyiségét, amelyek a számítási erőforrások rögzített méretű keresletének fedezéséhez szükségesek, annak ellenére, hogy a GPU-óránkénti költségek eltérőek lehetnek. Ezen előnyök mellett az ügyfelek magasabb teljesítményű virtuális gépeken keresztül javíthatják a megoldáshoz szükséges időt, és az újabb szoftver-, CUDA-futtatókörnyezet- és illesztőprogram-verziók alkalmazásával javíthatják megoldásuk állapotát és támogatottságát.

Migrálás és optimalizálás

Az Azure felismeri, hogy az ügyfeleknek számos olyan követelményük van, amelyek diktálhatják egy adott GPU virtuálisgép-termék kiválasztását, beleértve a GPU architekturális szempontjait, az összekapcsolásokat, a TCO-t, a megoldáshoz szükséges időt és a regionális rendelkezésre állást a megfelelőségi területi vagy késési követelmények alapján, és ezek némelyike idővel megváltozik.

Ugyanakkor a GPU-gyorsítás egy új és gyorsan fejlődő terület.

Így nincs valódi egyméretű útmutató ehhez a termékterülethez, és a migrálás tökéletes alkalom a számítási feladatok esetleges drámai változásainak újraértékelésére, például a fürtözött üzemi modellről egyetlen nagy, 8 GPU-s virtuális gépre való áttérésre, vagy fordítva, a csökkentett pontosságú adattípusok kihasználása, olyan funkciók bevezetése, mint a többpéldányos GPU és sok más.

Ezek a szempontok – amikor a már generációnkénti GPU-teljesítmény növekedésének kontextusát tették lehetővé, ahol egy olyan funkció, mint például a TensorCore hozzáadása, nagyságrendekkel növelheti a teljesítményt, rendkívül munkaterhelés-specifikusak.

A migrálás és az alkalmazás-újraarchitektúra kombinálása hatalmas értéket és javulást eredményezhet a költségekben és a megoldáshoz szükséges időben.

Az ilyen jellegű fejlesztések azonban túlmutatnak a jelen dokumentum hatókörén, amelynek célja, hogy az ügyfelek által jelenleg futtatható általános számítási feladatok közvetlen egyenértékűségi osztályaira összpontosítson, hogy azonosítsa a GPU-nkénti árban és teljesítményben a leginkább hasonló virtuálisgép-lehetőségeket a kivezetés alatt álló meglévő virtuálisgép-családokhoz.

Ezért ez a dokumentum feltételezi, hogy a felhasználó nem rendelkezik semmilyen megállapítással vagy vezérléssel a számítási feladatokra vonatkozó tulajdonságok, például a szükséges virtuálisgép-példányok, GPU-k, összekapcsolások és egyebek felett.

NVIDIA K80 GPU-kat tartalmazó virtuális gépek NC-Series

Az NC (v1) sorozatú virtuális gépek az Azure legrégebbi GPU-gyorsított számítási virtuális géptípusai, amelyek 1–4 NVIDIA Tesla K80 adatközponti GPU-gyorsítóval vannak párosítva, Intel Xeon E5-2690 v3 (Haswell) processzorokkal párosítva. Az AI-, ML- és HPC-alkalmazások iránti igényes virtuálisgép-típust a termék életciklusának késői szakaszában (különösen az NC-sorozat promóciós díjszabásával) népszerűvé tették azoknak a felhasználóknak, akik nagyra értékelték, hogy GPU-óránként nagyon alacsony abszolút költséggel rendelkeznek a gpu-kkal szemben, dolláronként magasabb átviteli sebességgel.

Az elavult NVIDIA K80 GPU-platform viszonylag alacsony számítási teljesítménye miatt az újabb GPU-kat tartalmazó virtuálisgép-sorozatokhoz képest az NC-sorozat egyik népszerű használati esete a valós idejű következtetési és elemzési számítási feladatok, ahol a gyorsított virtuális gépnek stabil állapotban kell rendelkezésre állnia, hogy az alkalmazások kéréseit a beérkezéskor kiszolgálja. Ezekben az esetekben előfordulhat, hogy a kérések mennyisége vagy kötegmérete nem elegendő a nagyobb teljesítményű GPU-k kihasználásához. Az NC virtuális gépek olyan fejlesztők és diákok számára is népszerűek, akik gpu-gyorsítással ismerkednek, fejlesztenek vagy kísérleteznek, akiknek egy olcsó, felhőalapú CUDA üzembehelyezési célra van szükségük, amelyre olyan iterációra van szükség, amelyet nem kell éles szinten elvégezni.

Általánosságban elmondható, hogy NC-Series ügyfeleknek érdemes közvetlenül áttérniük az NC-méretekről az NC T4 v3-méretekre , amely az Azure új GPU-gyorsított platformja az NVIDIA Tesla T4 GPU-k által működtetett egyszerűsített számítási feladatokhoz.

Aktuális virtuálisgép-méret Cél virtuális gép mérete Eltérés a specifikációban
Standard_NC6
Standard_NC6_Promo
Standard_NC4as_T4_v3
vagy
Standard_NC8as_T4
CPU: Intel Haswell vs AMD Rome
GPU-k száma: 1 (ugyanaz)
GPU-generáció: NVIDIA Keppler és Turing (+2 generáció, ~2x FP32 FLOP)
GPU-memória (GPU-nkénti GiB): 16 (+4)
vCPU: 4 (-2) vagy 8 (+2)
Memória GiB: 16 (-40) vagy 56 (ugyanaz)
Temp Storage (SSD) GiB: 180 (-160) vagy 360 (+20)
Maximális adatlemezek: 8 (-4) vagy 16 (+4)
Gyorsított hálózatkezelés: Igen (+)
Premium Storage: Igen (+)
Standard_NC12
Standard_NC12_Promo
Standard_NC16as_T4_v3 CPU: Intel Haswell vs AMD Rome
GPU-k száma: 1 (-1)
GPU-generáció: NVIDIA Keppler és Turing (+2 generáció, ~2x FP32 FLOP)
GPU-memória (GPU-nkénti GiB): 16 (+4)
vCPU: 16 (+4)
Memória GiB: 110 (-2)
Temp Storage (SSD) GiB: 360 (-320)
Maximális adatlemezek: 48 (+16)
Gyorsított hálózatkezelés: Igen (+)
Premium Storage: Igen (+)
Standard_NC24
Standard_NC24_Promo
Standard_NC64as_T4_v3* CPU: Intel Haswell vs AMD Rome
GPU-k száma: 4 (ugyanaz)
GPU-generáció: NVIDIA Keppler és Turing (+2 generáció, ~2x FP32 FLOP)
GPU-memória (GPU-nkénti GiB): 16 (+4)
vCPU: 64 (+40)
Memória GiB: 440 (+216)
Temp Storage (SSD) GiB: 2880 (+1440)
Maximális adatlemezek: 32 (-32)
Gyorsított hálózatkezelés: Igen (+)
Premium Storage: Igen (+)
Standard_NC24r
Standard_NC24r_Promo
Standard_NC64as_T4_v3* CPU: Intel Haswell vs AMD Rome
GPU-k száma: 4 (ugyanaz)
GPU-generáció: NVIDIA Keppler és Turing (+2 generáció, ~2x FP32 FLOP)
GPU-memória (GPU-nkénti GiB): 16 (+4)
vCPU: 64 (+40)
Memória GiB: 440 (+216)
Temp Storage (SSD) GiB: 2880 (+1440)
Maximális adatlemezek: 32 (-32)
Gyorsított hálózatkezelés: Igen (+)
Premium Storage: Igen (+)
InfiniBand-összekapcsolás: Nem

NVIDIA Tesla P100 GPU-kat tartalmazó NC v2 sorozatú virtuális gépek

Az NC v2 sorozatú virtuális gépek egy olyan kiemelt platform, amelyet eredetileg AI- és Mélytanulási számítási feladatokhoz terveztek. Kiváló teljesítményt kínáltak a mélytanulási betanításhoz, gpu-nkénti teljesítményük nagyjából az eredeti NC-Series 2-szeresére nő, és NVIDIA Tesla P100 GPU-k és Intel Xeon E5-2690 v4 (Broadwell) processzorok hajtják őket. Az NC-hez és az ND-sorozathoz hasonlóan az NC v2 sorozat is kínál egy konfigurációt, amely egy másodlagos alacsony késésű, nagy átviteli sebességű hálózattal rendelkezik az RDMA-n keresztül, és az InfiniBand-kapcsolattal, így nagy léptékű betanítási feladatokat futtathat, amelyek több GPU-t is lefednek.

Általánosságban elmondható, hogy NCv2-Series ügyfeleknek érdemes közvetlenül az NC A100 v4 méretre áttérniük, amely az Azure új GPU-gyorsítású platformja, amelyet NVIDIA Ampere A100 PCIe GPU-k működtetnek.

Aktuális virtuálisgép-méret Cél virtuális gép mérete Eltérés a specifikációban
Standard_NC6s_v2 Standard_NC24ads_A100_v4 CPU: Intel Broadwell vs AMD Milan
GPU-k száma: 1 (ugyanaz)
GPU-generáció: NVIDIA Pascal és Ampere (+2 generáció)
GPU-memória (GPU-nkénti GiB): 80 (+64)
vCPU: 24 (+18)
Memória GiB: 220 (+108)
Temp Storage (SSD) GiB: 1123 (+387)
Maximális adatlemezek: 12 (ugyanaz)
Gyorsított hálózatkezelés: Igen (+)
Premium Storage: Igen (+)
Standard_NC12s_v2 Standard_NC48ads_A100_v4 CPU: Intel Broadwell vs AMD Milan
GPU-k száma: 2 (ugyanaz)
GPU-generáció: NVIDIA Pascal és Ampere (+2 generáció)
GPU-memória (GPU-nkénti GiB): 80 (+64)
vCPU: 48 (+36)
Memória GiB: 440 (+216)
Temp Storage (SSD) GiB: 2246 (+772)
Adatlemezek maximális mérete: 24 (ugyanaz)
Gyorsított hálózatkezelés: Igen (+)
Premium Storage: Igen (+)
Standard_NC24s_v2 Standard_NC96ads_A100_v4 CPU: Intel Broadwell vs AMD Milan
GPU-k száma: 4 (ugyanaz)
GPU-generáció: NVIDIA Pascal és Ampere (+2 generáció)
GPU-memória (GPU-nkénti GiB): 80 (+64)
vCPU: 96 (+72)
Memória GiB: 880 (+432)
Temp Storage (SSD) GiB: 4492 (+1544)
Adatlemezek maximális mérete: 32 (ugyanaz)
Gyorsított hálózatkezelés: Igen (+)
Premium Storage: Igen (+)
Standard_NC24rs_v2 Standard_NC96ads_A100_v4 CPU: Intel Broadwell vs AMD Milan
GPU-k száma: 4 (ugyanaz)
GPU-generáció: NVIDIA Pascal és Ampere (+2 generáció)
GPU-memória (GPU-nkénti GiB): 80 (+64)
vCPU: 96 (+72)
Memória GiB: 880 (+432)
Temp Storage (SSD) GiB: 4492 (+1544)
Adatlemezek maximális mérete: 32 (ugyanaz)
Gyorsított hálózatkezelés: Igen (+)
Premium Storage: Igen (+)
InfiniBand-összekapcsolás: Nincs (-)

ND-Series NVIDIA Tesla P40 GPU-kat tartalmazó virtuális gépek

Az ND-sorozatú virtuális gépek egy midrange platform, amelyet eredetileg AI- és Mélytanulási számítási feladatokhoz terveztek. Kiváló teljesítményt kínáltak a kötegelt következtetéshez a jobb egypontos lebegőpontos műveletek révén az elődjeiken, és NVIDIA Tesla P40 GPU-k és Intel Xeon E5-2690 v4 (Broadwell) CPU-k működtetik őket. Az NC-hez és az NC v2-sorozathoz hasonlóan a ND-Series is kínál egy konfigurációt, amely egy másodlagos kis késésű, nagy átviteli sebességű hálózatot biztosít AZ RDMA-val és az InfiniBand-kapcsolattal, így nagy méretű betanítási feladatokat futtathat, amelyek több GPU-t is lefednek.

Aktuális virtuálisgép-méret Cél virtuális gép mérete Eltérés a specifikációban
Standard_ND6 Standard_NC4as_T4_v3
vagy
Standard_NC8as_T4_v3
CPU: Intel Broadwell vs AMD Rome
GPU-k száma: 1 (ugyanaz)
GPU-generáció: NVIDIA Pascal és Turing (+1 generáció)
GPU-memória (GPU-nkénti GiB): 16 (-8)
vCPU: 4 (-2) vagy 8 (+2)
Memória GiB: 16 (-40) vagy 56 (-56)
Temp Storage (SSD) GiB: 180 (-552) vagy 360 (-372)
Maximális adatlemezek: 8 (-4) vagy 16 (+4)
Gyorsított hálózatkezelés: Igen (+)
Premium Storage: Igen (+)
Standard_ND12 Standard_NC16as_T4_v3 CPU: Intel Broadwell vs AMD Rome
GPU-k száma: 1 (-1)
GPU-generáció: NVIDIA Pascal és Turing (+1 generáció)
GPU-memória (GPU-nkénti GiB): 16 (-8)
vCPU: 16 (+4)
Memória GiB: 110 (-114)
Temp Storage (SSD) GiB: 360 (-1,114)
Maximális adatlemezek: 48 (+16)
Gyorsított hálózatkezelés: Igen (+)
Premium Storage: Igen (+)
Standard_ND24 Standard_NC64as_T4_v3* CPU: Intel Broadwell vs AMD Rome
GPU-k száma: 4 (ugyanaz)
GPU-generáció: NVIDIA Pascal és Turing (+1 generáció)
GPU-memória (GPU-nkénti GiB): 16 (-8)
vCPU: 64 (+40)
Memória GiB: 440 (ugyanaz)
Temp Storage (SSD) GiB: 2880 (ugyanaz)
Adatlemezek maximális mérete: 32 (ugyanaz)
Gyorsított hálózatkezelés: Igen (+)
Premium Storage: Igen (+)
Standard_ND24r Standard_ND96amsr_A100_v4 CPU: Intel Broadwell vs AMD Rome
GPU-k száma: 8 (+4)
GPU-generáció: NVIDIA Pascal és Ampere (+2 generáció)
GPU-memória (GIB GPU-nként): 80 (+56)
vCPU: 96 (+72)
Memória GiB: 1900 (+1452)
Temp Storage (SSD) GiB: 6400 (+3452)
Adatlemezek maximális mérete: 32 (ugyanaz)
Gyorsított hálózatkezelés: Igen (+)
Premium Storage: Igen (+)
InfiniBand-összekapcsolás: Igen (Ugyanaz)

Migrálási lépések

Általános változások

  1. Válasszon egy adatsort és méretet a migráláshoz. További információkért használja a díjkalkulátort .

  2. Kvóta lekérése a cél virtuálisgép-sorozathoz

  3. Méretezze át az aktuális N* sorozatú virtuális gép méretét a célméretre. Ez is jó alkalom lehet a virtuálisgép-rendszerkép által használt operációs rendszer frissítésére, vagy a HPC-lemezképek egyikének kiindulási pontként előre telepített illesztőprogramokkal történő bevezetésére.

    Fontos

    Előfordulhat, hogy a virtuálisgép-rendszerkép a CUDA-futtatókörnyezet régebbi verziójával, az NVIDIA-illesztővel és (ha van, csak RDMA-kompatibilis méretek esetén) az új GPU-s virtuálisgép-sorozathoz szükséges Mellanox OFED illesztőprogramokkal készült, amelyet az Azure dokumentációjában található utasítások alapján frissíthet.

Kompatibilitástörő változások

A migrálás célméretének kiválasztása

Az aktuális használat felmérése után döntse el, hogy milyen típusú GPU-ra van szüksége. A számítási feladatok követelményeitől függően néhány különböző lehetőség közül választhat.

Megjegyzés

Ajánlott eljárás a virtuális gép méretének kiválasztása költség és teljesítmény alapján. Az útmutatóban szereplő javaslatok a teljesítménymetrikák általános célú, egy-az-egyhez összehasonlításán és a legközelebbi egyezésen alapulnak egy másik virtuálisgép-sorozatban. Mielőtt eldöntené a megfelelő méretet, kérje le a költség összehasonlítását az Azure díjkalkulátorával.

Fontos

Az örökölt NC, NC v2 és ND-Series méretek több GPU-s méretekben érhetők el, beleértve a 4 GPU-s méreteket infiniBand-kapcsolattal és anélkül a vertikális felskálázáshoz, szorosan összekapcsolt számítási feladatokhoz, amelyek több számítási teljesítményt igényelnek, mint egy 4 GPU-s virtuális gép, vagy egyetlen K80, P40 vagy P100 GPU szolgáltathat. Bár a fenti javaslatok egyértelmű előrelépést kínálnak, az ilyen méretű felhasználóknak érdemes megfontolniuk teljesítménycéljaik elérését a nagyobb teljesítményű NVIDIA V100 GPU-alapú virtuálisgép-sorozatokkal, például az NC v3-sorozattal és az ND v2 sorozattal, amelyek általában alacsonyabb költségek mellett és nagyobb kezelhetőséggel teszik lehetővé ugyanazt a számítási feladat-teljesítményt, mivel jelentősen nagyobb teljesítményt biztosítanak GPU-nként és virtuális gépenként, mielőtt több GPU- és többcsomópontos konfigurációra lenne szükség, Illetve.

Kvóta lekérése a cél virtuálisgép-családhoz

Kövesse az útmutatót a virtuálisgép-család vCPU-kvótájának növeléséhez. Válassza ki a migráláshoz kiválasztott cél virtuálisgép-méretet.

Az aktuális virtuális gép átméretezése

Átméretezheti a virtuális gépet.

Következő lépések

A GPU-kompatibilis virtuális gépek méreteinek teljes listáját lásd: GPU – gyorsított számítási áttekintés