Migreringsguide för GPU Compute-arbetsbelastningar i Azure

När kraftfullare GPU:er blir tillgängliga på Marketplace och i Microsoft Azure-datacenter rekommenderar vi att du utvärderar prestandan för dina arbetsbelastningar igen och överväger att migrera till nyare GPU:er.

Av samma anledning, samt för att upprätthålla ett högkvalitativt och tillförlitligt tjänsterbjudande, drar Azure regelbundet tillbaka maskinvaran som driver äldre VM-storlekar. Den första gruppen GPU-produkter som ska dras tillbaka i Azure är de ursprungliga virtuella datorerna nc, NC v2 och ND-serien, som drivs av NVIDIA Tesla K80, P100 respektive P40 datacenter GPU-acceleratorer. Dessa produkter tas ur bruk den 31 augusti 2023 och de äldsta virtuella datorerna i den här serien lanserades 2016.

Sedan dess har GPU:er gjort otroliga framsteg tillsammans med hela djupinlärnings- och HPC-industrin, vilket vanligtvis överstiger en fördubbling i prestanda mellan generationer. Sedan lanseringen av NVIDIA K80, P40 och P100 GPU:er har Azure levererat flera nyare generationer och kategorier av VM-produkter baserade på GPU-accelererad beräkning och AI, baserat på NVIDIA:s T4-, V100- och A100-GPU:er, och differentierats av valfria funktioner som InfiniBand-baserade sammanlänkningsinfrastrukturer. Det här är alla alternativ som vi uppmuntrar kunder att utforska som migreringsvägar.

I de flesta fall sänker den dramatiska prestandaökningen som erbjuds av nyare generationer av GPU:er den totala TCO:n genom att minska varaktigheten för jobbet, för burstbara jobb eller minska mängden totala GPU-aktiverade virtuella datorer som krävs för att täcka en fast storlek på efterfrågan på beräkningsresurser, även om kostnaderna per GPU-timme kan variera. Förutom dessa fördelar kan kunder förbättra time-to-solution via högpresterande virtuella datorer och förbättra hälsan och supporten för sin lösning genom att införa nyare programvara, CUDA-körning och drivrutinsversioner.

Migrering jämfört med optimering

Azure inser att kunderna har en mängd olika krav som kan diktera valet av en specifik produkt för GPU VM, inklusive GPU-arkitekturöverväganden, sammankopplingar, TCO, tid till lösning och regional tillgänglighet baserat på krav på efterlevnadslokalitet eller svarstid , och vissa av dessa ändras till och med över tid.

Samtidigt är GPU-acceleration ett nytt och snabbt växande område.

Därför finns det ingen riktig vägledning som passar alla för det här produktområdet, och en migrering är en perfekt tid för att omvärdera potentiellt dramatiska ändringar i en arbetsbelastning, till exempel att flytta från en klustrad distributionsmodell till en enda stor virtuell 8-GPU-dator eller vice versa, med hjälp av begränsade precisionsdatatyper, införande av funktioner som GPU med flera instanser och mycket mer.

Den här typen av överväganden – när kontexten för redan dramatiska GPU-prestanda per generation ökar, där en funktion som till exempel tillägg av TensorCores kan öka prestandan i storleksordning, är extremt arbetsbelastningsspecifik.

Genom att kombinera migrering med programåterarkitektur kan det ge enormt värde och förbättringar i kostnad och tid till lösning.

Den här typen av förbättringar ligger dock utanför omfattningen av det här dokumentet, som syftar till att fokusera på direkta likvärdighetsklasser för generaliserade arbetsbelastningar som kan köras av kunder idag, för att identifiera de mest liknande VM-alternativen i både pris och prestanda per GPU för befintliga VM-familjer som går i pension.

Därför förutsätter det här dokumentet att användaren kanske inte har någon insikt eller kontroll över arbetsbelastningsspecifika egenskaper som antalet nödvändiga VM-instanser, GPU:er, sammankopplingar med mera.

NC-Series virtuella datorer med NVIDIA K80 GPU:er

De virtuella datorerna i NC-serien (v1) är Azures äldsta GPU-accelererade beräknings-VM-typ, som drivs av 1 till 4 NVIDIA Tesla K80 datacenter GPU-acceleratorer i kombination med Intel Xeon E5-2690 v3-processorer (Haswell). En gång en flaggskepps-VM-typ för krävande AI-, ML- och HPC-program förblev de ett populärt val sent i produktens livscykel (särskilt via NC-seriens kampanjpriser) för användare som värderade att ha en mycket låg absolut kostnad per GPU-timme över GPU:er med högre dataflöde per dollar.

Idag, med tanke på den relativt låga beräkningsprestandan hos den åldrande NVIDIA K80 GPU-plattformen, jämfört med VM-serien med nyare GPU:er, är ett populärt användningsfall för NC-serien arbetsbelastningar för realtidsinferens och analys, där en accelererad virtuell dator måste vara tillgänglig i ett stabilt tillstånd för att hantera begäranden från program när de anländer. I dessa fall kan volymen eller batchstorleken för begäranden vara otillräcklig för att dra nytta av mer högpresterande GPU:er. Virtuella NC-datorer är också populära för utvecklare och studenter som lär sig om, utvecklar för eller experimenterar med GPU-acceleration, som behöver ett prisvärt molnbaserat CUDA-distributionsmål för att iterera som inte behöver utföras på produktionsnivåer.

I allmänhet bör NC-Series kunder överväga att flytta direkt från NC-storlekar till NC T4 v3-storlekar , Azures nya GPU-accelererade plattform för lätta arbetsbelastningar som drivs av NVIDIA Tesla T4 GPU:er.

Aktuell VM-storlek Storlek på virtuell måldator Skillnad i specifikation
Standard_NC6
Standard_NC6_Promo
Standard_NC4as_T4_v3
eller
Standard_NC8as_T4
CPU: Intel Haswell vs AMD Rome
Antal GPU:er: 1 (samma)
GPU-generation: NVIDIA Keppler vs. Turing (+2 generationer, ~2x FP32 FLOPs)
GPU-minne (GiB per GPU): 16 (+4)
vCPU: 4 (-2) eller 8 (+2)
Minne GiB: 16 (-40) eller 56 (samma)
Temp Storage (SSD) GiB: 180 (-160) eller 360 (+20)
Maximalt antal datadiskar: 8 (-4) eller 16 (+4)
Accelererat nätverk: Ja (+)
Premium Storage: Ja (+)
Standard_NC12
Standard_NC12_Promo
Standard_NC16as_T4_v3 CPU: Intel Haswell vs AMD Rome
Antal GPU:er: 1 (-1)
GPU-generation: NVIDIA Keppler vs. Turing (+2 generationer, ~2x FP32 FLOPs)
GPU-minne (GiB per GPU): 16 (+4)
vCPU: 16 (+4)
Minne GiB: 110 (-2)
Temp Storage (SSD) GiB: 360 (-320)
Maximalt antal datadiskar: 48 (+16)
Accelererat nätverk: Ja (+)
Premium Storage: Ja (+)
Standard_NC24
Standard_NC24_Promo
Standard_NC64as_T4_v3* CPU: Intel Haswell vs AMD Rome
Antal GPU:er: 4 (samma)
GPU-generation: NVIDIA Keppler vs. Turing (+2 generationer, ~2x FP32 FLOPs)
GPU-minne (GiB per GPU): 16 (+4)
vCPU: 64 (+40)
Minnes-GiB: 440 (+216)
Temp Storage (SSD) GiB: 2880 (+1440)
Maximalt antal datadiskar: 32 (-32)
Accelererat nätverk: Ja (+)
Premium Storage: Ja (+)
Standard_NC24r
Standard_NC24r_Promo
Standard_NC64as_T4_v3* CPU: Intel Haswell vs AMD Rome
Antal GPU:er: 4 (samma)
GPU-generation: NVIDIA Keppler vs. Turing (+2 generationer, ~2x FP32 FLOPs)
GPU-minne (GiB per GPU): 16 (+4)
vCPU: 64 (+40)
Minnes-GiB: 440 (+216)
Temp Storage (SSD) GiB: 2880 (+1440)
Maximalt antal datadiskar: 32 (-32)
Accelererat nätverk: Ja (+)
Premium Storage: Ja (+)
InfiniBand-sammankoppling: Nej

Virtuella DATORER i NC v2-serien med NVIDIA Tesla P100 GPU:er

De virtuella datorerna i NC v2-serien är en flaggskeppsplattform som ursprungligen utformades för AI- och Deep Learning-arbetsbelastningar. De erbjöd utmärkta prestanda för djupinlärningsträning, med prestanda per GPU ungefär 2x än den ursprungliga NC-Series och drivs av NVIDIA Tesla P100 GPU:er och Intel Xeon E5-2690 v4 (Broadwell) processorer. Precis som NC- och ND-serien erbjuder NC v2-serien en konfiguration med ett sekundärt nätverk med låg latens, högt dataflöde via RDMA och InfiniBand-anslutning så att du kan köra storskaliga träningsjobb som sträcker sig över många GPU:er.

I allmänhet bör NCv2-Series kunder överväga att flytta direkt över till NC A100 v4-storlekar , Azures nya GPU-accelererade plattform som drivs av NVIDIA Ampere A100 PCIe GPU:er.

Aktuell VM-storlek Storlek på virtuell måldator Skillnad i specifikation
Standard_NC6s_v2 Standard_NC24ads_A100_v4 CPU: Intel Broadwell vs AMD Milan
Antal GPU:er: 1 (samma)
GPU-generation: NVIDIA Pascal jämfört med Ampere (+2 generation)
GPU-minne (GiB per GPU): 80 (+64)
vCPU: 24 (+18)
Minne GiB: 220 (+108)
Temp Storage (SSD) GiB: 1123 (+387)
Maximalt antal datadiskar: 12 (samma)
Accelererat nätverk: Ja (+)
Premium Storage: Ja (+)
Standard_NC12s_v2 Standard_NC48ads_A100_v4 CPU: Intel Broadwell vs AMD Milan
GPU-antal: 2 (samma)
GPU-generation: NVIDIA Pascal jämfört med Ampere (+2 generationer)
GPU-minne (GiB per GPU): 80 (+64)
vCPU: 48 (+36)
Minne GiB: 440 (+216)
Temp Storage (SSD) GiB: 2246 (+772)
Maximalt antal datadiskar: 24 (samma)
Accelererat nätverk: Ja (+)
Premium Storage: Ja (+)
Standard_NC24s_v2 Standard_NC96ads_A100_v4 CPU: Intel Broadwell vs AMD Milan
Antal GPU:n: 4 (samma)
GPU-generation: NVIDIA Pascal jämfört med Ampere (+2 generationer)
GPU-minne (GiB per GPU): 80 (+64)
vCPU: 96 (+72)
Minne GiB: 880 (+432)
Temp Storage (SSD) GiB: 4492 (+1544)
Maximalt antal datadiskar: 32 (samma)
Accelererat nätverk: Ja (+)
Premium Storage: Ja (+)
Standard_NC24rs_v2 Standard_NC96ads_A100_v4 CPU: Intel Broadwell vs AMD Milan
GPU-antal: 4 (samma)
GPU-generation: NVIDIA Pascal jämfört med Ampere (+2 generationer)
GPU-minne (GiB per GPU): 80 (+64)
vCPU: 96 (+72)
Minne GiB: 880 (+432)
Temp Storage (SSD) GiB: 4492 (+1544)
Maximalt antal datadiskar: 32 (samma)
Accelererat nätverk: Ja (+)
Premium Storage: Ja (+)
InfiniBand-sammanlänkning: Nej (-)

ND-Series virtuella datorer med NVIDIA Tesla P40 GPU:er

De virtuella datorerna i ND-serien är en plattform i mellanregistret som ursprungligen utformades för AI- och Deep Learning-arbetsbelastningar. De erbjöd utmärkta prestanda för batchinferens via förbättrade flyttalsoperationer med enkel precision jämfört med sina föregångare och drivs av NVIDIA Tesla P40 GPU:er och Intel Xeon E5-2690 v4 (Broadwell) processorer. Precis som NC- och NC v2-serien erbjuder ND-Series en konfiguration med ett sekundärt nätverk med låg latens, högt dataflöde via RDMA och InfiniBand-anslutning så att du kan köra storskaliga träningsjobb som omfattar många GPU:er.

Aktuell VM-storlek Storlek på virtuell måldator Skillnad i specifikation
Standard_ND6 Standard_NC4as_T4_v3
eller
Standard_NC8as_T4_v3
CPU: Intel Broadwell vs AMD Rome
Antal GPU:n: 1 (samma)
GPU-generation: NVIDIA Pascal jämfört med Turing (+1 generation)
GPU-minne (GiB per GPU): 16 (-8)
vCPU: 4 (-2) eller 8 (+2)
Minne GiB: 16 (-40) eller 56 (-56)
Temp Storage (SSD) GiB: 180 (-552) eller 360 (-372)
Maximalt antal datadiskar: 8 (-4) eller 16 (+4)
Accelererat nätverk: Ja (+)
Premium Storage: Ja (+)
Standard_ND12 Standard_NC16as_T4_v3 CPU: Intel Broadwell vs AMD Rome
Antal GPU:n: 1 (-1)
GPU-generation: NVIDIA Pascal jämfört med Turing (+1 generationer)
GPU-minne (GiB per GPU): 16 (-8)
vCPU: 16 (+4)
Minne GiB: 110 (-114)
Temp Storage (SSD) GiB: 360 (-1 114)
Maximalt antal datadiskar: 48 (+16)
Accelererat nätverk: Ja (+)
Premium Storage: Ja (+)
Standard_ND24 Standard_NC64as_T4_v3* CPU: Intel Broadwell vs AMD Rome
Antal GPU:n: 4 (samma)
GPU-generation: NVIDIA Pascal jämfört med Turing (+1 generationer)
GPU-minne (GiB per GPU): 16 (-8)
vCPU: 64 (+40)
Minne GiB: 440 (samma)
Temp Storage (SSD) GiB: 2880 (samma)
Maximalt antal datadiskar: 32 (samma)
Accelererat nätverk: Ja (+)
Premium Storage: Ja (+)
Standard_ND24r Standard_ND96amsr_A100_v4 CPU: Intel Broadwell vs AMD Rome
Antal GPU:n: 8 (+4)
GPU-generation: NVIDIA Pascal jämfört med Ampere (+2 generation)
GPU-minne (GiB per GPU): 80 (+56)
vCPU: 96 (+72)
Minne GiB: 1900 (+1452)
Temp Storage (SSD) GiB: 6400 (+3452)
Maximalt antal datadiskar: 32 (samma)
Accelererat nätverk: Ja (+)
Premium Storage: Ja (+)
InfiniBand-sammankoppling: Ja (samma)

Migreringssteg

Allmänna ändringar

  1. Välj en serie och storlek för migrering. Använd priskalkylatorn för ytterligare insikter.

  2. Hämta kvot för vm-målserien

  3. Ändra storlek på den aktuella virtuella N*-seriens VM-storlek till målstorleken. Det här kan också vara ett bra tillfälle att uppdatera operativsystemet som används av avbildningen av den virtuella datorn eller använda en av HPC-avbildningarna med drivrutiner förinstallerade som startpunkt.

    Viktigt

    Din VM-avbildning kan ha skapats med en äldre version av CUDA-körningen, NVIDIA-drivrutinen och (om tillämpligt endast för RDMA-aktiverade storlekar) Mellanox OFED-drivrutiner än vad din nya GPU VM-serie kräver, som kan uppdateras genom att följa anvisningarna i Azure-dokumentationen.

Icke-bakåtkompatibla ändringar

Välj målstorlek för migrering

När du har utvärderat din aktuella användning bestämmer du vilken typ av virtuell GPU-dator du behöver. Beroende på arbetsbelastningskraven har du få olika alternativ.

Anteckning

Bästa praxis är att välja en VM-storlek baserat på både kostnad och prestanda. Rekommendationerna i den här guiden baseras på en generell jämförelse av prestandamått och närmaste matchning i en annan VM-serie. Innan du bestämmer dig för rätt storlek får du en kostnadsjämförelse med hjälp av Priskalkylatorn för Azure.

Viktigt

Alla äldre NC-, NC v2- och ND-Series-storlekar är tillgängliga i fler-GPU-storlekar, inklusive 4-GPU-storlekar med och utan InfiniBand-sammankoppling för utskalning, tätt kopplade arbetsbelastningar som kräver mer beräkningskraft än en enda 4 GPU VM, eller en enda K80, P40 eller P100 GPU kan leverera. Även om rekommendationerna ovan ger en enkel väg framåt bör användare av dessa storlekar överväga att uppnå sina prestandamål med mer kraftfulla NVIDIA V100 GPU-baserade VM-serier som NC v3-serien och ND v2-serien, som vanligtvis möjliggör samma nivå av arbetsbelastningsprestanda till lägre kostnader och med förbättrad hanterbarhet genom att ge betydligt större prestanda per GPU och per virtuell dator innan konfigurationer med flera GPU:er och flera noder krävs, Respektive.

Hämta kvot för mål-VM-familjen

Följ guiden för att begära en ökning av vCPU-kvoten per VM-familj. Välj den vm-målstorlek som du har valt för migrering.

Ändra storlek på den aktuella virtuella datorn

Du kan ändra storlek på den virtuella datorn.

Nästa steg

En fullständig lista över GPU-aktiverade storlekar för virtuella datorer finns i GPU – översikt över accelererad beräkning