Migratiehandleiding voor GPU-rekenworkloads in Azure

Artikel
09/03/2023

Naarmate er krachtigere GPU's beschikbaar komen in de marketplace en in Microsoft Azure-datacenters, raden we u aan de prestaties van uw workloads opnieuw te beoordelen en te overwegen om te migreren naar nieuwere GPU's.

Om dezelfde reden, en om een kwalitatief hoogstaande en betrouwbare service te behouden, stelt Azure periodiek de hardware buiten gebruik die oudere VM-grootten mogelijk maakt. De eerste groep GPU-producten die buiten gebruik worden gesteld in Azure, zijn de oorspronkelijke VM's uit de NC-, NC v2- en ND-serie, aangedreven door respectievelijk NVIDIA Tesla K80, P100 en P40 datacenter GPU-accelerators. Deze producten worden op 31 augustus 2023 buiten gebruik gesteld en de oudste VM's in deze serie zijn in 2016 gelanceerd.

Sindsdien hebben GPU's ongelooflijke vooruitgang geboekt naast de hele deep learning- en HPC-industrie, meestal een verdubbeling in prestaties tussen generaties. Sinds de lancering van NVIDIA K80-, P40- en P100-GPU's heeft Azure meerdere nieuwere generaties en categorieën VM-producten geleverd die zijn gericht op gpu-versnelde rekenkracht en AI, gebaseerd op DE T4-, V100- en A100-GPU's van NVIDIA, en gedifferentieerd door optionele functies zoals op InfiniBand gebaseerde interconnect-fabrics. Dit zijn allemaal opties die we klanten aanmoedigen om te verkennen als migratiepaden.

In de meeste gevallen verlaagt de aanzienlijke toename van de prestaties van nieuwere generaties GPU's de totale TCO door de duur van de taak te verlagen, voor burstbare taken, of door het aantal vm's met gpu te verminderen dat nodig is om een vraag van vaste grootte naar rekenresources te dekken, zelfs als de kosten per GPU-uur kunnen variëren. Naast deze voordelen kunnen klanten time-to-solution verbeteren via beter presterende VM's en de status en ondersteuning van hun oplossing verbeteren door nieuwere software-, CUDA-runtime- en stuurprogrammaversies te gebruiken.

Migratie versus optimalisatie

Azure erkent dat klanten een groot aantal vereisten hebben die de selectie van een specifiek GPU VM-product kunnen dicteren, waaronder overwegingen voor GPU-architectuur, interconnecties, TCO, tijd tot oplossing en regionale beschikbaarheid op basis van nalevingslocatie of latentievereisten, en sommige hiervan veranderen zelfs in de loop van de tijd.

Tegelijkertijd is GPU-versnelling een nieuw en snel evoluerend gebied.

Er zijn dus geen echte eenmalige richtlijnen voor dit productgebied en een migratie is een perfect moment om mogelijk ingrijpende wijzigingen in een workload opnieuw te evalueren, zoals het overstappen van een geclusterd implementatiemodel naar één grote VM met 8 GPU's of omgekeerd, het gebruik van gegevenstypen met verminderde precisie, het overnemen van functies zoals Multi-Instance GPU en nog veel meer.

Dit soort overwegingen- wanneer de context wordt gemaakt van al dramatische gpu-prestatieverhogingen per generatie, waarbij een functie zoals de toevoeging van TensorCores de prestaties met een orde van grootte kan verhogen, uiterst workloadspecifiek is.

Het combineren van migratie met toepassingsherinrichting kan een enorme waarde en een verbetering van de kosten en de time-to-solution opleveren.

Dit soort verbeteringen vallen echter buiten het bereik van dit document, dat gericht is op directe equivalentieklassen voor gegeneraliseerde workloads die tegenwoordig door klanten kunnen worden uitgevoerd, om de meest vergelijkbare VM-opties in prijs en prestaties per GPU te identificeren voor bestaande VM-families die buiten gebruik worden gesteld.

In dit document wordt ervan uitgegaan dat de gebruiker mogelijk geen inzicht heeft in of controle heeft over workloadspecifieke eigenschappen, zoals het aantal vereiste VM-exemplaren, GPU's, interconnects en meer.

Aanbevolen upgradepaden

NC-Series VM's met NVIDIA K80 GPU's

De VM's uit de NC-serie (v1) zijn het oudste reken-VM-type van Azure met GPU-versnelling, mogelijk gemaakt door 1 tot 4 NVIDIA Tesla K80 datacenter GPU-accelerators die zijn gekoppeld aan Intel Xeon E5-2690 v3-processors (Haswell). Ooit een vlaggenschip-VM-type voor veeleisende AI-, ML- en HPC-toepassingen, bleven ze een populaire keuze tot laat in de productlevenscyclus (met name via promotieprijzen uit de NC-serie) voor gebruikers die waarde hechtte aan zeer lage absolute kosten per GPU-uur ten opzichte van GPU's met een hogere doorvoer per dollar.

Gezien de relatief lage rekenprestaties van het verouderde NVIDIA K80 GPU-platform, in vergelijking met VM-serie met nieuwere GPU's, is een populaire use case voor de NC-serie realtime deductie- en analyseworkloads, waarbij een versnelde VM in een stabiele status beschikbaar moet zijn om aanvragen van toepassingen te verwerken wanneer ze binnenkomen. In deze gevallen is het volume of de batchgrootte van aanvragen mogelijk onvoldoende om te profiteren van beter presterende GPU's. NC-VM's zijn ook populair voor ontwikkelaars en studenten die leren over, ontwikkelen voor of experimenteren met GPU-versnelling, die een goedkoop CUDA-implementatiedoel in de cloud nodig hebben waarop ze kunnen worden herhaald en die niet naar productieniveaus hoeven te worden uitgevoerd.

Over het algemeen moeten NC-Series klanten overwegen om rechtstreeks over te stappen van NC-grootten naar NC T4 v3-grootten , het nieuwe GPU-versnelde platform van Azure voor lichte workloads die worden aangedreven door NVIDIA Tesla T4 GPU's.

Huidige VM-grootte	Doel-VM-grootte	Verschil in specificatie
Standard_NC6 Standard_NC6_Promo	Standard_NC4as_T4_v3 of Standard_NC8as_T4	CPU: Intel Haswell versus AMD Rome Aantal GPU's: 1 (hetzelfde) GPU-generatie: NVIDIA Keppler vs Turing (+2 generaties, ~2x FP32 FLOPs) GPU-geheugen (GiB per GPU): 16 (+4) vCPU: 4 (-2) of 8 (+2) Geheugen GiB: 16 (-40) of 56 (hetzelfde) Tijdelijke opslag (SSD) GiB: 180 (-160) of 360 (+20) Maximum aantal gegevensschijven: 8 (-4) of 16 (+4) Versneld netwerken: Ja (+) Premium Storage: Ja (+)
Standard_NC12 Standard_NC12_Promo	Standard_NC16as_T4_v3	CPU: Intel Haswell versus AMD Rome AANTAL GPU's: 1 (-1) GPU-generatie: NVIDIA Keppler vs Turing (+2 generaties, ~2x FP32 FLOPs) GPU-geheugen (GiB per GPU): 16 (+4) vCPU: 16 (+4) Geheugen GiB: 110 (-2) Tijdelijke opslag (SSD) GiB: 360 (-320) Maximum aantal gegevensschijven: 48 (+16) Versneld netwerken: Ja (+) Premium Storage: Ja (+)
Standard_NC24 Standard_NC24_Promo	Standard_NC64as_T4_v3*	CPU: Intel Haswell versus AMD Rome Aantal GPU's: 4 (hetzelfde) GPU-generatie: NVIDIA Keppler vs Turing (+2 generaties, ~2x FP32 FLOPs) GPU-geheugen (GiB per GPU): 16 (+4) vCPU: 64 (+40) Geheugen GiB: 440 (+216) Tijdelijke opslag (SSD) GiB: 2880 (+1440) Maximum aantal gegevensschijven: 32 (-32) Versneld netwerken: Ja (+) Premium Storage: Ja (+)
Standard_NC24r Standard_NC24r_Promo	Standard_NC64as_T4_v3*	CPU: Intel Haswell versus AMD Rome Aantal GPU's: 4 (hetzelfde) GPU-generatie: NVIDIA Keppler vs Turing (+2 generaties, ~2x FP32 FLOPs) GPU-geheugen (GiB per GPU): 16 (+4) vCPU: 64 (+40) Geheugen GiB: 440 (+216) Tijdelijke opslag (SSD) GiB: 2880 (+1440) Maximum aantal gegevensschijven: 32 (-32) Versneld netwerken: Ja (+) Premium Storage: Ja (+) InfiniBand interconnect: Nee

VM's uit de NC v2-serie met NVIDIA Tesla P100 GPU's

De virtuele machines uit de NC v2-serie zijn een vlaggenschipplatform dat oorspronkelijk is ontworpen voor AI- en Deep Learning-workloads. Ze boden uitstekende prestaties voor Deep Learning-training, met prestaties per GPU ongeveer 2x die van de oorspronkelijke NC-Series en worden aangedreven door NVIDIA Tesla P100 GPU's en Intel Xeon E5-2690 v4 (Broadwell) CPU's. Net als de NC- en ND-serie biedt de NC v2-serie een configuratie met een secundair netwerk met lage latentie en hoge doorvoer via RDMA en InfiniBand-connectiviteit, zodat u grootschalige trainingstaken voor veel GPU's kunt uitvoeren.

Over het algemeen moeten NCv2-Series klanten overwegen om rechtstreeks over te stappen op NC A100 v4-grootten , het nieuwe GPU-versnelde platform van Azure, mogelijk gemaakt door NVIDIA Ampere A100 PCIe GPU's.

Huidige VM-grootte	Doel-VM-grootte	Verschil in specificatie
Standard_NC6s_v2	Standard_NC24ads_A100_v4	CPU: Intel Broadwell vs AMD Milan Aantal GPU's: 1 (hetzelfde) GPU-generatie: NVIDIA Pascal versus Ampere (+2 generatie) GPU-geheugen (GiB per GPU): 80 (+64) vCPU: 24 (+18) Geheugen GiB: 220 (+108) Tijdelijke opslag (SSD) GiB: 1123 (+387) Maximum aantal gegevensschijven: 12 (hetzelfde) Versneld netwerken: Ja (+) Premium Storage: Ja (+)
Standard_NC12s_v2	Standard_NC48ads_A100_v4	CPU: Intel Broadwell vs AMD Milan GPU-aantal: 2 (hetzelfde) GPU-generatie: NVIDIA Pascal versus Ampere (+2 generaties) GPU-geheugen (GiB per GPU): 80 (+64) vCPU: 48 (+36) Geheugen GiB: 440 (+216) Tijdelijke opslag (SSD) GiB: 2246 (+772) Maximum aantal gegevensschijven: 24 (hetzelfde) Versneld netwerken: Ja (+) Premium Storage: Ja (+)
Standard_NC24s_v2	Standard_NC96ads_A100_v4	CPU: Intel Broadwell vs AMD Milan Aantal GPU's: 4 (hetzelfde) GPU-generatie: NVIDIA Pascal versus Ampere (+2 generaties) GPU-geheugen (GiB per GPU): 80 (+64) vCPU: 96 (+72) Geheugen GiB: 880 (+432) Tijdelijke opslag (SSD) GiB: 4492 (+1544) Maximum aantal gegevensschijven: 32 (hetzelfde) Versneld netwerken: Ja (+) Premium Storage: Ja (+)
Standard_NC24rs_v2	Standard_NC96ads_A100_v4	CPU: Intel Broadwell vs AMD Milan GPU-aantal: 4 (hetzelfde) GPU-generatie: NVIDIA Pascal versus Ampere (+2 generaties) GPU-geheugen (GiB per GPU): 80 (+64) vCPU: 96 (+72) Geheugen GiB: 880 (+432) Tijdelijke opslag (SSD) GiB: 4492 (+1544) Maximum aantal gegevensschijven: 32 (hetzelfde) Versneld netwerken: Ja (+) Premium Storage: Ja (+) InfiniBand interconnect: Nee (-)

ND-Series VM's met NVIDIA Tesla P40 GPU's

De virtuele machines uit de ND-serie zijn een midrange-platform dat oorspronkelijk is ontworpen voor AI- en Deep Learning-workloads. Ze boden uitstekende prestaties voor batchdeductie via verbeterde drijvendekommabewerkingen met één precisie ten opzichte van hun voorgangers en worden aangedreven door NVIDIA Tesla P40 GPU's en Intel Xeon E5-2690 v4 (Broadwell) CPU's. Net als de NC en NC v2-serie biedt de ND-Series een configuratie met een secundair netwerk met lage latentie en hoge doorvoer via RDMA en InfiniBand-connectiviteit, zodat u grootschalige trainingstaken kunt uitvoeren die veel GPU's omvatten.

Huidige VM-grootte	Doel-VM-grootte	Verschil in specificatie
Standard_ND6	Standard_NC4as_T4_v3 of Standard_NC8as_T4_v3	CPU: Intel Broadwell versus AMD Rome Aantal GPU's: 1 (hetzelfde) GPU-generatie: NVIDIA Pascal versus Turing (+1 generatie) GPU-geheugen (GiB per GPU): 16 (-8) vCPU: 4 (-2) of 8 (+2) Geheugen GiB: 16 (-40) of 56 (-56) Tijdelijke opslag (SSD) GiB: 180 (-552) of 360 (-372) Maximum aantal gegevensschijven: 8 (-4) of 16 (+4) Versneld netwerken: Ja (+) Premium Storage: Ja (+)
Standard_ND12	Standard_NC16as_T4_v3	CPU: Intel Broadwell versus AMD Rome AANTAL GPU's: 1 (-1) GPU-generatie: NVIDIA Pascal vs Turing (+1 generaties) GPU-geheugen (GiB per GPU): 16 (-8) vCPU: 16 (+4) Geheugen GiB: 110 (-114) Tijdelijke opslag (SSD) GiB: 360 (-1.114) Maximum aantal gegevensschijven: 48 (+16) Versneld netwerken: Ja (+) Premium Storage: Ja (+)
Standard_ND24	Standard_NC64as_T4_v3*	CPU: Intel Broadwell versus AMD Rome Aantal GPU's: 4 (hetzelfde) GPU-generatie: NVIDIA Pascal vs Turing (+1 generaties) GPU-geheugen (GiB per GPU): 16 (-8) vCPU: 64 (+40) Geheugen GiB: 440 (hetzelfde) Tijdelijke opslag (SSD) GiB: 2880 (hetzelfde) Maximum aantal gegevensschijven: 32 (hetzelfde) Versneld netwerken: Ja (+) Premium Storage: Ja (+)
Standard_ND24r	Standard_ND96amsr_A100_v4	CPU: Intel Broadwell versus AMD Rome AANTAL GPU's: 8 (+4) GPU-generatie: NVIDIA Pascal versus Ampere (+2 generatie) GPU-geheugen (GiB per GPU): 80 (+56) vCPU: 96 (+72) Geheugen GiB: 1900 (+1452) Tijdelijke opslag (SSD) GiB: 6400 (+3452) Maximum aantal gegevensschijven: 32 (hetzelfde) Versneld netwerken: Ja (+) Premium Storage: Ja (+) InfiniBand interconnect: Ja (zelfde)

Migratiestappen

Algemene wijzigingen

Kies een reeks en grootte voor migratie. Gebruik de prijscalculator voor meer inzichten.
Quotum ophalen voor de doel-VM-serie
Wijzig de grootte van de vm-grootte van de huidige N*-serie naar de doelgrootte. Dit kan ook een goed moment zijn om het besturingssysteem bij te werken dat wordt gebruikt door de installatiekopie van uw virtuele machine of om een van de HPC-installatiekopieën met vooraf geïnstalleerde stuurprogramma's als uitgangspunt te gebruiken.

Belangrijk

Uw VM-installatiekopie is mogelijk geproduceerd met een oudere versie van de CUDA-runtime, het NVIDIA-stuurprogramma en (indien van toepassing, alleen voor RDMA-grootten) Mellanox OFED-stuurprogramma's dan uw nieuwe GPU-VM-serie vereist. Deze kunnen worden bijgewerkt door de instructies in de Azure-documentatie te volgen.

Wijzigingen die fouten veroorzaken

Doelgrootte voor migratie selecteren

Bepaal na het beoordelen van uw huidige gebruik welk type GPU-VM u nodig hebt. Afhankelijk van de vereisten voor de workload hebt u enkele verschillende keuzes.

Notitie

Een best practice is om een VM-grootte te selecteren op basis van zowel kosten als prestaties. De aanbevelingen in deze handleiding zijn gebaseerd op een algemene, een-op-een vergelijking van metrische prestatiegegevens en de dichtstbijzijnde overeenkomst in een andere VM-serie. Voordat u de juiste grootte kiest, bekijkt u een kostenvergelijking met behulp van de Azure-prijscalculator.

Belangrijk

Alle oudere NC-, NC v2- en ND-Series-grootten zijn beschikbaar in multi-GPU-grootten, inclusief 4 GPU-grootten met en zonder InfiniBand-interconnect voor uitbreied, nauw gekoppelde workloads die meer rekenkracht nodig hebben dan één VM met 4 GPU's of één K80-, P40- of P100 GPU kan leveren. Hoewel de bovenstaande aanbevelingen een eenvoudig pad naar voren bieden, moeten gebruikers van deze grootten overwegen om hun prestatiedoelen te bereiken met krachtigere VM-serie op basis van NVIDIA V100 GPU, zoals de NC v3-serie en ND v2-serie, die doorgaans hetzelfde niveau van workloadprestaties mogelijk maken tegen lagere kosten en met verbeterde beheerbaarheid door aanzienlijk betere prestaties per GPU en per VM te bieden voordat configuraties met meerdere GPU's en meerdere knooppunten vereist zijn. Respectievelijk.

Quotum ophalen voor de doel-VM-familie

Volg de handleiding om een verhoging van het vCPU-quotum per VM-familie aan te vragen. Selecteer de doel-VM-grootte die u hebt geselecteerd voor migratie.

Het formaat van de huidige virtuele machine wijzigen

U kunt het formaat van de virtuele machine wijzigen.

Volgende stappen

Zie GPU- overzicht van versnelde rekenkracht voor een volledige lijst met VM-grootten met GPU

Delen via