Migratiehandleiding voor GPU-rekenworkloads in Azure

Artikel
08/24/2024

Naarmate krachtigere GPU's beschikbaar komen in de marketplace en in Microsoft Azure-datacenters, raden we u aan de prestaties van uw workloads opnieuw te beoordelen en te migreren naar nieuwere GPU's.

Om dezelfde reden, en om een hoogwaardige en betrouwbare service-aanbieding te onderhouden, trekt Azure regelmatig de hardware buiten gebruik die oudere VM-grootten aanbiedt. De eerste groep GPU-producten die buiten gebruik worden gesteld in Azure zijn de oorspronkelijke VM's uit de NC-, NC v2- en ND-serie, mogelijk gemaakt door NVIDIA Tesla K80, P100 en P40-datacenter GPU-accelerators. Deze producten worden op 31 augustus 2023 buiten gebruik gesteld en de oudste VM's in deze serie die in 2016 zijn gelanceerd.

Sindsdien hebben GPU's ongelooflijke stappen gezet naast de hele deep learning- en HPC-industrie, die doorgaans een verdubbeling van prestaties tussen generaties overschrijden. Sinds de lancering van NVIDIA K80-, P40- en P100-GPU's heeft Azure meerdere nieuwere generaties en categorieën VM-producten geleverd die zijn afgestemd op gpu-versnelde rekenkracht en AI, gebaseerd op DE T4-, V100- en A100-GPU's van NVIDIA, en onderscheiden door optionele functies zoals interconnect-infrastructuur op basis van InfiniBand. Dit zijn alle opties die we klanten aanmoedigen om te verkennen als migratiepaden.

In de meeste gevallen verlaagt de aanzienlijke toename van de prestaties die worden geboden door nieuwere generaties GPU's de totale TCO door de duur van de taak te verlagen, voor burstable jobs, of het verminderen van de hoeveelheid totale GPU-VM's die nodig zijn om een vaste vraag naar rekenresources te dekken, zelfs als de kosten per GPU-uur kunnen variëren. Naast deze voordelen kunnen klanten Time-to-Solution verbeteren via virtuele machines met een hogere prestaties en de status en ondersteuning van hun oplossing verbeteren door nieuwere software- en CUDA-runtime- en stuurprogrammaversies te gebruiken.

Migratie versus optimalisatie

Azure erkent dat klanten een groot aantal vereisten hebben die de selectie van een specifiek GPU-VM-product kunnen dicteren, waaronder overwegingen met betrekking tot GPU-architectuur, interconnects, TCO, Time to Solution en regionale beschikbaarheid op basis van vereisten voor naleving of latentie, en sommige hiervan veranderen zelfs in de loop van de tijd.

Tegelijkertijd is GPU-versnelling een nieuw en snel evoluerend gebied.

Er is dus geen echte één-grootte die past bij alle richtlijnen voor dit productgebied en een migratie is een perfecte tijd om potentieel dramatische wijzigingen in een workload opnieuw te evalueren, zoals het overstappen van een geclusterd implementatiemodel naar één grote 8 GPU-VM of omgekeerd, waarbij gebruik wordt gemaakt van beperkte precisiegegevenstypen, het aannemen van functies zoals GPU met meerdere exemplaren en nog veel meer.

Dit soort overwegingen: wanneer de context van al dramatische GPU-prestaties per generatie toeneemt, waarbij een functie zoals het toevoegen van TensorCores de prestaties kan verhogen op volgorde van grootte, extreem workloadspecifiek zijn.

Het combineren van migratie met de toepassingsherarchitectuur kan enorme waarde en verbetering opleveren in kosten en time-to-solution.

Dit soort verbeteringen valt echter buiten het bereik van dit document, dat zich richt op directe gelijkwaardigheidsklassen voor gegeneraliseerde workloads die momenteel door klanten kunnen worden uitgevoerd, om de meest vergelijkbare VM-opties in zowel prijs als prestaties per GPU te identificeren voor bestaande VM-families die buiten gebruik worden gesteld.

In dit document wordt ervan uitgegaan dat de gebruiker mogelijk geen inzicht heeft in of controle heeft over workloadspecifieke eigenschappen, zoals het aantal vereiste VM-exemplaren, GPU's, interconnects en meer.

Aanbevolen upgradepaden

VM's uit de NC-serie met NVIDIA K80 GPU's

De VM's uit de NC-serie (v1)-serie zijn het oudste gpu-versnelde reken-VM-type, mogelijk gemaakt door 1 tot 4 NVIDIA Tesla K80 datacenter GPU-accelerators die zijn gekoppeld aan Intel Xeon E5-2690 v3-processors (Haswell). Zodra een vlaggenschip-VM-type voor veeleisende AI-, ML- en HPC-toepassingen was, bleven ze een populaire keuze laat in de productlevenscyclus (met name via promotieprijzen uit de NC-serie) voor gebruikers die een zeer lage absolute kosten per GPU-uur per GPU-uur hadden met een hogere doorvoer per dollar.

Gezien de relatief lage rekenprestaties van het verouderde NVIDIA K80 GPU-platform, in vergelijking met de VM-serie met nieuwere GPU's, is een populaire use case voor de NC-serie realtime deductie- en analyseworkloads, waarbij een versnelde VM beschikbaar moet zijn in een stabiele status om aanvragen van toepassingen te verwerken wanneer ze binnenkomen. In deze gevallen kan het volume of de batchgrootte van aanvragen onvoldoende zijn om te profiteren van meer presterende GPU's. NC-VM's zijn ook populair voor ontwikkelaars en studenten die leren over, ontwikkelen voor of experimenteren met GPU-versnelling, die een goedkoop CUDA-implementatiedoel in de cloud nodig hebben om te herhalen dat niet hoeft te worden uitgevoerd op productieniveaus.

Over het algemeen moeten klanten uit de NC-serie overwegen om rechtstreeks over te stappen van NC-grootten naar NC T4 v3-grootten , het nieuwe GPU-versnelde platform van Azure voor lichte workloads die worden aangedreven door NVIDIA Tesla T4 GPU's.

Huidige VM-grootte	Grootte van doel-VM	Verschil in specificatie
Standard_NC6 Standard_NC6_Promo	Standard_NC4as_T4_v3 or Standard_NC8as_T4	CPU: Intel Haswell versus AMD Rome Aantal GPU's: 1 (hetzelfde) GPU-generatie: NVIDIA Keppler versus Turing (+2 generaties, ~2x FP32 FLOPs) GPU-geheugen (GiB per GPU): 16 (+4) vCPU: 4 (-2) of 8 (+2) Geheugen GiB: 16 (-40) of 56 (hetzelfde) Temp Storage (SSD) GiB: 180 (-160) of 360 (+20) Maximum aantal gegevensschijven: 8 (-4) of 16 (+4) Versneld netwerken: Ja (+) Premium Storage: Ja (+)
Standard_NC12 Standard_NC12_Promo	Standard_NC16as_T4_v3	CPU: Intel Haswell versus AMD Rome Aantal GPU's: 1 (-1) GPU-generatie: NVIDIA Keppler versus Turing (+2 generaties, ~2x FP32 FLOPs) GPU-geheugen (GiB per GPU): 16 (+4) vCPU: 16 (+4) Geheugen GiB: 110 (-2) Temp Storage (SSD) GiB: 360 (-320) Maximum aantal gegevensschijven: 48 (+16) Versneld netwerken: Ja (+) Premium Storage: Ja (+)
Standard_NC24 Standard_NC24_Promo	Standard_NC64as_T4_v3*	CPU: Intel Haswell versus AMD Rome AANTAL GPU's: 4 (hetzelfde) GPU-generatie: NVIDIA Keppler versus Turing (+2 generaties, ~2x FP32 FLOPs) GPU-geheugen (GiB per GPU): 16 (+4) vCPU: 64 (+40) Geheugen GiB: 440 (+216) Temp Storage (SSD) GiB: 2880 (+1440) Maximum aantal gegevensschijven: 32 (-32) Versneld netwerken: Ja (+) Premium Storage: Ja (+)
Standard_NC24r Standard_NC24r_Promo	Standard_NC64as_T4_v3*	CPU: Intel Haswell versus AMD Rome AANTAL GPU's: 4 (hetzelfde) GPU-generatie: NVIDIA Keppler versus Turing (+2 generaties, ~2x FP32 FLOPs) GPU-geheugen (GiB per GPU): 16 (+4) vCPU: 64 (+40) Geheugen GiB: 440 (+216) Temp Storage (SSD) GiB: 2880 (+1440) Maximum aantal gegevensschijven: 32 (-32) Versneld netwerken: Ja (+) Premium Storage: Ja (+) InfiniBand-interconnect: Nee

VM's uit de NC v2-serie met NVIDIA Tesla P100 GPU's

De virtuele machines uit de NC v2-serie zijn een vlaggenschipplatform dat oorspronkelijk is ontworpen voor AI- en Deep Learning-workloads. Ze bieden uitstekende prestaties voor Deep Learning-training, met prestaties per GPU ongeveer 2x die van de oorspronkelijke NC-serie en worden aangedreven door NVIDIA Tesla P100 GPU's en Intel Xeon E5-2690 v4 (Broadwell) CPU's. Net als de NC- en ND-serie biedt de NC v2-serie een configuratie met een secundair netwerk met lage latentie, hoge doorvoer via RDMA en InfiniBand-connectiviteit, zodat u grootschalige trainingstaken kunt uitvoeren die veel GPU's omvatten.

Over het algemeen moeten klanten uit de NCv2-serie overwegen om rechtstreeks over te stappen naar NC A100 v4-grootten , het nieuwe GPU-versnelde platform van Azure, mogelijk gemaakt door NVIDIA Ampere A100 PCIe GPU's.

Huidige VM-grootte	Grootte van doel-VM	Verschil in specificatie
Standard_NC6s_v2	Standard_NC24ads_A100_v4	CPU: Intel Broadwell vs AMD Milan Aantal GPU's: 1 (hetzelfde) GPU-generatie: NVIDIA Pascal versus Ampere (+2 generatie) GPU-geheugen (GiB per GPU): 80 (+64) vCPU: 24 (+18) Geheugen GiB: 220 (+108) Temp Storage (SSD) GiB: 1123 (+387) Maximum aantal gegevensschijven: 12 (hetzelfde) Versneld netwerken: Ja (+) Premium Storage: Ja (+)
Standard_NC12s_v2	Standard_NC48ads_A100_v4	CPU: Intel Broadwell vs AMD Milan Aantal GPU's: 2 (hetzelfde) GPU-generatie: NVIDIA Pascal versus Ampere (+2 generaties) GPU-geheugen (GiB per GPU): 80 (+64) vCPU: 48 (+36) Geheugen GiB: 440 (+216) Temp Storage (SSD) GiB: 2246 (+772) Maximum aantal gegevensschijven: 24 (hetzelfde) Versneld netwerken: Ja (+) Premium Storage: Ja (+)
Standard_NC24s_v2	Standard_NC96ads_A100_v4	CPU: Intel Broadwell vs AMD Milan AANTAL GPU's: 4 (hetzelfde) GPU-generatie: NVIDIA Pascal versus Ampere (+2 generaties) GPU-geheugen (GiB per GPU): 80 (+64) vCPU: 96 (+72) Geheugen GiB: 880 (+432) Temp Storage (SSD) GiB: 4492 (+1544) Maximum aantal gegevensschijven: 32 (hetzelfde) Versneld netwerken: Ja (+) Premium Storage: Ja (+)
Standard_NC24rs_v2	Standard_NC96ads_A100_v4	CPU: Intel Broadwell vs AMD Milan Aantal GPU's: 4 (hetzelfde) GPU-generatie: NVIDIA Pascal versus Ampere (+2 generaties) GPU-geheugen (GiB per GPU): 80 (+64) vCPU: 96 (+72) Geheugen GiB: 880 (+432) Temp Storage (SSD) GiB: 4492 (+1544) Maximum aantal gegevensschijven: 32 (hetzelfde) Versneld netwerken: Ja (+) Premium Storage: Ja (+) InfiniBand-interconnect: Nee (-)

VM's uit de ND-serie met NVIDIA Tesla P40 GPU's

De virtuele machines uit de ND-serie zijn een midrangeplatform dat oorspronkelijk is ontworpen voor AI- en Deep Learning-workloads. Ze bieden uitstekende prestaties voor batchdeductie via verbeterde drijvendekommabewerkingen met één precisie ten opzichte van hun voorgangers en worden aangedreven door NVIDIA Tesla P40 GPU's en Intel Xeon E5-2690 v4 (Broadwell) CPU's. Net als de NC- en NC v2-serie biedt de ND-serie een configuratie met een secundair netwerk met lage latentie, hoge doorvoer via RDMA en InfiniBand-connectiviteit, zodat u grootschalige trainingstaken kunt uitvoeren voor veel GPU's.

Huidige VM-grootte	Grootte van doel-VM	Verschil in specificatie
Standard_ND6	Standard_NC4as_T4_v3 or Standard_NC8as_T4_v3	CPU: Intel Broadwell versus AMD Rome Aantal GPU's: 1 (hetzelfde) GPU-generatie: NVIDIA Pascal versus Turing (+1 generatie) GPU-geheugen (GiB per GPU): 16 (-8) vCPU: 4 (-2) of 8 (+2) Geheugen GiB: 16 (-40) of 56 (-56) Temp Storage (SSD) GiB: 180 (-552) of 360 (-372) Maximum aantal gegevensschijven: 8 (-4) of 16 (+4) Versneld netwerken: Ja (+) Premium Storage: Ja (+)
Standard_ND12	Standard_NC16as_T4_v3	CPU: Intel Broadwell versus AMD Rome Aantal GPU's: 1 (-1) GPU-generatie: NVIDIA Pascal versus Turing (+1 generaties) GPU-geheugen (GiB per GPU): 16 (-8) vCPU: 16 (+4) Geheugen GiB: 110 (-114) Temp Storage (SSD) GiB: 360 (-1,114) Maximum aantal gegevensschijven: 48 (+16) Versneld netwerken: Ja (+) Premium Storage: Ja (+)
Standard_ND24	Standard_NC64as_T4_v3*	CPU: Intel Broadwell versus AMD Rome AANTAL GPU's: 4 (hetzelfde) GPU-generatie: NVIDIA Pascal versus Turing (+1 generaties) GPU-geheugen (GiB per GPU): 16 (-8) vCPU: 64 (+40) Geheugen GiB: 440 (hetzelfde) Temp Storage (SSD) GiB: 2880 (hetzelfde) Maximum aantal gegevensschijven: 32 (hetzelfde) Versneld netwerken: Ja (+) Premium Storage: Ja (+)
Standard_ND24r	Standard_ND96amsr_A100_v4	CPU: Intel Broadwell versus AMD Rome AANTAL GPU's: 8 (+4) GPU-generatie: NVIDIA Pascal versus Ampere (+2 generatie) GPU-geheugen (GiB per GPU): 80 (+56) vCPU: 96 (+72) Geheugen GiB: 1900 (+1452) Temp Storage (SSD) GiB: 6400 (+3452) Maximum aantal gegevensschijven: 32 (hetzelfde) Versneld netwerken: Ja (+) Premium Storage: Ja (+) InfiniBand-interconnect: Ja (hetzelfde)

Migratiestappen

Algemene wijzigingen

Kies een reeks en grootte voor migratie. Maak gebruik van de prijscalculator voor meer inzichten.
Quotum ophalen voor de doel-VM-serie
Wijzig de grootte van de vm-grootte van de huidige N*-serie in de doelgrootte. Dit kan ook een goed moment zijn om het besturingssysteem dat wordt gebruikt door de installatiekopie van uw virtuele machine bij te werken of een van de HPC-installatiekopieën te gebruiken met stuurprogramma's die vooraf zijn geïnstalleerd als uitgangspunt.

Belangrijk

Uw VM-installatiekopie is mogelijk geproduceerd met een oudere versie van de CUDA-runtime, het NVIDIA-stuurprogramma en (indien van toepassing, alleen voor RDMA-grootten) Mellanox OFED-stuurprogramma's dan uw nieuwe GPU-VM-serie vereist, die kan worden bijgewerkt door de instructies in de Azure-documentatie te volgen.

Wijzigingen die fouten veroorzaken

Doelgrootte selecteren voor migratie

Nadat u uw huidige gebruik hebt beoordeeld, bepaalt u welk type GPU-VM u nodig hebt. Afhankelijk van de workloadvereisten hebt u enkele verschillende opties.

Notitie

U kunt het beste een VM-grootte selecteren op basis van zowel kosten als prestaties. De aanbevelingen in deze handleiding zijn gebaseerd op een algemene vergelijking van metrische prestatiegegevens en de dichtstbijzijnde overeenkomst in een andere VM-serie. Voordat u de juiste grootte kiest, moet u een kostenvergelijking krijgen met behulp van de Azure-prijscalculator.

Belangrijk

Alle verouderde NC-, NC v2- en ND-serie-grootten zijn beschikbaar in meerdere GPU-grootten, waaronder 4 GPU-grootten met en zonder InfiniBand-interconnect voor uitschalen, nauw gekoppelde workloads die meer rekenkracht vragen dan één 4 GPU-VM, of één K80, P40 of P100 GPU kunnen respectievelijk leveren. Hoewel de bovenstaande aanbevelingen een eenvoudig pad naar voren bieden, moeten gebruikers van deze grootten overwegen om hun prestatiedoelen te bereiken met krachtigere NVIDIA V100 GPU-VM-serie zoals de NC v3-serie en ND v2-serie, die doorgaans hetzelfde niveau van workloadprestaties tegen lagere kosten en met verbeterde beheerbaarheid mogelijk maken door aanzienlijk betere prestaties per GPU en per VM te bieden voordat configuraties met meerdere GPU's en meerdere knooppunten vereist zijn, respectievelijk.

Quotum ophalen voor de doel-VM-serie

Volg de handleiding voor het aanvragen van een verhoging van het vCPU-quotum per VM-serie. Selecteer de grootte van de doel-VM die u hebt geselecteerd voor migratie.

Het formaat van de huidige virtuele machine wijzigen

U kunt de grootte van de virtuele machine wijzigen.

Volgende stappen

Zie GPU - overzicht van versnelde berekeningen voor een volledige lijst met grootten voor virtuele machines met GPU

Share via