Guida alla migrazione per carichi di lavoro di calcolo GPU in Azure

Articolo
08/25/2024

Man mano che le GPU più potenti diventano disponibili nel marketplace e nei data center di Microsoft Azure, è consigliabile rivalutare le prestazioni dei carichi di lavoro e valutare la migrazione a GPU più recenti.

Per lo stesso motivo, nonché per mantenere un'offerta di servizio affidabile e di alta qualità, Azure ritira periodicamente l'hardware che supporta le dimensioni precedenti delle macchine virtuali. Il primo gruppo di prodotti GPU da ritirare in Azure è costituito rispettivamente dagli acceleratori GPU NVIDIA Tesla K80, P100 e P40 datacenter originali della serie NC, NC v2 e ND. Questi prodotti verranno ritirati il 31 agosto 2023 e le macchine virtuali meno recenti di questa serie lanciate nel 2016.

Da allora, le GPU hanno fatto progressi incredibili insieme all'intero settore dell'apprendimento avanzato e HPC, in genere superando un raddoppio delle prestazioni tra generazioni. Dall'avvio di GPU NVIDIA K80, P40 e P100, Azure ha fornito più generazioni e categorie di prodotti vm basati su GPU e intelligenza artificiale, basati sulle GPU T4, V100 e A100 e differenziate da funzionalità facoltative come le infrastrutture di interconnessione basate su InfiniBand. Queste sono tutte le opzioni che invitiamo i clienti a esplorare come percorsi di migrazione.

Nella maggior parte dei casi, l'aumento significativo delle prestazioni offerte dalle nuove generazioni di GPU riduce il costo totale del costo totale riducendo la durata del processo, per i processi con burst o riducendo la quantità di macchine virtuali abilitate per GPU complessive necessarie per coprire una richiesta di risorse di calcolo a dimensione fissa, anche se i costi per ogni ora gpu possono variare. Oltre a questi vantaggi, i clienti possono migliorare la durata della soluzione tramite macchine virtuali con prestazioni più elevate e migliorare l'integrità e il supporto della soluzione adottando versioni più recenti di software, runtime CUDA e driver.

Migrazione e ottimizzazione

Azure riconosce che i clienti hanno una vasta gamma di requisiti che possono determinare la selezione di un prodotto di vm GPU specifico, tra cui considerazioni sull'architettura gpu, interconnessioni, TCO, soluzione e disponibilità a livello di area in base ai requisiti di conformità o latenza, e alcuni di questi cambiano anche nel tempo.

Allo stesso tempo, l'accelerazione GPU è un'area nuova e in rapida evoluzione.

Pertanto, non esiste una vera e propria guida adatta a tutte le dimensioni per questa area di prodotto e una migrazione è un momento perfetto per rivalutare le modifiche potenzialmente drammatiche a un carico di lavoro, ad esempio il passaggio da un modello di distribuzione cluster a una singola macchina virtuale a 8 GPU di grandi dimensioni o viceversa, sfruttando i tipi di dati di precisione ridotti, l'adozione di funzionalità come GPU a istanze multipla e molto altro ancora.

Questi tipi di considerazioni- quando si rende il contesto di prestazioni GPU già drammatiche per generazione aumentano, dove una funzionalità come l'aggiunta di TensorCore può migliorare le prestazioni di un ordine di grandezza, sono estremamente specifiche del carico di lavoro.

La combinazione della migrazione con la riarchitettura delle applicazioni può produrre un enorme valore e un miglioramento dei costi e della soluzione.

Tuttavia, questi tipi di miglioramenti non rientrano nell'ambito di questo documento, che mira a concentrarsi sulle classi equivalenti dirette per i carichi di lavoro generalizzati che possono essere eseguiti oggi dai clienti, per identificare le opzioni di macchina virtuale più simili in termini di prezzo e prestazioni per GPU a famiglie di macchine virtuali esistenti in fase di ritiro.

Di conseguenza, questo documento presuppone che l'utente non abbia informazioni dettagliate o controllo sulle proprietà specifiche del carico di lavoro, ad esempio il numero di istanze di macchina virtuale necessarie, GPU, interconnessioni e altro ancora.

Percorsi di aggiornamento consigliati

VM serie NC con GPU NVIDIA K80

Le macchine virtuali serie NC (v1) sono il tipo di macchina virtuale con accelerazione GPU di Azure meno recente, con tecnologia da 1 a 4 acceleratori GPU NVIDIA Tesla K80 abbinati ai processori Intel Xeon E5-2690 v3 (Haswell). Una volta che un tipo di MACCHINA virtuale di punta per le applicazioni di intelligenza artificiale, MACHINE Learning e HPC, è rimasta una scelta popolare in ritardo nel ciclo di vita del prodotto (in particolare tramite prezzi promozionali serie NC) per gli utenti che hanno apprezzato un costo assoluto molto basso per ora gpu su GPU con una velocità effettiva più elevata per dollaro.

Oggi, considerando le prestazioni di calcolo relativamente basse della piattaforma GPU NVIDIA K80 obsoleta, rispetto alla serie di macchine virtuali con GPU più recenti, un caso d'uso comune per la serie NC è l'inferenza in tempo reale e i carichi di lavoro analitica, in cui una macchina virtuale accelerata deve essere disponibile in uno stato stabile per gestire le richieste dalle applicazioni non appena arrivano. In questi casi le dimensioni del volume o del batch delle richieste potrebbero non essere sufficienti per trarre vantaggio da GPU più efficienti. Le macchine virtuali NC sono anche popolari per sviluppatori e studenti che imparano, sviluppano o sperimentano l'accelerazione GPU, che necessitano di una destinazione di distribuzione CUDA basata sul cloud a basso costo su cui eseguire l'iterazione che non deve eseguire ai livelli di produzione.

In generale, i clienti della serie NC devono prendere in considerazione la possibilità di passare direttamente dalle dimensioni NC alle dimensioni NC T4 v3 , la nuova piattaforma con accelerazione GPU di Azure per carichi di lavoro leggeri basati su GPU NVIDIA Tesla T4.

Dimensioni della macchina virtuale corrente	Dimensioni della macchina virtuale di destinazione	Differenze nella specifica
Standard_NC6 Standard_NC6_Promo	Standard_NC4as_T4_v3 or Standard_NC8as_T4	CPU: Intel Haswell e AMD Rome Conteggio GPU: 1 (stesso) Generazione GPU: NVIDIA Keppler e Turing (+2 generazioni, ~2x FP32 FLOP) Memoria GPU (GiB per GPU): 16 (+4) vCPU: 4 (-2) o 8 (+2) GiB memoria: 16 (-40) o 56 (stesso) GiB di archiviazione temporanea (SSD): 180 (-160) o 360 (+20) Numero massimo di dischi dati: 8 (-4) o 16 (+4) Rete accelerata: Sì (+) Archiviazione Premium: Sì (+)
Standard_NC12 Standard_NC12_Promo	Standard_NC16as_T4_v3	CPU: Intel Haswell e AMD Rome Numero GPU: 1 (-1) Generazione GPU: NVIDIA Keppler e Turing (+2 generazioni, ~2x FP32 FLOP) Memoria GPU (GiB per GPU): 16 (+4) vCPU: 16 (+4) GiB memoria: 110 (-2) GiB di archiviazione temporanea (SSD): 360 (-320) Numero massimo di dischi dati: 48 (+16) Rete accelerata: Sì (+) Archiviazione Premium: Sì (+)
Standard_NC24 Standard_NC24_Promo	Standard_NC64as_T4_v3*	CPU: Intel Haswell e AMD Rome Numero GPU: 4 (stesso) Generazione GPU: NVIDIA Keppler e Turing (+2 generazioni, ~2x FP32 FLOP) Memoria GPU (GiB per GPU): 16 (+4) vCPU: 64 (+40) GiB memoria: 440 (+216) GiB di Archiviazione temporanea (SSD): 2880 (+1440) Numero massimo di dischi dati: 32 (-32) Rete accelerata: Sì (+) Archiviazione Premium: Sì (+)
Standard_NC24r Standard_NC24r_Promo	Standard_NC64as_T4_v3*	CPU: Intel Haswell e AMD Rome Numero GPU: 4 (stesso) Generazione GPU: NVIDIA Keppler e Turing (+2 generazioni, ~2x FP32 FLOP) Memoria GPU (GiB per GPU): 16 (+4) vCPU: 64 (+40) GiB memoria: 440 (+216) GiB di Archiviazione temporanea (SSD): 2880 (+1440) Numero massimo di dischi dati: 32 (-32) Rete accelerata: Sì (+) Archiviazione Premium: Sì (+) Interconnessione InfiniBand: No

VM serie NC v2 con GPU NVIDIA Tesla P100

Le macchine virtuali serie NC v2 sono una piattaforma di punta originariamente progettata per i carichi di lavoro di intelligenza artificiale e Deep Learning. Offrono prestazioni eccellenti per il training di Deep Learning, con prestazioni per GPU approssimativamente 2x quella della serie NC originale e sono basate su GPU NVIDIA Tesla P100 e Intel Xeon E5-2690 v4 (Broadwell). Analogamente alla serie NC e ND, la serie NC v2 offre una configurazione con una rete secondaria a bassa latenza, velocità effettiva elevata tramite RDMA e connettività InfiniBand in modo da poter eseguire processi di training su larga scala che si estendono su più GPU.

In generale, i clienti della serie NCv2 devono prendere in considerazione la possibilità di passare direttamente alle dimensioni NC A100 v4 , la nuova piattaforma con accelerazione GPU di Azure basata su GPU NVIDIA Ampere A100 PCIe.

Dimensioni della macchina virtuale corrente	Dimensioni della macchina virtuale di destinazione	Differenze nella specifica
Standard_NC6s_v2	Standard_NC24ads_A100_v4	CPU: Intel Broadwell vs AMD Milano Conteggio GPU: 1 (stesso) Generazione GPU: NVIDIA Pascal e Ampere (+2 generazione) Memoria GPU (GiB per GPU): 80 (+64) vCPU: 24 (+18) GiB memoria: 220 (+108) GiB di Archiviazione temporanea (SSD): 1123 (+387) Numero massimo di dischi dati: 12 (stesso) Rete accelerata: Sì (+) Archiviazione Premium: Sì (+)
Standard_NC12s_v2	Standard_NC48ads_A100_v4	CPU: Intel Broadwell vs AMD Milano Numero GPU: 2 (stesso) Generazione GPU: NVIDIA Pascal e Ampere (+2 generazioni) Memoria GPU (GiB per GPU): 80 (+64) vCPU: 48 (+36) GiB memoria: 440 (+216) GiB di Archiviazione temporanea (SSD): 2246 (+772) Numero massimo di dischi dati: 24 (stesso) Rete accelerata: Sì (+) Archiviazione Premium: Sì (+)
Standard_NC24s_v2	Standard_NC96ads_A100_v4	CPU: Intel Broadwell vs AMD Milano Numero GPU: 4 (stesso) Generazione GPU: NVIDIA Pascal e Ampere (+2 generazioni) Memoria GPU (GiB per GPU): 80 (+64) vCPU: 96 (+72) GiB memoria: 880 (+432) Archiviazione temporanea (SSD) GiB: 4492 (+1544) Numero massimo di dischi dati: 32 (stesso) Rete accelerata: Sì (+) Archiviazione Premium: Sì (+)
Standard_NC24rs_v2	Standard_NC96ads_A100_v4	CPU: Intel Broadwell vs AMD Milano Conteggio GPU: 4 (stesso) Generazione GPU: NVIDIA Pascal e Ampere (+2 generazioni) Memoria GPU (GiB per GPU): 80 (+64) vCPU: 96 (+72) GiB memoria: 880 (+432) Archiviazione temporanea (SSD) GiB: 4492 (+1544) Numero massimo di dischi dati: 32 (stesso) Rete accelerata: Sì (+) Archiviazione Premium: Sì (+) Interconnessione InfiniBand: No (-)

Macchine virtuali serie ND con GPU NVIDIA Tesla P40

Le macchine virtuali serie ND sono una piattaforma midrange originariamente progettata per carichi di lavoro di intelligenza artificiale e Deep Learning. Offrono prestazioni eccellenti per l'inferenza batch tramite operazioni a virgola mobile a precisione singola migliorate sui predecessori e sono basate su GPU NVIDIA Tesla P40 e Cpu Intel Xeon E5-2690 v4 (Broadwell). Analogamente alla serie NC e NC v2, la serie ND offre una configurazione con una rete secondaria a bassa latenza, velocità effettiva elevata tramite RDMA e connettività InfiniBand, in modo da poter eseguire processi di training su larga scala che si estendono su più GPU.

Dimensioni della macchina virtuale corrente	Dimensioni della macchina virtuale di destinazione	Differenze nella specifica
Standard_ND6	Standard_NC4as_T4_v3 or Standard_NC8as_T4_v3	CPU: Intel Broadwell vs AMD Rome Conteggio GPU: 1 (stesso) Generazione GPU: NVIDIA Pascal e Turing (+1 generazione) Memoria GPU (GiB per GPU): 16 (-8) vCPU: 4 (-2) o 8 (+2) GiB memoria: 16 (-40) o 56 (-56) GiB di archiviazione temporanea (SSD): 180 (-552) o 360 (-372) Numero massimo di dischi dati: 8 (-4) o 16 (+4) Rete accelerata: Sì (+) Archiviazione Premium: Sì (+)
Standard_ND12	Standard_NC16as_T4_v3	CPU: Intel Broadwell vs AMD Rome Numero GPU: 1 (-1) Generazione GPU: NVIDIA Pascal e Turing (+1 generazioni) Memoria GPU (GiB per GPU): 16 (-8) vCPU: 16 (+4) GiB memoria: 110 (-114) GiB di Archiviazione temporanea (SSD): 360 (-1.114) Numero massimo di dischi dati: 48 (+16) Rete accelerata: Sì (+) Archiviazione Premium: Sì (+)
Standard_ND24	Standard_NC64as_T4_v3*	CPU: Intel Broadwell vs AMD Rome Numero GPU: 4 (stesso) Generazione GPU: NVIDIA Pascal e Turing (+1 generazioni) Memoria GPU (GiB per GPU): 16 (-8) vCPU: 64 (+40) GiB memoria: 440 (stesso) GiB di archiviazione temporanea (SSD): 2880 (stesso) Numero massimo di dischi dati: 32 (stesso) Rete accelerata: Sì (+) Archiviazione Premium: Sì (+)
Standard_ND24r	Standard_ND96amsr_A100_v4	CPU: Intel Broadwell vs AMD Rome Numero GPU: 8 (+4) Generazione GPU: NVIDIA Pascal e Ampere (+2 generazione) Memoria GPU (GiB per GPU): 80 (+56) vCPU: 96 (+72) GiB memoria: 1900 (+1452) GiB di Archiviazione temporanea (SSD): 6400 (+3452) Numero massimo di dischi dati: 32 (stesso) Rete accelerata: Sì (+) Archiviazione Premium: Sì (+) Interconnessione InfiniBand: Sì (stesso)

Passaggi di migrazione

Modifiche generali

Scegliere una serie e dimensioni per la migrazione. Sfruttare il calcolatore dei prezzi per altre informazioni dettagliate.
Ottenere la quota per la serie di macchine virtuali di destinazione
Ridimensionare le dimensioni correnti della macchina virtuale serie N* alle dimensioni di destinazione. Questo può anche essere un buon momento per aggiornare il sistema operativo usato dall'immagine della macchina virtuale o adottare una delle immagini HPC con driver preinstallati come punto di partenza.

Importante

È possibile che l'immagine della macchina virtuale sia stata prodotta con una versione precedente del runtime CUDA, del driver NVIDIA e (se applicabile, solo per le dimensioni abilitate per RDMA) i driver Mellanox OFED rispetto alle richieste della nuova serie di MACCHINE virtuali GPU, che possono essere aggiornate seguendo le istruzioni nella documentazione di Azure.

Modifiche di rilievo

Selezionare le dimensioni di destinazione per la migrazione

Dopo aver valutato l'utilizzo corrente, decidere il tipo di macchina virtuale GPU necessaria. A seconda dei requisiti del carico di lavoro, sono disponibili alcune opzioni diverse.

Nota

Una procedura consigliata consiste nel selezionare le dimensioni di una macchina virtuale in base ai costi e alle prestazioni. Le raccomandazioni contenute in questa guida si basano su un confronto generico, uno-a-uno delle metriche delle prestazioni e la corrispondenza più vicina in un'altra serie di macchine virtuali. Prima di decidere le dimensioni corrette, ottenere un confronto dei costi usando il Calcolatore prezzi di Azure.

Importante

Tutte le dimensioni legacy nc, NC v2 e serie ND sono disponibili in dimensioni con più GPU, incluse dimensioni a 4 GPU con e senza interconnessione InfiniBand per carichi di lavoro con scalabilità orizzontale e strettamente accoppiati che richiedono una potenza di calcolo maggiore rispetto a una singola macchina virtuale a 4 GPU o una singola GPU K80, P40 o P100 possono fornire rispettivamente. Anche se le raccomandazioni precedenti offrono un percorso semplice, gli utenti di queste dimensioni dovrebbero prendere in considerazione il raggiungimento dei propri obiettivi di prestazioni con serie DI MACCHINE virtuali basate su GPU NVIDIA V100 più potenti come la serie NC v3 e la serie ND v2, che in genere consentono lo stesso livello di prestazioni del carico di lavoro a costi inferiori e con una maggiore gestibilità fornendo prestazioni notevolmente maggiori per GPU e per macchina virtuale prima che siano necessarie configurazioni multi-GPU e multinodo, rispettivamente.

Ottenere la quota per la famiglia di macchine virtuali di destinazione

Seguire la guida per richiedere un aumento della quota di vCPU per famiglia di macchine virtuali. Selezionare le dimensioni della macchina virtuale di destinazione selezionate per la migrazione.

Ridimensionare la macchina virtuale corrente

È possibile ridimensionare la macchina virtuale.

Passaggi successivi

Per un elenco completo delle dimensioni delle macchine virtuali abilitate per LA GPU, vedere Panoramica del calcolo accelerato

Condividi tramite