Nota
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare ad accedere o modificare le directory.
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare a modificare le directory.
Man mano che le GPU più potenti diventano disponibili nel marketplace e nei data center di Microsoft Azure, è consigliabile rivalutare le prestazioni dei carichi di lavoro e valutare la migrazione a GPU più recenti.
Per lo stesso motivo, nonché per mantenere un'offerta di servizio affidabile e di alta qualità, Azure ritira periodicamente l'hardware che supporta le dimensioni precedenti delle macchine virtuali. Il primo gruppo di prodotti GPU da ritirare in Azure è costituito rispettivamente dagli acceleratori GPU NVIDIA Tesla K80, P100 e P40 datacenter originali della serie NC, NC v2 e ND. Questi prodotti verranno ritirati il 31 agosto 2023 e le macchine virtuali meno recenti di questa serie sono state lanciate nel 2016.
Da allora, le GPU hanno fatto progressi incredibili insieme all'intero settore dell'apprendimento avanzato e HPC, in genere superando un raddoppio delle prestazioni tra generazioni. Dall'avvio di GPU NVIDIA K80, P40 e P100, Azure ha fornito più generazioni e categorie di prodotti vm basati su GPU e intelligenza artificiale, basati sulle GPU T4, V100 e A100 e differenziate da funzionalità facoltative come le infrastrutture di interconnessione basate su InfiniBand. Queste sono tutte le opzioni che invitiamo i clienti a esplorare come percorsi di migrazione.
Nella maggior parte dei casi, l'aumento significativo delle prestazioni offerte dalle nuove generazioni di GPU riduce il costo totale di proprietà riducendo la durata del lavoro, per i processi scalabili, o riducendo la quantità di macchine virtuali totali abilitate alla GPU necessarie per coprire una richiesta di risorse di calcolo a dimensione fissa, anche se i costi per ogni ora di GPU possono variare. Oltre a questi vantaggi, i clienti possono migliorare la durata della soluzione tramite macchine virtuali con prestazioni più elevate e migliorare l'integrità e il supporto della soluzione adottando versioni più recenti di software, runtime CUDA e driver.
Migrazione e ottimizzazione
Azure riconosce che i clienti hanno una vasta gamma di requisiti che possono determinare la selezione di un prodotto di vm GPU specifico, tra cui considerazioni sull'architettura gpu, interconnessioni, TCO, soluzione e disponibilità a livello di area in base ai requisiti di conformità o latenza, e alcuni di questi cambiano anche nel tempo.
Allo stesso tempo, l'accelerazione GPU è un'area nuova e in rapida evoluzione.
Pertanto, non esiste una vera e propria guida adatta a tutte le dimensioni per questa area di prodotto e una migrazione è un momento perfetto per rivalutare le modifiche potenzialmente drammatiche a un carico di lavoro, ad esempio il passaggio da un modello di distribuzione cluster a una singola macchina virtuale a 8 GPU di grandi dimensioni o viceversa, sfruttando i tipi di dati di precisione ridotti, l'adozione di funzionalità come GPU a istanze multipla e molto altro ancora.
Questi tipi di considerazioni, quando fatte nel contesto di già drammatici aumenti delle prestazioni GPU per generazione, in cui una funzionalità come l'aggiunta di TensorCores può aumentare le prestazioni di un ordine di grandezza, sono estremamente specifiche al carico di lavoro.
La combinazione della migrazione con la riarchitettura delle applicazioni può produrre un enorme valore e un miglioramento dei costi e della soluzione.
Tuttavia, questi tipi di miglioramenti non rientrano nell'ambito di questo documento, che mira a concentrarsi sulle classi equivalenti dirette per i carichi di lavoro generalizzati che possono essere eseguiti oggi dai clienti, per identificare le opzioni di macchina virtuale più simili in termini di prezzo e prestazioni per GPU a famiglie di macchine virtuali esistenti in fase di ritiro.
Di conseguenza, questo documento presuppone che l'utente non abbia informazioni dettagliate o controllo sulle proprietà specifiche del carico di lavoro, ad esempio il numero di istanze di macchina virtuale necessarie, GPU, interconnessioni e altro ancora.
Percorsi di aggiornamento consigliati
NC-Series macchine virtuali con GPU NVIDIA K80
Le macchine virtuali serie NC (v1) sono il tipo di macchina virtuale con accelerazione GPU di Azure meno recente, con tecnologia da 1 a 4 acceleratori GPU NVIDIA Tesla K80 abbinati ai processori Intel Xeon E5-2690 v3 (Haswell). Un tipo di macchina virtuale di punta per le applicazioni di intelligenza artificiale, apprendimento automatico e HPC, è rimasta una scelta popolare anche verso la fine del ciclo di vita del prodotto (in particolare tramite prezzi promozionali serie NC) per gli utenti che hanno apprezzato un costo assoluto molto basso per ora di GPU rispetto a GPU con un throughput più elevato per dollaro.
Oggi, considerando le prestazioni di calcolo relativamente basse della piattaforma GPU NVIDIA K80 obsoleta, rispetto alla serie di macchine virtuali con GPU più recenti, un caso d'uso comune per la serie NC è l'inferenza in tempo reale e i carichi di lavoro di analisi, in cui una macchina virtuale accelerata deve essere disponibile in uno stato stabile per gestire le richieste dalle applicazioni al momento dell'arrivo. In questi casi le dimensioni del volume o del batch delle richieste potrebbero non essere sufficienti per trarre vantaggio da GPU più efficienti. Le macchine virtuali NC sono anche popolari per sviluppatori e studenti che imparano, sviluppano o sperimentano l'accelerazione GPU, che necessitano di una destinazione di distribuzione CUDA basata sul cloud a basso costo su cui eseguire l'iterazione che non deve eseguire ai livelli di produzione.
In generale, NC-Series i clienti dovrebbero prendere in considerazione il passaggio diretto dalle dimensioni NC alle dimensioni NC T4 v3, la nuova piattaforma di Azure con accelerazione GPU per carichi di lavoro leggeri basata su GPU NVIDIA Tesla T4.
Dimensioni della macchina virtuale corrente | Dimensioni della macchina virtuale di destinazione | Differenze nella specifica |
---|---|---|
Standard_NC6 Standard_NC6_Promozione |
Standard_NC4as_T4_v3 o Standard_NC8as_T4 |
CPU: Intel Haswell e AMD Rome Conteggio GPU: 1 (stesso) Generazione GPU: NVIDIA Keppler e Turing (+2 generazioni, ~2x FP32 FLOP) Memoria GPU (GiB per GPU): 16 (+4) vCPU: 4 (-2) o 8 (+2) Memoria in GiB: 16 (-40) o 56 (uguale) GiB di archiviazione temporanea (SSD): 180 (-160) o 360 (+20) Numero massimo di dischi dati: 8 (-4) o 16 (+4) Rete accelerata: Sì (+) Archiviazione Premium: Sì (+) |
Standard_NC12 Standard_NC12_Promo |
Standard_NC16as_T4_v3 | CPU: Intel Haswell e AMD Rome Numero GPU: 1 (-1) Generazione GPU: NVIDIA Keppler e Turing (+2 generazioni, ~2x FP32 FLOP) Memoria GPU (GiB per GPU): 16 (+4) vCPU: 16 (+4) Memoria GiB: 110 (-2) GiB di archiviazione temporanea (SSD): 360 (-320) Numero massimo di dischi dati: 48 (+16) Rete accelerata: Sì (+) Archiviazione Premium: Sì (+) |
Standard_NC24 Standard_NC24_Promo |
Standard_NC64as_T4_v3* | CPU: Intel Haswell e AMD Rome Numero GPU: 4 (stesso) Generazione GPU: NVIDIA Keppler e Turing (+2 generazioni, ~2x FP32 FLOP) Memoria GPU (GiB per GPU): 16 (+4) vCPU: 64 (+40) GiB memoria: 440 (+216) GiB di Archiviazione temporanea (SSD): 2880 (+1440) Numero massimo di dischi dati: 32 (-32) Rete accelerata: Sì (+) Archiviazione Premium: Sì (+) |
Standard_NC24r Standard_NC24r_Promo |
Standard_NC64as_T4_v3* | CPU: Intel Haswell e AMD Rome Numero GPU: 4 (stesso) Generazione GPU: NVIDIA Keppler e Turing (+2 generazioni, ~2x FP32 FLOP) Memoria GPU (GiB per GPU): 16 (+4) vCPU: 64 (+40) GiB memoria: 440 (+216) GiB di Archiviazione temporanea (SSD): 2880 (+1440) Numero massimo di dischi dati: 32 (-32) Rete accelerata: Sì (+) Archiviazione Premium: Sì (+) Interconnessione InfiniBand: No |
VM serie NC v2 con GPU NVIDIA Tesla P100
Le macchine virtuali serie NC v2 sono una piattaforma di punta originariamente progettata per i carichi di lavoro di intelligenza artificiale e Deep Learning. Offrono prestazioni eccellenti per il training di Deep Learning, con prestazioni per GPU approssimativamente 2x quella del NC-Series originale e sono basate su GPU NVIDIA Tesla P100 e Cpu Intel Xeon E5-2690 v4 (Broadwell). Analogamente alla serie NC e ND, la serie NC v2 offre una configurazione con una rete secondaria a bassa latenza, velocità effettiva elevata tramite RDMA e connettività InfiniBand in modo da poter eseguire processi di training su larga scala che si estendono su più GPU.
In generale, i clienti NCv2-Series dovrebbero considerare di migrare direttamente alle NC A100 v4, la nuova piattaforma di Azure con accelerazione GPU basata su GPU NVIDIA Ampere A100 PCIe.
Dimensioni della macchina virtuale corrente | Dimensioni della macchina virtuale di destinazione | Differenze nella specifica |
---|---|---|
Standard_NC6s_v2 | Standard_NC24ads_A100_v4 | CPU: Intel Broadwell vs AMD Milano Conteggio GPU: 1 (stesso) Generazione GPU: NVIDIA Pascal e Ampere (+2 generazione) Memoria GPU (GiB per GPU): 80 (+64) vCPU: 24 (+18) GiB memoria: 220 (+108) GiB di Archiviazione temporanea (SSD): 1123 (+387) Numero massimo di dischi dati: 12 (stesso) Rete accelerata: Sì (+) Archiviazione Premium: Sì (+) |
Standard_NC12s_v2 | Standard_NC48ads_A100_v4 | CPU: Intel Broadwell vs AMD Milano Numero GPU: 2 (stesso) Generazione GPU: NVIDIA Pascal e Ampere (+2 generazioni) Memoria GPU (GiB per GPU): 80 (+64) vCPU: 48 (+36) GiB memoria: 440 (+216) GiB di Archiviazione temporanea (SSD): 2246 (+772) Numero massimo di dischi dati: 24 (stesso) Rete accelerata: Sì (+) Archiviazione Premium: Sì (+) |
Standard_NC24s_v2 | Standard_NC96ads_A100_v4 | CPU: Intel Broadwell vs AMD Milano Numero GPU: 4 (stesso) Generazione GPU: NVIDIA Pascal e Ampere (+2 generazioni) Memoria GPU (GiB per GPU): 80 (+64) vCPU: 96 (+72) GiB memoria: 880 (+432) Archiviazione temporanea (SSD) GiB: 4492 (+1544) Numero massimo di dischi dati: 32 (stesso) Rete accelerata: Sì (+) Archiviazione Premium: Sì (+) |
Standard_NC24rs_v2 | Standard_NC96ads_A100_v4 | CPU: Intel Broadwell vs AMD Milano Conteggio GPU: 4 (stesso) Generazione GPU: NVIDIA Pascal e Ampere (+2 generazioni) Memoria GPU (GiB per GPU): 80 (+64) vCPU: 96 (+72) GiB memoria: 880 (+432) Archiviazione temporanea (SSD) GiB: 4492 (+1544) Numero massimo di dischi dati: 32 (stesso) Rete accelerata: Sì (+) Archiviazione Premium: Sì (+) Interconnessione InfiniBand: No (-) |
ND-Series macchine virtuali con GPU NVIDIA Tesla P40
Le macchine virtuali serie ND sono una piattaforma midrange originariamente progettata per carichi di lavoro di intelligenza artificiale e Deep Learning. Offrono prestazioni eccellenti per l'inferenza batch grazie a operazioni a virgola mobile a precisione singola migliorate rispetto ai loro predecessori e sono alimentate da GPU NVIDIA Tesla P40 e CPU Intel Xeon E5-2690 v4 (Broadwell). Analogamente alla serie NC e NC v2, il ND-Series offre una configurazione con una rete secondaria a bassa latenza, velocità effettiva elevata tramite RDMA e connettività InfiniBand, in modo da poter eseguire processi di training su larga scala che si estendono su più GPU.
Dimensioni della macchina virtuale corrente | Dimensioni della macchina virtuale di destinazione | Differenze nella specifica |
---|---|---|
Standard_ND6 | Standard_NC4as_T4_v3 o Standard_NC8as_T4_v3 |
CPU: Intel Broadwell vs AMD Rome Conteggio GPU: 1 (stesso) Generazione GPU: NVIDIA Pascal e Turing (+1 generazione) Memoria GPU (GiB per GPU): 16 (-8) vCPU: 4 (-2) o 8 (+2) Memoria GiB: 16 (-40) o 56 (-56) GiB di archiviazione temporanea (SSD): 180 (-552) o 360 (-372) Numero massimo di dischi dati: 8 (-4) o 16 (+4) Rete accelerata: Sì (+) Archiviazione Premium: Sì (+) |
Standard_ND12 | Standard_NC16as_T4_v3 | CPU: Intel Broadwell vs AMD Rome Numero GPU: 1 (-1) Generazione GPU: NVIDIA Pascal e Turing (+1 generazioni) Memoria GPU (GiB per GPU): 16 (-8) vCPU: 16 (+4) Memoria GiB: 110 (-114) GiB di Archiviazione temporanea (SSD): 360 (-1.114) Numero massimo di dischi dati: 48 (+16) Rete accelerata: Sì (+) Archiviazione Premium: Sì (+) |
Standard_ND24 | Standard_NC64as_T4_v3* | CPU: Intel Broadwell vs AMD Rome Numero GPU: 4 (stesso) Generazione GPU: NVIDIA Pascal e Turing (+1 generazioni) Memoria GPU (GiB per GPU): 16 (-8) vCPU: 64 (+40) GiB memoria: 440 (stesso) GiB di archiviazione temporanea (SSD): 2880 (stesso) Numero massimo di dischi dati: 32 (stesso) Rete accelerata: Sì (+) Archiviazione Premium: Sì (+) |
Standard_ND24r | Standard_ND96amsr_A100_v4 | CPU: Intel Broadwell vs AMD Rome Numero GPU: 8 (+4) Generazione GPU: NVIDIA Pascal e Ampere (+2 generazione) Memoria GPU (GiB per GPU): 80 (+56) vCPU: 96 (+72) GiB memoria: 1900 (+1452) GiB di Archiviazione temporanea (SSD): 6400 (+3452) Numero massimo di dischi dati: 32 (stesso) Rete accelerata: Sì (+) Archiviazione Premium: Sì (+) Interconnessione InfiniBand: Sì (stesso) |
Passaggi della migrazione
Modifiche generali
Scegliere una serie e una dimensione per la migrazione. Sfruttare il calcolatore dei prezzi per altre informazioni dettagliate.
Ottenere informazioni sulla quota per la serie di macchine virtuali di destinazione
Ridimensionare le dimensioni correnti della macchina virtuale serie N* alle dimensioni di destinazione. Questo può anche essere un buon momento per aggiornare il sistema operativo usato dall'immagine della macchina virtuale o adottare una delle immagini HPC con driver preinstallati come punto di partenza.
Importante
È possibile che l'immagine della macchina virtuale sia stata prodotta con una versione precedente del runtime CUDA, del driver NVIDIA e (se applicabile, solo per le dimensioni abilitate per RDMA) i driver Mellanox OFED rispetto alle richieste della nuova serie di MACCHINE virtuali GPU, che possono essere aggiornate seguendo le istruzioni nella documentazione di Azure.
Modifiche radicali
Selezionare le dimensioni di destinazione per la migrazione
Dopo aver valutato l'utilizzo corrente, decidere il tipo di macchina virtuale GPU necessaria. A seconda dei requisiti del carico di lavoro, sono disponibili alcune opzioni diverse.
Annotazioni
Una procedura consigliata consiste nel selezionare le dimensioni di una macchina virtuale in base ai costi e alle prestazioni. Le raccomandazioni contenute in questa guida si basano su un confronto generico, uno-a-uno delle metriche delle prestazioni e la corrispondenza più vicina in un'altra serie di macchine virtuali. Prima di decidere le dimensioni corrette, ottenere un confronto dei costi usando il Calcolatore prezzi di Azure.
Importante
Tutte le dimensioni legacy NC, NC v2 e ND-Series sono disponibili in varianti multi-GPU, incluse quelle a 4 GPU con interconnessione InfiniBand e senza, per carichi di lavoro scalabili orizzontalmente e strettamente integrati che richiedono più potenza di calcolo rispetto a quanto possa offrire rispettivamente una singola macchina virtuale a 4 GPU o una singola GPU K80, P40 o P100. Anche se le raccomandazioni precedenti offrono un percorso semplice, gli utenti di queste dimensioni dovrebbero prendere in considerazione il raggiungimento dei propri obiettivi di prestazioni con serie DI MACCHINE virtuali basate su GPU NVIDIA V100 più potenti come la serie NC v3 e la serie ND v2, che in genere consentono lo stesso livello di prestazioni del carico di lavoro a costi inferiori e con una maggiore gestibilità fornendo prestazioni notevolmente maggiori per GPU e per macchina virtuale prima che siano necessarie configurazioni multi-GPU e multinodo, rispettivamente.
Ottieni la quota per la famiglia di macchine virtuali target
Seguire la guida per richiedere un aumento della quota di vCPU per famiglia di macchine virtuali. Selezionare le dimensioni della macchina virtuale di destinazione selezionate per la migrazione.
Ridimensionare la macchina virtuale corrente
È possibile ridimensionare la macchina virtuale.
Passaggi successivi
Per un elenco completo delle dimensioni delle macchine virtuali abilitate per LA GPU, vedere Panoramica del calcolo accelerato