Serie NDm A100 v4

Attenzione

Questo articolo fa riferimento a CentOS, una distribuzione Linux prossima allo stato EOL (End of Life, fine del ciclo di vita). Prendere in considerazione l'uso e il piano di conseguenza. Per altre informazioni, vedere le linee guida per la fine della vita di CentOS.

Si applica a: ✔️ macchine virtuali Linux ✔️ macchine virtuali Windows ✔️ set di scalabilità flessibili ✔️ set di scalabilità uniformi

La macchina virtuale serie NDm A100 v4 è una nuova aggiunta di punta alla famiglia GPU di Azure. È progettato per il training di Deep Learning di fascia alta e per carichi di lavoro HPC strettamente associati con scalabilità orizzontale e scalabilità orizzontale.

La serie NDm A100 v4 inizia con una singola macchina virtuale e otto GPU NVIDIA Ampere A100 da 80 GB Tensor Core. Le distribuzioni basate su NDm A100 v4 possono aumentare fino a migliaia di GPU con 1,6 TB/s di larghezza di banda di interconnessione per macchina virtuale. Ogni GPU all'interno della macchina virtuale viene fornita con una propria connessione NVIDIA Mellanox HDR InfiniBand dedicata e indipendente dalla topologia 200 GB/s. Queste connessioni vengono configurate automaticamente tra le macchine virtuali che occupano lo stesso set di scalabilità di macchine virtuali e supportano GPUDirect RDMA.

Ogni GPU dispone della connettività NVLINK 3.0 per la comunicazione all'interno della macchina virtuale e l'istanza è supportata da 96 core CPU AMD Epyc™ 7V12 (Rome).

Queste istanze offrono prestazioni eccellenti per molti strumenti di intelligenza artificiale, MACHINE learning e analisi che supportano l'accelerazione GPU "predefinita", ad esempio TensorFlow, Pytorch, Caffe, RAPIDS e altri framework. Inoltre, l'interconnessione InfiniBand con scalabilità orizzontale è supportata da un ampio set di strumenti di intelligenza artificiale e HPC esistenti basati sulle librerie di comunicazione NCCL2 di NVIDIA per un clustering semplice di GPU.

Importante

Per iniziare a usare macchine virtuali NDm A100 v4, vedere Configurazione e ottimizzazione del carico di lavoro HPC per i passaggi, tra cui driver e configurazione di rete. A causa dell'aumento del footprint di I/O della memoria GPU, NDm A100 v4 richiede l'uso di macchine virtuali di seconda generazione e immagini del marketplace. Le immagini HPC di Azure sono fortemente consigliate. Sono supportate immagini Di Azure HPC Ubuntu 18.04, 20.04 e Azure HPC CentOS 7.9.


Archiviazione Premium: supportata
Memorizzazione nella cache Archiviazione Premium: supportata
Dischi Ultra: supportati (altre informazioni sulla disponibilità, l'utilizzo e le prestazioni)
Live Migration: non supportato
Aggiornamenti con mantenimento della memoria: non supportati
Supporto per la generazione di macchine virtuali: generazione 2
Rete accelerata: supportata
Dischi temporanei del sistema operativo: supportato
InfiniBand: Supported, GPUDirect RDMA, 8 x 200 Gigabit HDR
Nvidia NVLink Interconnect: supportato
Virtualizzazione annidata: non supportata

La serie NDm A100 v4 supporta le versioni del kernel seguenti:
CentOS 7.9 HPC: 3.10.0-1160.24.1.el7.x86_64
Ubuntu 18.04: 5.4.0-1043-azure
Ubuntu 20.04: 5.4.0-1046-azure

Dimensione vCPU Memoria: GiB Temp Archiviazione (SSD): GiB GPU Memoria GPU: GiB Numero massimo di dischi dati Max velocità effettiva del disco non memorizzato nella cache: IOPS/MBps Larghezza di banda di rete massima Schede di interfaccia di rete max
Standard_ND96amsr_A100_v4 96 1900 6400 8 GPU A100 80 GB (NVLink 3.0) 80 32 80.000 / 800 24.000 Mbps 8

Definizioni delle tabelle delle dimensioni

  • La capacità di archiviazione viene visualizzata in unità di GiB o 1.024^3 byte. Quando si confrontano dischi misurati in GB (1000^3 byte) con dischi misurati in GiB (1024^3), tenere presente che i valori di capacità specificati in GiB potrebbero apparire inferiori. Ad esempio, 1.023 GiB = 1.098,4 GB.

  • La velocità effettiva del disco viene misurata in operazioni di input/output al secondo (IOPS) e MBps, dove il valore di MBps corrisponde a 10^6 byte al secondo.

  • I dischi dati possono operare in modalità memorizzata nella cache o non memorizzata nella cache. Per il funzionamento dei dischi dati memorizzati nella cache, la modalità di cache host è impostata su ReadOnly o su ReadWrite. Per il funzionamento dei dischi dati non memorizzati nella cache, la modalità di cache host è impostata su None.

  • Per informazioni su come ottenere le migliori prestazioni di archiviazione per le macchine virtuali, vedere Prestazioni delle macchine virtuali e dei dischi.

  • La larghezza di banda della rete prevista è la larghezza di banda aggregata massima allocata per ogni tipo di macchina virtuale in tutte le schede di interfaccia di rete, per tutte le destinazioni. Per altre informazioni, vedere Larghezza di banda di rete delle macchine virtuali.

    I limiti superiori non sono garantiti. I limiti offrono indicazioni per la selezione del tipo di macchina virtuale appropriato per l'applicazione desiderata. Le prestazioni di rete effettive dipenderanno da svariati fattori, tra cui congestione della rete, carichi dell'applicazione e impostazioni di rete. Per informazioni sull'ottimizzazione della velocità effettiva della rete, vedere Ottimizzare la velocità effettiva di rete per macchine virtuali di Azure. Per realizzare le prestazioni di rete previste in Linux o Windows, potrebbe essere necessario selezionare una versione specifica o ottimizzare la macchina virtuale. Per altre informazioni, vedere Test di larghezza di banda/velocità effettiva (NTTTCP).

Altre dimensioni e informazioni

Calcolatore dei prezzi: Calcolatore dei prezzi

Per altre informazioni sui tipi di disco, vedere Quali tipi di disco sono disponibili in Azure?

Passaggi successivi

Altre informazioni su come le unità di calcolo di Azure consentono di confrontare le prestazioni di calcolo negli SKU di Azure.