Série ND A100 v4

Aplica-se a: ✔️ Linux VMs ✔️ Conjuntos ✔️ de escala flexíveis Conjuntos de escala uniformes.

A máquina virtual (VM) da série ND A100 v4 é uma nova adição emblemática à família de GPUs do Azure. Ele foi projetado para treinamento de Deep Learning high-end e cargas de trabalho HPC de expansão e expansão totalmente acopladas.

A série ND A100 v4 começa com uma única VM e oito GPUs NVIDIA Ampere A100 40GB Tensor Core. As implantações baseadas em ND A100 v4 podem ser dimensionadas para milhares de GPUs com 1,6 TB/s de largura de banda de interconexão por VM. Cada GPU dentro da VM é fornecida com sua própria conexão dedicada e independente de topologia de 200 GB/s NVIDIA Mellanox HDR InfiniBand. Essas conexões são configuradas automaticamente entre VMs que ocupam o mesmo conjunto de escala de VM e suportam GPUDirect RDMA.

Cada GPU possui conectividade NVLINK 3.0 para comunicação dentro da VM, e a instância é apoiada por 96 núcleos físicos de CPU AMD Epyc™ 7V12 (Roma) de 2ª geração.

Essas instâncias fornecem excelente desempenho para muitas ferramentas de IA, ML e análise que suportam aceleração de GPU 'pronta para uso', como TensorFlow, Pytorch, Caffe, RAPIDS e outras estruturas. Além disso, a interconexão InfiniBand escalável é suportada por um grande conjunto de ferramentas de IA e HPC existentes que são construídas nas bibliotecas de comunicação NCCL2 da NVIDIA para clustering contínuo de GPUs.

Importante

Para começar a usar as VMs ND A100 v4, consulte Configuração e otimização da carga de trabalho HPC para obter as etapas que incluem a configuração do driver e da rede. Devido ao aumento da pegada de E/S de memória da GPU, o ND A100 v4 requer o uso de VMs de 2ª geração e imagens de mercado.

O Azure suporta Ubuntu 20.04/22.04, RHEL 7.9/8.7/9.3, AlmaLinux 8.8/9.2 e SLES 15 para VMs ND A100 v4. No Azure marketplace, há ofertas de imagens de VM Linux otimizadas e pré-configuradas para cargas de trabalho HPC/AI com uma variedade de ferramentas e bibliotecas de HPC instaladas e, portanto, elas são altamente recomendadas. Atualmente, as imagens VM Ubuntu-HPC 20.04/22.04 e AlmaLinux-HPC 8.6/8.7 são suportadas.


Armazenamento Premium: Suportado
Cache de armazenamento premium: suportado
Ultra Disks: Suportado (Saiba mais sobre disponibilidade, uso e desempenho)
Migração ao vivo: não suportada
Atualizações de preservação de memória: não suportadas
Suporte à geração de VM: Geração 2
Rede acelerada: suportada
Discos de SO efémeros: Suportados
InfiniBand: Suportado, GPUDirect RDMA, 8 x 200 Gigabit HDR
NVIDIA NVLink Interconnect: Suportado
Virtualização aninhada: não suportada

Tamanho vCPU Memória: GiB Armazenamento temporário (SSD): GiB GPU Memória GPU: GiB Discos de dados máximos Débito máximo do disco não colocado em cache: IOPS/MBps Largura de banda máxima da rede NICs máximos
Standard_ND96asr_A100_v4 96 900 6.000 8 GPUs A100 de 40 GB (NVLink 3.0) 320 32 80,000 / 800 24.000 Mbps 8

Definições da tabela de dimensionamento

  • A capacidade de armazenamento é apresentada em unidades de GiB ou 1024^3 bytes. Ao comparar discos medidos em GB (1000^3 bytes) com discos medidos em GiB (1024^3), lembre-se de que os números de capacidade fornecidos em GiB podem parecer menores. Por exemplo, 1023 GiB = 1098,4 GB.

  • O débito do disco é medido em operações de entrada/saída por segundo (IOPS) e MBps, em que MBps = 10^6 bytes/seg.

  • Os discos de dados podem operar nos modos em cache ou não colocado em cache. Para uma operação do disco de dados em cache, o modo de cache do anfitrião está definido como ReadOnly ou ReadWrite. Para uma operação do disco de dados não colocada em cache, o modo de cache do anfitrião está definido como None.

  • Para saber como obter o melhor desempenho de armazenamento para suas VMs, consulte Desempenho de máquina virtual e disco.

  • A largura de banda de rede esperada é a largura de banda agregada máxima alocada por tipo de VM em todas as NICs, para todos os destinos. Para obter mais informações, consulte Largura de banda de rede de máquina virtual.

    Os limites máximos não são garantidos. Os limites oferecem orientação para selecionar o tipo de VM certo para o aplicativo pretendido. O desempenho real da rede dependerá de vários fatores, incluindo congestionamento da rede, cargas de aplicativos e configurações de rede. Para obter informações sobre como otimizar a taxa de transferência de rede, consulte Otimizar a taxa de transferência de rede para máquinas virtuais do Azure. Para alcançar o desempenho de rede esperado no Linux ou Windows, talvez seja necessário selecionar uma versão específica ou otimizar sua VM. Para obter mais informações, consulte Teste de largura de banda/taxa de transferência (NTTTCP).

Outros tamanhos e informações

Calculadora de Preços: Calculadora de Preços

Para obter mais informações sobre tipos de disco, consulte Que tipos de disco estão disponíveis no Azure?

Próximos passos

Saiba mais sobre como as unidades de computação do Azure (ACU) podem ajudá-lo a comparar o desempenho da computação entre as SKUs do Azure.