NDm A100 série v4

Atenção

Este artigo faz referência ao CentOS, uma distribuição Linux que está se aproximando do status de Fim da Vida Útil (EOL). Por favor, considere o seu uso e planeje de acordo. Para obter mais informações, consulte as diretrizes de Fim da Vida Útil do CentOS.

Aplica-se a: ✔️ VMs ✔️ Linux VMs ✔️ do Windows Conjuntos ✔️ de escala flexíveis Conjuntos de balanças uniformes

A máquina virtual (VM) da série NDm A100 v4 é uma nova adição emblemática à família de GPUs do Azure. Ele foi projetado para treinamento de Deep Learning high-end e cargas de trabalho HPC de expansão e expansão totalmente acopladas.

A série NDm A100 v4 começa com uma única VM e oito GPUs NVIDIA Ampere A100 80GB Tensor Core. As implantações baseadas em NDm A100 v4 podem ser dimensionadas para milhares de GPUs com 1,6 TB/s de largura de banda de interconexão por VM. Cada GPU dentro da VM é fornecida com sua própria conexão dedicada e independente de topologia de 200 GB/s NVIDIA Mellanox HDR InfiniBand. Essas conexões são configuradas automaticamente entre VMs que ocupam o mesmo conjunto de escala de VM e suportam GPUDirect RDMA.

Cada GPU possui conectividade NVLINK 3.0 para comunicação dentro da VM, e a instância é apoiada por 96 núcleos físicos de CPU AMD Epyc™ 7V12 (Roma) de 2ª geração.

Essas instâncias fornecem excelente desempenho para muitas ferramentas de IA, ML e análise que suportam aceleração de GPU 'pronta para uso', como TensorFlow, Pytorch, Caffe, RAPIDS e outras estruturas. Além disso, a interconexão InfiniBand escalável é suportada por um grande conjunto de ferramentas de IA e HPC existentes que são construídas nas bibliotecas de comunicação NCCL2 da NVIDIA para clustering contínuo de GPUs.

Importante

Para começar a usar as VMs NDm A100 v4, consulte Configuração e otimização da carga de trabalho HPC para obter as etapas que incluem a configuração do driver e da rede. Devido ao aumento da pegada de E/S de memória da GPU, o NDm A100 v4 requer o uso de VMs de Geração 2 e imagens de mercado. As imagens HPC do Azure são altamente recomendadas. As imagens do Azure HPC Ubuntu 18.04, 20.04 e Azure HPC CentOS 7.9 são suportadas.


Armazenamento Premium: Suportado
Cache de armazenamento premium: suportado
Ultra Disks: Suportado (Saiba mais sobre disponibilidade, uso e desempenho)
Migração ao vivo: não suportada
Atualizações de preservação de memória: não suportadas
Suporte à geração de VM: Geração 2
Rede acelerada: suportada
Discos de SO efémeros: Suportados
InfiniBand: Suportado, GPUDirect RDMA, 8 x 200 Gigabit HDR
Nvidia NVLink Interconnect: Suportado
Virtualização aninhada: não suportada

A série NDm A100 v4 suporta as seguintes versões do kernel:
CentOS 7.9 HPC: 3.10.0-1160.24.1.el7.x86_64
Ubuntu 18.04: 5.4.0-1043-azure
Ubuntu 20.04: 5.4.0-1046-azure

Tamanho vCPU Memória: GiB Armazenamento temporário (SSD): GiB GPU Memória GPU: GiB Discos de dados máximos Débito máximo do disco não colocado em cache: IOPS/MBps Largura de banda máxima da rede NICs máximos
Standard_ND96amsr_A100_v4 96 1900 6400 8 GPUs A100 de 80 GB (NVLink 3.0) 80 32 80,000 / 800 24.000 Mbps 8

Definições da tabela de dimensionamento

  • A capacidade de armazenamento é apresentada em unidades de GiB ou 1024^3 bytes. Ao comparar discos medidos em GB (1000^3 bytes) com discos medidos em GiB (1024^3), lembre-se de que os números de capacidade fornecidos em GiB podem parecer menores. Por exemplo, 1023 GiB = 1098,4 GB.

  • O débito do disco é medido em operações de entrada/saída por segundo (IOPS) e MBps, em que MBps = 10^6 bytes/seg.

  • Os discos de dados podem operar nos modos em cache ou não colocado em cache. Para uma operação do disco de dados em cache, o modo de cache do anfitrião está definido como ReadOnly ou ReadWrite. Para uma operação do disco de dados não colocada em cache, o modo de cache do anfitrião está definido como None.

  • Para saber como obter o melhor desempenho de armazenamento para suas VMs, consulte Desempenho de máquina virtual e disco.

  • A largura de banda de rede esperada é a largura de banda agregada máxima alocada por tipo de VM em todas as NICs, para todos os destinos. Para obter mais informações, consulte Largura de banda de rede de máquina virtual.

    Os limites máximos não são garantidos. Os limites oferecem orientação para selecionar o tipo de VM certo para o aplicativo pretendido. O desempenho real da rede dependerá de vários fatores, incluindo congestionamento da rede, cargas de aplicativos e configurações de rede. Para obter informações sobre como otimizar a taxa de transferência de rede, consulte Otimizar a taxa de transferência de rede para máquinas virtuais do Azure. Para alcançar o desempenho de rede esperado no Linux ou Windows, talvez seja necessário selecionar uma versão específica ou otimizar sua VM. Para obter mais informações, consulte Teste de largura de banda/taxa de transferência (NTTTCP).

Outros tamanhos e informações

Calculadora de Preços: Calculadora de Preços

Para obter mais informações sobre tipos de disco, consulte Que tipos de disco estão disponíveis no Azure?

Próximos passos

Saiba mais sobre como as unidades de computação do Azure (ACU) podem ajudá-lo a comparar o desempenho da computação entre as SKUs do Azure.