Share via


Série NDm A100 v4

Cuidado

Este artigo faz referência ao CentOS, uma distribuição do Linux que está se aproximando do status de EOL (fim da vida útil). Considere seu uso e planeje adequadamente. Para obter mais informações, veja as Orientações sobre fim da vida útil do CentOS.

Aplica-se a: ✔️ VMs do Linux ✔️ VMs do Windows ✔️ Conjuntos de dimensionamento flexíveis ✔️ Conjuntos de dimensionamento uniformes

A VM (máquina virtual) da série NDm A100 v4 é uma nova adição à família de GPU do Azure. Ela foi projetada para treinamento de aprendizado profundo de alto nível e cargas de trabalho de HPC de escala vertical e expansão altamente acopladas.

A série NDm A100 v4 começa com uma só VM e oito GPUs NVIDIA Ampere A100 80 GB Tensor Core. As implantações baseadas na série NDm A100 v4 podem ser dimensionadas para milhares de GPUs com uma largura de banda de interconexão de 1,6 TB/s por VM. Cada GPU na VM é fornecida com a própria conexão NVIDIA Mellanox HDR InfiniBand dedicada de 200 GB/s e independente de topologia. Essas conexões são configuradas automaticamente entre as VMs que ocupam o mesmo conjunto de dimensionamento de VMs e dão suporte para GPUDirect RDMA.

Cada GPU apresenta conectividade NVLINK 3.0 para a comunicação na VM, e a instância também conta com o suporte de 96 núcleos físicos de CPU AMD Epyc™ 7V12 (Rome) da 2º geração.

Essas instâncias fornecem um excelente desempenho para muitas ferramentas de IA, ML e análise que dão suporte à aceleração de GPU 'pronta para uso', como o TensorFlow, o Pytorch, o Caffe, o RAPIDS e outras estruturas. Além disso, a interconexão InfiniBand de expansão conta com o suporte de um grande conjunto de ferramentas existentes de IA e do HPC criadas nas bibliotecas de comunicação NCCL2 da NVIDIA para o clustering contínuo de GPUs.

Importante

Para começar a usar as VMs da série NDm A100 v4, confira Configuração e otimização de carga de trabalho do HPC para ver as etapas, incluindo a configuração do driver e da rede. Devido ao aumento de volume de E/S da memória da GPU, a NDm A100 v4 requer o uso de VMs de Geração 2 e imagens do Marketplace. As imagens do HPC do Azure são altamente recomendadas. Há suporte para as imagens do Azure HPC Ubuntu 18.04 e 20.04 e do Azure HPC CentOS 7.9.


Armazenamento Premium: Com suporte
Cache de Armazenamento Premium: com suporte
Discos ultra: com suporte (Saiba mais sobre disponibilidade, uso e desempenho)
Migração ao Vivo: sem suporte
Atualizações de preservação de memória: sem suporte
Suporte à geração de VM: Geração 2
Rede Acelerada: com suporte
Discos de SO efêmero: com suporte
InfiniBand: com suporte, GPUDirect RDMA, HDR de 8 x 200 Gigabit
Interconexão NVIDIA NVLink: com suporte
Virtualização aninhada: sem suporte

A série NDm A100 v4 dá suporte às seguintes versões de kernel:
CentOS 7.9 HPC: 3.10.0-1160.24.1.el7.x86_64
Ubuntu 18.04: 5.4.0-1043-azure
Ubuntu 20.04: 5.4.0-1046-azure

Tamanho vCPU Memória: GiB Armazenamento temporário (SSD): GiB GPU Memória da GPU: GiB Discos de dados máximos Taxa de transferência máxima do disco não armazenado em cache: IOPS / MBps Largura de banda de rede máxima Máximo de NICs
Standard_ND96amsr_A100_v4 96 1900 6400 Oito GPUs A100 de 80 GB (NVLink 3.0) 80 32 80,000 / 800 24,000 Mbps 8

Definições da tabela de tamanhos

  • A capacidade de armazenamento é mostrada em unidades de GiB ou de 1024^3 bytes. Ao comparar os discos medidos em GB (1000^3 bytes) com os discos medidos em GiB (1024^3), lembre-se de que os números de capacidade fornecidos em GiB poderão parecer menores. Por exemplo, 1023 GiB = 1098,4 GB.

  • A taxa de transferência do disco é medida em IOPS (operações de entrada/saída por segundo) e em MBps, em que MBps = 10^6 bytes/s.

  • Os discos de dados podem operar nos modos em cache ou não armazenado em cache. Para a operação do disco de dados armazenados em cache, o modo de cache do host é definido como ReadOnly ou ReadWrite. Para as operação do disco de dados não armazenados em cache, o modo de cache do host é definido como Nenhum.

  • Para saber como obter o melhor desempenho de armazenamento para suas VMs, consulte Desempenho de disco e máquina virtual.

  • Largura de banda de rede esperada é a largura de banda agregada máxima alocada por tipo de VM em todas as NICs para todos os destinos. Para obter mais informações, consulte Largura de banda da rede de máquina virtual.

    Os limites superiores não são garantidos. Os limites oferecem orientação para selecionar o tipo de VM correto para o aplicativo pretendido. O desempenho real da rede dependerá de vários fatores, incluindo cargas de rede e aplicativos, bem como configurações de rede. Para saber mais sobre como otimizar a taxa de transferência de rede, consulte Otimização da taxa de transferência de rede para máquinas virtuais do Azure. Para obter o desempenho de rede esperado no Linux ou no Windows, pode ser necessário selecionar uma versão específica ou otimizar sua VM. Para obter mais informações, consulte Testes de taxa de transferência/largura de banda (NTTTCP).

Outros tamanhos e informações

Calculadora de Preços: Calculadora de Preços

Para obter mais informações sobre tipos de disco, consulte Quais tipos de disco estão disponíveis no Azure?

Próximas etapas

Saiba mais sobre como as ACUs (unidade de computação do Azure) podem ajudar você a comparar o desempenho de computação entre SKUs do Azure.