Guia de migração para cargas de trabalho de computação de GPU no Azure

Artigo
08/24/2024

À medida que GPUs mais poderosas se tornam disponíveis no mercado e nos datacenters do Microsoft Azure, recomendamos reavaliar o desempenho de suas cargas de trabalho e considerar a migração para GPUs mais recentes.

Pelo mesmo motivo, bem como para manter uma oferta de serviço confiável e de alta qualidade, o Azure desativa periodicamente o hardware que alimenta tamanhos de VM mais antigos. O primeiro grupo de produtos de GPU a ser retirado no Azure são as VMs originais das séries NC, NC v2 e ND, alimentadas pelos aceleradores de GPU de datacenter NVIDIA Tesla K80, P100 e P40, respectivamente. Esses produtos serão retirados em 31 de agosto de 2023, e as VMs mais antigas desta série serão lançadas em 2016.

Desde então, as GPUs fizeram avanços incríveis ao lado de toda a indústria de aprendizagem profunda e HPC, normalmente excedendo uma duplicação no desempenho entre gerações. Desde o lançamento das GPUs NVIDIA K80, P40 e P100, o Azure forneceu várias gerações mais recentes e categorias de produtos de VM voltados para computação acelerada por GPU e IA, baseados nas GPUs T4, V100 e A100 da NVIDIA e diferenciados por recursos opcionais, como malhas de interconexão baseadas em InfiniBand. Todas essas são opções que incentivamos os clientes a explorar como caminhos de migração.

Na maioria dos casos, o aumento dramático no desempenho oferecido pelas gerações mais recentes de GPUs reduz o TCO geral, diminuindo a duração do trabalho, para trabalhos burstable ou reduzindo a quantidade geral de VMs habilitadas para GPU necessárias para cobrir uma demanda de tamanho fixo por recursos de computação, mesmo que os custos por GPU-hora possam variar. Além desses benefícios, os clientes podem melhorar o Time-to-Solution por meio de VMs de melhor desempenho e melhorar a integridade e a capacidade de suporte de sua solução adotando versões mais recentes de software, tempo de execução CUDA e driver.

Migração vs. otimização

O Azure reconhece que os clientes têm uma infinidade de requisitos que podem ditar a seleção de um produto VM GPU específico, incluindo considerações de arquitetura de GPU, interconexões, TCO, Tempo para Solução e disponibilidade regional com base na localidade de conformidade ou requisitos de latência, e alguns deles até mudam ao longo do tempo.

Ao mesmo tempo, a aceleração da GPU é uma área nova e em rápida evolução.

Assim, não há uma verdadeira orientação única para essa área de produto, e uma migração é um momento perfeito para reavaliar mudanças potencialmente dramáticas em uma carga de trabalho - como mudar de um modelo de implantação em cluster para uma única VM grande de 8 GPUs ou vice-versa, aproveitar tipos de dados de precisão reduzida, adotar recursos como GPU de várias instâncias e muito mais.

Esses tipos de considerações, quando feitas o contexto de aumentos já dramáticos de desempenho da GPU por geração, onde um recurso como a adição de TensorCores pode aumentar o desempenho em uma ordem de grandeza, são extremamente específicos da carga de trabalho.

A combinação da migração com a rearquitetura do aplicativo pode gerar imenso valor e melhorar o custo e o tempo até a solução.

No entanto, esses tipos de melhorias estão além do escopo deste documento, que visa se concentrar em classes de equivalência direta para cargas de trabalho generalizadas que podem ser executadas por clientes atualmente, para identificar as opções de VM mais semelhantes em preço e desempenho por GPU às famílias de VM existentes em fase de desativação.

Assim, este documento pressupõe que o usuário pode não ter nenhuma visão ou controle sobre propriedades específicas da carga de trabalho, como o número de instâncias de VM necessárias, GPUs, interconexões e muito mais.

Caminhos de atualização recomendados

VMs da série NC com GPUs NVIDIA K80

As VMs da série NC (v1) são o tipo de VM de computação acelerada por GPU mais antigo do Azure, alimentado por 1 a 4 aceleradores de GPU de datacenter NVIDIA Tesla K80 emparelhados com processadores Intel Xeon E5-2690 v3 (Haswell). Antes um tipo de VM emblemático para aplicativos exigentes de IA, ML e HPC, eles permaneceram uma escolha popular no final do ciclo de vida do produto (particularmente por meio de preços promocionais da série NC) para usuários que valorizavam ter um custo absoluto muito baixo por GPU-hora em vez de GPUs com maior taxa de transferência por dólar.

Hoje, dado o desempenho de computação relativamente baixo da plataforma de GPU NVIDIA K80 envelhecida, em comparação com a série de VMs com GPUs mais recentes, um caso de uso popular para a série NC são cargas de trabalho de inferência e análise em tempo real, onde uma VM acelerada deve estar disponível em um estado estável para atender às solicitações de aplicativos à medida que eles chegam. Nesses casos, o volume ou o tamanho do lote das solicitações pode ser insuficiente para se beneficiar de GPUs com melhor desempenho. As VMs NC também são populares para desenvolvedores e estudantes que estão aprendendo, desenvolvendo ou experimentando a aceleração de GPU, que precisam de um alvo de implantação CUDA barato baseado em nuvem para iterar e que não precisa funcionar para níveis de produção.

Em geral, os clientes da série NC devem considerar mudar diretamente dos tamanhos NC para os tamanhos NC T4 v3 , a nova plataforma acelerada por GPU do Azure para cargas de trabalho leves alimentadas por GPUs NVIDIA Tesla T4.

Tamanho atual da VM	Tamanho da VM de destino	Diferença na especificação
Standard_NC6 Standard_NC6_Promo	Standard_NC4as_T4_v3 ou Standard_NC8as_T4	CPU: Intel Haswell vs AMD Roma Contagem de GPU: 1 (mesmo) Geração de GPU: NVIDIA Keppler vs. Turing (+2 gerações, ~2x FP32 FLOPs) Memória GPU (GiB por GPU): 16 (+4) vCPU: 4 (-2) ou 8 (+2) Memória GiB: 16 (-40) ou 56 (mesmo) Armazenamento temporário (SSD) GiB: 180 (-160) ou 360 (+20) Max discos de dados: 8 (-4) ou 16 (+4) Rede acelerada: Sim (+) Armazenamento Premium: Sim (+)
Standard_NC12 Standard_NC12_Promo	Standard_NC16as_T4_v3	CPU: Intel Haswell vs AMD Roma Contagem de GPU: 1 (-1) Geração de GPU: NVIDIA Keppler vs. Turing (+2 gerações, ~2x FP32 FLOPs) Memória GPU (GiB por GPU): 16 (+4) vCPU: 16 (+4) GiB de memória: 110 (-2) Armazenamento temporário (SSD) GiB: 360 (-320) Max discos de dados: 48 (+16) Rede acelerada: Sim (+) Armazenamento Premium: Sim (+)
Standard_NC24 Standard_NC24_Promo	Standard_NC64as_T4_v3*	CPU: Intel Haswell vs AMD Roma Contagem de GPU: 4 (mesmo) Geração de GPU: NVIDIA Keppler vs. Turing (+2 gerações, ~2x FP32 FLOPs) Memória GPU (GiB por GPU): 16 (+4) vCPU: 64 (+40) GiB de memória: 440 (+216) Armazenamento temporário (SSD) GiB: 2880 (+1440) Max discos de dados: 32 (-32) Rede acelerada: Sim (+) Armazenamento Premium: Sim (+)
Standard_NC24r Standard_NC24r_Promo	Standard_NC64as_T4_v3*	CPU: Intel Haswell vs AMD Roma Contagem de GPU: 4 (mesmo) Geração de GPU: NVIDIA Keppler vs. Turing (+2 gerações, ~2x FP32 FLOPs) Memória GPU (GiB por GPU): 16 (+4) vCPU: 64 (+40) GiB de memória: 440 (+216) Armazenamento temporário (SSD) GiB: 2880 (+1440) Max discos de dados: 32 (-32) Rede acelerada: Sim (+) Armazenamento Premium: Sim (+) Interconexão InfiniBand: Não

VMs da série NC v2 com GPUs NVIDIA Tesla P100

As máquinas virtuais da série NC v2 são uma plataforma emblemática originalmente projetada para cargas de trabalho de IA e Deep Learning. Eles ofereceram excelente desempenho para treinamento de Deep Learning, com desempenho por GPU aproximadamente 2x maior do que o da série NC original e são alimentados por GPUs NVIDIA Tesla P100 e CPUs Intel Xeon E5-2690 v4 (Broadwell). Como as séries NC e ND, a série NC v2 oferece uma configuração com uma rede secundária de baixa latência e alta taxa de transferência por meio de RDMA e conectividade InfiniBand para que você possa executar trabalhos de treinamento em grande escala abrangendo muitas GPUs.

Em geral, os clientes da série NCv2 devem considerar mudar diretamente para os tamanhos NC A100 v4 , a nova plataforma acelerada por GPU do Azure alimentada por GPUs PCIe NVIDIA Ampere A100.

Tamanho atual da VM	Tamanho da VM de destino	Diferença na especificação
Standard_NC6s_v2	Standard_NC24ads_A100_v4	CPU: Intel Broadwell vs AMD Milão Contagem de GPU: 1 (mesmo) Geração de GPU: NVIDIA Pascal vs. Ampere (+2 gerações) Memória GPU (GiB por GPU): 80 (+64) vCPU: 24 (+18) GiB de memória: 220 (+108) Armazenamento temporário (SSD) GiB: 1123 (+387) Max discos de dados: 12 (mesmo) Rede acelerada: Sim (+) Armazenamento Premium: Sim (+)
Standard_NC12s_v2	Standard_NC48ads_A100_v4	CPU: Intel Broadwell vs AMD Milão Contagem de GPU: 2 (mesmo) Geração GPU: NVIDIA Pascal vs. Ampere (+2 gerações) Memória GPU (GiB por GPU): 80 (+64) vCPU: 48 (+36) GiB de memória: 440 (+216) Armazenamento temporário (SSD) GiB: 2246 (+772) Max discos de dados: 24 (mesmo) Rede acelerada: Sim (+) Armazenamento Premium: Sim (+)
Standard_NC24s_v2	Standard_NC96ads_A100_v4	CPU: Intel Broadwell vs AMD Milão Contagem de GPU: 4 (mesmo) Geração GPU: NVIDIA Pascal vs. Ampere (+2 gerações) Memória GPU (GiB por GPU): 80 (+64) vCPU: 96 (+72) GiB de memória: 880 (+432) Armazenamento temporário (SSD) GiB: 4492 (+1544) Max discos de dados: 32 (mesmo) Rede acelerada: Sim (+) Armazenamento Premium: Sim (+)
Standard_NC24rs_v2	Standard_NC96ads_A100_v4	CPU: Intel Broadwell vs AMD Milão Contagem de GPU: 4 (Mesmo) Geração GPU: NVIDIA Pascal vs. Ampere (+2 gerações) Memória GPU (GiB por GPU): 80 (+64) vCPU: 96 (+72) GiB de memória: 880 (+432) Armazenamento temporário (SSD) GiB: 4492 (+1544) Max discos de dados: 32 (mesmo) Rede acelerada: Sim (+) Armazenamento Premium: Sim (+) Interconexão InfiniBand: Não (-)

VMs da série ND com GPUs NVIDIA Tesla P40

As máquinas virtuais da série ND são uma plataforma midrange originalmente projetada para cargas de trabalho de IA e Deep Learning. Eles ofereceram excelente desempenho para inferência em lote por meio de operações de ponto flutuante de precisão única aprimoradas em relação aos seus antecessores e são alimentados por GPUs NVIDIA Tesla P40 e CPUs Intel Xeon E5-2690 v4 (Broadwell). Como as séries NC e NC v2, a série ND oferece uma configuração com uma rede secundária de baixa latência, alta taxa de transferência por meio de RDMA e conectividade InfiniBand para que você possa executar trabalhos de treinamento em grande escala abrangendo muitas GPUs.

Tamanho atual da VM	Tamanho da VM de destino	Diferença na especificação
Standard_ND6	Standard_NC4as_T4_v3 ou Standard_NC8as_T4_v3	CPU: Intel Broadwell vs AMD Roma Contagem de GPU: 1 (mesmo) Geração de GPU: NVIDIA Pascal vs. Turing (+1 geração) Memória GPU (GiB por GPU): 16 (-8) vCPU: 4 (-2) ou 8 (+2) GiB de memória: 16 (-40) ou 56 (-56) Armazenamento temporário (SSD) GiB: 180 (-552) ou 360 (-372) Max discos de dados: 8 (-4) ou 16 (+4) Rede acelerada: Sim (+) Armazenamento Premium: Sim (+)
Standard_ND12	Standard_NC16as_T4_v3	CPU: Intel Broadwell vs AMD Roma Contagem de GPU: 1 (-1) Geração de GPU: NVIDIA Pascal vs. Turing (+1 gerações) Memória GPU (GiB por GPU): 16 (-8) vCPU: 16 (+4) GiB de memória: 110 (-114) Armazenamento temporário (SSD) GiB: 360 (-1.114) Max discos de dados: 48 (+16) Rede acelerada: Sim (+) Armazenamento Premium: Sim (+)
Standard_ND24	Standard_NC64as_T4_v3*	CPU: Intel Broadwell vs AMD Roma Contagem de GPU: 4 (mesmo) Geração de GPU: NVIDIA Pascal vs. Turing (+1 gerações) Memória GPU (GiB por GPU): 16 (-8) vCPU: 64 (+40) Memória GiB: 440 (mesmo) Armazenamento temporário (SSD) GiB: 2880 (mesmo) Max discos de dados: 32 (mesmo) Rede acelerada: Sim (+) Armazenamento Premium: Sim (+)
Standard_ND24r	Standard_ND96amsr_A100_v4	CPU: Intel Broadwell vs AMD Roma Contagem de GPU: 8 (+4) Geração de GPU: NVIDIA Pascal vs. Ampere (+2 gerações) Memória GPU (GiB por GPU): 80 (+56) vCPU: 96 (+72) GiB de memória: 1900 (+1452) Armazenamento temporário (SSD) GiB: 6400 (+3452) Max discos de dados: 32 (mesmo) Rede acelerada: Sim (+) Armazenamento Premium: Sim (+) Interconexão InfiniBand: Sim (Mesmo)

Passos da Migração

Alterações gerais

Escolha uma série e um tamanho para a migração. Aproveite a calculadora de preços para obter mais informações.
Obter cota para a série VM de destino
Redimensione o tamanho atual da VM da série N* para o tamanho de destino. Este também pode ser um bom momento para atualizar o sistema operacional usado pela imagem da máquina virtual ou adotar uma das imagens HPC com drivers pré-instalados como ponto de partida.

Importante

Sua imagem de VM pode ter sido produzida com uma versão mais antiga do tempo de execução CUDA, driver NVIDIA e (se aplicável, apenas para tamanhos habilitados para RDMA) drivers Mellanox OFED do que sua nova série de VMs GPU exige, que podem ser atualizadas seguindo as instruções na Documentação do Azure.

Alterações Interruptivas

Selecionar tamanho de destino para migração

Depois de avaliar seu uso atual, decida que tipo de VM de GPU você precisa. Dependendo dos requisitos de carga de trabalho, você tem poucas opções diferentes.

Nota

Uma prática recomendada é selecionar um tamanho de VM com base no custo e no desempenho. As recomendações neste guia são baseadas em uma comparação individualizada de uso geral de métricas de desempenho e a correspondência mais próxima em outra série de VMs. Antes de decidir o tamanho certo, obtenha uma comparação de custos usando a Calculadora de Preços do Azure.

Importante

Todos os tamanhos legados das séries NC, NC v2 e ND estão disponíveis em vários tamanhos de GPU, incluindo tamanhos de 4 GPUs com e sem interconexão InfiniBand para cargas de trabalho escaláveis e firmemente acopladas que exigem mais poder de computação do que uma única VM de 4 GPU ou uma única GPU K80, P40 ou P100 pode fornecer, respectivamente. Embora as recomendações acima ofereçam um caminho direto a seguir, os usuários desses tamanhos devem considerar alcançar suas metas de desempenho com séries de VM baseadas em GPU NVIDIA V100 mais poderosas, como as séries NC v3 e ND v2, que normalmente permitem o mesmo nível de desempenho de carga de trabalho a custos mais baixos e com melhor capacidade de gerenciamento, fornecendo um desempenho consideravelmente maior por GPU e por VM antes que configurações de várias GPUs e vários nós sejam necessárias, respetivamente.

Obter cota para a família de VMs de destino

Siga o guia para solicitar um aumento na cota de vCPU por família VM. Selecione o tamanho da VM de destino que você selecionou para migração.

Redimensionar a máquina virtual atual

Você pode redimensionar a máquina virtual.

Próximos passos

Para obter uma lista completa dos tamanhos de máquinas virtuais habilitadas para GPU, consulte GPU - visão geral da computação acelerada

Partilhar via