Compartilhar via


Acelerador de zona de destino HPC (computação de alto desempenho) do Azure

O acelerador de zona de destino HPC (computação de alto desempenho) automatiza a implantação de um ambiente. Esse ambiente fornece uma estrutura base que você pode personalizar para criar um mecanismo de implantação de ponta a ponta para uma solução de cluster HPC completa no Azure. O acelerador é uma coleção de scripts de software livre e modelos que podem preparar suas zonas de destino em escala empresarial. Ele pode fornecer uma abordagem de arquitetura específica e uma implementação de referência que adere à arquitetura e às práticas recomendadas do Cloud Adoption Framework.

Os clientes adotam o HPC de várias maneiras para atender às suas necessidades de negócios e você pode adaptar o acelerador de zona de destino do HPC para produzir uma arquitetura que se ajuste ao seu caminho. Usar o acelerador ajuda a colocar sua organização em um caminho para uma escala sustentável.

Implementar uma zona de destino em escala empresarial

O acelerador de zona de destino do HPC pressupõe que você esteja começando com uma zona de destino em escala empresarial que foi implementada com êxito. Para obter mais informações sobre esse pré-requisito, consulte os seguintes artigos:

O que o acelerador de zona de destino do HPC fornece

A abordagem das zonas de destino do acelerador de zona de destino do HPC oferece os seguintes ativos para seu projeto:

  • Diretrizes de design para ajudar na avaliação de decisões críticas
  • A arquitetura da zona de destino
  • Uma implementação que inclui:
    • Uma referência implantável capaz de criar o ambiente para sua implantação de HPC
    • Uma implementação de referência de HPC aprovada pela Microsoft para testar o ambiente implantado

Diretrizes de design para energia, manufatura e finanças

As arquiteturas das zonas de destino variam de acordo com o setor empresarial, além de variar por organização. Esta seção lista artigos que fornecem diretrizes para criar sua zona de destino:

Diretrizes de design para escolher a computação de HPC para cargas de trabalho de IA

Selecionar o SKU correto da computação com otimização de GPU para cargas de trabalho de IA é importante para otimizar o desempenho e controlar os custos. A Microsoft fornece muitos SKUs diferentes otimizados para cargas de trabalho que se beneficiam de mais energia de GPU. Há várias considerações ao escolher o SKU certo para cargas de trabalho de IA. Cargas de trabalho menores podem aproveitar apenas uma fração da CPU, GPU e largura de banda de SKUs mais poderosas, como NDv6. Talvez você queira considerar outras SKUs de computação, como NCv4 e NDv4, para trabalhos menores. Considere os seguintes fatores ao escolher a SKU certa da computação otimizada para GPU para cargas de trabalho de IA:

  • Definindo o ponto de verificação. Considere fatores como o intervalo de ponto de verificação ao executar seus modelos de machine learning. Isso pode afetar o desempenho da GPU durante a fase de treinamento. Encontrar um equilíbrio entre a eficiência de armazenamento e a manutenção de operações suaves de GPU. Monitore o uso da GPU.
  • Inferência. Os requisitos de inferência diferem dos requisitos de treinamento, com uma possível carga de CPU mais alta que pode maximizar o desempenho da CPU. Considere os requisitos de inferência do seu modelo ao selecionar um SKU de computação. Monitore o uso da CPU.
  • Formação. Considere os requisitos do modelo durante o treinamento, monitorando o uso da CPU e da GPU.
  • Dimensionamento de trabalho. Ao considerar a SKU de computação para suas cargas de trabalho de IA, considere o tamanho do trabalho. Trabalhos menores, como aquelas com aproximadamente OPT 1,3B, podem não aproveitar tamanhos maiores de SKU e podem deixar a potência de CPU e GPU ociosa dependendo da etapa do trabalho (inferência, treinamento).
  • Bandwidth. Largura de banda maior e de baixa latência pode ser uma despesa quando não aproveitada. Considere o InfiniBand apenas para os maiores modelos que exigirão a largura de banda extra.

Exiba os tamanhos de máquina virtual otimizados para GPU do Azure.

Exemplo: arquitetura de referência conceitual para energia

A arquitetura de referência conceitual a seguir é um exemplo que mostra as áreas de design e as práticas recomendadas para ambientes de energia .

Diagrama que mostra uma arquitetura de exemplo para um ambiente de energia, incluindo computação, armazenamento, sub-redes, um banco de dados e um front-end para usuários locais.

Exemplo: arquitetura de referência conceitual para finanças

A arquitetura de referência conceitual a seguir é um exemplo que mostra áreas de design e práticas recomendadas para ambientes financeiros .

Diagrama que mostra uma arquitetura de exemplo para um ambiente financeiro, incluindo recursos locais, rede virtual, sub-redes e grupos de segurança de rede.

Exemplo: arquitetura de referência conceitual para fabricação

A arquitetura de referência conceitual a seguir é um exemplo que mostra as áreas de design e as práticas recomendadas para ambientes de fabricação .

Diagrama que mostra uma arquitetura de exemplo para um ambiente de fabricação, incluindo recursos locais e de nuvem e uma zona de destino HPC.

Obter o acelerador de zona de destino do HPC

Para implantar o acelerador de zona de destino do HPC, use o Azure Marketplace ou a CLI do Azure.

Para saber mais sobre essa solução de acelerador, consulte o Workspace do Azure CycleCloud para Slurm.

Próximas etapas

Para obter considerações e recomendações para sua arquitetura de acelerador de zona de destino do HPC, examine as áreas de design críticas do acelerador de zona de destino do HPC no Gerenciamento de Acesso e Identidade do Azure.