Compartilhar via


Visão geral da arquitetura lift-and-shift de HPC de ponta a ponta

"Lift-and-shift" no contexto de HPC (computação de alto desempenho) refere-se principalmente ao processo de migração de um ambiente local e carga de trabalho para a nuvem. O ideal é que as modificações sejam mantidas no mínimo (por exemplo, aplicativos, agendadores de trabalho e as respectivas configurações devem permanecer basicamente os mesmos). É natural que aconteçam ajustes no armazenamento e no hardware porque os recursos são diferentes do local para as plataformas de nuvem. Com a abordagem lift-and-shift, as organizações podem começar a se beneficiar da nuvem mais rapidamente.

A figura a seguir representa um cluster HPC local típico em um ambiente de produção, que o fabricante de hardware geralmente fornece. Esse ambiente local compreende um conjunto de nós de computação, que podem ou não funcionar com imagens e contêineres de máquina virtual. Esses nós executam cargas de trabalho gerenciadas por um agendador de trabalhos, que normalmente pode ser Slurm, PBS ou LSF. As cargas de trabalho são provenientes de vários usuários que têm o gerenciamento de identidade associado a eles. Normalmente, há diretórios domésticos, discos de armazenamento temporário e armazenamento de longo prazo. Algumas formas de monitoramento para verificar o desempenho de trabalhos e a integridade dos nós de computação também estão disponíveis. Os usuários podem acessar o ambiente por meio de linha de comando, navegadores ou algum tipo de tecnologia de visualização remota. Todo o ambiente é hospedado em uma rede privada, para que os usuários tenham algum mecanismo para acessar o recurso de computação, seja via VPN ou via portal.

Diagrama que ilustra a arquitetura de ambiente local existente.

Como vemos em todo este documento, o ambiente na nuvem seguindo o modelo infraestrutura como serviço, conceitualmente falando, não é tão diferente. Algumas tecnologias precisam de algumas atualizações, e algumas etapas são necessárias durante a migração do local para a nuvem.

Portanto, este documento:

  • Passa pelas opções para o processo de migração;
  • Fornece ponteiros para produtos e práticas recomendadas para cada componente;
  • E fornece recomendações para evitar armadilhas no processo.

Antes de entrar na descrição da arquitetura, é relevante entender as diferentes personas nesse contexto, bem como as necessidades e expectativas delas.

Personas e experiência do usuário

Há pessoas diferentes que precisam acessar o ambiente de HPC. As atividades delas e o modo como interagem com o ambiente variam bastante.

Usuário final (engenheiro/cientista/pesquisador)

Essa persona representa o especialista no assunto (por exemplo, biólogo, físico, engenheiro etc.) que deseja executar experimentos (ou seja, enviar trabalhos) e analisar resultados. Os usuários finais interagem com os administradores do sistema para ajustar o ambiente de computação sempre que necessário. Eles podem ter alguma experiência usando ferramentas baseadas em CLI, mas algumas delas podem depender apenas de portais da Web ou interfaces gráficas do usuário por meio da VDI para enviar os trabalhos deles e interagir com os resultados gerados.

Novas responsabilidades no ambiente de HPC na nuvem:

  • O usuário final não deve ter novas responsabilidades com base no trabalho do Administrador do HPC e do Administrador de Nuvem. Dependendo do ambiente local, os usuários finais têm acesso a uma capacidade maior e uma variedade de recursos de computação para se tornarem mais produtivos.

Administrador de HPC

Essa persona representa aquela que tem experiência em HPC e é responsável por implantar a infraestrutura de computação inicial e adaptá-la de acordo com as necessidades dos usuários finais e de negócios. Essa persona também é responsável por verificar a integridade do sistema e executar a solução de problemas. Os administradores de HPC estão confortáveis em acessar a arquitetura e os componentes dela por meio da CLI, SDKs e portais da Web. Eles também são o primeiro ponto de contato quando os usuários finais enfrentam qualquer desafio com o ambiente de computação.

Novas responsabilidades no ambiente de HPC na nuvem:

  • Gerenciamento de recursos e serviços de nuvem (por exemplo, máquinas virtuais, armazenamento, rede) por meio de plataformas de gerenciamento de nuvem.
  • Implementando e gerenciando clusters e recursos por meio de novas ferramentas de orquestração de recursos (por exemplo, CycleCloud).
  • Otimizando a implantação de aplicativos pela compreensão dos detalhes da infraestrutura (ou seja, tipos de VM, armazenamento e opções de rede).
  • Otimizar a utilização e os custos de recursos usando recursos específicos da nuvem, como dimensionamento automático e instâncias spot.

Administrador de nuvem

Essa persona funciona com o administrador de HPC para ajudar a implantar e manter a infraestrutura de computação. Essa persona não é (necessariamente) um especialista em HPC, mas um especialista em nuvem com profundo conhecimento da infraestrutura geral de TI da empresa, incluindo configurações/políticas de rede, direitos de acesso do usuário e dispositivos de usuário. Dependendo do caso, o administrador do HPC e o administrador de nuvem podem ser a mesma pessoa.

Novas responsabilidades no ambiente de HPC na nuvem:

  • Colaborando com administradores de HPC para garantir a integração perfeita de cargas de trabalho de HPC com a infraestrutura de nuvem.
  • Monitorando e gerenciando o desempenho, a segurança e a conformidade da infraestrutura de nuvem.
  • Ajudando na configuração de soluções de armazenamento e rede baseadas em nuvem para dar suporte a cargas de trabalho de HPC.

Gerente/proprietário de negócios

Essa persona representa aquela responsável pela empresa, que inclui cuidar do orçamento e dos projetos para atender às metas organizacionais. Para essa persona, o componente contábil da arquitetura é relevante para entender os custos de cada projeto. Essa persona funciona com administradores de HPC e usuários finais para entender as necessidades da plataforma, incluindo armazenamento, rede e recursos de computação. Eles também planejam cargas de trabalho futuras.

Novas responsabilidades no ambiente de HPC na nuvem:

  • Analisando relatórios de custo detalhados e métricas de uso fornecidas pelos provedores de serviços de nuvem para gerenciar orçamentos e despesas de previsão.
  • Tomando decisões estratégicas com base no uso de recursos de nuvem e oportunidades de otimização de custos.
  • Planejar e aprovar investimentos em infraestrutura de nuvem para dar suporte a futuras cargas de trabalho de HPC e objetivos de negócios.

Visão geral da arquitetura lift-and-shift

Diagrama que ilustra a arquitetura de nuvem HPC de destino.

Um ambiente de HPC de produção na nuvem compreende vários componentes. Há alguns componentes principais para manter um ambiente, como um agendador de trabalhos, um provedor de recursos, um ponteiro de entrada para o usuário acessar o ambiente, dispositivos de computação e armazenamento, entre outros. À medida que o ambiente entra em produção, monitoramento, observabilidade, verificações de integridade, segurança, gerenciamento de identidade, responsabilidade, diferentes opções de armazenamento, entre outros componentes, começam a desempenhar uma função crítica.

Há também extensões que podem estar em vigor, como nós de entrada, movimentadores de dados, uso de contêineres, gerentes de licença, entre outros que dependem da instalação.

Esse ambiente de nível de produção pode ter vários componentes a serem configurados. Portanto, os implantadores e gerentes de ambiente tornam-se fundamentais para automatizar sua implantação inicial e atualizá-la ao longo do caminho, respectivamente. Instalações mais avançadas também podem ter modelos de ambiente (ou especificações) com versões de software e configurações mais ideais e testadas corretamente. Depois que o ambiente estiver em produção com todos os componentes necessários em vigor, ao longo do tempo, os ajustes poderão ser necessários para atender às demandas do usuário, incluindo alterações em tipos de VM ou opções/funcionalidades de armazenamento.

Instanciando a arquitetura de nuvem de HPC lift-and-shift

Aqui, fornecemos mais detalhes para cada componente de arquitetura, incluindo ponteiros para produtos oficiais do Azure, blogs de tecnologia com algumas práticas recomendadas, repositórios git e links para soluções que não sejam de produtos.

Início rápido. Para uma solução de início rápido para criar um ambiente HPC na nuvem com blocos de construção básicos, recomendamos usar o workspace do Slurm do Azure CycleCloud.