Operações de carga de trabalho na gestão da cloud

Artigo
07/11/2023

Algumas cargas de trabalho são fundamentais para o sucesso da empresa. Para essas cargas de trabalho, uma linha de base de gestão é insuficiente para cumprir os compromissos empresariais necessários para a gestão da cloud. As operações da plataforma podem nem ser suficientes para cumprir os compromissos comerciais. Este subconjunto de cargas de trabalho altamente importantes requer um foco especializado na forma como a carga de trabalho funciona e como é suportada.

Em troca, o investimento em operações de carga de trabalho pode levar a um desempenho melhorado, a uma diminuição do risco de interrupção do negócio e a uma recuperação mais rápida quando ocorrem falhas do sistema. Este artigo aborda uma abordagem para investir nas operações contínuas destas cargas de trabalho de alta prioridade para impulsionar compromissos empresariais melhorados.

Quando investir em operações de carga de trabalho

O princípio Pareto (também conhecido como regra 80/20) afirma que 80% dos efeitos provêm de 20 por cento das causas. Quando os portefólios de TI têm permissão para crescer organicamente ao longo do tempo, esta regra é frequentemente ilustrada numa revisão do portefólio de TI. Consoante o efeito que requer investimento, a causa pode variar, mas o princípio geral é verdadeiro:

80% das falhas do sistema tendem a ser o resultado de 20% dos erros ou erros comuns.
80% do valor comercial tende a ser proveniente de 20% das cargas de trabalho num portefólio.
80% do esforço para migrar para a cloud provém de 20% das cargas de trabalho que estão a ser movidas.
80% dos esforços de gestão da cloud suportarão 20% dos incidentes de serviço ou pedidos de suporte.
80% do impacto comercial de uma falha virá de 20% dos sistemas afetados pela falha.

As operações de carga de trabalho devem ser aplicadas apenas quando a estratégia de adoção da cloud, os resultados de negócio e as métricas operacionais são bem compreendidas. Esta é uma mudança de paradigma da vista clássica de TI. Tradicionalmente, as TI pressupunham que todas as cargas de trabalho experimentaram o mesmo nível de suporte e exigiam níveis de prioridade semelhantes.

Antes de investirem em operações de carga de trabalho profundas, tanto as TI como a empresa devem compreender as justificações comerciais e as expectativas de um maior investimento na gestão da cloud.

Começar com os dados

As operações de carga de trabalho começam com uma compreensão aprofundada do desempenho da carga de trabalho e dos requisitos de suporte. Antes de a equipa investir em operações de carga de trabalho, tem de ter dados avançados sobre dependências de cargas de trabalho, desempenho de aplicações, diagnósticos de bases de dados, telemetria de máquinas virtuais e histórico de incidentes.

Estes dados eliminam as informações que impulsionam as decisões de operações da carga de trabalho.

Observação contínua

Os dados iniciais e a telemetria contínua podem ajudar a formular e testar teorias sobre o desempenho de uma carga de trabalho. Mas as operações de carga de trabalho em curso estão enraizadas numa observação contínua e expandida do desempenho da carga de trabalho, com um grande foco no desempenho de aplicações e dados.

Testar a automatização

Ao nível da aplicação, os primeiros requisitos das operações de carga de trabalho são um investimento em testes aprofundados. Para qualquer aplicação suportada através de operações de carga de trabalho, deve ser estabelecido e executado regularmente um plano de teste para fornecer testes funcionais e de dimensionamento nas aplicações.

A telemetria de teste regular pode fornecer validação imediata de várias hipóteses sobre o funcionamento da carga de trabalho. A melhoria dos padrões operacionais e arquitetónicos pode ser executada e testada. Os deltas resultantes fornecem uma análise de impacto clara para orientar os investimentos contínuos.

Compreender as versões

Uma compreensão clara dos ciclos de versão e dos pipelines de versão é um elemento importante das operações de carga de trabalho.

Uma compreensão dos ciclos pode preparar-se para potenciais interrupções e permitir que a equipa resolva proativamente quaisquer versões que possam produzir um efeito adverso nas operações. Este entendimento também permite que a equipa de gestão da cloud faça parcerias com equipas de adoção para melhorar continuamente a qualidade do produto e resolver quaisquer erros que possam afetar a estabilidade.

Mais importante ainda, uma compreensão dos pipelines de versão pode melhorar significativamente o objetivo de ponto de recuperação (RPO) de uma carga de trabalho. Em muitos cenários, o caminho mais rápido e preciso para a recuperação de uma aplicação é um pipeline de versão. Para camadas de aplicações que só mudam quando ocorre uma nova versão, pode ser aconselhável investir mais na otimização do pipeline do que na recuperação da aplicação a partir de processos de cópia de segurança tradicionais.

Embora um pipeline de implementação possa ser o caminho mais rápido para a recuperação, também pode ser o caminho mais rápido para a remediação. Quando uma aplicação tem um pipeline de versão rápido, eficiente e fiável, a equipa de gestão da cloud tem a opção de automatizar a implementação para um novo anfitrião como uma forma de remediação automatizada.

Podem existir muitos outros mecanismos mais rápidos e eficazes para remediação e recuperação. No entanto, quando a utilização de um pipeline existente pode cumprir compromissos comerciais e capitalizar investimentos existentes no DevOps, o pipeline existente poderá ser uma alternativa viável.

Comunicar claramente as alterações à carga de trabalho

A alteração a qualquer carga de trabalho está entre os maiores riscos para as operações de carga de trabalho. Para qualquer carga de trabalho no nível de operações de carga de trabalho de gestão da cloud, a equipa de gestão da cloud deve alinhar-se de perto com as equipas de adoção da cloud para compreender as alterações provenientes de cada versão. Este investimento na compreensão proativa terá um impacto direto e positivo na estabilidade operacional.

Melhorar resultados

Os investimentos em dados e comunicações numa carga de trabalho produzirão sugestões de melhorias nas operações em curso numa de três áreas:

Resolução técnica da dívida
Remediação automatizada
Melhoramento do design do sistema

Resolução técnica da dívida

Os melhores planos de operações de carga de trabalho ainda requerem remediação. À medida que a sua equipa de gestão da cloud procura manter-se ligada para compreender os esforços de adoção e os lançamentos, a equipa também deve partilhar regularmente requisitos de remediação para garantir que a dívida técnica e os erros são uma prioridade contínua para as suas equipas de desenvolvimento.

Remediação automatizada

Ao aplicar o princípio Pareto, podemos dizer que 80% do impacto negativo do negócio provavelmente provém de 20% dos incidentes de serviço. Quando esses incidentes não podem ser resolvidos em ciclos de desenvolvimento normais, os investimentos na automatização da remediação podem reduzir significativamente as interrupções comerciais.

Melhoramento do design do sistema

Nos casos de resolução técnica da dívida e remediação automatizada, as falhas do sistema são a causa comum da maioria das falhas do sistema. Pode ter o maior impacto nas operações globais da carga de trabalho ao aderir a alguns princípios de conceção:

Escalabilidade: A capacidade de um sistema lidar com o aumento da carga.
Disponibilidade: A percentagem de tempo em que um sistema está funcional e a funcionar.
Resiliência: A capacidade de um sistema recuperar de falhas e continuar a funcionar.
Gestão: Processos de operações que mantêm um sistema em execução na produção.
Segurança: Proteger aplicações e dados contra ameaças.

Para ajudar a melhorar as operações gerais, o Microsoft Azure Well-Architected Framework fornece uma abordagem para avaliar cargas de trabalho específicas para a adesão a estes pilares. Aplique os pilares às operações da plataforma e às operações de carga de trabalho.

Passos seguintes

Com uma compreensão completa da metodologia Gerir no Cloud Adoption Framework, está agora armado para implementar princípios de gestão da cloud. Saiba como tornar esta metodologia acionável no seu ambiente de operações.

Aplicar esta metodologia

Partilhar via