Proteger e recuperar na gestão da cloud

Antes de se prepararem para uma potencial indisponibilidade da carga de trabalho, as equipas de gestão da cloud devem primeiro certificar-se de que cumprem os requisitos para:

Como planeiam, as equipas têm de começar com o pressuposto de que algo vai falhar quando ocorrer um desastre. A preparação para uma indisponibilidade permite que as equipas detetem falhas mais cedo e recuperem mais rapidamente. O foco desta disciplina está nos passos que surgem imediatamente após a falha de um sistema. Como pode proteger as cargas de trabalho para que possam ser recuperadas rapidamente quando ocorre uma falha?

Nenhuma solução técnica pode oferecer consistentemente um SLA que garanta um tempo de atividade de 100%. As soluções com as arquiteturas mais redundantes afirmam proporcionar um tempo de atividade de "seis 9s" ou 99,9999%. Mas mesmo uma solução de "seis 9s" vai para baixo por 31,6 segundos em qualquer ano. É raro uma solução justificar um grande investimento operacional contínuo que é necessário para atingir "seis 9s" de tempo de atividade.

Traduzir conversações de proteção e recuperação

As cargas de trabalho que alimentam as operações empresariais consistem em:

  • aplicações
  • dados
  • máquinas virtuais (VMs)
  • outros recursos

Cada recurso pode exigir a sua própria abordagem de proteção e recuperação. O objetivo importante desta disciplina é estabelecer um compromisso consistente dentro da linha de base de gestão, que pode fornecer um ponto de partida para discussões empresariais.

No mínimo, as equipas de gestão da cloud devem criar uma abordagem de linha de base para cada recurso, com um compromisso claro com uma recuperação rápida e perda mínima de dados.

Objetivos de tempo de recuperação (RTO)

Um objetivo de tempo de recuperação é a quantidade de tempo que deve demorar a recuperar qualquer sistema para o seu estado antes de um desastre. Isto incluiria o tempo necessário para:

  • restaurar funcionalidades mínimas para VMs e aplicações
  • restaurar os dados exigidos pelas aplicações.

Em termos empresariais, o RTO representa a quantidade de tempo que os processos empresariais estão fora de serviço. Para cargas de trabalho críticas para a missão, esta variável deve ser relativamente baixa, permitindo que os processos empresariais sejam retomados rapidamente. Para cargas de trabalho de prioridade inferior, um nível padrão de RTO pode não ter um impacto notável no desempenho da empresa.

Uma empresa deve criar uma linha de base de gestão que estabeleça um RTO padrão para cargas de trabalho não críticas para a missão. A empresa pode então utilizar essa linha de base como forma de justificar investimentos adicionais em tempos de recuperação.

Objetivos de ponto de recuperação (RPO)

Na maioria dos sistemas de gestão da cloud, alguma forma de proteção de dados captura e armazena dados periodicamente. O ponto de recuperação refere-se à última vez que os dados foram capturados. Quando um sistema falha, só pode ser restaurado para o ponto de recuperação mais recente.

O objetivo do ponto de recuperação é medido do ponto de recuperação mais recente para uma falha. Se o RPO for medido em horas, uma falha do sistema resultará na perda de dados para as horas entre o último ponto de recuperação e a indisponibilidade. Se o RPO for medido em dias, uma falha do sistema resultará na perda de dados para os dias entre o último ponto de recuperação e a indisponibilidade. Um RPO de um dia resultaria teoricamente na perda de todas as transações no dia que antecedeu a falha.

Para sistemas críticos para a missão, medir um RPO em minutos ou segundos pode ajudar a evitar perdas de receitas ou lucros. No entanto, um RPO mais curto resulta geralmente num aumento dos custos de gestão. Para ajudar a minimizar estes custos, uma empresa deve criar uma linha de base de gestão focada no RPO mais longo e aceitável. A empresa pode então diminuir o RPO das plataformas ou cargas de trabalho específicas que garantem mais investimento.

Proteger e recuperar cargas de trabalho

A maioria das cargas de trabalho numa ti suporte de Ambiente de trabalho um processo técnico ou empresarial específico. Os sistemas que não têm um impacto sistémico nas operações empresariais normalmente não justificam o aumento do investimento necessário para recuperar sistemas rapidamente ou minimizar a perda de dados. Ao estabelecer uma linha de base, uma empresa pode descobrir de que nível de suporte de recuperação precisa num ponto de preço que pode gerir de forma consistente. Compreender isto ajuda os intervenientes empresariais a avaliar o valor do aumento do investimento na recuperação.

Para a maioria das equipas de gestão da cloud, uma linha de base melhorada, com compromissos específicos de RPO/RTO para vários ativos, gera o caminho mais favorável para compromissos empresariais mútuos. As secções seguintes descrevem algumas linhas de base melhoradas comuns que capacitam uma empresa a adicionar facilmente funcionalidades de proteção e recuperação através de um processo repetível.

Proteger e recuperar dados

Os dados são, sem dúvida, o ativo mais valioso da economia digital. A perda dos dados que alimenta uma carga de trabalho de produção leva à perda de receitas ou lucros. A linha de base melhorada mais comum é a capacidade de proteger e recuperar dados de forma eficaz. Incentivamos as equipas de gestão da cloud a oferecer um nível de linha de base de gestão melhorada que suporte plataformas de dados comuns.

Antes de as equipas de gestão da cloud implementarem operações de plataforma, é comum que suportem operações melhoradas para uma plataforma como serviço (PaaS). Por exemplo, é fácil para uma equipa de gestão da cloud impor uma maior frequência de cópia de segurança ou replicação multi-regional para soluções de Base de Dados SQL do Azure ou do Azure Cosmos DB. Ao fazê-lo, a equipa de desenvolvimento melhora facilmente o RPO ao modernizar as respetivas plataformas de dados.

Para saber mais sobre este processo de pensamento, veja Disciplina de operações de plataforma.

Proteger e recuperar VMs

A maioria das cargas de trabalho depende um pouco das máquinas virtuais, que alojam vários aspetos da solução. Uma empresa tem de recuperar rapidamente algumas máquinas virtuais para que a carga de trabalho suporte os respetivos processos após uma falha do sistema.

Cada minuto de tempo de inatividade nessas máquinas virtuais pode causar perdas de receitas ou redução de lucros. Quando o tempo de inatividade da VM tem um impacto direto no desempenho fiscal da empresa, o RTO é muito importante. As equipas de gestão da cloud podem recuperar máquinas virtuais rapidamente ao replicá-las para um site secundário e ao utilizar a recuperação automatizada, um modelo referido como um modelo de recuperação frequentemente quente. As equipas também podem replicar máquinas virtuais para um site funcional e secundário numa abordagem conhecida como um modelo frequente ou de elevada disponibilidade. A abordagem quente é mais cara, mas oferece o estado de recuperação mais elevado.

Cada um destes modelos reduz o RTO, o que ajuda as empresas a restaurar as suas capacidades empresariais mais rapidamente. No entanto, cada modelo também resulta num aumento significativo dos custos de gestão da cloud.

Tenha também em atenção que, para além da replicação para elevada disponibilidade, a cópia de segurança deve ser ativada para cenários como:

  • eliminação acidental
  • danos em dados
  • ataques de ransomware

Para obter mais informações sobre este processo de pensamento, veja Workload operations discipline (Disciplina de operações de carga de trabalho).

Passos seguintes

Depois de este componente de linha de base de gestão ser cumprido, a equipa pode olhar com antecedência para evitar interrupções nas operações da plataforma e nas operações de carga de trabalho.