Partilhar via


Proteja e recupere no gerenciamento de nuvem

Antes de se prepararem para uma possível interrupção da carga de trabalho, as equipes de gerenciamento de nuvem devem primeiro certificar-se de que atenderam aos requisitos para:

À medida que planejam, as equipes devem começar com uma suposição de que algo falhará quando ocorrer um desastre. A preparação para uma interrupção permite que as equipes detetem falhas mais cedo e se recuperem mais rapidamente. O foco desta disciplina está nas etapas que vêm imediatamente após uma falha do sistema. Como você protege as cargas de trabalho para que elas possam ser recuperadas rapidamente quando ocorre uma interrupção?

Nenhuma solução técnica pode oferecer consistentemente um SLA que garanta 100% de tempo de atividade. As soluções com as arquiteturas mais redundantes afirmam oferecer "seis 9s" ou 99,9999% de tempo de atividade. Mas mesmo uma solução de "seis 9s" cai por 31,6 segundos em qualquer ano. É raro uma solução garantir um grande investimento operacional contínuo que é necessário para atingir "seis 9s" de tempo de atividade.

Traduzir conversas de proteção e recuperação

As cargas de trabalho que alimentam as operações de negócios consistem em:

  • Aplicações
  • Dados
  • Máquinas virtuais (VMs)
  • Outros ativos

Cada ativo pode exigir sua própria abordagem de proteção e recuperação. O objetivo importante desta disciplina é estabelecer um compromisso consistente dentro da linha de base de gestão, que pode fornecer um ponto de partida para discussões de negócios.

No mínimo, as equipes de gerenciamento de nuvem devem criar uma abordagem de linha de base para cada ativo, com um compromisso claro com a recuperação rápida e a perda mínima de dados.

Objetivos de tempo de recuperação (RTO)

Um objetivo de tempo de recuperação é a quantidade de tempo que deve levar para recuperar qualquer sistema para seu estado anterior a um desastre. Tal incluiria o tempo necessário para:

  • Restaure a funcionalidade mínima para VMs e aplicativos
  • Restaure os dados exigidos pelos aplicativos.

Em termos de negócios, RTO representa a quantidade de tempo que os processos de negócios estão fora de serviço. Para cargas de trabalho de missão crítica, essa variável deve ser relativamente baixa, permitindo que os processos de negócios sejam retomados rapidamente. Para cargas de trabalho de prioridade mais baixa, um nível padrão de RTO pode não ter um impacto percetível no desempenho da empresa.

Uma empresa deve criar uma linha de base de gerenciamento que estabeleça um RTO padrão para cargas de trabalho não críticas. A empresa pode então usar essa linha de base como uma forma de justificar investimentos adicionais em tempos de recuperação.

RPO (Recovery Point Objetives, objetivos de ponto de recuperação)

Na maioria dos sistemas de gerenciamento de nuvem, alguma forma de proteção de dados captura e armazena dados periodicamente. O ponto de recuperação refere-se à última vez que os dados foram capturados. Quando um sistema falha, ele pode ser restaurado apenas para o ponto de recuperação mais recente.

O objetivo do ponto de recuperação é medido desde o ponto de recuperação mais recente até uma interrupção. Se o RPO for medido em horas, uma falha do sistema resultará na perda de dados durante as horas entre o último ponto de recuperação e a interrupção. Se o RPO for medido em dias, uma falha do sistema resultará na perda de dados para os dias entre o último ponto de recuperação e a interrupção. Um RPO de um dia teoricamente resultaria na perda de todas as transações no dia que antecedeu a falha.

Para sistemas de missão crítica, medir um RPO em minutos ou segundos pode ajudar a evitar perdas de receita ou lucros. No entanto, um RPO mais curto geralmente resulta em maiores custos de gerenciamento. Para ajudar a minimizar esses custos, uma empresa deve criar uma linha de base de gerenciamento que se concentre no RPO aceitável por mais tempo. A empresa pode então diminuir o RPO das plataformas ou cargas de trabalho específicas que exigem mais investimento.

Proteja e recupere cargas de trabalho

A maioria das cargas de trabalho em um ambiente de TI dá suporte a um processo técnico ou de negócios específico. Os sistemas que não têm um impacto sistêmico nas operações de negócios geralmente não justificam o aumento do investimento necessário para recuperar sistemas rapidamente ou minimizar a perda de dados. Ao estabelecer uma linha de base, uma empresa pode descobrir o nível de suporte de recuperação de que precisa a um preço que possa gerenciar de forma consistente. Entender isso ajuda as partes interessadas do negócio a avaliar o valor do aumento do investimento na recuperação.

Para a maioria das equipes de gerenciamento de nuvem, uma linha de base aprimorada, com compromissos específicos de RPO/RTO para vários ativos, produz o caminho mais favorável para compromissos comerciais mútuos. As seções a seguir descrevem algumas linhas de base aprimoradas comuns que capacitam uma empresa a adicionar facilmente proteção e funcionalidade de recuperação por meio de um processo repetível.

Proteja e recupere dados

Os dados são, sem dúvida, o ativo mais valioso da economia digital. A perda dos dados que alimentam uma carga de trabalho de produção leva à perda de receita ou lucros. A linha de base aprimorada mais comum é a capacidade de proteger e recuperar dados de forma eficaz. Incentivamos as equipes de gerenciamento de nuvem a oferecer um nível de linha de base de gerenciamento aprimorado que ofereça suporte a plataformas de dados comuns.

Antes de as equipes de gerenciamento de nuvem implementarem operações de plataforma, é comum que elas ofereçam suporte a operações aprimoradas para uma plataforma de dados de plataforma como serviço (PaaS). Por exemplo, é fácil para uma equipe de gerenciamento de nuvem impor uma frequência maior de backup ou replicação multirregional para o Banco de Dados SQL do Azure ou soluções do Azure Cosmos DB. Isso permite que a equipe de desenvolvimento melhore facilmente o RPO modernizando suas plataformas de dados.

Para saber mais sobre esse processo de pensamento, consulte Disciplina de operações da plataforma.

Proteja e recupere VMs

A maioria das cargas de trabalho depende um pouco de máquinas virtuais, que hospedam vários aspetos da solução. Uma empresa deve recuperar algumas máquinas virtuais rapidamente para que a carga de trabalho dê suporte aos seus processos após uma falha do sistema.

Cada minuto de tempo de inatividade nessas máquinas virtuais pode causar perda de receita ou redução de lucros. Quando o tempo de inatividade da VM tem um impacto direto no desempenho fiscal do negócio, o RTO é muito importante. As equipes de gerenciamento de nuvem podem recuperar máquinas virtuais rapidamente replicando-as para um site secundário e usando a recuperação automatizada, um modelo conhecido como modelo de recuperação quente. As equipes também podem replicar máquinas virtuais para um site secundário funcional em uma abordagem conhecida como modelo hot-hot, ou de alta disponibilidade. A abordagem quente é mais cara, mas oferece o mais alto estado de recuperação.

Cada um desses modelos reduz o RTO, o que ajuda as empresas a restaurar seus recursos de negócios mais rapidamente. No entanto, cada modelo também resulta em custos de gerenciamento de nuvem significativamente aumentados.

Observe também que, além da replicação para alta disponibilidade, o backup deve ser habilitado para cenários como:

  • Exclusão acidental
  • Corrupção de dados
  • Ataques de ransomware

Para obter mais informações sobre esse processo de pensamento, consulte Disciplina de operações de carga de trabalho.

Próximos passos

Depois que esse componente de linha de base de gerenciamento for atendido, a equipe poderá olhar para frente para evitar interrupções nas operações da plataforma e nas operações de carga de trabalho.