Projeto para recuperação

Concluído
A carga de trabalho deve ser capaz de antecipar e recuperar da maioria das falhas, de todas as magnitudes, com o mínimo de interrupção na experiência do usuário e nos objetivos de negócios.

Mesmo sistemas altamente resilientes precisam de abordagens de preparação para desastres, tanto no projeto de arquitetura quanto nas operações de carga de trabalho. Na camada de dados, você deve ter estratégias que possam reparar o estado da carga de trabalho se houver corrupção.

Cenário de exemplo

Atualmente, a Contoso hospeda uma grande quantidade de dados em um banco de dados SQL Server local e modernizou recentemente sua solução de análise para os dados com os serviços do Azure.

A nova solução de análise utiliza o Azure Analysis Services, o Azure Data Factory, o Azure Synapse Analytics, o Power BI e as Máquinas Virtuais do Azure. Todos os usuários da solução são internos. Depois de considerar os requisitos de disponibilidade da solução, a equipe decide implementá-la em uma única região.

Os dados são ingeridos usando o Azure Data Factory e processados antes de serem salvos no armazenamento do Analysis Services. Parte do processo requer um processo de janelas herdado, implantado em uma VM na nuvem.

Esteja preparado para desastres

Ter estruturado, testado e documentado planos de recuperação alinhados com as metas de recuperação negociadas. Os planos devem abranger todos os componentes, além do sistema como um todo.

Um processo bem definido leva a uma rápida recuperação que pode evitar impactos negativos nas finanças e na reputação do seu negócio. A realização de exercícios de recuperação regulares testa o processo de recuperação de componentes do sistema, dados e etapas de failover e failback para evitar confusão quando o tempo e a integridade dos dados são medidas fundamentais de sucesso.

O desafio da Contoso

  • A solução é usada apenas internamente e não é considerada de missão crítica. Portanto, a equipe de carga de trabalho e as partes interessadas de negócios concordam que a reconstrução da solução em uma região secundária é um modelo de recuperação suficiente no caso improvável de que a região do Azure onde ela é implantada seja perdida ou toda a solução fique indisponível por algum outro motivo.
  • A equipe de carga de trabalho descreve como criar a solução em outra região em seu plano de DR, mas ainda não teve a oportunidade de executar um drill de DR completo.

Aplicação da abordagem e dos resultados

  • Depois de passar por uma interrupção regional, a equipe de resposta de DR pode seguir as instruções do plano de DR para reimplantar a solução de análise em outra região.
  • A equipe descobre lacunas nos planos de DR para algumas das operações necessárias para implantar a solução, e o plano é atualizado para tornar a recuperação mais eficiente no futuro.
  • A equipe de carga de trabalho e as partes interessadas concordam em acelerar os testes de DR planejados para garantir que o plano atualizado permita uma recuperação mais eficiente.

Endereçar dados com monitoração de estado

Certifique-se de que você possa reparar os dados de todos os componentes com monitoração de estado dentro de suas metas de recuperação.

Os backups são essenciais para que o sistema volte a funcionar usando um ponto de recuperação confiável, como o último estado válido.

Backups imutáveis e transacionalmente consistentes garantem que os dados não possam ser alterados e que os dados restaurados não sejam corrompidos.

O desafio da Contoso

  • A equipe de carga de trabalho decide mover os bancos de dados SQL para o Azure para reduzir os tempos de processamento de análise. Um dos bancos de dados é muito usado durante o processo de análise pelas VMs, portanto, a equipe precisa garantir que o estado do banco de dados possa ser recuperado com o menor RPO possível.

Aplicação da abordagem e dos resultados

  • Como os bancos de dados são grandes, com mais de 4 TB cada, a migração para o Banco de Dados SQL do Azure não é possível a curto prazo. Assim, a equipe migra para VMs do Azure que executam o SQL Server 2022.
  • A equipe decide usar a função de Backup Automatizado para todos os bancos de dados, incluindo os críticos, como o usado pelas VMs.
  • Para os bancos de dados críticos, a equipe planeja usar a função Backup Automatizado junto com a função de link Instância Gerenciada para replicar ativamente os bancos de dados para uma Instância Gerenciada SQL do Azure.

Implemente recursos de autorrecuperação automatizados no projeto

Os recursos de autorrecuperação são mecanismos que permitem que os componentes da carga de trabalho resolvam automaticamente os problemas recuperando os componentes afetados e, se necessário, fazendo failover para a infraestrutura redundante. Use padrões de design para adicionar resiliência à sua carga de trabalho por meio de mecanismos de autorrecuperação.

A automação da autorrecuperação ajuda a reduzir os riscos de fatores externos, como a intervenção humana, e encurta o ciclo de reparação.

O desafio da Contoso

  • O processo do Windows invocado do Azure Data Factory ao ingerir dados foi inicialmente implantado em várias VMs para aumentar a disponibilidade.
  • Houve alguns casos em que o processo herdado do Windows falhou, exigindo uma reinicialização da VM. Embora o tempo de processamento em geral tenha sido minimamente afetado (devido ao nível de redundância), a equipe gostaria de implementar uma solução que automatize a deteção da falha e a recuperação.

Aplicação da abordagem e dos resultados

  • A equipe decide implementar uma solução de Conjunto de Dimensionamento de Máquina Virtual do Azure, que é configurada para implantar a Extensão de Integridade do Aplicativo para monitorar continuamente a integridade do processo de VM.
  • Com o Reparo Automático de Instância habilitado, o conjunto de dimensionamento agora pode reparar o componente reiniciando a VM ou criando uma nova instância com base na mesma imagem.

Verifique o seu conhecimento

1.

Qual das seguintes opções é um exemplo de métricas que ajudam a impulsionar seus planos de recuperação de desastres?

2.

Qual dos cenários a seguir é um exemplo de como lidar com dados com monitoração de estado para fins de recuperação?

3.

A Contoso tem um aplicativo de linha de negócios de missão crítica no Azure. Qual é uma maneira de implementar a autorrecuperação para melhorar a confiabilidade de sua aplicação?