Configurar a recuperação após desastre em escala para VMs VMware/servidores físicos

Artigo
08/31/2023

Este artigo descreve como configurar a recuperação após desastre para o Azure para grandes números (>1000) de VMs VMware no local ou servidores físicos no seu ambiente de produção, utilizando o serviço Site Recovery do Azure.

Definir a sua estratégia BCDR

Como parte da sua estratégia de continuidade de negócio e recuperação após desastre (BCDR), define objetivos de ponto de recuperação (RPOs) e objetivos de tempo de recuperação (RTOs) para as suas aplicações empresariais e cargas de trabalho. O RTO mede a duração do tempo e do nível de serviço no qual uma aplicação ou processo empresarial tem de ser restaurado e disponível, de modo a evitar problemas de continuidade.

Site Recovery fornece replicação contínua para VMs VMware e servidores físicos e um SLA para RTO.
À medida que planeia a recuperação após desastre em grande escala para VMs VMware e descobrir os recursos do Azure de que precisa, pode especificar um valor RTO que será utilizado para cálculos de capacidade.

Melhores práticas

Algumas melhores práticas gerais para a recuperação após desastre em larga escala. Estas melhores práticas são abordadas mais detalhadamente nas secções seguintes do documento.

Identificar requisitos de destino: calcule as necessidades de capacidade e recursos no Azure antes de configurar a recuperação após desastre.
Planear componentes de Site Recovery: descubra quais Site Recovery componentes (servidor de configuração, servidores de processos) que precisa para satisfazer a capacidade estimada.
Configurar um ou mais servidores de processos de escalamento horizontal: não utilize o servidor de processos que está a ser executado por predefinição no servidor de configuração.
Execute as atualizações mais recentes: a equipa do Site Recovery lança regularmente novas versões de componentes Site Recovery e deve certificar-se de que está a executar as versões mais recentes. Para o ajudar, controle as novidades das atualizações e ative e instale atualizações à medida que são lançadas.
Monitorizar proativamente: à medida que a recuperação após desastre está em execução, deve monitorizar proativamente o estado e o estado de funcionamento das máquinas replicadas e dos recursos de infraestrutura.
Testes de recuperação após desastre: deve executar testes de recuperação após desastre regularmente. Estes não afetam o seu ambiente de produção, mas ajudam a garantir que a ativação pós-falha para o Azure funcionará conforme esperado quando necessário.

Recolher informações de planeamento de capacidade

Recolha informações sobre o seu ambiente no local para ajudar a avaliar e estimar as suas necessidades de capacidade de destino (Azure).

Para O VMware, execute o Planeador de Implementações para VMs VMware para o fazer.
Para servidores físicos, recolha as informações manualmente.

Executar o Planeador de Implementações para VMs VMware

O Planeador de Implementações ajuda-o a recolher informações sobre o seu ambiente do VMware no local.

Execute o Planeador de Implementações durante um período que represente alterações típicas para as suas VMs. Isto irá gerar estimativas e recomendações mais precisas.
Recomendamos que execute o Planeador de Implementações no computador do servidor de configuração, uma vez que o Planner calcula o débito do servidor no qual está a ser executado. Saiba mais sobre a medição do débito.
Se ainda não tiver um servidor de configuração configurado:
- Obtenha uma descrição geral dos componentes Site Recovery.
- Configure um servidor de configuração para executar o Planeador de Implementações no mesmo.

Em seguida, execute o Planner da seguinte forma:

Saiba mais sobre o Planeador de Implementações. Pode transferir a versão mais recente a partir do portal ou transferi-la diretamente.
Reveja os pré-requisitos e as atualizações mais recentes do Planeador de Implementações e transfira e extraia a ferramenta.
Execute o Planeador de Implementações no servidor de configuração.
Gere um relatório para resumir estimativas e recomendações.
Analise as recomendações do relatório e as estimativas de custos.

Nota

Por predefinição, a ferramenta está configurada para criar um perfil e gera um relatório para até 1000 VMs. Pode alterar este limite ao aumentar o valor da chave MaxVMsSupported no ficheiro de ASRDeploymentPlanner.exe.config.

Planear requisitos e capacidade de destino (Azure)

Com as estimativas e recomendações recolhidas, pode planear recursos de destino e capacidade. Se tiver executado o Planeador de Implementações para VMs VMware, pode utilizar várias recomendações de relatório para o ajudar.

VMs compatíveis: utilize este número para identificar o número de VMs que estão prontas para recuperação após desastre para o Azure. As recomendações sobre a largura de banda de rede e os núcleos do Azure baseiam-se neste número.
Largura de banda de rede necessária: tenha em atenção a largura de banda de que precisa para a replicação delta de VMs compatíveis.
- Ao executar o Planner, especifique o RPO pretendido em minutos. As recomendações mostram-lhe a largura de banda necessária para cumprir esse RPO a 100% e 90% das vezes.
- As recomendações de largura de banda de rede têm em conta a largura de banda necessária para o número total de servidores de configuração e servidores de processos recomendados no Planner.
Núcleos do Azure obrigatórios: tenha em atenção o número de núcleos de que precisa na região do Azure de destino, com base no número de VMs compatíveis. Se não tiver núcleos suficientes, na ativação pós-falha Site Recovery não poderá criar as VMs do Azure necessárias.
Tamanho do lote de VM recomendado: o tamanho do lote recomendado baseia-se na capacidade de concluir a replicação inicial do lote no prazo de 72 horas por predefinição, ao mesmo tempo que cumpre um RPO de 100%. O valor de hora pode ser modificado.

Pode utilizar estas recomendações para planear recursos do Azure, largura de banda de rede e criação de lotes de VMs.

Planear subscrições e quotas do Azure

Queremos garantir que as quotas disponíveis na subscrição de destino são suficientes para lidar com a ativação pós-falha.

Tarefa	Detalhes	Ação
Verificar núcleos	Se os núcleos na quota disponível não forem iguais ou excederem a contagem total de destinos no momento da ativação pós-falha, as ativações pós-falha falharão.	Para VMs VMware, verifique se tem núcleos suficientes na subscrição de destino para cumprir a recomendação principal do Planeador de Implementações. Para servidores físicos, verifique se os núcleos do Azure cumprem as suas estimativas manuais. Para verificar as quotas, na Subscrição do portal do Azure>, clique em Utilização + quotas. Saiba mais sobre o aumento de quotas.
Verificar os limites de ativação pós-falha	O número de ativações pós-falha não deve exceder Site Recovery limites de ativação pós-falha.	Se as ativações pós-falha excederem os limites, pode adicionar subscrições e efetuar a ativação pós-falha a várias subscrições ou aumentar a quota de uma subscrição.

Limites de ativação pós-falha

Os limites indicam o número de ativações pós-falha suportadas por Site Recovery dentro de uma hora, assumindo três discos por computador.

O que significa o cumprimento? Para iniciar uma VM do Azure, o Azure requer que alguns controladores estejam no estado de arranque e que serviços como o DHCP sejam definidos para serem iniciados automaticamente.

Os computadores em conformidade já terão estas definições implementadas.
Para computadores com o Windows, pode verificar proativamente a conformidade e torná-los conformes, se necessário. Saiba mais.
Os computadores Linux só são colocados em conformidade no momento da ativação pós-falha.

O computador está em conformidade com o Azure?	Limites da VM do Azure (ativação pós-falha do disco gerido)
Yes	2000
No	1000

Os limites pressupõem que estão em curso outras tarefas mínimas na região de destino da subscrição.
Algumas regiões do Azure são mais pequenas e podem ter limites ligeiramente mais baixos.

Planear a infraestrutura e a conectividade da VM

Após a ativação pós-falha para o Azure, precisa que as cargas de trabalho funcionem como no local e para permitir que os utilizadores acedam a cargas de trabalho em execução nas VMs do Azure.

Saiba mais sobre a ativação pós-falha da infraestrutura do Active Directory ou do DNS no local para o Azure.
Saiba mais sobre como se preparar para ligar a VMs do Azure após a ativação pós-falha.

Planear a capacidade e os requisitos de origem

É importante que tenha servidores de configuração e servidores de processos de escalamento horizontal suficientes para satisfazer os requisitos de capacidade. À medida que inicia a implementação em grande escala, comece com um único servidor de configuração e um único servidor de processos de escalamento horizontal. À medida que atinge os limites prescritos, adicione servidores adicionais.

Nota

Para VMs VMware, o Planeador de Implementações faz algumas recomendações sobre os servidores de configuração e processo de que precisa. Recomendamos que utilize as tabelas incluídas nos seguintes procedimentos, em vez de seguir a recomendação do Planeador de Implementações.

Configurar um servidor de configuração

A capacidade do servidor de configuração é afetada pelo número de máquinas a replicar e não pela taxa de abandono de dados. Para descobrir se precisa de servidores de configuração adicionais, utilize estes limites de VM definidos.

CPU	Memória	Disco de cache	Limite de máquina replicado
8 vCPUs 2 sockets * 4 núcleos @ 2,5 Ghz	16 GB	600 GB	Até 550 máquinas Pressupõe que cada máquina tem três discos de 100 GB cada.

Estes limites baseiam-se num servidor de configuração configurado com um modelo OVF.
Os limites pressupõem que não está a utilizar o servidor de processos que está a ser executado por predefinição no servidor de configuração.

Se precisar de adicionar um novo servidor de configuração, siga estas instruções:

Configure um servidor de configuração para a recuperação após desastre da VM do VMware com um modelo OVF.
Configure um servidor de configuração manualmente para servidores físicos ou para implementações VMware que não podem utilizar um modelo OVF.

À medida que configura um servidor de configuração, tenha em atenção que:

Quando configura um servidor de configuração, é importante considerar a subscrição e o cofre no qual reside, uma vez que estes não devem ser alterados após a configuração. Se precisar de alterar o cofre, tem de desassociar o servidor de configuração do cofre e voltar a regista-lo. Esta ação para a replicação de VMs no cofre.
Se quiser configurar um servidor de configuração com vários adaptadores de rede, deve fazê-lo durante a configuração. Não pode fazê-lo depois de registar o servidor de configuração no cofre.

Configurar um servidor de processos

A capacidade do servidor de processos é afetada pelas taxas de alteração de dados e não pelo número de máquinas ativadas para replicação.

Para implementações grandes, deve ter sempre, pelo menos, um servidor de processos de escalamento horizontal.
Para descobrir se precisa de servidores adicionais, utilize a seguinte tabela.
Recomendamos que adicione um servidor com as especificações mais elevadas.

CPU	Memória	Disco de cache	Taxa de abandono
12 vCPUs 2 sockets*6 núcleos @ 2,5 Ghz	24 GB	1 TB	Até 2 TB por dia

Configure o servidor de processos da seguinte forma:

Veja os pré-requisitos.
Instale o servidor no portal ou a partir da linha de comandos.
Configure máquinas replicadas para utilizar o novo servidor. Se já tiver máquinas a replicar:
- Pode mover uma carga de trabalho completa do servidor de processos para o novo servidor de processos.
- Em alternativa, pode mover VMs específicas para o novo servidor de processos.

Ativar a replicação em grande escala

Depois de planear a capacidade e implementar os componentes e a infraestrutura necessários, ative a replicação para um grande número de VMs.

Ordenar máquinas em lotes. Ativa a replicação para VMs num lote e, em seguida, passa para o lote seguinte.
- Para VMs VMware, pode utilizar o tamanho de lote de VM recomendado no relatório Planeador de Implementações.
- Para máquinas físicas, recomendamos que identifique lotes baseados em máquinas com um tamanho e quantidade de dados semelhantes e no débito de rede disponível. O objetivo é criar lotes de máquinas com probabilidade de concluir a replicação inicial em cerca do mesmo período de tempo.
Se a alteração do disco de um computador for elevada ou exceder os limites em Implementação doPlanner, pode mover ficheiros não críticos que não precisa de replicar (como capturas de registo ou ficheiros temporários) do computador. Para VMs VMware, pode mover estes ficheiros para um disco separado e, em seguida, excluir esse disco da replicação.
Antes de ativar a replicação, verifique se as máquinas cumprem os requisitos de replicação.
Configure uma política de replicação para VMs VMware ou servidores físicos.
Ative a replicação para VMs VMware ou servidores físicos. Esta ação inicia a replicação inicial para as máquinas selecionadas.

Monitorizar a implementação

Depois de iniciar a replicação para o primeiro lote de VMs, comece a monitorizar a sua implementação da seguinte forma:

Atribua um administrador de recuperação após desastre para monitorizar o estado de funcionamento das máquinas replicadas.
Monitorizar eventos para itens replicados e a infraestrutura.
Monitorize o estado de funcionamento dos servidores de processos de escalamento horizontal.
Inscreva-se para obter notificações por e-mail para eventos, para uma monitorização mais fácil.
Realize exercícios regulares de recuperação após desastre para garantir que está tudo a funcionar conforme esperado.

Planear ativações pós-falha em grande escala

Em caso de desastre, poderá ter de efetuar a ativação pós-falha de um grande número de máquinas/cargas de trabalho para o Azure. Prepare-se para este tipo de evento da seguinte forma.

Pode preparar-se antecipadamente para a ativação pós-falha da seguinte forma:

Prepare a infraestrutura e as VMs para que as cargas de trabalho fiquem disponíveis após a ativação pós-falha e para que os utilizadores possam aceder às VMs do Azure.
Tenha em atenção os limites de ativação pós-falha anteriormente neste documento. Certifique-se de que as ativações pós-falha se enquadram nestes limites.
Execute exercícios regulares de recuperação após desastre. Os exercícios ajudam a:
- Encontre lacunas na implementação antes da ativação pós-falha.
- Estimize o RTO ponto a ponto para as suas aplicações.
- Estimize o RPO ponto a ponto para as cargas de trabalho.
- Identificar conflitos do intervalo de endereços IP.
- À medida que executa exercícios, recomendamos que não utilize redes de produção para exercícios e limpe as ativações pós-falha de teste após cada exploração.

Para executar uma ativação pós-falha em grande escala, recomendamos o seguinte:

Crie planos de recuperação para a ativação pós-falha da carga de trabalho.
- Cada plano de recuperação pode acionar a ativação pós-falha de até 100 máquinas.
- Saiba mais sobre os planos de recuperação.
Adicione Automatização do Azure scripts de runbook aos planos de recuperação, para automatizar quaisquer tarefas manuais no Azure. As tarefas típicas incluem a configuração de balanceadores de carga, a atualização do DNS, etc. Saiba mais
Antes da ativação pós-falha, prepare as máquinas Windows para que estejam em conformidade com o ambiente do Azure. Os limites de ativação pós-falha são mais elevados para os computadores que cumprem. Saiba mais sobre runbooks.
Ativação pós-falha do acionador com o cmdlet Start-AzRecoveryServicesAsrPlannedFailoverJob do PowerShell, juntamente com um plano de recuperação.

Passos seguintes

Monitorizar o Site Recovery