Procedimentos de manutenção do cluster de failover

Aplica-se a: Azure Stack HCI, versões 22H2 e 21H2; Windows Server 2022, Windows Server 2019, Windows Server 2016

Este artigo pressupõe que você precisa desligar um servidor físico para executar a manutenção ou reiniciá-lo por algum outro motivo. Para instalar atualizações em um cluster do Azure Stack HCI sem colocar os servidores offline, consulte Atualizar clusters do Azure Stack HCI.

Colocar um servidor offline para manutenção requer colocar partes do armazenamento offline que são compartilhadas em todos os servidores em um cluster de failover. Isso requer pausar o servidor que você deseja colocar offline, colocar os discos do servidor no modo de manutenção, mover funções clusterizados e VMs (máquinas virtuais) para outros servidores no cluster e verificar se todos os dados estão disponíveis nos outros servidores no cluster. Esse processo garante que os dados permaneçam seguros e acessíveis durante todo o período de manutenção.

Você pode usar Windows Admin Center ou PowerShell para colocar um servidor offline para manutenção. Este tópico aborda os dois métodos.

Leve um servidor offline usando Windows Admin Center

A maneira mais simples de se preparar para colocar um servidor offline é usando Windows Admin Center.

Verifique se é seguro colocar o servidor offline

  1. Usando Windows Admin Center, conecte-se ao servidor que você deseja colocar offline. Selecione Discos de Armazenamento > no menu Ferramentas e verifique se a coluna Status de cada disco virtual mostra Online.

  2. Em seguida, selecione Volumes de Armazenamento > e verifique se a coluna Integridade de cada volume mostra Íntegro e se a coluna Status de cada volume mostra OK.

Pausar e esvaziar o servidor

Antes de desligar ou reiniciar um servidor, você deve pausar o servidor e esvaziar (desativar) todas as funções clusterizados, como VMs em execução nele. Sempre pause e escorra os servidores clusterizados antes de levá-los offline para manutenção.

  1. Usando Windows Admin Center, conecte-se ao cluster e selecione > Servidores de Computação no menu Ferramentas no Gerenciador de Cluster.

  2. Selecione Inventário. Clique no nome do servidor que você deseja pausar e esvaziar e selecione Pausar. Você deverá ver o seguinte prompt:

    Pausar servidores para manutenção: tem certeza de que deseja pausar os servidores? Isso move cargas de trabalho, como máquinas virtuais, para outros servidores no cluster.

  3. Selecione sim para pausar o servidor e iniciar o processo de esvaziamento. O servidor status será mostrado como Em manutenção, Esvaziamento e funções como Hyper-V e VMs começarão imediatamente a migração dinâmica para outros servidores no cluster. Isso pode levar alguns minutos. Nenhuma função pode ser adicionada ao servidor até que ela seja retomada. Quando o processo de esvaziamento for concluído, o servidor status será exibido como Em manutenção, Esvaziar concluído. O sistema operacional executa uma marcar de segurança automática para garantir que seja seguro continuar. Se houver volumes não íntegros, ele interromperá o processo e alertará você de que não é seguro continuar.

Desligar o servidor

Depois que o servidor tiver concluído o esvaziamento, você poderá desligá-lo com segurança para manutenção ou reiniciá-lo.

Aviso

Se o servidor estiver executando o Azure Stack HCI, versão 20H2, Windows Server 2019 ou Windows Server 2016, você deverá colocar os discos no modo de manutenção antes de desligar o servidor e tirar os discos do modo de manutenção antes de retomar o servidor no cluster.

Retomar o servidor

Quando estiver pronto para o servidor começar a hospedar funções clusterizados e VMs novamente, basta ativar o servidor, aguardar a inicialização dele e retomar o servidor usando as etapas a seguir.

  1. No Gerenciador de Cluster, selecione > Servidores de Computação no menu Ferramentas à esquerda.

  2. Selecione Inventário. Clique no nome do servidor que você deseja retomar e clique em Retomar.

Funções e VMs clusterizados começarão imediatamente a migrar ao vivo de volta para o servidor. Isso pode levar alguns minutos.

Aguarde até que o armazenamento se ressincronizar

Quando o servidor é retomado, todas as novas gravações que ocorreram enquanto ele não estava disponível precisam ser ressincronizantes. Isso acontece automaticamente, usando o controle de alterações inteligente. Não é necessário que todos os dados sejam verificados ou sincronizados; apenas as alterações. Esse processo é reprimido para atenuar o impacto das cargas de trabalho de produção. Dependendo de quanto tempo o servidor foi pausado e de quantos novos dados foram gravados, pode levar muitos minutos para ser concluído.

Importante

Você deve aguardar a sincronização novamente ser concluída antes de colocar todos os outros servidores no cluster offline.

Para marcar se a ressincronização de armazenamento estiver concluída:

  1. Conecte-se ao cluster usando Windows Admin Center e selecione Volumes de Armazenamento>.
  2. Selecione Inventário.
  3. Verifique a coluna Status para cada volume. Se ele mostrar OK, a ressincronização de armazenamento será concluída. Agora é seguro colocar outros servidores no cluster offline.

Tirar um servidor offline usando o PowerShell

Use os procedimentos a seguir para pausar, esvaziar e retomar corretamente um servidor em um cluster de failover usando o PowerShell.

Verifique se é seguro colocar o servidor offline

Para verificar se todos os volumes estão íntegros, execute o seguinte cmdlet como administrador:

Get-VirtualDisk

Este é um exemplo da saída do comando:

FriendlyName              ResiliencySettingName FaultDomainRedundancy OperationalStatus HealthStatus    Size FootprintOnPool StorageEfficiency
------------              --------------------- --------------------- ----------------- ------------    ---- --------------- -----------------
Mirror II                 Mirror                1                     OK                Healthy         4 TB         8.01 TB            49.99%
Mirror-accelerated parity                                             OK                Healthy      1002 GB         1.96 TB            49.98%
Mirror                    Mirror                1                     OK                Healthy         1 TB            2 TB            49.98%
ClusterPerformanceHistory Mirror                1                     OK                Healthy        24 GB           49 GB            48.98%

Verifique se a propriedade HealthStatus para cada volume é íntegro e se o OperationalStatus mostra OK.

Para fazer isso usando o Gerenciador de Cluster de Failover, acesseDiscosde Armazenamento>.

Pausar e esvaziar o servidor

Execute o seguinte cmdlet como administrador para pausar e esvaziar o servidor:

Suspend-ClusterNode -Drain

Para fazer isso no Gerenciador de Cluster de Failover, acesse Nós, clique com botão direito do mouse no nó e selecione Pausar>Esvaziar Funções.

Se o servidor estiver executando o Azure Stack HCI, versão 21H2 ou Windows Server 2022, pausar e esvaziar o servidor também colocará os discos do servidor no modo de manutenção. Se o servidor estiver executando o Azure Stack HCI, versão 20H2, Windows Server 2019 ou Windows Server 2016, você precisará fazer isso manualmente (consulte a próxima etapa).

Colocar discos no modo de manutenção

No Azure Stack HCI, versão 20H2, Windows Server 2019 e Windows Server 2016, colocar os discos do servidor no modo de manutenção dá a Espaços de Armazenamento Diretos uma oportunidade de liberar e confirmar dados normalmente para garantir que o desligamento do servidor não afete o estado do aplicativo. Assim que um disco entrar no modo de manutenção, ele não permitirá mais gravações. Para minimizar os tempos de ressincronização de armazenamento, recomendamos colocar os discos no modo de manutenção logo antes da reinicialização e tirá-los do modo de manutenção assim que o sistema estiver fazendo backup.

Observação

Se o servidor estiver executando o Azure Stack HCI, versão 21H2 ou Windows Server 2022, você poderá ignorar essa etapa porque os discos são colocados automaticamente no modo de manutenção quando o servidor é pausado e esvaziado. Esses sistemas operacionais têm um recurso de reparo granular que torna as ressincronizações mais rápidas e menos impactantes nos recursos do sistema e da rede, tornando viável fazer a manutenção do servidor e do armazenamento em conjunto.

Se o servidor estiver executando o Windows Server 2019 ou o Azure Stack HCI, versão 20H2, execute o seguinte cmdlet como administrador:

Get-StorageScaleUnit -FriendlyName "Server1" | Enable-StorageMaintenanceMode

Se o servidor estiver executando Windows Server 2016, use a seguinte sintaxe:

Get-StorageFaultDomain -Type StorageScaleUnit | Where-Object {$_.FriendlyName -eq "Server1"} | Enable-StorageMaintenanceMode

Desligar o servidor

Depois que o servidor tiver concluído o esvaziamento, ele será exibido como Pausado no PowerShell e no Gerenciador de Cluster de Failover.

Agora você pode desligar o servidor com segurança ou reiniciá-lo usando os Stop-Computer cmdlets do PowerShell ou Restart-Computer usando o Gerenciador de Cluster de Failover.

Observação

Ao executar um Get-VirtualDisk comando em servidores que estão desligando ou iniciando/parando o serviço de cluster, o Status Operacional do servidor pode ser relatado como incompleto ou degradado e a coluna Status de Integridade pode listar um aviso. Isso é normal e não deve gerar preocupação. Todos os volumes permanecem online e acessíveis.

Tirar discos do modo de manutenção

Se o servidor estiver executando o Azure Stack HCI, versão 20H2, Windows Server 2019 ou Windows Server 2016, você deverá desabilitar o modo de manutenção de armazenamento nos discos antes de retomar o servidor no cluster. Para minimizar os tempos de ressincronização de armazenamento, recomendamos tirá-los do modo de manutenção assim que o sistema estiver fazendo backup.

Observação

Se o servidor estiver executando o Azure Stack HCI, versão 21H2 ou Windows Server 2022, você poderá ignorar essa etapa porque os discos serão automaticamente retirados do modo de manutenção quando o servidor for retomado.

Se o servidor estiver executando o Windows Server 2019 ou o Azure Stack HCI, versão 20H2, execute o seguinte cmdlet como administrador para desabilitar o modo de manutenção de armazenamento:

Get-StorageScaleUnit -FriendlyName "Server1" | Disable-StorageMaintenanceMode

Se o servidor estiver executando Windows Server 2016, use a seguinte sintaxe:

Get-StorageFaultDomain -Type StorageScaleUnit | Where-Object {$_.FriendlyName -eq "Server1"} | Disable-StorageMaintenanceMode

Retomar o servidor

Retome o servidor para o cluster. Para retornar as funções clusterizados e as VMs que estavam sendo executadas anteriormente no servidor, use o sinalizador opcional -Failback :

Resume-ClusterNode –Failback Immediate

Para fazer isso no Gerenciador de Cluster de Failover, acesse Nós, clique com botão direito do mouse no nó e selecione Retomar>Fazer Failback de Funções.

Depois que o servidor for retomado, ele será exibido como Up no PowerShell e no Gerenciador de Cluster de Failover.

Aguarde até que o armazenamento se ressincronizar

Quando o servidor for retomado, você deverá aguardar a sincronização novamente ser concluída antes de colocar todos os outros servidores no cluster offline.

Execute o seguinte cmdlet como administrador para monitorar o progresso:

Get-StorageJob

Se a sincronização novamente já tiver sido concluída, você não obterá nenhuma saída.

Aqui está um exemplo de saída mostrando trabalhos ressincronizados (reparo) ainda em execução:

Name   IsBackgroundTask ElapsedTime JobState  PercentComplete BytesProcessed BytesTotal
----   ---------------- ----------- --------  --------------- -------------- ----------
Repair True             00:06:23    Running   65              11477975040    17448304640
Repair True             00:06:40    Running   66              15987900416    23890755584
Repair True             00:06:52    Running   68              20104802841    22104819713

A coluna BytesTotal mostra a quantidade de armazenamento que precisa ser ressincronizado. A coluna PercentComplete exibe o progresso.

Aviso

Não é seguro colocar outro servidor offline até que esses trabalhos de reparo sejam concluídos.

Durante esse tempo, em HealthStatus, seus volumes continuarão a aparecer como Aviso, o que é normal.

Por exemplo, se você usar o cmdlet enquanto o Get-VirtualDisk armazenamento estiver sincronizando novamente, você poderá ver a seguinte saída:

FriendlyName ResiliencySettingName OperationalStatus HealthStatus IsManualAttach Size
------------ --------------------- ----------------- ------------ -------------- ----
MyVolume1    Mirror                InService         Warning      True           1 TB
MyVolume2    Mirror                InService         Warning      True           1 TB
MyVolume3    Mirror                InService         Warning      True           1 TB

Depois que os trabalhos forem concluídos, verifique se os volumes aparecem como Íntegro novamente usando o cmdlet Get-VirtualDisk. Veja a seguir um exemplo de saída:

FriendlyName ResiliencySettingName OperationalStatus HealthStatus IsManualAttach Size
------------ --------------------- ----------------- ------------ -------------- ----
MyVolume1    Mirror                OK                Healthy      True           1 TB
MyVolume2    Mirror                OK                Healthy      True           1 TB
MyVolume3    Mirror                OK                Healthy      True           1 TB

Agora é seguro pausar e reiniciar outros servidores no cluster.

Próximas etapas

Para informações relacionadas, confira também: