Procedimentos de manutenção do cluster de ativação pós-falha

Artigo
04/18/2023

Aplica-se a: Azure Stack HCI, versões 22H2 e 21H2; Windows Server 2022, Windows Server 2019, Windows Server 2016

Este artigo pressupõe que precisa de desligar um servidor físico para efetuar a manutenção ou reiniciá-lo por outro motivo. Para instalar atualizações num cluster do Azure Stack HCI sem colocar os servidores offline, veja Atualizar clusters do Azure Stack HCI.

Colocar um servidor offline para manutenção requer colocar partes de armazenamento offline que são partilhadas em todos os servidores num cluster de ativação pós-falha. Isto requer colocar em pausa o servidor que pretende colocar offline, colocar os discos do servidor no modo de manutenção, mover funções em cluster e máquinas virtuais (VMs) para outros servidores no cluster e verificar se todos os dados estão disponíveis nos outros servidores no cluster. Este processo garante que os dados permanecem seguros e acessíveis durante todo o período de manutenção.

Pode utilizar o Windows Admin Center ou o PowerShell para colocar um servidor offline para manutenção. Este tópico abrange ambos os métodos.

Utilizar Windows Admin Center para utilizar um servidor offline

A forma mais simples de preparar um servidor offline é ao utilizar Windows Admin Center.

Verifique se é seguro deixar o servidor offline

Com Windows Admin Center, ligue-se ao servidor que pretende desativar offline. Selecione Discos de Armazenamento > no menu Ferramentas e verifique se a coluna Estado de cada disco virtual mostra Online.
Em seguida, selecione Volumes de Armazenamento > e verifique se a coluna Estado de Funcionamento de cada volume mostra Bom Estado de Funcionamento e se a coluna Estado de cada volume mostra OK.

Colocar em pausa e drenar o servidor

Antes de encerrar ou reiniciar um servidor, deve colocar o servidor em pausa e drenar (sair) de quaisquer funções em cluster, como VMs em execução no mesmo. Coloque sempre em pausa e esvazie os servidores agrupados antes de os colocar offline para manutenção.

Com Windows Admin Center, ligue-se ao cluster e, em seguida, selecione > Servidores de Computação no menu Ferramentas no Gestor de Clusters.
Selecione Inventário. Clique no nome do servidor que pretende colocar em pausa e drenar e selecione Colocar em Pausa. Deverá ver o seguinte pedido:

Colocar os servidores em pausa para manutenção: Tem a certeza de que pretende colocar o(s) servidor(s) em pausa? Isto move cargas de trabalho, como máquinas virtuais, para outros servidores no cluster.
Selecione sim para colocar o servidor em pausa e iniciar o processo de drenagem. O estado do servidor será apresentado como Em manutenção, Drenagem e funções como Hyper-V e VMs começarão imediatamente a migrar em direto para outros servidores no cluster. A implementação pode demorar alguns minutos. Não é possível adicionar funções ao servidor até que seja retomada. Quando o processo de drenagem estiver concluído, o estado do servidor será apresentado como Em manutenção, Drenagem concluída. O sistema operativo efetua uma verificação de segurança automática para garantir que é seguro continuar. Se existirem volumes em mau estado de funcionamento, este irá parar e alertá-lo de que não é seguro continuar.

Encerrar o servidor

Assim que o servidor tiver concluído a drenagem, pode encerrá-lo em segurança para manutenção ou reiniciá-lo.

Aviso

Se o servidor estiver a executar o Azure Stack HCI, versão 20H2, Windows Server 2019 ou Windows Server 2016, tem de colocar os discos no modo de manutenção antes de encerrar o servidor e retirar os discos do modo de manutenção antes de retomar o servidor no cluster.

Retomar o servidor

Quando estiver pronto para o servidor começar a alojar funções em cluster e VMs novamente, basta ativar o servidor, aguardar que este arranque seja iniciado e retomar o servidor com os seguintes passos.

No Gestor de Clusters, selecione > Servidores de Computação no menu Ferramentas à esquerda.
Selecione Inventário. Clique no nome do servidor que pretende retomar e, em seguida, clique em Retomar.

As funções em cluster e as VMs começarão imediatamente a migrar em direto para o servidor. A implementação pode demorar alguns minutos.

Aguarde pela ressincronização do armazenamento

Quando o servidor é retomado, todas as novas escritas que ocorreram enquanto não estava disponível precisam de ser ressincronizar. Isto acontece automaticamente através do controlo de alterações inteligente. Não é necessário que todos os dados sejam analisados ou sincronizados; apenas as alterações. Este processo é limitado para mitigar o impacto nas cargas de trabalho de produção. Dependendo de quanto tempo o servidor foi colocado em pausa e a quantidade de novos dados escritos, pode demorar muitos minutos a concluir.

Importante

Tem de aguardar que a sincronização seja concluída novamente antes de colocar outros servidores no cluster offline.

Para verificar se a ressincronização do armazenamento está concluída:

Ligue-se ao cluster com Windows Admin Center e selecione Volumes de Armazenamento>.
Selecione Inventário.
Verifique a coluna Estado para cada volume. Se mostrar OK, a ressincronização do armazenamento será concluída. Agora é seguro deixar outros servidores no cluster offline.

Utilizar o PowerShell para utilizar o PowerShell para utilizar um servidor offline

Utilize os seguintes procedimentos para colocar em pausa, drenar e retomar corretamente um servidor num cluster de ativação pós-falha com o PowerShell.

Verifique se é seguro deixar o servidor offline

Para verificar se todos os volumes estão em bom estado de funcionamento, execute o seguinte cmdlet como administrador:

Get-VirtualDisk

Eis um exemplo do aspeto da saída:

FriendlyName              ResiliencySettingName FaultDomainRedundancy OperationalStatus HealthStatus    Size FootprintOnPool StorageEfficiency
------------              --------------------- --------------------- ----------------- ------------    ---- --------------- -----------------
Mirror II                 Mirror                1                     OK                Healthy         4 TB         8.01 TB            49.99%
Mirror-accelerated parity                                             OK                Healthy      1002 GB         1.96 TB            49.98%
Mirror                    Mirror                1                     OK                Healthy         1 TB            2 TB            49.98%
ClusterPerformanceHistory Mirror                1                     OK                Healthy        24 GB           49 GB            48.98%

Verifique se a propriedade HealthStatus para cada volume é Bom Estado de Funcionamento e o OperationalStatus mostra OK.

Para o fazer com o Gestor de Clusters de Ativação Pós-falha, aceda aDiscosde Armazenamento>.

Colocar em pausa e drenar o servidor

Execute o seguinte cmdlet como administrador para colocar em pausa e drenar o servidor:

Suspend-ClusterNode -Drain

Para o fazer no Gestor de Clusters de Ativação Pós-falha, aceda a Nós, clique com o botão direito do rato no nó e, em seguida, selecione Colocar em Pausa>Funções de Drenagem.

Se o servidor estiver a executar o Azure Stack HCI, a versão 21H2 ou o Windows Server 2022, colocar o servidor em pausa e drenar também colocará os discos do servidor no modo de manutenção. Se o servidor estiver a executar o Azure Stack HCI, versão 20H2, Windows Server 2019 ou Windows Server 2016, terá de o fazer manualmente (consulte o passo seguinte).

Colocar discos no modo de manutenção

No Azure Stack HCI, versão 20H2, Windows Server 2019 e Windows Server 2016, colocar os discos do servidor no modo de manutenção dá-Espaços de Armazenamento Direto uma oportunidade para remover e consolidar corretamente os dados para garantir que o encerramento do servidor não afeta o estado da aplicação. Assim que um disco entrar no modo de manutenção, deixará de permitir escritas. Para minimizar os tempos de ressincronização do armazenamento, recomendamos que coloque os discos no modo de manutenção imediatamente antes do reinício e que os remova do modo de manutenção assim que o sistema for efetuado uma cópia de segurança.

Nota

Se o servidor estiver a executar o Azure Stack HCI, versão 21H2 ou Windows Server 2022, pode ignorar este passo porque os discos são colocados automaticamente no modo de manutenção quando o servidor é colocado em pausa e drenado. Estes sistemas operativos têm uma funcionalidade de reparação granular que torna as ressincronização mais rápidas e menos impactantes nos recursos de sistema e de rede, tornando viável que a manutenção do servidor e do armazenamento seja feita em conjunto.

Se o servidor estiver a executar o Windows Server 2019 ou o Azure Stack HCI, versão 20H2, execute o seguinte cmdlet como administrador:

Get-StorageScaleUnit -FriendlyName "Server1" | Enable-StorageMaintenanceMode

Se o servidor estiver a executar Windows Server 2016, utilize a seguinte sintaxe:

Get-StorageFaultDomain -Type StorageScaleUnit | Where-Object {$_.FriendlyName -eq "Server1"} | Enable-StorageMaintenanceMode

Encerrar o servidor

Assim que o servidor tiver concluído a drenagem, será apresentado como Em pausa no PowerShell e no Gestor de Clusters de Ativação Pós-falha.

Agora, pode encerrar o servidor ou reiniciá-lo com os cmdlets do Stop-Computer PowerShell ou Restart-Computer com o Gestor de Clusters de Ativação Pós-falha.

Nota

Ao executar um Get-VirtualDisk comando em servidores que estão a encerrar ou a iniciar/parar o serviço de cluster, o Estado Operacional do servidor pode ser reportado como incompleto ou degradado e a coluna Estado de Funcionamento pode listar um aviso. Isto é normal e não deve causar preocupação. Todos os volumes permanecem online e acessíveis.

Tirar discos do modo de manutenção

Se o servidor estiver a executar o Azure Stack HCI, versão 20H2, Windows Server 2019 ou Windows Server 2016, tem de desativar o modo de manutenção de armazenamento nos discos antes de retomar o servidor no cluster. Para minimizar os tempos de ressincronização do armazenamento, recomendamos que os remova do modo de manutenção assim que o sistema for efetuado uma cópia de segurança.

Nota

Se o servidor estiver a executar o Azure Stack HCI, versão 21H2 ou Windows Server 2022, pode ignorar este passo porque os discos serão automaticamente retirados do modo de manutenção quando o servidor for retomado.

Se o servidor estiver a executar o Windows Server 2019 ou o Azure Stack HCI, versão 20H2, execute o seguinte cmdlet como administrador para desativar o modo de manutenção de armazenamento:

Get-StorageScaleUnit -FriendlyName "Server1" | Disable-StorageMaintenanceMode

Se o servidor estiver a executar Windows Server 2016, utilize a seguinte sintaxe:

Get-StorageFaultDomain -Type StorageScaleUnit | Where-Object {$_.FriendlyName -eq "Server1"} | Disable-StorageMaintenanceMode

Retomar o servidor

Retome o servidor para o cluster. Para devolver as funções em cluster e as VMs que estavam anteriormente em execução no servidor, utilize o sinalizador opcional -Reativação Pós-falha :

Resume-ClusterNode –Failback Immediate

Para fazê-lo no Gestor de Clusters de Ativação Pós-falha, aceda a Nós, clique com o botão direito do rato no nó e, em seguida, selecione Retomar>Funções Pós-falha Para Trás.

Assim que o servidor for retomado, será apresentado como Up no PowerShell e No Gestor de Clusters de Ativação Pós-falha.

Aguarde pela ressincronização do armazenamento

Quando o servidor for retomado, tem de aguardar que a sincronização seja concluída novamente antes de colocar outros servidores no cluster offline.

Execute o seguinte cmdlet como administrador para monitorizar o progresso:

Get-StorageJob

Se a ressincronizador já tiver sido concluída, não obterá nenhuma saída.

Eis alguns exemplos de saída que mostram tarefas de ressincronização (reparação) ainda em execução:

Name   IsBackgroundTask ElapsedTime JobState  PercentComplete BytesProcessed BytesTotal
----   ---------------- ----------- --------  --------------- -------------- ----------
Repair True             00:06:23    Running   65              11477975040    17448304640
Repair True             00:06:40    Running   66              15987900416    23890755584
Repair True             00:06:52    Running   68              20104802841    22104819713

A coluna BytesTotal mostra a quantidade de armazenamento necessária para ressincronizar. A coluna PercentComplete apresenta o progresso.

Aviso

Não é seguro deixar outro servidor offline até que estas tarefas de reparação sejam concluídas.

Durante este período, em HealthStatus, os volumes continuarão a ser apresentados como Aviso, o que é normal.

Por exemplo, se utilizar o cmdlet enquanto o Get-VirtualDisk armazenamento está a sincronizar novamente, poderá ver o seguinte resultado:

FriendlyName ResiliencySettingName OperationalStatus HealthStatus IsManualAttach Size
------------ --------------------- ----------------- ------------ -------------- ----
MyVolume1    Mirror                InService         Warning      True           1 TB
MyVolume2    Mirror                InService         Warning      True           1 TB
MyVolume3    Mirror                InService         Warning      True           1 TB

Assim que as tarefas estiverem concluídas, verifique se os volumes mostram Novamente Bom Estado de Funcionamento com o Get-VirtualDisk cmdlet. Eis alguns exemplos de saída:

FriendlyName ResiliencySettingName OperationalStatus HealthStatus IsManualAttach Size
------------ --------------------- ----------------- ------------ -------------- ----
MyVolume1    Mirror                OK                Healthy      True           1 TB
MyVolume2    Mirror                OK                Healthy      True           1 TB
MyVolume3    Mirror                OK                Healthy      True           1 TB

Agora é seguro colocar em pausa e reiniciar outros servidores no cluster.

Passos seguintes

Para obter informações relacionadas, consulte também:

Partilhar via

Procedimentos de manutenção do cluster de ativação pós-falha

Utilizar Windows Admin Center para utilizar um servidor offline

Verifique se é seguro deixar o servidor offline

Colocar em pausa e drenar o servidor

Encerrar o servidor

Retomar o servidor

Aguarde pela ressincronização do armazenamento

Utilizar o PowerShell para utilizar o PowerShell para utilizar um servidor offline

Verifique se é seguro deixar o servidor offline

Colocar em pausa e drenar o servidor

Colocar discos no modo de manutenção

Encerrar o servidor

Tirar discos do modo de manutenção

Retomar o servidor

Aguarde pela ressincronização do armazenamento

Passos seguintes

Comentários

Comentários

Recursos adicionais