Validar um cluster do Azure Stack HCI

Aplica-se a: Azure Stack HCI, versões 22H2 e 21H2; Windows Server 2022, Windows Server 2019.

Aviso

As instruções de implementação fornecidas neste artigo aplicam-se a uma versão mais antiga, o Azure Stack HCI, versão 22H2. Para novas implementações, recomendamos que utilize a versão mais recente disponível geralmente, o Azure Stack HCI, versão 23H2. Para obter instruções de implementação, veja About Azure Stack HCI, version 23H2 deployment (Acerca do Azure Stack HCI, versão 23H2).

Confirme que o DCB já não é a ferramenta recomendada para configurar ou testar a configuração de rede do anfitrião no Azure Stack HCI. Recomendamos que utilize o ATC de Rede para configurar a configuração de rede do anfitrião para o Azure Stack HCI. O ATC de Rede substitui sempre o DCB validado no Azure Stack HCI.

Embora o assistente Criar cluster no Windows Admin Center efetue determinadas validações para criar um cluster de trabalho com o hardware selecionado, a validação do cluster efetua verificações adicionais para garantir que o cluster funcionará num ambiente de produção. Este artigo de procedimentos centra-se no motivo pelo qual a validação do cluster é importante e quando executá-la num cluster do Azure Stack HCI.

Recomendamos que efetue a validação do cluster para os seguintes cenários principais:

  • Depois de implementar um cluster de servidores, execute a ferramenta Validate-DCB para testar a rede.
  • Depois de atualizar um cluster de servidores, consoante o seu cenário, execute ambas as opções de validação para resolver problemas do cluster.
  • Depois de configurar a replicação com a Réplica de Armazenamento, confirme que a replicação está a decorrer normalmente ao verificar alguns eventos específicos e executar alguns comandos.
  • Depois de criar um cluster de servidores, execute a ferramenta Validate-DCB antes de colocá-la em produção.

O que é a validação do cluster?

A validação do cluster destina-se a detetar problemas de hardware ou configuração antes de um cluster entrar em produção. A validação do cluster ajuda a garantir que a solução do Azure Stack HCI que está prestes a implementar é verdadeiramente fiável. Também pode utilizar a validação de clusters em clusters de ativação pós-falha configurados como uma ferramenta de diagnóstico.

Cenários de validação específicos

Esta secção descreve cenários em que a validação também é necessária ou útil.

  • Validação antes de o cluster ser configurado:

    • Um conjunto de servidores prontos para se tornarem um cluster de ativação pós-falha: Este é o cenário de validação mais simples. Os componentes de hardware (sistemas, redes e armazenamento) estão ligados, mas os sistemas ainda não funcionam como um cluster. A execução de testes nesta situação não tem qualquer efeito na disponibilidade.

    • VMs do servidor: Para servidores virtualizados num cluster, execute a validação do cluster como faria em qualquer outro cluster novo. O requisito para executar a funcionalidade é o mesmo, quer tenha:

      • Um "cluster anfitrião" onde ocorre a ativação pós-falha entre dois computadores físicos.
      • Um "cluster convidado" onde ocorre a ativação pós-falha entre sistemas operativos convidados no mesmo computador físico.
  • Validação após a configuração e utilização do cluster:

    • Antes de adicionar um servidor ao cluster: Quando adiciona um servidor a um cluster, recomendamos vivamente que valide o cluster. Especifique os membros do cluster existentes e o novo servidor quando executar a validação do cluster.

    • Ao adicionar unidades: Quando adicionar unidades adicionais ao cluster, que é diferente de substituir unidades falhadas ou criar discos virtuais ou volumes que dependem das unidades existentes, execute a validação do cluster para confirmar que o novo armazenamento funcionará corretamente.

    • Ao fazer alterações que afetam o firmware ou os controladores: Se atualizar ou efetuar alterações ao cluster que afetam o firmware ou os controladores, tem de executar a validação do cluster para confirmar que a nova combinação de hardware, firmware, controladores e software suporta a funcionalidade de cluster de ativação pós-falha.

    • Depois de restaurar um sistema a partir da cópia de segurança: Depois de restaurar um sistema a partir da cópia de segurança, execute a validação do cluster para confirmar que o sistema funciona corretamente como parte de um cluster.

Validar redes

A ferramenta Microsoft Validate-DCB foi concebida para validar a configuração do Data Center Bridging (DCB) no cluster. Para tal, a ferramenta utiliza uma configuração esperada como entrada e, em seguida, testa cada servidor no cluster. Esta secção aborda como instalar e executar a ferramenta Validate-DCB, rever os resultados e resolver erros de rede identificados pela ferramenta.

Nota

A Microsoft recomenda implementar e gerir a sua configuração com o ATC de Rede, o que elimina a maioria dos desafios de configuração que a ferramenta Validate-DCB verifica. Para saber mais sobre o ATC de Rede, que fornece uma abordagem baseada na intenção para a implementação da rede de anfitrião, veja Simplificar a rede de anfitriões com o ATC de Rede.

Na rede, o acesso remoto direto à memória (RDMA) através da Ethernet Convergida (RoCE) requer tecnologias DCB para tornar os recursos de infraestrutura de rede sem perda. Com o iWARP, o DCB é opcional. No entanto, a configuração do DCB pode ser complexa, com a configuração exata necessária em:

  • Cada servidor no cluster
  • Cada porta de rede através da qual o tráfego RDMA passa nos recursos de infraestrutura

Pré-requisitos

  • Informações de configuração de rede do cluster de servidores que pretende validar, incluindo:
    • Nome do cluster de anfitrião ou servidor
    • Nome do comutador virtual
    • Nomes dos adaptadores de rede
    • Definições de Controlo de Fluxo de Prioridade (PFC) e Seleção de Transmissão Avançada (ETS)
  • Uma ligação à Internet para transferir o módulo de ferramentas no Windows PowerShell da Microsoft.

Instalar e executar a ferramenta Validate-DCB

Para instalar e executar a ferramenta Validate-DCB:

  1. No pc de gestão, abra uma sessão Windows PowerShell como Administrador e, em seguida, utilize o seguinte comando para instalar a ferramenta.

    Install-Module Validate-DCB
    
  2. Aceite os pedidos para utilizar o fornecedor NuGet e aceda ao repositório para instalar a ferramenta.

  3. Depois de o PowerShell se ligar à rede Microsoft para transferir a ferramenta, escreva Validate-DCB e prima Enter para iniciar o assistente de ferramentas.

    Nota

    Se não conseguir executar o script da ferramenta Validate-DCB, poderá ter de ajustar as políticas de execução do PowerShell. Utilize o cmdlet Get-ExecutionPolicy para ver as definições atuais da política de execução de scripts. Para obter informações sobre como definir políticas de execução no PowerShell, veja Acerca das Políticas de Execução.

  4. Na página Bem-vindo ao assistente de configuração Validate-DCB, selecione Seguinte.

  5. Na página Clusters e Nós, escreva o nome do cluster de servidores que pretende validar, selecione Resolver para listá-lo na página e, em seguida, selecione Seguinte.

    A página Clusters e Nós do assistente de configuração Validate-DCB

  6. Na página Adaptadores:

    1. Selecione a caixa de verificação vSwitch anexado e escreva o nome do vSwitch.
    2. Em Nome do Adaptador, escreva o nome de cada NIC física, em Nome vNIC do anfitrião, o nome de cada NIC virtual (vNIC) e, em VLAN, o ID de VLAN em utilização para cada adaptador.
    3. Expanda a caixa de lista pendente Tipo RDMA e selecione o protocolo adequado: RoCE ou iWARP. Defina também Jumbo Frames para o valor adequado para a sua rede e, em seguida, selecione Seguinte.

    A página Adaptadores do assistente de configuração Validate-DCB

    Nota

  7. Na página Data Center Bridging, modifique os valores para corresponder às definições da sua organização para Prioridade, Nome da Política e Reserva de Largura de Banda e, em seguida, selecione Seguinte.

    A página Data Center Bridging do assistente de configuração Validate-DCB

    Nota

    Selecionar RDMA por RoCE na página do assistente anterior requer DCB para fiabilidade de rede em todos os NICs e comutadores.

  8. Na página Guardar e Implementar, na caixa Caminho do Ficheiro de Configuração , guarde o ficheiro de configuração com .ps1 extensão numa localização onde possa utilizá-lo novamente mais tarde, se necessário, e, em seguida, selecione Exportar para começar a executar a ferramenta Validate-DCB.

    • Opcionalmente, pode implementar o ficheiro de configuração ao concluir a secção Implementar Configuração em Nós da página, que inclui a capacidade de utilizar uma conta Automatização do Azure para implementar a configuração e, em seguida, validá-la. Consulte Criar uma conta Automatização do Azure para começar a utilizar Automatização do Azure.

    A página Guardar e Implementar do assistente de configuração Validate-DCB

Rever os resultados e corrigir erros

A ferramenta Validate-DCB produz resultados em duas unidades:

  1. [Global Unit] results list prerequisites and requirements to run the modal tests.
  2. Os resultados da [Unidade Modal] fornecem feedback sobre cada configuração de anfitrião de cluster e melhores práticas.

Este exemplo mostra resultados de análise bem-sucedidos de um único servidor para todos os pré-requisitos e testes de unidade modal ao indicar uma Contagem Falhada de 0.

Validate-DCB Global unit and Modal unit test results (Resultados do teste da unidade Modal e da unidade Validate-DCB Global)

Os passos seguintes mostram como identificar um erro de Pacote Jumbo do SMB02 da vNIC e corrigi-lo:

  1. Os resultados das análises da ferramenta Validate-DCB mostram um erro de Contagem Falhada de 1.

    Validate-DCB tool scan results showing a Failed Count error of 1

  2. Deslocar-se para trás através dos resultados mostra um erro a vermelho que indica que o Pacote Jumbo para vNIC SMB02 no anfitrião S046036 está definido no tamanho predefinido de 1514, mas deve ser definido como 9014.

    Validate-DCB tool scan result showing a jumbo packet size setting error

  3. Rever as propriedades Avançadas do SMB02 vNIC no anfitrião S046036 mostra que o Pacote Jumbo está definido como a predefinição de Desativado.

    Definição de Pacote Jumbo das propriedades Avançadas do Anfitrião do Servidor

  4. Corrigir o erro requer ativar a funcionalidade Pacote Jumbo e alterar o tamanho para 9014 bytes. Executar novamente a análise no anfitrião S046036 confirma esta alteração ao devolver uma Contagem Falhada de 0.

    Validate-DCB scan results confirming that the Server host's Jumbo Packet setting is fixed

Para saber mais sobre a resolução de erros identificados pela ferramenta Validate-DCB, veja o seguinte vídeo.

Também pode instalar a ferramenta offline. Para sistemas desligados, utilize Save-Module -Name Validate-DCB -Path c:\temp\Validate-DCB e, em seguida, mova os módulos em c:\temp\Validate-DCB para o sistema desligado. Para obter mais informações, veja o seguinte vídeo.

Validar o cluster

Utilize os seguintes passos para validar os servidores num cluster existente no Windows Admin Center.

  1. Em Windows Admin Center, em Todas as ligações, selecione o cluster do Azure Stack HCI que pretende validar e, em seguida, selecione Ligar.

    O Dashboard do Gestor de Clusters apresenta informações de descrição geral sobre o cluster.

  2. No Dashboard do Gestor de Clusters, em Ferramentas, selecione Servidores.

  3. Na página Inventário , selecione os servidores no cluster e, em seguida, expanda o submenu Mais e selecione Validar cluster.

  4. Na janela de pop-up Validar Cluster , selecione Sim.

    Janela de pop-up Validar Cluster

  5. Na janela de pop-up Fornecedor de Serviços de Segurança de Credenciais (CredSSP ), selecione Sim.

  6. Forneça as suas credenciais para ativar o CredSSP e, em seguida, selecione Continuar.
    A validação do cluster é executada em segundo plano e dá-lhe uma notificação quando estiver concluída, altura em que pode ver o relatório de validação, conforme descrito na secção seguinte.

Nota

Depois de validar os servidores de cluster, terá de desativar o CredSSP por motivos de segurança.

Desativar CredSSP

Depois de o cluster de servidores ser validado com êxito, terá de desativar o protocolo Fornecedor de Suporte de Segurança de Credenciais (CredSSP) em cada servidor para fins de segurança. Para obter mais informações, consulte CVE-2018-0886.

  1. Em Windows Admin Center, em Todas as ligações, selecione o primeiro servidor no cluster e, em seguida, selecione Ligar.

  2. Na página Descrição geral , selecione Desativar CredSSP e, em seguida, na janela de pop-up Desativar CredSSP , selecione Sim.

    O resultado do Passo 2 remove a faixa vermelha CredSSP ENABLED na parte superior da página Descrição Geral do servidor e desativa CredSSP nos outros servidores.

Ver relatórios de validação

Agora, está pronto para ver o relatório de validação do cluster.

Existem algumas formas de aceder a relatórios de validação:

  • Na página Inventário , expanda o submenu Mais e, em seguida, selecione Ver relatórios de validação.

  • No canto superior direito do Windows Admin Center, selecione o ícone de sino Notificações para apresentar o painel Notificações. Selecione o aviso cluster validado com êxito e, em seguida, selecione Ir para Relatório de validação do Cluster de Ativação Pós-falha.

Nota

O processo de validação do cluster de servidores pode demorar algum tempo a concluir. Não mude para outra ferramenta no Windows Admin Center enquanto o processo estiver em execução. No painel Notificações , uma barra de estado abaixo do aviso Validar cluster indica quando o processo está concluído.

Validar o cluster com o PowerShell

Também pode utilizar Windows PowerShell para executar testes de validação no cluster do servidor e ver os resultados. Pode executar testes antes e depois de configurar um cluster.

Para executar um teste de validação num cluster de servidores, emita os cmdlets do PowerShell do cluster de servidores>Get-Cluster e Test-Cluster<a partir do pc de gestão ou execute apenas o cmdlet Test-Cluster diretamente no cluster:

$Cluster = Get-Cluster -Name 'server-cluster1'
Test-Cluster -InputObject $Cluster -Verbose

Para obter mais exemplos e informações de utilização, veja a documentação de referência Test-Cluster .

Test-NetStack é uma ferramenta de teste baseada no PowerShell disponível no GitHub que pode utilizar para realizar testes de tráfego ICMP, TCP e RDMA de redes e identificar potenciais configurações de recursos de infraestrutura de rede e anfitriões ou instabilidade operacional. Utilize Test-NetStack para validar caminhos de dados de rede ao testar caminhos de dados de rede nativos, sintéticos e descarregados por hardware (RDMA) para problemas de conectividade, fragmentação de pacotes, baixo débito e congestionamento.

Validar a replicação para a Réplica de Armazenamento

Se estiver a utilizar a Réplica de Armazenamento para replicar volumes num cluster disperso ou cluster a cluster, existem vários eventos e cmdlets que pode utilizar para obter o estado da replicação.

No cenário seguinte, configurámos a Réplica de Armazenamento ao criar grupos de replicação (RGs) para dois sites e, em seguida, especificámos os volumes de dados e os volumes de registo para os nós do servidor de origem no Site1 (Server1, Server2) e os nós de servidor de destino (replicados) no Site2 (Server3, Server4).

Para determinar o progresso da replicação do Server1 no Site1, execute o comando Get-WinEvent e examine os eventos 5015, 5002, 5004, 1237, 5001 e 2200:

Get-WinEvent -ComputerName Server1 -ProviderName Microsoft-Windows-StorageReplica -max 20

Para o Server3 no Site2, execute o seguinte Get-WinEvent comando para ver os eventos da Réplica de Armazenamento que mostram a criação da parceria. Este evento indica o número de bytes copiados e o tempo decorrido. Por exemplo:

Get-WinEvent -ComputerName Server3 -ProviderName Microsoft-Windows-StorageReplica | Where-Object {$_.ID -eq "1215"} | FL

Para o Server3 no Site2, execute o Get-WinEvent comando e examine os eventos 5009, 1237, 5001, 5015, 5005 e 2200 para compreender o progresso do processamento. Não deverá ser apresentado nenhum aviso de erro nesta sequência. Haverá muitos 1237 eventos- estes indicam progresso.

Get-WinEvent -ComputerName Server3 -ProviderName Microsoft-Windows-StorageReplica | FL

Em alternativa, o grupo de servidores de destino da réplica indica sempre o número de bytes restantes a copiar e pode ser consultado através do PowerShell com Get-SRGroup. Por exemplo:

(Get-SRGroup).Replicas | Select-Object numofbytesremaining

Para o nó Server3 no Site2, execute o seguinte comando e examine os eventos 5009, 1237, 5001, 5015, 5005 e 2200 para compreender o progresso da replicação. Não devem existir avisos de erros. No entanto, haverá muitos eventos "1237" - estes simplesmente indicam progresso.

Get-WinEvent -ComputerName Server3 -ProviderName Microsoft-Windows-StorageReplica | FL

Como um script de progresso que não terminará:

while($true) {
$v = (Get-SRGroup -Name "Replication2").replicas | Select-Object numofbytesremaining
[System.Console]::Write("Number of bytes remaining: {0}`r", $v.numofbytesremaining)
Start-Sleep -s 5
}

Para obter o estado de replicação no cluster disperso, utilize Get-SRGroup e Get-SRPartnership:

Get-SRGroup -Cluster ClusterS1
Get-SRPartnership -Cluster ClusterS1
(Get-SRGroup).replicas -Cluster ClusterS1

Assim que a replicação de dados bem-sucedida for confirmada entre sites, pode criar as suas VMs e outras cargas de trabalho.

Ver também