Solucionar problemas do servidor bare metal

2025-04-04

Este artigo descreve como solucionar problemas de servidor usando restart, reimagee replace ações no Azure Operator Nexus BareMetal Machine (BMM). Essas operações são realizadas para manutenção nos seus servidores e causam uma interrupção na máquina Bare Metal específica.

Atenção

Não execute nenhuma ação contra servidores de plano de controle ou gerenciamento sem consultar primeiro a equipe de suporte da Microsoft, isso pode afetar a integridade do Cluster Nexus do Operador.

Importante

Várias solicitações de comando disruptivas contra um nó do KCP (Kubernetes Control Plane) são rejeitadas. Essa verificação é feita para manter a integridade da instância do Nexus Cluster e evitar que vários nós KCP fiquem inoperacionais ao mesmo tempo devido a ações simultâneas de interrupção. Os comandos de ação com interrupções rejeitados podem ser devidos ao fato de já estarem em execução em outro nó KCP ou se o KCP completo não estiver disponível. Se vários nós se tornarem inoperacionais, isso compromete o limite de quorum saudável do Plano de Controlo do Kubernetes.

As ações listadas são consideradas disruptivas para as máquinas baremetal (BMM):

Desligue um BMM
Reiniciar um BMM
Tornar um BMM não agendável (cordonamento com evacuação, esvaziar o nó)
Recriar a imagem de um BMM
Substitua um BMM

Deixando apenas as ações não disruptivas:

Iniciar um BMM
Tornar um BMM não agendável (cordon sem evacuação, não drena o nó)
Torne um BMM escalonável (destravar)

Pré-requisitos

Instale a versão mais recente das extensões CLI apropriadas.
Solicite acesso para executar os comandos de malha de rede (NF) do Azure Operator Nexus e extensão da CLI de nuvem de rede.
Entre na CLI do Azure e selecione a assinatura onde o cluster está implantado.
Colete as seguintes informações:
- ID da subscrição (SUBSCRIPTION)
- Nome do cluster (CLUSTER)
- Grupo de recursos (CLUSTER_RG)
- Grupo de recursos gerenciados (CLUSTER_MRG) - Os recursos BMM (BareMetal Machines) estão presentes no grupo de recursos gerenciados
- Nome da máquina BareMetal (BMM_NAME) que requer operações de gestão do ciclo de vida

Siga as melhores práticas para operações de máquinas bare metal

As várias operações restart, reimagee replace são métodos de solução de problemas eficazes que você pode usar para resolver problemas técnicos. No entanto, é importante ter uma abordagem sistemática e considerar outros fatores antes de tentar qualquer medida drástica.

Primeiro, familiarize-se com as operações lendo e seguindo os conselhos sobre os artigos recomendados antes de prosseguir com as operações:

Solucionar problemas com uma operação de reinicialização

Uma restart operação pode ser útil na resolução de problemas em que as máquinas virtuais inquilinas no servidor host não respondem ou estão travadas.

Uma forma de realizar esta operação pode ser executando, em ordem, uma operação power-off seguida por uma operação start. Essa abordagem irá restart um comando de Máquinas Bare Metal ao realizar um encerramento suave que reinicia o nó.

O comando da CLI do Azure a seguir será power-off o bareMetalMachineName especificado.

az networkcloud baremetalmachine power-off \
  --name <bareMetalMachineName>  \
  --resource-group "<resourceGroup>" \
  --subscription <subscriptionID>

O comando da CLI do Azure a seguir será start o bareMetalMachineName especificado.

az networkcloud baremetalmachine start \
  --name <bareMetalMachineName>  \
  --resource-group "<resourceGroup>" \
  --subscription <subscriptionID>

Como alternativa, você pode permitir que o comando execute uma reinicialização do restart servidor.

O comando da CLI do Azure a seguir será restart o bareMetalMachineName especificado.

az networkcloud baremetalmachine restart \
  --name <bareMetalMachineName>  \
  --resource-group "<resourceGroup>" \
  --subscription <subscriptionID>

Resolver problemas com uma operação de reimagem do sistema

O reimage comando em uma máquina bare metal é um processo que reimplanta a imagem do sistema operacional no disco sem afetar os dados do locatário. Esta operação executa as etapas para reingressar no cluster com os mesmos identificadores.

A reimage operação pode ser útil para solucionar problemas, restaurando o sistema operacional para um estado de funcionamento em boas condições. As causas comuns que podem ser resolvidas por meio da recriação de imagens incluem recuperação devido a dúvidas sobre a integridade do host, comprometimento de segurança suspeito ou confirmado ou atividade de gravação de "quebra de vidro".

Uma operação reimage é a melhor prática para minimizar o risco operacional e garantir a integridade da máquina Bare Metal.

Como prática recomendada, antes de executar o comando reimage, certifique-se de que as cargas de trabalho da máquina Bare Metal sejam esvaziadas usando o comando cordon com o parâmetro evacuate definido como True.

Advertência

Não execute mais de um comando baremetalmachine replace ou reimage simultaneamente para o mesmo recurso BareMetal Machine (BMM). Executar replace ao mesmo tempo que um reimage deixa os servidores em um estado não operacional. Certifique-se de que qualquer replace/reimage no BMM esteja totalmente concluído antes de começar outro. Além disso, evite executar ações sequenciais reimage num(a) BMM que acabou de concluir uma replace ação, a menos que a operação de manutenção especificada esteja a ser realizada.

Para identificar se alguma carga de trabalho está atualmente em execução em uma máquina bare metal, execute o seguinte comando:

Para máquinas virtuais:

az networkcloud baremetalmachine show -n <nodeName> /
  --resource-group <resourceGroup> /
  --subscription <subscriptionID> | jq '.virtualMachinesAssociatedIds'

Para os nós do cluster Nexus Kubernetes: (Requer iniciar sessão no cluster Nexus Kubernetes)

kubectl get nodes <resourceName> -ojson | jq '.metadata.labels."topology.kubernetes.io/baremetalmachine"'

O comando da CLI do Azure a seguir será cordon o bareMetalMachineName especificado.

az networkcloud baremetalmachine cordon \
  --evacuate "True" \
  --name <bareMetalMachineName> \
  --resource-group "<resourceGroup>" \
  --subscription <subscriptionID>

O comando da CLI do Azure a seguir será reimage o bareMetalMachineName especificado.

az networkcloud baremetalmachine reimage \
  --name <bareMetalMachineName>  \
  --resource-group "<resourceGroup>" \
  --subscription <subscriptionID>

O comando da CLI do Azure a seguir será uncordon o bareMetalMachineName especificado.

az networkcloud baremetalmachine uncordon \
  --name <bareMetalMachineName> \
  --resource-group "<resourceGroup>" \
  --subscription <subscriptionID>

Solucionar problemas com uma operação de substituição

Os servidores contêm muitos componentes físicos que falham ao longo do tempo. É importante compreender quais reparações físicas são necessárias para realizar em uma máquina bare metal replace. Tal como na ação reimage, os dados do locatário não são modificados durante um replace.

Importante

Com a versão da API GA, o controlador RAID é reinicializado durante a substituição da máquina bare metal, apagando todos os dados dos discos virtuais do servidor. Os alertas de disco virtual do controlador de gestão da placa-mãe (BMC) acionados durante a substituição de uma máquina bare metal podem ser ignorados, a menos que surjam alertas adicionais de discos físicos e/ou controladores RAID.

Resolver problemas de validação de hardware

Um processo de validação de hardware é invocado, como parte do replace, para garantir a integridade do host físico antes da implantação da imagem do sistema operacional. Como prática recomendada, primeiro emita um cordon comando para remover a Máquina Bare Metal do agendamento da carga de trabalho e, em seguida, desligue/power-off a Máquina Bare Metal antes dos reparos físicos.

Advertência

O comando da CLI do Azure a seguir será cordon o bareMetalMachineName especificado.

az networkcloud baremetalmachine cordon \
  --evacuate "True" \
  --name <bareMetalMachineName> \
  --resource-group "<resourceGroup>" \
  --subscription <subscriptionID>

Uma replace operação não é necessária quando você está executando um reparo físico da fonte de alimentação substituível a quente porque o host da máquina bare metal continuará a funcionar normalmente após o reparo.

Embora não seja estritamente necessário restabelecer ao serviço a máquina bare metal, recomendamos realizar uma operação replace quando estiver fazendo os seguintes reparos físicos:

CPU
Módulo de memória em linha duplo (DIMM)
Ventilador
Riser para placa de expansão
Transceptor
Substituição de cabos Ethernet ou fibra

Uma replace operação é necessária para devolver a Máquina Bare Metal ao serviço quando forem efetuadas as seguintes reparações físicas:

Painel Traseiro
Placa de sistema
Disco SSD
Adaptador PERC/RAID
Placa de interface de rede Mellanox (NIC)
Placa de rede incorporada da Broadcom

Após a conclusão dos reparos físicos, execute a operação replace.

O comando da CLI do Azure a seguir será replace o bareMetalMachineName especificado.

az networkcloud baremetalmachine replace \
  --name <bareMetalMachineName>  \
  --resource-group "<resourceGroup>" \
  --bmc-credentials password=<IDRAC_PASSWORD> username=<IDRAC_USER> \
  --bmc-mac-address <IDRAC_MAC> \
  --boot-mac-address <PXE_MAC> \
  --machine-name <OS_HOSTNAME> \
  --serial-number <SERIAL_NUM> \
  --subscription <subscriptionID>

Quando a operação da Máquina replace Bare Metal for concluída com êxito, valide se a Máquina Bare Metal provisioningStatus está Succeeded e se a sua readyState está definida como True. Em seguida, execute a uncordon operação para que a Bare Metal Machine volte a juntar-se ao conjunto de nós escalonáveis da carga de trabalho.

O comando da CLI do Azure a seguir será uncordon o bareMetalMachineName especificado.

az networkcloud baremetalmachine uncordon \
  --name <bareMetalMachineName> \
  --resource-group "<resourceGroup>" \
  --subscription <subscriptionID>

Solicite Suporte

Se você ainda tiver dúvidas, entre em contato com o suporte. Para obter mais informações sobre planos de suporte, consulte Planos de suporte do Azure.