Nota
O acesso a esta página requer autorização. Pode tentar iniciar sessão ou alterar os diretórios.
O acesso a esta página requer autorização. Pode tentar alterar os diretórios.
Este artigo descreve como solucionar problemas de servidor usando restart
, reimage
e replace
ações no Azure Operator Nexus BareMetal Machine (BMM).
Essas operações são realizadas para manutenção nos seus servidores e causam uma interrupção na máquina Bare Metal específica.
Atenção
Não execute nenhuma ação contra servidores de plano de controle ou gerenciamento sem consultar primeiro a equipe de suporte da Microsoft, isso pode afetar a integridade do Cluster Nexus do Operador.
Importante
Várias solicitações de comando disruptivas contra um nó do KCP (Kubernetes Control Plane) são rejeitadas. Essa verificação é feita para manter a integridade da instância do Nexus Cluster e evitar que vários nós KCP fiquem inoperacionais ao mesmo tempo devido a ações simultâneas de interrupção. Os comandos de ação com interrupções rejeitados podem ser devidos ao fato de já estarem em execução em outro nó KCP ou se o KCP completo não estiver disponível. Se vários nós se tornarem inoperacionais, isso compromete o limite de quorum saudável do Plano de Controlo do Kubernetes.
As ações listadas são consideradas disruptivas para as máquinas baremetal (BMM):
- Desligue um BMM
- Reiniciar um BMM
- Tornar um BMM não agendável (cordonamento com evacuação, esvaziar o nó)
- Recriar a imagem de um BMM
- Substitua um BMM
Deixando apenas as ações não disruptivas:
- Iniciar um BMM
- Tornar um BMM não agendável (cordon sem evacuação, não drena o nó)
- Torne um BMM escalonável (destravar)
Pré-requisitos
- Instale a versão mais recente das extensões CLI apropriadas.
- Solicite acesso para executar os comandos de malha de rede (NF) do Azure Operator Nexus e extensão da CLI de nuvem de rede.
- Entre na CLI do Azure e selecione a assinatura onde o cluster está implantado.
- Colete as seguintes informações:
- ID da subscrição (
SUBSCRIPTION
) - Nome do cluster (
CLUSTER
) - Grupo de recursos (
CLUSTER_RG
) - Grupo de recursos gerenciados (
CLUSTER_MRG
) - Os recursos BMM (BareMetal Machines) estão presentes no grupo de recursos gerenciados - Nome da máquina BareMetal (
BMM_NAME
) que requer operações de gestão do ciclo de vida
- ID da subscrição (
Siga as melhores práticas para operações de máquinas bare metal
As várias operações restart
, reimage
e replace
são métodos de solução de problemas eficazes que você pode usar para resolver problemas técnicos.
No entanto, é importante ter uma abordagem sistemática e considerar outros fatores antes de tentar qualquer medida drástica.
Primeiro, familiarize-se com as operações lendo e seguindo os conselhos sobre os artigos recomendados antes de prosseguir com as operações:
- Melhores Práticas para Operações de Máquinas BareMetal.
- Operações de Gestão do Ciclo de Vida de Máquinas Bare Metal.
Solucionar problemas com uma operação de reinicialização
Uma restart
operação pode ser útil na resolução de problemas em que as máquinas virtuais inquilinas no servidor host não respondem ou estão travadas.
Uma forma de realizar esta operação pode ser executando, em ordem, uma operação power-off
seguida por uma operação start
.
Essa abordagem irá restart
um comando de Máquinas Bare Metal ao realizar um encerramento suave que reinicia o nó.
O comando da CLI do Azure a seguir será power-off
o bareMetalMachineName especificado.
az networkcloud baremetalmachine power-off \
--name <bareMetalMachineName> \
--resource-group "<resourceGroup>" \
--subscription <subscriptionID>
O comando da CLI do Azure a seguir será start
o bareMetalMachineName especificado.
az networkcloud baremetalmachine start \
--name <bareMetalMachineName> \
--resource-group "<resourceGroup>" \
--subscription <subscriptionID>
Como alternativa, você pode permitir que o comando execute uma reinicialização do restart
servidor.
O comando da CLI do Azure a seguir será restart
o bareMetalMachineName especificado.
az networkcloud baremetalmachine restart \
--name <bareMetalMachineName> \
--resource-group "<resourceGroup>" \
--subscription <subscriptionID>
Resolver problemas com uma operação de reimagem do sistema
O reimage
comando em uma máquina bare metal é um processo que reimplanta a imagem do sistema operacional no disco sem afetar os dados do locatário.
Esta operação executa as etapas para reingressar no cluster com os mesmos identificadores.
A reimage
operação pode ser útil para solucionar problemas, restaurando o sistema operacional para um estado de funcionamento em boas condições.
As causas comuns que podem ser resolvidas por meio da recriação de imagens incluem recuperação devido a dúvidas sobre a integridade do host, comprometimento de segurança suspeito ou confirmado ou atividade de gravação de "quebra de vidro".
Uma operação reimage
é a melhor prática para minimizar o risco operacional e garantir a integridade da máquina Bare Metal.
Como prática recomendada, antes de executar o comando reimage
, certifique-se de que as cargas de trabalho da máquina Bare Metal sejam esvaziadas usando o comando cordon com o parâmetro evacuate
definido como True
.
Advertência
Não execute mais de um comando baremetalmachine replace
ou reimage
simultaneamente para o mesmo recurso BareMetal Machine (BMM).
Executar replace
ao mesmo tempo que um reimage
deixa os servidores em um estado não operacional.
Certifique-se de que qualquer replace
/reimage
no BMM esteja totalmente concluído antes de começar outro.
Além disso, evite executar ações sequenciais reimage
num(a) BMM que acabou de concluir uma replace
ação, a menos que a operação de manutenção especificada esteja a ser realizada.
Para identificar se alguma carga de trabalho está atualmente em execução em uma máquina bare metal, execute o seguinte comando:
Para máquinas virtuais:
az networkcloud baremetalmachine show -n <nodeName> /
--resource-group <resourceGroup> /
--subscription <subscriptionID> | jq '.virtualMachinesAssociatedIds'
Para os nós do cluster Nexus Kubernetes: (Requer iniciar sessão no cluster Nexus Kubernetes)
kubectl get nodes <resourceName> -ojson | jq '.metadata.labels."topology.kubernetes.io/baremetalmachine"'
O comando da CLI do Azure a seguir será cordon
o bareMetalMachineName especificado.
az networkcloud baremetalmachine cordon \
--evacuate "True" \
--name <bareMetalMachineName> \
--resource-group "<resourceGroup>" \
--subscription <subscriptionID>
O comando da CLI do Azure a seguir será reimage
o bareMetalMachineName especificado.
az networkcloud baremetalmachine reimage \
--name <bareMetalMachineName> \
--resource-group "<resourceGroup>" \
--subscription <subscriptionID>
O comando da CLI do Azure a seguir será uncordon
o bareMetalMachineName especificado.
az networkcloud baremetalmachine uncordon \
--name <bareMetalMachineName> \
--resource-group "<resourceGroup>" \
--subscription <subscriptionID>
Solucionar problemas com uma operação de substituição
Os servidores contêm muitos componentes físicos que falham ao longo do tempo. É importante compreender quais reparações físicas são necessárias para realizar em uma máquina bare metal replace
.
Tal como na ação reimage
, os dados do locatário não são modificados durante um replace
.
Importante
Com a versão da API GA, o controlador RAID é reinicializado durante a substituição da máquina bare metal, apagando todos os dados dos discos virtuais do servidor. Os alertas de disco virtual do controlador de gestão da placa-mãe (BMC) acionados durante a substituição de uma máquina bare metal podem ser ignorados, a menos que surjam alertas adicionais de discos físicos e/ou controladores RAID.
Resolver problemas de validação de hardware
Um processo de validação de hardware é invocado, como parte do replace
, para garantir a integridade do host físico antes da implantação da imagem do sistema operacional.
Como prática recomendada, primeiro emita um cordon
comando para remover a Máquina Bare Metal do agendamento da carga de trabalho e, em seguida, desligue/power-off
a Máquina Bare Metal antes dos reparos físicos.
Advertência
Não execute mais de um comando baremetalmachine replace
ou reimage
simultaneamente para o mesmo recurso BareMetal Machine (BMM).
Executar replace
ao mesmo tempo que um reimage
deixa os servidores em um estado não operacional.
Certifique-se de que qualquer replace
/reimage
no BMM esteja totalmente concluído antes de começar outro.
Além disso, evite executar ações sequenciais reimage
num(a) BMM que acabou de concluir uma replace
ação, a menos que a operação de manutenção especificada esteja a ser realizada.
O comando da CLI do Azure a seguir será cordon
o bareMetalMachineName especificado.
az networkcloud baremetalmachine cordon \
--evacuate "True" \
--name <bareMetalMachineName> \
--resource-group "<resourceGroup>" \
--subscription <subscriptionID>
Uma replace
operação não é necessária quando você está executando um reparo físico da fonte de alimentação substituível a quente porque o host da máquina bare metal continuará a funcionar normalmente após o reparo.
Embora não seja estritamente necessário restabelecer ao serviço a máquina bare metal, recomendamos realizar uma operação replace
quando estiver fazendo os seguintes reparos físicos:
- CPU
- Módulo de memória em linha duplo (DIMM)
- Ventilador
- Riser para placa de expansão
- Transceptor
- Substituição de cabos Ethernet ou fibra
Uma replace
operação é necessária para devolver a Máquina Bare Metal ao serviço quando forem efetuadas as seguintes reparações físicas:
- Painel Traseiro
- Placa de sistema
- Disco SSD
- Adaptador PERC/RAID
- Placa de interface de rede Mellanox (NIC)
- Placa de rede incorporada da Broadcom
Após a conclusão dos reparos físicos, execute a operação replace
.
O comando da CLI do Azure a seguir será replace
o bareMetalMachineName especificado.
az networkcloud baremetalmachine replace \
--name <bareMetalMachineName> \
--resource-group "<resourceGroup>" \
--bmc-credentials password=<IDRAC_PASSWORD> username=<IDRAC_USER> \
--bmc-mac-address <IDRAC_MAC> \
--boot-mac-address <PXE_MAC> \
--machine-name <OS_HOSTNAME> \
--serial-number <SERIAL_NUM> \
--subscription <subscriptionID>
Quando a operação da Máquina replace
Bare Metal for concluída com êxito, valide se a Máquina Bare Metal provisioningStatus
está Succeeded
e se a sua readyState
está definida como True
.
Em seguida, execute a uncordon
operação para que a Bare Metal Machine volte a juntar-se ao conjunto de nós escalonáveis da carga de trabalho.
O comando da CLI do Azure a seguir será uncordon
o bareMetalMachineName especificado.
az networkcloud baremetalmachine uncordon \
--name <bareMetalMachineName> \
--resource-group "<resourceGroup>" \
--subscription <subscriptionID>
Solicite Suporte
Se você ainda tiver dúvidas, entre em contato com o suporte. Para obter mais informações sobre planos de suporte, consulte Planos de suporte do Azure.