Condividi tramite


Comandi piattaforma di computer bare metal

Questo articolo descrive come eseguire operazioni di gestione del ciclo di vita su BMM (Bare Metal Machines). Questi passaggi devono essere usati per la risoluzione dei problemi e per il ripristino da errori o durante l'esecuzione di azioni di manutenzione.

Prima di procedere con le operazioni, leggere i consigli nell'articolo Procedure consigliate per le operazioni con computer bare metal.

Le azioni in grassetto elencate sono considerate dirompenti (Spegnimento, Riavvio, Ripristino dell'Immagine, Sostituzione). L'azione di cordonatura senza il parametro evacuate non è considerata dirompente, mentre il cordonamento con il parametro evacuate è considerato dirompente.

  • Spegnere un computer bare metal
  • Avviare un computer bare metal
  • Riavviare un computer bare metal
  • Rendere un computer bare metal non pianificabile (blocco senza evacuazione, non svuota il nodo)
  • Rendere un computer bare metal non pianificabile (blocco con evacuazione, svuota il nodo)
  • Rendere un computer bare metal pianificabile (non bloccare)
  • Ricreazione dell'immagine di un computer bare metal
  • Sostituire un computer bare metal

Attenzione

Non eseguire alcuna azione sui server del piano di controllo o di gestione senza prima consultare il personale di supporto Microsoft. Farlo potrebbe compromettere l'integrità del cluster Operator Nexus.

Importante

Vengono rifiutate più richieste di comandi di interruzione su un nodo KCP (Kubernetes Control Plane). Questo controllo viene eseguito per mantenere l'integrità dell'istanza del cluster Nexus ed evitare che più nodi KCP diventino non operativi contemporaneamente a causa di azioni di interruzione simultanee. I comandi di azione di disturbo rifiutati possono essere dovuti a un'esecuzione già in corso su un altro nodo KCP o alla non disponibilità dell'intero KCP. Se più nodi si diventano non operativi, si interrompe la soglia del quorum integro del piano di controllo Kubernetes.

Le azioni elencate sono considerate dirompenti per i computer BareMetal (BMM):

  • Spegnere un BMM
  • Riavviare un BMM
  • Rendere un BMM non pianificabile (cordone con evacuazione, svuota il nodo)
  • Ricreare l'immagine di un BMM
  • Sostituire un BMM

Lasciare solo le azioni non rupetive:

  • Avvia un BMM
  • Rendere un BMM non pianificabile (cordone senza evacuazione, non svuota nodo)
  • Rendere un BMM pianificabile (senza blocco)

Prerequisiti

  1. Installare la versione più recente delle estensioni dell'interfaccia della riga di comando appropriate.
  2. Richiedere l'accesso per eseguire i comandi dell'estensione dell'interfaccia della riga di comando cloud di Operatore Nexus di Azure (NF) e dell'interfaccia della riga di comando cloud di rete.
  3. Accedere all'interfaccia della riga di comando di Azure e selezionare la sottoscrizione in cui viene distribuito il cluster.
  4. Raccogliere le informazioni seguenti:
    • ID sottoscrizione (SUBSCRIPTION)
    • Nome del cluster (CLUSTER)
    • Gruppo di risorse (CLUSTER_RG)
    • Gruppo di risorse gestite (CLUSTER_MRG) - Le risorse BareMetal Machines (BMM) sono presenti nel gruppo di risorse gestite
    • Nome del computer bare metal (BMM_NAME) che richiede operazioni di gestione del ciclo di vita

Spegnere un computer bare metal

Importante

In rari casi l'esecuzione di macchine virtuali Nexus non viene riavviata dopo l'arresto o il riavvio di BMM. Per evitare questi casi, spegnere tutte le macchine virtuali in BMM prima di spegnere o riavviare BMM. Vedere il cordon comando per istruzioni su come trovare i carichi di lavoro in esecuzione in un BMM.

Questo comando consentirà di power-off il bareMetalMachineName specificato.

az networkcloud baremetalmachine power-off \
  --name <BareMetalMachineName> \
  --resource-group <resourceGroup> \
  --subscription <subscriptionID>

Avviare un computer bare metal

Questo comando consentirà di start il bareMetalMachineName specificato.

az networkcloud baremetalmachine start \
  --name <BareMetalMachineName> \
  --resource-group <resourceGroup> \
  --subscription <subscriptionID>

Riavviare un computer bare metal

Importante

In rari casi l'esecuzione di macchine virtuali Nexus non viene riavviata dopo l'arresto o il riavvio di BMM. Per evitare questi casi, spegnere tutte le macchine virtuali in BMM prima di spegnere o riavviare BMM. Vedere il cordon comando per istruzioni su come trovare i carichi di lavoro in esecuzione in un BMM.

Questo comando consentirà di restart il bareMetalMachineName specificato.

az networkcloud baremetalmachine restart \
  --name <BareMetalMachineName> \
  --resource-group <resourceGroup> \
  --subscription <subscriptionID>

Rendere una macchina bare metal non pianificabile (blocco)

È possibile rendere un Bare Metal Machine non pianificabile eseguendo il cordon comando . Durante l'esecuzione del cordon comando, i carichi di lavoro Operator Nexus non vengono pianificati nel computer Bare Metal quando cordon è impostato. Qualsiasi tentativo di creare un carico di lavoro su una cordoned Macchina Bare Metal comporta il passaggio del carico di lavoro allo stato pending. I carichi di lavoro esistenti continuano a essere eseguiti nel computer Bare Metal, a meno che i carichi di lavoro non vengano svuotati.

Svuotare carichi di lavoro bare metal

Il comando cordon supporta il parametro evacuate il cui valore predefinito False indica che il comando cordon impedisce la pianificazione di nuovi carichi di lavoro. Per svuotare i carichi di lavoro con il cordon comando , il evacuate parametro deve essere impostato su True. I carichi di lavoro in esecuzione sulla Macchina Bare Metal sono stopped e la Macchina Bare Metal è impostata sullo stato pending.

Annotazioni

I carichi di lavoro di gestione Nexus continuano a essere eseguiti nel computer Bare Metal anche quando il server viene bloccato ed evacuato.

È consigliabile impostare il evacuate valore su True quando si tenta di eseguire operazioni di manutenzione nel server Bare Metal. Per altre procedure consigliate da seguire, leggere le procedure consigliate per le operazioni bare metal.

az networkcloud baremetalmachine cordon \
  --evacuate "True" \
  --name <BareMetalMachineName> \
  --resource-group <resourceGroup> \
  --subscription <subscriptionID>

Per identificare se i carichi di lavoro sono attualmente in esecuzione in un computer Bare Metal, eseguire il comando seguente:

Per le macchine virtuali:

az networkcloud baremetalmachine show -n <nodeName> /
  --resource-group <resourceGroup> /
  --subscription <subscriptionID> | jq '.virtualMachinesAssociatedIds'

Per i nodi del cluster Nexus Kubernetes: (richiede l'accesso al cluster Nexus Kubernetes)

kubectl get nodes <resourceName> -ojson |jq '.metadata.labels."topology.kubernetes.io/baremetalmachine"'

Rendere un computer bare metal pianificabile (non bloccare)

È possibile rendere un computer Bare Metal "pianificabile" (il server può ospitare carichi di lavoro) eseguendo il uncordon comando . Tutti i carichi di lavoro in uno stato pending del computer bare metal sono restarted quando il computer bare metal è uncordoned.

az networkcloud baremetalmachine uncordon \
  --name <BareMetalMachineName> \
  --resource-group <resourceGroup> \
  --subscription <subscriptionID>

Ricreazione dell'immagine di un computer bare metal

È possibile ripristinare la versione di runtime in un computer Bare Metal eseguendo il reimage comando . L'azione reimage non influisce sui file del carico di lavoro del tenant nel computer bare metal. Questo processo ridistribuisce l'immagine di runtime nel computer Bare Metal di destinazione ed esegue i passaggi per ricongiungere il cluster con gli stessi identificatori.

Come procedura consigliata, assicurarsi che i carichi di lavoro di Bare Metal Machine vengano svuotati usando il cordon comando , con evacuate impostato su True, prima di eseguire il reimage comando . Per altre procedure consigliate da seguire, leggere le procedure consigliate per le operazioni bare metal.

Importante

Evitare azioni di scrittura o modifica eseguite sul nodo tramite l'accesso del computer bare metal. L'azione reimage è necessaria per ripristinare il supporto Tecnico Microsoft e tutte le modifiche apportate al computer Bare Metal vengono perse durante il ripristino dello stato previsto del nodo.

Avviso

Non eseguire più di un baremetalmachine replace comando o reimage contemporaneamente per la stessa risorsa BareMetal Machine (BMM). L'esecuzione di replace contemporaneamente a reimage lascia i server in uno stato non operativo. Assicurarsi che tutti gli elementi replace/reimage in BMM vengano completati completamente prima di avviarne un altro. Inoltre, evitare di eseguire azioni sequenziali reimage su un BMM che ha appena completato un'azione a meno che non venga eseguita un'operazione replace di manutenzione specificata.

az networkcloud baremetalmachine reimage \
  --name <BareMetalMachineName> \
  --resource-group <resourceGroup> \
  --subscription <subscriptionID>

Sostituire un computer bare metal

Usare il comando replace quando un server rileva problemi hardware che richiedono una sostituzione hardware completa o parziale. Dopo la sostituzione di componenti come scheda madre o scheda di interfaccia di rete (NIC), l'indirizzo MAC di Bare Metal Machine cambierà; Tuttavia, l'indirizzo IP iDRAC e il nome host rimarranno invariati. Dopo ogni operazione di manutenzione hardware, replace eseguire un oggetto , leggere le Procedure consigliate per le operazioni con computer bare metal per altri dettagli.

A partire dalla versione 2506.2, il valore della password per iDRAC può essere fornito come valore URI (Uniform Resource Identifier) o password di Key Vault. Vedere Informazioni di riferimento sulle credenziali di Key Vault. L'uso di un URI invece di una password di testo non crittografato garantisce una maggiore sicurezza.

Avviso

Non eseguire più di un baremetalmachine replace comando o reimage contemporaneamente per la stessa risorsa BareMetal Machine (BMM). L'esecuzione di replace contemporaneamente a reimage lascia i server in uno stato non operativo. Assicurarsi che tutti gli elementi replace/reimage in BMM vengano completati completamente prima di avviarne un altro. Inoltre, evitare di eseguire azioni sequenziali reimage su un BMM che ha appena completato un'azione a meno che non venga eseguita un'operazione replace di manutenzione specificata.

az networkcloud baremetalmachine replace \
  --name <BareMetalMachineName> \
  --resource-group <resourceGroup> \
  --bmc-credentials password=<PASSWORD_URI or IDRAC_PASSWORD> username=<IDRAC_USER> \
  --bmc-mac-address <IDRAC_MAC> \
  --boot-mac-address <PXE_MAC> \
  --machine-name <OS_HOSTNAME> \
  --serial-number <SERIAL_NUMBER> \
  --subscription <subscriptionID>

Se l'azione replace non riesce a causa di un errore di convalida hardware, nella replace risposta viene visualizzato l'errore o l'errore di test specifico, come illustrato negli esempi seguenti. Queste informazioni sono disponibili anche nel log delle attività per la macchina Bare Metal (Operator Nexus). Il codice di errore e il messaggio di errore sono inclusi nelle proprietà JSON dell'operazione corrispondente BareMetalMachines_Replace.

Esempio 1: La convalida hardware non riesce a causa di un URI di Key Vault non valido per le credenziali BMC (Baseboard Management Controller)

$ az networkcloud baremetalmachine replace --name rack1compute02 --resource-group hostedRG --bmc-credentials password=$KEY_VAULT_URI username=root --bmc-mac-address 00-00-5E-00-01-00 --boot-mac-address 00-00-5E-00-02-00 --machine-name RACK1COMPUTE02 --serial-number SN123435
(failed to retrieve password from key vault) failed to get secret value from key vault: failed to get cluster key vault secret
Code: failed to retrieve password from key vault
Message: failed to retrieve password from key vault
Response: 400 Bad Request

Esempio 2: La convalida hardware non riesce a causa di credenziali BMC (Baseboard Management Controller) non valide fornite

$ az networkcloud baremetalmachine replace --name rack1compute02 --resource-group hostedRG --bmc-credentials password=REDACTED username=root --bmc-mac-address 00-00-5E-00-01-00 --boot-mac-address 00-00-5E-00-02-00 --machine-name RACK1COMPUTE02 --serial-number SN123435
(None) BMC login unsuccessful: Fail - Unauthorized; System health test(s) failed: [Additional logs: Server power down at end of test failed with: Unauthorized]
Code: None
Message: BMC login unsuccessful: Fail - Unauthorized; System health test(s) failed: [Additional logs: Server power down at end of test failed with: Unauthorized]

Esempio 3: La convalida hardware non riesce a causa di un errore di rete

$ az networkcloud baremetalmachine replace --name rack1compute02 --resource-group hostedRG --bmc-credentials password=REDACTED username=root --bmc-mac-address 00-00-5E-00-01-00 --boot-mac-address 00-00-5E-00-02-00 --machine-name RACK1COMPUTE02 --serial-number SN123435
(None) Networking test(s) failed: [NIC.Slot.6-1-1_LinkStatus] expected: up; observed: Down; [Additional logs: Link failure detected on NIC.Slot.6-1-1; Unable to perform cabling check on PCI Slot 6]
Code: None
Message: Networking test(s) failed: [NIC.Slot.6-1-1_LinkStatus] expected: up; observed: Down; [Additional logs: Link failure detected on NIC.Slot.6-1-1; Unable to perform cabling check on PCI Slot 6]

Per altre informazioni sulla risoluzione degli errori di convalida hardware, vedere Risolvere gli errori di convalida hardware.