Nota
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare ad accedere o modificare le directory.
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare a modificare le directory.
Questo articolo descrive come eseguire operazioni di gestione del ciclo di vita su BMM (Bare Metal Machines). Questi passaggi devono essere usati per la risoluzione dei problemi e per il ripristino da errori o durante l'esecuzione di azioni di manutenzione.
Prima di procedere con le operazioni, leggere i consigli nell'articolo Procedure consigliate per le operazioni con computer bare metal.
Le azioni in grassetto elencate sono considerate dirompenti (Spegnimento, Riavvio, Ripristino dell'Immagine, Sostituzione).
L'azione di cordonatura senza il parametro evacuate
non è considerata dirompente, mentre il cordonamento con il parametro evacuate
è considerato dirompente.
- Spegnere un computer bare metal
- Avviare un computer bare metal
- Riavviare un computer bare metal
- Rendere un computer bare metal non pianificabile (blocco senza evacuazione, non svuota il nodo)
- Rendere un computer bare metal non pianificabile (blocco con evacuazione, svuota il nodo)
- Rendere un computer bare metal pianificabile (non bloccare)
- Ricreazione dell'immagine di un computer bare metal
- Sostituire un computer bare metal
Attenzione
Non eseguire alcuna azione sui server del piano di controllo o di gestione senza prima consultare il personale di supporto Microsoft. Farlo potrebbe compromettere l'integrità del cluster Operator Nexus.
Importante
Vengono rifiutate più richieste di comandi di interruzione su un nodo KCP (Kubernetes Control Plane). Questo controllo viene eseguito per mantenere l'integrità dell'istanza del cluster Nexus ed evitare che più nodi KCP diventino non operativi contemporaneamente a causa di azioni di interruzione simultanee. I comandi di azione di disturbo rifiutati possono essere dovuti a un'esecuzione già in corso su un altro nodo KCP o alla non disponibilità dell'intero KCP. Se più nodi si diventano non operativi, si interrompe la soglia del quorum integro del piano di controllo Kubernetes.
Le azioni elencate sono considerate dirompenti per i computer BareMetal (BMM):
- Spegnere un BMM
- Riavviare un BMM
- Rendere un BMM non pianificabile (cordone con evacuazione, svuota il nodo)
- Ricreare l'immagine di un BMM
- Sostituire un BMM
Lasciare solo le azioni non rupetive:
- Avvia un BMM
- Rendere un BMM non pianificabile (cordone senza evacuazione, non svuota nodo)
- Rendere un BMM pianificabile (senza blocco)
Prerequisiti
- Installare la versione più recente delle estensioni dell'interfaccia della riga di comando appropriate.
- Richiedere l'accesso per eseguire i comandi dell'estensione dell'interfaccia della riga di comando cloud di Operatore Nexus di Azure (NF) e dell'interfaccia della riga di comando cloud di rete.
- Accedere all'interfaccia della riga di comando di Azure e selezionare la sottoscrizione in cui viene distribuito il cluster.
- Raccogliere le informazioni seguenti:
- ID sottoscrizione (
SUBSCRIPTION
) - Nome del cluster (
CLUSTER
) - Gruppo di risorse (
CLUSTER_RG
) - Gruppo di risorse gestite (
CLUSTER_MRG
) - Le risorse BareMetal Machines (BMM) sono presenti nel gruppo di risorse gestite - Nome del computer bare metal (
BMM_NAME
) che richiede operazioni di gestione del ciclo di vita
- ID sottoscrizione (
Spegnere un computer bare metal
Importante
In rari casi l'esecuzione di macchine virtuali Nexus non viene riavviata dopo l'arresto o il riavvio di BMM. Per evitare questi casi, spegnere tutte le macchine virtuali in BMM prima di spegnere o riavviare BMM. Vedere il cordon
comando per istruzioni su come trovare i carichi di lavoro in esecuzione in un BMM.
Questo comando consentirà di power-off
il bareMetalMachineName
specificato.
az networkcloud baremetalmachine power-off \
--name <BareMetalMachineName> \
--resource-group <resourceGroup> \
--subscription <subscriptionID>
Avviare un computer bare metal
Questo comando consentirà di start
il bareMetalMachineName
specificato.
az networkcloud baremetalmachine start \
--name <BareMetalMachineName> \
--resource-group <resourceGroup> \
--subscription <subscriptionID>
Riavviare un computer bare metal
Importante
In rari casi l'esecuzione di macchine virtuali Nexus non viene riavviata dopo l'arresto o il riavvio di BMM. Per evitare questi casi, spegnere tutte le macchine virtuali in BMM prima di spegnere o riavviare BMM. Vedere il cordon
comando per istruzioni su come trovare i carichi di lavoro in esecuzione in un BMM.
Questo comando consentirà di restart
il bareMetalMachineName
specificato.
az networkcloud baremetalmachine restart \
--name <BareMetalMachineName> \
--resource-group <resourceGroup> \
--subscription <subscriptionID>
Rendere una macchina bare metal non pianificabile (blocco)
È possibile rendere un Bare Metal Machine non pianificabile eseguendo il cordon
comando .
Durante l'esecuzione del cordon
comando, i carichi di lavoro Operator Nexus non vengono pianificati nel computer Bare Metal quando cordon
è impostato.
Qualsiasi tentativo di creare un carico di lavoro su una cordoned
Macchina Bare Metal comporta il passaggio del carico di lavoro allo stato pending
.
I carichi di lavoro esistenti continuano a essere eseguiti nel computer Bare Metal, a meno che i carichi di lavoro non vengano svuotati.
Svuotare carichi di lavoro bare metal
Il comando cordon supporta il parametro evacuate
il cui valore predefinito False
indica che il comando cordon
impedisce la pianificazione di nuovi carichi di lavoro.
Per svuotare i carichi di lavoro con il cordon
comando , il evacuate
parametro deve essere impostato su True
.
I carichi di lavoro in esecuzione sulla Macchina Bare Metal sono stopped
e la Macchina Bare Metal è impostata sullo stato pending
.
Annotazioni
I carichi di lavoro di gestione Nexus continuano a essere eseguiti nel computer Bare Metal anche quando il server viene bloccato ed evacuato.
È consigliabile impostare il evacuate
valore su True
quando si tenta di eseguire operazioni di manutenzione nel server Bare Metal.
Per altre procedure consigliate da seguire, leggere le procedure consigliate per le operazioni bare metal.
az networkcloud baremetalmachine cordon \
--evacuate "True" \
--name <BareMetalMachineName> \
--resource-group <resourceGroup> \
--subscription <subscriptionID>
Per identificare se i carichi di lavoro sono attualmente in esecuzione in un computer Bare Metal, eseguire il comando seguente:
Per le macchine virtuali:
az networkcloud baremetalmachine show -n <nodeName> /
--resource-group <resourceGroup> /
--subscription <subscriptionID> | jq '.virtualMachinesAssociatedIds'
Per i nodi del cluster Nexus Kubernetes: (richiede l'accesso al cluster Nexus Kubernetes)
kubectl get nodes <resourceName> -ojson |jq '.metadata.labels."topology.kubernetes.io/baremetalmachine"'
Rendere un computer bare metal pianificabile (non bloccare)
È possibile rendere un computer Bare Metal "pianificabile" (il server può ospitare carichi di lavoro) eseguendo il uncordon
comando .
Tutti i carichi di lavoro in uno stato pending
del computer bare metal sono restarted
quando il computer bare metal è uncordoned
.
az networkcloud baremetalmachine uncordon \
--name <BareMetalMachineName> \
--resource-group <resourceGroup> \
--subscription <subscriptionID>
Ricreazione dell'immagine di un computer bare metal
È possibile ripristinare la versione di runtime in un computer Bare Metal eseguendo il reimage
comando . L'azione reimage
non influisce sui file del carico di lavoro del tenant nel computer bare metal.
Questo processo ridistribuisce l'immagine di runtime nel computer Bare Metal di destinazione ed esegue i passaggi per ricongiungere il cluster con gli stessi identificatori.
Come procedura consigliata, assicurarsi che i carichi di lavoro di Bare Metal Machine vengano svuotati usando il cordon
comando , con evacuate
impostato su True
, prima di eseguire il reimage
comando .
Per altre procedure consigliate da seguire, leggere le procedure consigliate per le operazioni bare metal.
Importante
Evitare azioni di scrittura o modifica eseguite sul nodo tramite l'accesso del computer bare metal.
L'azione reimage
è necessaria per ripristinare il supporto Tecnico Microsoft e tutte le modifiche apportate al computer Bare Metal vengono perse durante il ripristino dello stato previsto del nodo.
Avviso
Non eseguire più di un baremetalmachine replace
comando o reimage
contemporaneamente per la stessa risorsa BareMetal Machine (BMM).
L'esecuzione di replace
contemporaneamente a reimage
lascia i server in uno stato non operativo.
Assicurarsi che tutti gli elementi replace
/reimage
in BMM vengano completati completamente prima di avviarne un altro.
Inoltre, evitare di eseguire azioni sequenziali reimage
su un BMM che ha appena completato un'azione a meno che non venga eseguita un'operazione replace
di manutenzione specificata.
az networkcloud baremetalmachine reimage \
--name <BareMetalMachineName> \
--resource-group <resourceGroup> \
--subscription <subscriptionID>
Sostituire un computer bare metal
Usare il comando replace
quando un server rileva problemi hardware che richiedono una sostituzione hardware completa o parziale.
Dopo la sostituzione di componenti come scheda madre o scheda di interfaccia di rete (NIC), l'indirizzo MAC di Bare Metal Machine cambierà; Tuttavia, l'indirizzo IP iDRAC e il nome host rimarranno invariati.
Dopo ogni operazione di manutenzione hardware, replace
eseguire un oggetto , leggere le Procedure consigliate per le operazioni con computer bare metal per altri dettagli.
A partire dalla versione 2506.2, il valore della password per iDRAC può essere fornito come valore URI (Uniform Resource Identifier) o password di Key Vault. Vedere Informazioni di riferimento sulle credenziali di Key Vault. L'uso di un URI invece di una password di testo non crittografato garantisce una maggiore sicurezza.
Avviso
Non eseguire più di un baremetalmachine replace
comando o reimage
contemporaneamente per la stessa risorsa BareMetal Machine (BMM).
L'esecuzione di replace
contemporaneamente a reimage
lascia i server in uno stato non operativo.
Assicurarsi che tutti gli elementi replace
/reimage
in BMM vengano completati completamente prima di avviarne un altro.
Inoltre, evitare di eseguire azioni sequenziali reimage
su un BMM che ha appena completato un'azione a meno che non venga eseguita un'operazione replace
di manutenzione specificata.
az networkcloud baremetalmachine replace \
--name <BareMetalMachineName> \
--resource-group <resourceGroup> \
--bmc-credentials password=<PASSWORD_URI or IDRAC_PASSWORD> username=<IDRAC_USER> \
--bmc-mac-address <IDRAC_MAC> \
--boot-mac-address <PXE_MAC> \
--machine-name <OS_HOSTNAME> \
--serial-number <SERIAL_NUMBER> \
--subscription <subscriptionID>
Se l'azione replace
non riesce a causa di un errore di convalida hardware, nella replace
risposta viene visualizzato l'errore o l'errore di test specifico, come illustrato negli esempi seguenti.
Queste informazioni sono disponibili anche nel log delle attività per la macchina Bare Metal (Operator Nexus).
Il codice di errore e il messaggio di errore sono inclusi nelle proprietà JSON dell'operazione corrispondente BareMetalMachines_Replace
.
Esempio 1: La convalida hardware non riesce a causa di un URI di Key Vault non valido per le credenziali BMC (Baseboard Management Controller)
$ az networkcloud baremetalmachine replace --name rack1compute02 --resource-group hostedRG --bmc-credentials password=$KEY_VAULT_URI username=root --bmc-mac-address 00-00-5E-00-01-00 --boot-mac-address 00-00-5E-00-02-00 --machine-name RACK1COMPUTE02 --serial-number SN123435
(failed to retrieve password from key vault) failed to get secret value from key vault: failed to get cluster key vault secret
Code: failed to retrieve password from key vault
Message: failed to retrieve password from key vault
Response: 400 Bad Request
Esempio 2: La convalida hardware non riesce a causa di credenziali BMC (Baseboard Management Controller) non valide fornite
$ az networkcloud baremetalmachine replace --name rack1compute02 --resource-group hostedRG --bmc-credentials password=REDACTED username=root --bmc-mac-address 00-00-5E-00-01-00 --boot-mac-address 00-00-5E-00-02-00 --machine-name RACK1COMPUTE02 --serial-number SN123435
(None) BMC login unsuccessful: Fail - Unauthorized; System health test(s) failed: [Additional logs: Server power down at end of test failed with: Unauthorized]
Code: None
Message: BMC login unsuccessful: Fail - Unauthorized; System health test(s) failed: [Additional logs: Server power down at end of test failed with: Unauthorized]
Esempio 3: La convalida hardware non riesce a causa di un errore di rete
$ az networkcloud baremetalmachine replace --name rack1compute02 --resource-group hostedRG --bmc-credentials password=REDACTED username=root --bmc-mac-address 00-00-5E-00-01-00 --boot-mac-address 00-00-5E-00-02-00 --machine-name RACK1COMPUTE02 --serial-number SN123435
(None) Networking test(s) failed: [NIC.Slot.6-1-1_LinkStatus] expected: up; observed: Down; [Additional logs: Link failure detected on NIC.Slot.6-1-1; Unable to perform cabling check on PCI Slot 6]
Code: None
Message: Networking test(s) failed: [NIC.Slot.6-1-1_LinkStatus] expected: up; observed: Down; [Additional logs: Link failure detected on NIC.Slot.6-1-1; Unable to perform cabling check on PCI Slot 6]
Per altre informazioni sulla risoluzione degli errori di convalida hardware, vedere Risolvere gli errori di convalida hardware.