Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
Im Rahmen einer Bereitstellungsaktion für einen Cluster werden Bare Metal Machines (BMMs) mit Rollen konfiguriert, die für die Teilnahme am Cluster erforderlich sind. Dieses Dokument unterstützt die Problembehandlung für häufige bei der Bereitstellung auftretende Probleme mithilfe der Azure CLI, des Azure-Portals und des Baseboard-Verwaltungscontrollers für Server (Baseboard Management Controller, BMC). Für die Azure Operator Nexus-Plattform nutzt die Serverhardware den integrierten Dell-Remotezugriffscontroller (Integrated Dell Remote Access Controller, iDRAC) als BMC. Die Bereitstellung verwendet die PXE-Schnittstelle (Pre-Boot eXecution Environment), um das Betriebssystem auf dem Bare-Metal-Computer zu laden.
Voraussetzungen
- Installieren Sie die neueste Version der entsprechenden CLI-Erweiterungen.
- Fordern Sie den Zugriff an, um die CLI-Erweiterungsbefehle für Azure Operator Nexus Network Fabric (NF) und Network Cloud auszuführen.
- Melden Sie sich bei der Azure CLI an, und wählen Sie das Abonnement aus, in dem der Cluster bereitgestellt wird.
- Stellen Sie die folgenden Informationen zusammen:
- Abonnement-ID (
SUBSCRIPTION
) - Clustername (
CLUSTER
) - Ressourcengruppe (
CLUSTER_RG
) - Verwaltete Ressourcengruppe (
CLUSTER_MRG
) – BareMetal Machines (BMM)-Ressourcen sind in der Verwalteten Ressourcengruppe vorhanden. - Name des Bare-Metal-Computers (
BMM_NAME
), der Lebenszyklus-Verwaltungsvorgänge erfordert
- Abonnement-ID (
Rollen des Bare-Metal-Computers
Für eine bestimmte Version sind zum Verwalten und Ausführen des zugrunde liegenden Kubernetes-Clusters Rollen erforderlich.
Die folgenden Rollen werden Ressourcen des Bare-Metal-Computers zugewiesen (siehe Referenz zu Rollen des Bare-Metal-Computers):
- Steuerungsebene: Die Bare-Metal-Computer, die für die Ausführung der Kubernetes-Agents auf Steuerungsebene für den Cluster verantwortlich sind
- Verwaltungsebene: Die Bare-Metal-Computer, die für die Ausführung der Plattform-Agents einschließlich Controllern und Erweiterungen verantwortlich sind
- Computeebene: Die Bare-Metal-Computer, die für die Ausführung der tatsächlichen Mandantenworkloads einschließlich Kubernetes-Clustern und VMs verantwortlich sind
Den Status der Bare Metal Machine auflisten
Der folgende Befehl listet alle bareMetalMachineName
-Ressourcen in der verwalteten Ressourcengruppe mit einfachem Status auf:
az networkcloud baremetalmachine list -g $CLUSTER_MRG -o table
Name ResourceGroup DetailedStatus DetailedStatusMessage
------------ ----------------------------- ---------------- ---------------------------------------
BMM_NAME CLUSTER_MRG STATUS STATUS_MSG
Der STATUS
Prozess durchläuft die Phasen, die in der folgenden Tabelle im Bereitstellungsprozess von Bare Metal Machines definiert sind (siehe Status der Bare Metal Machine in den Rechnerkonzepten von Azure Operator Nexus):
Phase | Aktionen |
---|---|
Registering |
Überprüft die BMC-Konnektivität/BMC-Anmeldeinformationen und fügt den Bare-Metal-Computer zum Bereitstellungsdienst hinzu. |
Preparing |
Startet den Bare Metal-Computer neu, setzt den BMC zurück und überprüft den Energiezustand. |
Inspecting |
Aktualisiert Firmware, wendet BIOS-Einstellungen an und konfiguriert Speicher. |
Available |
Gibt an, dass der Bare Metal Machine bereit ist, das Betriebssystem zu installieren. |
Provisioning |
Gibt an, dass das Betriebssystemimage auf dem Bare Metal Machine installiert wird. Nachdem das Betriebssystem installiert wurde, versucht der Bare Metal Machine, dem Cluster beizutreten. |
Provisioned |
Gibt an, dass der Bare-Metal-Computer erfolgreich bereitgestellt und mit dem Cluster verknüpft ist. |
Deprovisioning |
Gibt an, dass die Bereitstellung des Bare Metal-Computers fehlgeschlagen ist. Der Bereitstellungsdienst bereinigt die Ressourcen für Wiederholungsversuche. |
Failed |
Gibt an, dass die Bereitstellung des Bare Metal-Computers fehlgeschlagen ist und eine manuelle Wiederherstellung erforderlich ist. Alle Wiederholungen sind ausgeschöpft. |
Der detaillierte Status des Bare-Metal-Computers wird während einer beliebigen Phase auf Failed
gesetzt. Die Phase wird blockiert, wenn eine der folgenden Unterbrechungen auftritt:
- Der BMC ist nicht verfügbar.
- Der Netzwerkport ist nicht erreichbar.
- Eine Hardwarekomponente fällt aus.
So erhalten Sie einen detaillierteren Status der Bare Metal Machine:
az networkcloud baremetalmachine list \
-g $CLUSTER_MRG \
--query "sort_by([].{name:name,readyState:readyState,provisioningState:provisioningState,detailedStatus:detailedStatus,detailedStatusMessage:detailedStatusMessage,powerState:powerState,machineRoles:machineRoles| join(', ', @),createdAt:systemData.createdAt}, &name)" \
--output table
Die Befehlsausgabe sollte etwa wie folgt aussehen:
Name ReadyState ProvisioningState DetailedStatus DetailedStatusMessage PowerState MachineRoles CreatedAt
------------ ---------- ----------------- -------------- ----------------------------------------- ---------- ------------------------------------------------ -----------
BMM_NAME RSTATE PROV_STATE STATUS STATUS_MSG POWER_STATE BMM_ROLE CREATE_DATE
In der folgenden Tabelle ist aufgeführt, wo die Ausgabe definiert ist.
Ausgabe | Definition |
---|---|
BMM_NAME |
Name des Bare-Metal-Computers |
RSTATE |
Clusterteilnahmestatus (True ,False ) |
PROV_STATE |
Bereitstellungsstatus (Succeeded ,Failed ) |
STATUS |
Detaillierter Bereitstellungsstatus (Registering ,Preparing ,Inspecting ,Available ,Provisioning ,Provisioned ,Deprovisioning ,Failed ) |
STATUS_MSG |
Detaillierte Bereitstellungsstatusmeldung |
POWER_STATE |
Leistungszustand von Bare Metal Machine (On ,Off ). |
BMM_ROLE |
Clusterrolle des Bare-Metal-Computers (control-plane ,management-plane ,compute-plane ). |
CREATE_DATE |
Erstellungsdatum der Bare Metal-Maschine. |
Zum Beispiel:
x01dev01c01w01 True Succeeded Provisioned The OS is provisioned to the machine On platform.afo-nc.microsoft.com/compute-plane=true 2024-05-03T15:12:48.0934793Z
x01dev01c01w01 False Failed Preparing Preparing for provisioning of the machine Off platform.afo-nc.microsoft.com/compute-plane=true 2024-05-03T15:12:48.0934793Z
Details zur Bare Metal-Maschine
So zeigen Sie Details und den Status eines einzelnen Bare-Metal-Computers an:
az networkcloud baremetalmachine show -g $CLUSTER_MRG -n $BMM_NAME
Details zu Bare Metal Machine, die speziell für die Fehlersuche relevant sind:
az networkcloud baremetalmachine show \
-g $CLUSTER_MRG \
-n $BMM_NAME \
--query "{name:name,BootMAC:bootMacAddress,BMCMAC:bmcMacAddress,Connect:bmcConnectionString,SN:serialNumber,rackId:rackId,RackSlot:rackSlot}" \
-o table
Problembehandlung bei fehlgeschlagenen Bereitstellungszuständen
Die folgenden Bedingungen können zu Fehlern bei der Bereitstellung führen.
Fehlertyp | Lösung |
---|---|
Der BMC zeigt einen kritischen Backplane Comm -Fehler an. |
1. Führen Sie einen Flea-Drain-Remotevorgang für den Bare-Metal-Computer aus. 2. Führen Sie einen physischen Flea-Drain-Vorgang für den Bare-Metal-Computer durch. 3. Führen Sie eine replace -Aktion für den Bare-Metal-Computer aus. |
Die Boot-Netzwerkdatenantwort (PXE) vom BMC ist leer. | 1. Setzen Sie den Port auf einem Fabric-Gerät zurück. 2. Führen Sie einen Flea-Drain-Remotevorgang für den Bare-Metal-Computer aus. 3. Führen Sie einen physischen Flea-Drain-Vorgang für den Bare-Metal-Computer durch. 4. Führen Sie die Aktion "Bare Metal Machine replace " aus. |
Nichtübereinstimmung der MAC-Adresse beim Booten (PXE). | 1. Überprüfen Sie die MAC-Adressdaten des Bare-Metal-Computer anhand der BMC-Daten. 2. Führen Sie einen Flea-Drain-Remotevorgang für den Bare-Metal-Computer aus. 3. Führen Sie einen physischen Flea-Drain-Vorgang für den Bare-Metal-Computer durch. Führe die Aktion "Bare Metal Machine replace " aus. |
MAC-Adresskonflikt beim BMC | 1. Überprüfen Sie die MAC-Adressdaten des Bare-Metal-Computer anhand der BMC-Daten. 2. Führen Sie einen Flea-Drain-Remotevorgang für den Bare-Metal-Computer aus. 3. Führen Sie einen physischen Flea-Drain-Vorgang für den Bare-Metal-Computer durch. 4. Führen Sie die Aktion "Bare Metal Machine replace " aus. |
Die Datenträgerdatenantwort aus dem BMC ist leer. | 1. Entfernen oder ersetzen Sie den Datenträger. 2. Entfernen oder ersetzen Sie den Speichercontroller. 3. Führen Sie einen Flea-Drain-Remotevorgang für den Bare-Metal-Computer aus. 4. Führen Sie einen physischen Flea-Drain-Vorgang für den Bare-Metal-Computer durch. 5. Führen Sie eine replace -Aktion für den Bare-Metal-Computer aus. |
Der BMC ist nicht erreichbar. | 1. Setzen Sie den Port auf einem Fabric-Gerät zurück. 2. Entfernen oder ersetzen Sie das Kabel. 3. Führen Sie einen Flea-Drain-Remotevorgang für den Bare-Metal-Computer aus. 4. Führen Sie einen physischen Flea-Drain-Vorgang für den Bare-Metal-Computer durch. 5. Führen Sie die Aktion "Bare Metal Machine replace " aus. |
Die BMC-Anmeldung schlägt fehl. | 1. Aktualisieren Sie die Anmeldeinformationen auf dem BMC. 2. Führen Sie die Aktion "Bare Metal Machine replace " aus. |
Kritische Fehler im Zusammenhang mit Arbeitsspeicher, CPU und OEM sind auf dem BMC aufgetreten. | 1. Beheben Sie das Hardwareproblem durch Entfernen oder Ersetzen. 2. Führen Sie einen Flea-Drain-Remotevorgang für den Bare-Metal-Computer aus. 3. Führen Sie einen physischen Flea-Drain-Vorgang für den Bare-Metal-Computer durch. 4. Führen Sie eine replace -Aktion für den Bare-Metal-Computer aus. |
Die Konsole bleibt im Menü des Startladeprogramms (GRUB) hängen. | 1. Führen Sie eine NVRAM-Zurücksetzung aus. 2. Führen Sie eine replace -Aktion für den Bare-Metal-Computer aus. |
Azure Bare Metal Machine-Aktivitätsprotokoll
- Melden Sie sich beim Azure-Portal an.
- Suchen Sie im oberen Suchfeld nach dem Namen des Bare Metal Machine.
- Wählen Sie den Bare Metal Machine (Operator Nexus)-Namen aus den Suchergebnissen aus.
- Wählen Sie im Dienstmenü die Option Aktivitätsprotokoll aus.
- Stellen Sie sicher, dass der Wert Zeitspanne den Bereitstellungszeitraum umfasst.
- Erweitern Sie den Vorgang
BareMetalMachines_Update
, und wählen Sie beliebige BMMs aus, die den StatusFailed
anzeigen. - Wählen Sie die Registerkarte JSON aus, um die detaillierte Statusmeldung abzurufen.
Suchen Sie nach Fehlern im Zusammenhang mit ungültigen Anmeldeinformationen oder ob der BMC nicht verfügbar ist.
Ermitteln der IPv4-Adresse des BMC
Die IPv4-Adresse des BMC (BMC_IP
) befindet sich im Wert Connect
, der im vorherigen Abschnitt „Details des Bare-Metal-Computers“ zurückgegeben wird.
Überprüfen der MAC-Adresse der Bare Metal Machine anhand von BMC-Daten
So rufen Sie die MAC-Adressinformationen von der Bare Metal Machine ab:
az networkcloud baremetalmachine show \
-g $CLUSTER_MRG \
-n $BMM_NAME \
--query "{name:name,BootMAC:bootMacAddress,BMCMAC:bmcMacAddress,SN:serialNumber,rackId:rackId,RackSlot:rackSlot}" \
-o table
Überprüfen Sie die MAC-Adressdaten anhand des BMC über die Web-UI:
BMC
>Dashboard
: Zeigt die MAC-Adresse des BMC an.BMC
>System Info
>Network
>Embedded.1-1-1
: Zeigt die Boot-MAC-Adresse an.
Vergewissern Sie sich, dass die MAC-Adresse racadm
von einer Jumpbox verwendet, die Zugriff auf das BMC-Netzwerk hat:
racadm --nocertwarn -r $IP -u $BMC_USR -p $BMC_PWD getsysinfo | grep "MAC Address " #BMC MAC
racadm --nocertwarn -r $IP -u $BMC_USR -p $BMC_PWD getsysinfo | grep "NIC.Embedded.1-1-1" #Boot MAC
Wenn die dem Cluster angegebene MAC-Adresse falsch ist, verwenden Sie die Bare Metal Machine-Aktion bei Bare Metal Machine-Aktionenreplace
, um die Adressen zu korrigieren.
Ping-Test für die BMC-Konnektivität
Versuchen Sie, den Befehl ping
mit der BMC IPv4-Adresse auszuführen:
Ermitteln Sie die IPv4-Adresse (
BMC_IP
) aus dem vorherigen Abschnitt „Ermitteln der BMC-IPv4-Adresse“.Testen Sie
ping
am BMC:So führen Sie den Test von einer Jumpbox-Instanz aus, die Zugriff auf das BMC-Netzwerk hat:
ping $BMC_IP -c 3
So führen Sie einen Test von einem Bare-Metal-Computer-Steuerungsebenenhost mithilfe der Azure CLI durch:
az networkcloud baremetalmachine run-read-command \ -g $CLUSTER_MRG \ -n $BMM_NAME \ --limit-time-seconds 60 \ --commands "[{command:'ping',arguments:['$BMC_IP',-c,3]}]"
Zurücksetzen des Ports auf einem Fabric-Gerät
Wenn BMC_IP
nicht reagiert, wird durch die Zurücksetzung des Ports auf dem Fabric-Gerät auf dem Port erneut eine automatische Aushandlung ausgelöst. Dadurch könnte der Port wieder online geschaltet werden.
So suchen Sie den Network Fabric
-Port von Azure:
Entnehmen Sie die Werte
RackID
undRackSlot
aus dem vorherigen Abschnitt „Details des Bare-Metal-Computers“ ab.Führen Sie im Azure-Portal einen Drilldown zur Rack-ID des Netzwerkracks für den Bare-Metal-Computer aus.
Wählen Sie die Registerkarte Netzwerkgeräte und dann den Verwaltungsswitch (Mgmt) für das Rack aus.
Wählen Sie unter RessourcenNetzwerkschnittstellen aus. Wählen Sie anschließend die BMC-Schnittstelle (iDRAC) oder die Startschnittstelle (PXE) für den Port aus, der zurückgesetzt werden muss.
Sammeln Sie die folgenden Informationen:
- Network Fabric-Ressourcengruppe (
NF_RG
) - Gerätename (
NF_DEVICE_NAME
) - Schnittstellenname (
NF_DEVICE_INTERFACE_NAME
)
- Network Fabric-Ressourcengruppe (
Setzen Sie den Port zurück:
So setzen Sie den Port mithilfe der Azure CLI zurück:
az networkfabric interface update-admin-state -g $NF_RG --network-device-name $NF_DEVICE_NAME --resource-name $NF_DEVICE_INTERFACE_NAME --state Disable az networkfabric interface update-admin-state -g $NF_RG --network-device-name $NF_DEVICE_NAME --resource-name $NF_DEVICE_INTERFACE_NAME --state Enable
Remotetiefenentladung des Bare-Metal-Computers (Flea Drain)
So führen Sie über die BMC-Benutzeroberfläche für einen Flea-Drain-Remotevorgang für den Bare-Metal-Computer durch:
Wählen Sie BMC>Konfiguration>BIOS-Einstellungen>Verschiedene Einstellungen aus.
Wählen Sie unter Power Cycle-Anfrage Vollständiger Power Cycle aus. Wählen Sie dann Anwenden und Neu starten aus.
Führen Sie mithilfe von racadm
einen Flea-Drain-Remotevorgang über eine Jumpbox-Instanz durch, die Zugriff auf das BMC-Netzwerk hat:
racadm set bios.miscsettings.powercyclerequest FullPowerCycle
racadm jobqueue create BIOS.Setup.1-1
racadm serveraction powercycle
Physiche Tiefenentladung des Bare-Metal-Computers (Flea Drain)
Bei einem physischen Flea-Drain-Vorgang werden die Stromkabel am lokalen Standort fünf Minuten lang manuell von beiden Netzteilen getrennt. Danach wird die Stromversorgung wiederhergestellt. Dieser Prozess stellt sicher, dass Server, Kondensatoren und alle Komponenten vollständig von der Stromversorgung getrennt sind und alle zwischengespeicherten Daten gelöscht werden.
Zurücksetzen des NVRAM
Wenn die Bereitstellung aufgrund eines OEM-Fehlers oder eines Hardwarefehlers fehlgeschlagen ist, ist die Startsequenz möglicherweise im NVRAM auf PXE boot
gesperrt, anstatt die in der Startreihenfolge zuerst aufgeführten Einträge hdd
oder hard drive
anzuzeigen.
Diese Bedingung zeigt den Bare-Metal-Computer in der Konsole üblicherweise in der Phase des Startladeprogramms an und wird ohne einen manuellen Eingriff durch Tastaturanschläge blockiert.
Verwenden Sie in der BMC-Benutzeroberfläche die folgende Sequenz, um den NVRAM zurückzusetzen:
Wählen Sie Wartung>Diagnose>iDRAC auf Werkseinstellungen zurücksetzen aus.
Wählen Sie Alle Einstellungen verwerfen, aber Benutzer- und Netzwerkeinstellungen beibehalten, und wählen Sie dann Anwenden und Neu starten aus.
Zurücksetzen des BMC-Kennworts
Wenn das Aktivitätsprotokoll darauf hindeutet, dass ungültige Anmeldeinformationen für den BMC vorhanden sind, führen Sie den folgenden Befehl aus einer Jumpbox-Instanz aus, die Zugriff auf das BMC-Netzwerk hat:
racadm -r $BMC_IP -u $BMC_USER -p $CURRENT_PASSWORD set iDRAC.Users.2.Password $BMC_PWD
Erneutes Hinzufügen von Servern zum Cluster nach einer Reparatur
Nachdem die Hardware behoben wurde, führen Sie die Aktion "Bare Metal Machine replace
" aus, indem Sie die Anweisungen unter "Verwalten des Lebenszyklus von Bare Metal-Computern" ausführen.
Zugehöriger Inhalt
- Sollten Sie weitere Fragen haben, wenden Sie sich an den Azure-Support.
- Weitere Informationen zum Supportplänen finden Sie unter Azure-Supportpläne.