Delen via


Problemen met het inrichten van Bare Metal Machine in een Azure Operator Nexus-cluster oplossen

Als onderdeel van een implementatieactie voor een cluster worden Bare Metal Machines (BMM's) ingericht met rollen die vereist zijn om deel te nemen aan het cluster. Dit document biedt ondersteuning voor het oplossen van veelvoorkomende inrichtingsproblemen met behulp van de Azure CLI, Azure Portal en de server baseboard-beheercontroller (BMC). Voor het Azure Operator Nexus-platform maakt de onderliggende serverhardware gebruik van geïntegreerde Dell remote access controller (iDRAC) als de BMC. Provisioning maakt gebruik van de Preboot eXecution Environment (PXE)-interface om het besturingssysteem (OS) op de bare metal server te laden.

Vereisten

  1. Installeer de nieuwste versie van de juiste CLI-extensies.
  2. Vraag toegang tot het uitvoeren van de Azure Operator Nexus-netwerkinfrastructuur (NF) en opdrachten voor de CLI-extensie voor de netwerkcloud.
  3. Meld u aan bij de Azure CLI en selecteer het abonnement waarin het cluster is geïmplementeerd.
  4. Verzamel de volgende informatie:
    • Abonnements-ID (SUBSCRIPTION)
    • Clusternaam (CLUSTER)
    • Resourcegroep (CLUSTER_RG)
    • Beheerde resourcegroep (CLUSTER_MRG) - BareMetal Machines (BMM)-resources zijn aanwezig in de beheerde resourcegroep
    • BareMetal Machine Name (BMM_NAME) waarvoor levenscyclusbeheer vereist is

Bare Metal Machine-rollen

Voor een specifieke versie zijn rollen vereist om het onderliggende Kubernetes-cluster te beheren en te gebruiken.

De volgende rollen zijn toegewezen aan Bare Metal Machine-resources (zie de naslaginformatie over Bare Metal Machine-rollen):

  • Besturingsvlak: De Bare Metal Machines die verantwoordelijk zijn voor het uitvoeren van de Kubernetes-besturingsvlakagents voor het cluster.
  • Beheervlak: De Bare Metal Machines die verantwoordelijk zijn voor het uitvoeren van de platformagenten, inclusief controllers en extensies.
  • Rekenvlak: De Bare Metal Machines die verantwoordelijk zijn voor het uitvoeren van werkelijke tenantworkloads, waaronder Kubernetes-clusters en virtuele machines.

De status van de Bare Metal Machine weergeven

Met de volgende opdracht worden alle bareMetalMachineName resources in de beheerde resourcegroep met een eenvoudige status weergegeven:

az networkcloud baremetalmachine list -g $CLUSTER_MRG -o table

Name          ResourceGroup                  DetailedStatus    DetailedStatusMessage
------------  -----------------------------  ----------------  ---------------------------------------
BMM_NAME      CLUSTER_MRG                    STATUS            STATUS_MSG

Het STATUS proces doorloopt de fasen die zijn gedefinieerd in de volgende tabel in het inrichtingsproces van Bare Metal Machine (zie de status van de Bare Metal Machine in de rekenconcepten van Azure Operator Nexus):

Fase Acties
Registering Voert controle uit op de BMC-connectiviteit/BMC-inloggegevens en voegt de bare metal-server toe aan de voorzieningsservice.
Preparing Start de Bare Metal Machine opnieuw op, stelt de BMC opnieuw in en controleert de energiestatus.
Inspecting Werkt firmware bij, past BIOS-instellingen toe en configureert opslag.
Available Geeft aan dat de Bare Metal Machine gereed is om het besturingssysteem te installeren.
Provisioning Geeft aan dat de installatiekopieën van het besturingssysteem op de Bare Metal Machine worden geïnstalleerd. Nadat het besturingssysteem is geïnstalleerd, probeert de Bare Metal Machine lid te worden van het cluster.
Provisioned Geeft aan dat de Bare Metal Machine succesvol is ingericht en toegevoegd aan het cluster.
Deprovisioning Geeft aan dat het configureren van de bare metal machine is mislukt. Met de inrichtingsservice wordt de resource opgeschoond om het opnieuw te proberen.
Failed Geeft aan dat het inrichten van Bare Metal Machine is mislukt en dat handmatig herstel is vereist. Alle nieuwe pogingen zijn uitgeput.

Tijdens elke fase wordt de gedetailleerde status van de Bare Metal Machine ingesteld op Failed. De fase wordt geblokkeerd als een van de volgende onderbrekingen optreedt:

  • De BMC is niet beschikbaar.
  • Een netwerkpoort is offline.
  • Een hardwareonderdeel mislukt.

Om een meer gedetailleerde status van de Bare Metal Machine te krijgen:

az networkcloud baremetalmachine list \
  -g $CLUSTER_MRG \
  --query "sort_by([].{name:name,readyState:readyState,provisioningState:provisioningState,detailedStatus:detailedStatus,detailedStatusMessage:detailedStatusMessage,powerState:powerState,machineRoles:machineRoles| join(', ', @),createdAt:systemData.createdAt}, &name)" \
  --output table

De uitvoer van de opdracht moet er ongeveer als volgt uitzien:

Name            ReadyState    ProvisioningState    DetailedStatus    DetailedStatusMessage                      PowerState    MachineRoles                                      CreatedAt
------------    ----------    -----------------    --------------    -----------------------------------------  ----------    ------------------------------------------------  -----------
BMM_NAME        RSTATE        PROV_STATE           STATUS            STATUS_MSG                                 POWER_STATE   BMM_ROLE                                          CREATE_DATE

In de volgende tabel ziet u waar de uitvoer is gedefinieerd.

Uitvoer Definitie
BMM_NAME Naam van Bare Metal Machine.
RSTATE Status van clusterdeelname (True,False).
PROV_STATE Voorzieningsstatus (Succeeded,Failed).
STATUS Gedetailleerde status inrichten (,,,,,,Registering,).PreparingInspecting).AvailableProvisioningProvisionedDeprovisioningFailed
STATUS_MSG Gedetailleerd bericht over de voorzieningsstatus.
POWER_STATE Energiestatus van Bare Metal Machine (On,Off).
BMM_ROLE Bare Metal Machine-cluster-rol (control-plane,management-plane,compute-plane).
CREATE_DATE Aanmaakdatum van Bare Metal Machine.

Voorbeeld:

x01dev01c01w01  True          Succeeded            Provisioned       The OS is provisioned to the machine       On            platform.afo-nc.microsoft.com/compute-plane=true  2024-05-03T15:12:48.0934793Z
x01dev01c01w01  False         Failed               Preparing         Preparing for provisioning of the machine  Off           platform.afo-nc.microsoft.com/compute-plane=true  2024-05-03T15:12:48.0934793Z

Details van Bare Metal Machine

Details en de status van één Bare Metal Machine weergeven:

az networkcloud baremetalmachine show -g $CLUSTER_MRG -n $BMM_NAME

Voor details van Bare Metal Machine die specifiek zijn voor het oplossen van problemen:

az networkcloud baremetalmachine show \
  -g $CLUSTER_MRG \
  -n $BMM_NAME \
  --query "{name:name,BootMAC:bootMacAddress,BMCMAC:bmcMacAddress,Connect:bmcConnectionString,SN:serialNumber,rackId:rackId,RackSlot:rackSlot}" \
  -o table

Problemen met mislukte inrichtingsstatussen oplossen

De volgende omstandigheden kunnen leiden tot inrichtingsfouten.

Fouttype Besluit
BMC geeft kritieke fout weer Backplane Comm . 1. Voer Bare Metal Machine externe vlooienafvoer uit.
2. Voer fysieke vlooienafvoer van Bare Metal Machine uit.
3. Voer de actie Bare Metal Machine replace uit.
Het opstartgegevens (PXE) netwerkreactie is leeg van de BMC. 1. Stel de poort opnieuw in op het fabric-apparaat.
2. Voer Bare Metal Machine externe vlooienafvoer uit.
3. Voer fysieke vlooienafvoer van Bare Metal Machine uit.
4. Voer de actie Bare Metal Machine uit replace .
Het MAC-adres voor opstarten (PXE) komt niet overeen. 1. Valideer mac-adresgegevens van Bare Metal Machine op basis van BMC-gegevens.
2. Voer Bare Metal Machine externe vlooienafvoer uit.
3. Voer fysieke vlooienafvoer van Bare Metal Machine uit.
4. Voer de actie Bare Metal Machine uit replace .
BMC MAC-adres komt niet overeen. 1. Valideer mac-adresgegevens van Bare Metal Machine op basis van BMC-gegevens.
2. Voer Bare Metal Machine externe vlooienafvoer uit.
3. Voer fysieke vlooienafvoer van Bare Metal Machine uit.
4. Voer de actie Bare Metal Machine uit replace .
Antwoord van schijfgegevens leeg van BMC. 1. Schijf verwijderen of vervangen.
2. Verwijder of vervang de opslagcontroller.
3. Voer Bare Metal Machine externe vlooienafvoer uit.
4. Voer fysieke vlooienafvoer van Bare Metal Machine uit.
5. Voer de actie Bare Metal Machine replace uit.
BMC is niet bereikbaar. 1. Stel de poort opnieuw in op het fabric-apparaat.
2. Verwijder of vervang de kabel.
3. Voer Bare Metal Machine externe vlooienafvoer uit.
4. Voer fysieke vlooienafvoer van Bare Metal Machine uit.
5. Voer de actie Bare Metal Machine replace uit.
Aanmelden bij BMC mislukt. 1. Werk inloggegevens bij op BMC.
2. Voer de actie Bare Metal Machine replace uit.
Geheugen, CPU, OEM-kritieke fouten op BMC. 1. Los het hardwareprobleem op met verwijderen of vervangen.
2. Voer Bare Metal Machine externe vlooienafvoer uit.
3. Voer fysieke vlooienafvoer van Bare Metal Machine uit.
4. Voer de actie Bare Metal Machine uit replace .
Console blijft hangen bij het bootloader (GRUB-menu). 1. Voer NVRAM reset uit.
2. Voer de actie Bare Metal Machine replace uit.

Activiteitenlogboek van Azure Bare Metal Machine

  1. Meld u aan bij het Azure-portaal.
  2. Zoek in het bovenste zoekvak op de naam van de Bare Metal-machine.
  3. Kies de naam van de Bare Metal Machine (Operator Nexus) uit de zoekresultaten.
  4. Selecteer activiteitenlogboek in het servicemenu.
  5. Zorg ervoor dat de tijdsperiode de provisioningperiode omvat.
  6. Vouw de BareMetalMachines_Update bewerking uit en selecteer alle BMM's die een Failed status weergeven.
  7. Selecteer het JSON-tabblad om het gedetailleerde statusbericht op te halen.

Zoek naar fouten met betrekking tot ongeldige referenties of als de BMC niet beschikbaar is.

Het BMC IPv4-adres bepalen

Het IPv4-adres van de BMC (BMC_IP) bevindt zich in de Connect waarde die wordt geretourneerd uit de vorige sectie 'Details van Bare Metal Machine'.

Het MAC-adres van de Bare Metal Machine valideren op basis van BMC-gegevens

De MAC-adresgegevens ophalen van de Bare Metal Machine:

az networkcloud baremetalmachine show \
  -g $CLUSTER_MRG \
  -n $BMM_NAME \
  --query "{name:name,BootMAC:bootMacAddress,BMCMAC:bmcMacAddress,SN:serialNumber,rackId:rackId,RackSlot:rackSlot}" \
  -o table

Controleer de MAC-adresgegevens op basis van de BMC via de webgebruikersinterface:

  • BMC > Dashboard: Toont het BMC MAC-adres.
  • BMC > System Info > Network > Embedded.1-1-1: Geeft het MAC-adres voor opstarten weer.

Controleer of het MAC-adres wordt gebruikt racadm vanuit een jumpbox die toegang heeft tot het BMC-netwerk:

racadm --nocertwarn -r $IP -u $BMC_USR -p $BMC_PWD getsysinfo | grep "MAC Address "        #BMC MAC
racadm --nocertwarn -r $IP -u $BMC_USR -p $BMC_PWD getsysinfo | grep "NIC.Embedded.1-1-1"  #Boot MAC

Als het MAC-adres dat aan het cluster is opgegeven onjuist is, gebruikt u de actie Bare Metal Machine replace bij Bare Metal Machine-acties om de adressen te corrigeren.

Ping test BMC-connectiviteit

Probeer de ping opdracht uit te voeren op het BMC IPv4-adres:

  1. Haal het IPv4-adres (BMC_IP) op uit de vorige sectie 'Het BMC IPv4-adres bepalen'.

  2. Test ping aan de BMC:

    Testen vanuit een jumpbox die toegang heeft tot het BMC-netwerk:

    ping $BMC_IP -c 3
    

    Een Bare Metal Machine-besturingsvlakhost testen met behulp van de Azure CLI:

    az networkcloud baremetalmachine run-read-command \
      -g $CLUSTER_MRG \
      -n $BMM_NAME \
      --limit-time-seconds 60 \
      --commands "[{command:'ping',arguments:['$BMC_IP',-c,3]}]"
    

De poort op een fabric-apparaat opnieuw instellen

Als BMC_IP dit niet reageert, wordt de automatische overdracht van de poort van het fabric-apparaat opnieuw ingesteld op de poort en wordt deze mogelijk weer online gebracht.

Ga als volgende te werk om de Network Fabric poort te vinden vanuit Azure:

  1. Haal de RackID en RackSlot waarden op uit de vorige sectie 'Details van Bare Metal Machine'.

  2. Zoom in Azure Portal in op de netwerkrek-id voor de Bare Metal-machine.

  3. Selecteer het tabblad Netwerkapparaten en selecteer vervolgens de beheerswitch (Mgmt) voor het rek.

  4. Selecteer onder Resources de optie Netwerkinterfaces. Selecteer vervolgens de BMC-interface (iDRAC) of de PXE-interface (Boot) voor de poort waarvoor opnieuw moet worden ingesteld.

    Verzamel de volgende informatie:

    • Netwerkinfrastructuurresourcegroep (NF_RG)
    • Apparaatnaam (NF_DEVICE_NAME)
    • Interfacenaam (NF_DEVICE_INTERFACE_NAME)
  5. De poort opnieuw instellen:

    Ga als volgende te werk om de poort opnieuw in te stellen met behulp van de Azure CLI:

    az networkfabric interface update-admin-state -g $NF_RG --network-device-name $NF_DEVICE_NAME --resource-name $NF_DEVICE_INTERFACE_NAME --state Disable
    az networkfabric interface update-admin-state -g $NF_RG --network-device-name $NF_DEVICE_NAME --resource-name $NF_DEVICE_INTERFACE_NAME --state Enable
    

Bare Metal Machine externe stroomafvoer (vlooienafvoer)

Om een externe vlooienafvoer uit te voeren tegen de Bare Metal Machine via de BMC UI:

  1. Selecteer BMC>Configuratie>BIOS-instellingen>Diverse instellingen.

  2. Selecteer onder Power Cycle-aanvraag de optie Volledige energiecyclus. Selecteer Vervolgens Toepassen en opnieuw opstarten.

Voer een externe vlooienafvoer uit met behulp van racadm een jumpbox die toegang heeft tot het BMC-netwerk:

racadm set bios.miscsettings.powercyclerequest FullPowerCycle
racadm jobqueue create BIOS.Setup.1-1
racadm serveraction powercycle

Fysieke stroomafvoer van Bare Metal Machine (vlooienafvoer)

Voor een fysieke vlooienafvoer koppelt de lokale site de stroomkabels gedurende vijf minuten fysiek los van beide voedingsadapters en herstelt ze vervolgens stroom. Dit proces zorgt ervoor dat de server, condensatoren en alle onderdelen volledige stroomverwijdering hebben en dat alle gegevens in de cache worden gewist.

NVRAM opnieuw instellen

Als het inrichten is mislukt vanwege een OEM- of hardwarefout, kan de opstartvolgorde in NVRAM vergrendeld zijn naar PXE boot in plaats van dat hdd of hard drive als eerste in de opstartvolgorde wordt weergegeven.

Deze toestand toont doorgaans de Bare Metal Machine tijdens de bootloader-fase op de console en zal worden geblokkeerd zonder handmatige toetsaanslag.

Als u de NVRAM opnieuw wilt instellen, gebruikt u de volgende volgorde in de BMC-gebruikersinterface:

  1. Selecteer Onderhoud>Diagnostiek>iDRAC opnieuw instellen naar fabrieksinstellingen.

  2. Selecteer Alle instellingen negeren, maar behoud de gebruikers- en netwerkinstellingen en selecteer Vervolgens Toepassen en opnieuw opstarten.

Het BMC-wachtwoord opnieuw instellen

Als in het activiteitenlogboek ongeldige referenties op de BMC worden aangegeven, voert u de volgende opdracht uit vanuit een jumpbox die toegang heeft tot het BMC-netwerk:

racadm -r $BMC_IP -u $BMC_USER -p $CURRENT_PASSWORD  set iDRAC.Users.2.Password $BMC_PWD

Servers weer toevoegen aan het cluster na een reparatie

Nadat de hardware is opgelost, voert u de actie Bare Metal Machine replace uit door de instructies te volgen in De levenscyclus van bare-metalmachines beheren.