次の方法で共有


Azure Operator Nexus Cluster Bare Metal Machine での "警告" の詳細なステータス メッセージのトラブルシューティング

このドキュメントでは、BMM 詳細ステータス メッセージに 警告 メッセージを報告するベア メタル マシン (BMM) リソースの基本的なトラブルシューティング情報を提供します。

症状

ベア メタル マシン (Operator Nexus) リソースの詳細なステータス メッセージには、次の 1 つ以上が含まれています。

詳細なステータス メッセージ 詳細と軽減策
Warning: PXE port is unhealthy Warning: PXE port is unhealthy
Warning: BMM power state doesn't match expected state Warning: BMM power state doesn't match expected state
Warning: This machine has failed hardware validation Warning: This machine has failed hardware validation

トラブルシューティング

指定したリソース グループ内のすべての VM の現在の状態を評価します。 アクティブな 警告 条件は、次の例に示すように、詳細ステータス メッセージに表示されます。

警告メッセージを報告しているベア メタル マシン (VM) を確認するには、次のコマンドを実行します。

az networkcloud baremetalmachine list -g <ResourceGroup_Name> -o table
Name            ResourceGroup                       DetailedStatus    DetailedStatusMessage
--------------  ----------------------------------  ----------------  -------------------------------------------------------------------------------------------
rack1control01  cluster-1-HostedResources-3EA53DF9  Provisioned       The OS is provisioned to the machine.
rack1control02  cluster-1-HostedResources-3EA53DF9  Available         Available to participate in the cluster.
rack1compute02  cluster-1-HostedResources-3EA53DF9  Provisioned       The OS is provisioned to the machine. Warning: PXE port is unhealthy
rack1compute01  cluster-1-HostedResources-3EA53DF9  Provisioned       The OS is provisioned to the machine. Warning: BMM power state doesn't match expected state

詳細については、次のような Azure CLI ベア メタル マシン run-read-command コマンドを使用して、対応する kubernetes BMM オブジェクトの conditions 状態を調べます。

az networkcloud baremetalmachine run-read-command \
  -g <ResourceGroup_Name> \
  -n rack1control01 \
  --limit-time-seconds 60 \
  --commands "[{command:'kubectl get',arguments:[-n,nc-system,bmm,rack1compute01,-o,json]}]" \
  --output-directory .
  • <ResourceGroup_Name> を、その BMM リソースを含むリソース グループの名前に置き換えます。
  • rack1control01 を、正常な Kubernetes コントロール プレーン ノードの BMM リソースの名前に置き換え、そこから kubectl get コマンドを実行します。
  • rack1compute01を、影響を受ける BMM の名前に置き換えます。
  • run-read-command機能の詳細については、「BareMetal Run-Read 実行」を参照してください。

次の出力例に示すように、対応するエラー状態の詳細については、 lastTransitionTime フィールドと message フィールドを確認してください。

出力 run-read-command 例 (kubectl get bmm):

{
  "status": {
    "conditions": [
      {
        "lastTransitionTime": "2025-03-04T01:57:06Z",
        "status": "True",
        "type": "BmmInExpectedNodeReadiness"
      },
      {
        "lastTransitionTime": "2025-03-04T15:59:36Z",
        "message": "BareMetalMachine expected to be powered on",
        "reason": "BmmPoweredOnExpected",
        "severity": "Error",
        "status": "False",
        "type": "BmmInExpectedPowerState"
      },
      {
        "lastTransitionTime": "2025-03-04T02:48:54Z",
        "message": "PXE network port (pxe) is up and stable",
        "reason": "PxePortsHealthy",
        "status": "True",
        "type": "BmmPxePortHealthy"
      }
    ],
    "detailedStatus": "Provisioned",
    "detailedStatusMessage": "The OS is provisioned to the machine. Warning: BMM power state doesn't match expected state"
  }
}

Warning: PXE port is unhealthy

BMM 詳細ステータス メッセージ フィールドのこのメッセージは基になるコンピューティング ホストのプレブート実行環境 (PXE) イーサネット ポートのネットワーク接続に問題があることを示します。 PXE ポートは、プロビジョニングとアップグレード中にオペレーティング システム イメージやその他のソフトウェア コンポーネントをダウンロードするために使用されます。 PXE 接続の問題は、コンピューティング ホストで実行されている顧客のワークロードに直接影響を与えるべきではありません。 ただし、次のような BMM ライフサイクル操作でエラーが発生する可能性があります。

  • クラスターのプロビジョニング
  • クラスターのアップグレード
  • BMM の再イメージング
  • BMM の交換

次のいずれかの条件によって、この 警告がトリガーされる可能性があります。 これらの状態は、ハードウェア、ケーブル接続、またはネットワーク構成の問題が原因である可能性があります。

  • PXE ネットワーク ポートがダウンしている (物理リンクがダウンしている)
  • PXE ネットワーク ポートがフラッピングしています (過去 15 分間に物理リンク状態が 2 つ以上変更されました)

この問題のトラブルシューティングを行うには:

  • conditions」セクションで説明されているように、kubernetes bmm オブジェクトの 状態を確認します
  • この情報は、特定の根本原因 (ポートダウンまたはポート フラッピング) と問題のおおよその時間を特定する必要があります
  • 影響を受ける PXE ポートのイーサネット ケーブル接続と Top Of Rack (TOR) スイッチを確認します
  • 異常な PXE 状態やその他のネットワーク関連の問題も報告している他の VM がないか確認します
  • 失敗時刻と一致する最近のデプロイまたはインフラストラクチャの変更を確認します。

PXE 警告の出力 conditions

"conditions": [
  {
    "lastTransitionTime": "2025-03-04T16:43:29Z",
    "message": "Physical link down on PXE interface: pxe",
    "reason": "PxePortUnhealthy",
    "status": "False",
    "type": "BmmPxePortHealthy"
  },
],

Warning: BMM power state doesn't match expected state

BMM 詳細ステータス メッセージ フィールドのこのメッセージ は、次のいずれかを示します。

  • 電源がオンになっている必要のある基本となるホストが電源オフの状態になっているか、または
  • 電源がオフになっている必要のある基本となるホストが電源オンの状態になっています。

このメッセージは、基になるコンピューティング ホストまたはベースボード管理コントローラー (BMC) に関する問題を示している可能性があります。

この問題のトラブルシューティングを行うには:

  • conditions」セクションで説明されているように、kubernetes bmm オブジェクトの 状態を確認します
  • この情報は、問題のおおよその時間とその他の利用可能な詳細を識別します
  • 指定された BMM の電源フィード、電源ケーブル、物理ハードウェアを確認します
  • 他の VM も予期しない電源状態の警告を報告しているかどうかを確認します。これは、基になるインフラストラクチャに関するより広範な問題を示している可能性があります
  • 障害発生時刻と一致する最近のデプロイまたはインフラストラクチャの変更を確認する
  • 影響を受けるホストの BMC の電源状態とログを確認します。

BMC へのログインの詳細については、「 ハードウェア検証エラーのトラブルシューティング」を参照してください。

警告

バージョン 2502.1 および 2502.3 では、プロビジョニング解除とプロビジョニング中に BMM power state doesn't match expected state が誤って報告されるという既知の問題があります。 たとえば、BMM の再イメージ化または置換アクションを実行すると、問題が発生する可能性があります。 この問題は、バージョン 2504.1 で修正されています。

予期しない電源状態の出力 conditions

"conditions": [
    {
      "lastTransitionTime": "2025-03-04T15:59:36Z",
      "message": "BareMetalMachine expected to be powered on",
      "reason": "BmmPoweredOnExpected",
      "severity": "Error",
      "status": "False",
      "type": "BmmInExpectedPowerState"
    },
],

Warning: This machine has failed hardware validation

この BMM 詳細ステータス メッセージ は、BMM のハードウェア検証に失敗したことを示します。 ハードウェアの検証は、通常、初期クラスターのプロビジョニング中または BMM 置換アクション中に発生します。

ハードウェア検証エラーのトラブルシューティングの詳細については、「 ハードウェア検証エラーのトラブルシューティング」を参照してください。