このドキュメントでは、BMM 詳細ステータス メッセージに 警告 メッセージを報告するベア メタル マシン (BMM) リソースの基本的なトラブルシューティング情報を提供します。
症状
ベア メタル マシン (Operator Nexus) リソースの詳細なステータス メッセージには、次の 1 つ以上が含まれています。
詳細なステータス メッセージ | 詳細と軽減策 |
---|---|
Warning: PXE port is unhealthy |
Warning: PXE port is unhealthy |
Warning: BMM power state doesn't match expected state |
Warning: BMM power state doesn't match expected state |
Warning: This machine has failed hardware validation |
Warning: This machine has failed hardware validation |
トラブルシューティング
指定したリソース グループ内のすべての VM の現在の状態を評価します。 アクティブな 警告 条件は、次の例に示すように、詳細ステータス メッセージに表示されます。
警告メッセージを報告しているベア メタル マシン (VM) を確認するには、次のコマンドを実行します。
az networkcloud baremetalmachine list -g <ResourceGroup_Name> -o table
Name ResourceGroup DetailedStatus DetailedStatusMessage
-------------- ---------------------------------- ---------------- -------------------------------------------------------------------------------------------
rack1control01 cluster-1-HostedResources-3EA53DF9 Provisioned The OS is provisioned to the machine.
rack1control02 cluster-1-HostedResources-3EA53DF9 Available Available to participate in the cluster.
rack1compute02 cluster-1-HostedResources-3EA53DF9 Provisioned The OS is provisioned to the machine. Warning: PXE port is unhealthy
rack1compute01 cluster-1-HostedResources-3EA53DF9 Provisioned The OS is provisioned to the machine. Warning: BMM power state doesn't match expected state
詳細については、次のような Azure CLI ベア メタル マシン run-read-command
コマンドを使用して、対応する kubernetes BMM オブジェクトの conditions
状態を調べます。
az networkcloud baremetalmachine run-read-command \
-g <ResourceGroup_Name> \
-n rack1control01 \
--limit-time-seconds 60 \
--commands "[{command:'kubectl get',arguments:[-n,nc-system,bmm,rack1compute01,-o,json]}]" \
--output-directory .
-
<ResourceGroup_Name>
を、その BMM リソースを含むリソース グループの名前に置き換えます。 -
rack1control01
を、正常な Kubernetes コントロール プレーン ノードの BMM リソースの名前に置き換え、そこからkubectl get
コマンドを実行します。 -
rack1compute01
を、影響を受ける BMM の名前に置き換えます。 -
run-read-command
機能の詳細については、「BareMetal Run-Read 実行」を参照してください。
次の出力例に示すように、対応するエラー状態の詳細については、 lastTransitionTime
フィールドと message
フィールドを確認してください。
出力 run-read-command
例 (kubectl get bmm
):
{
"status": {
"conditions": [
{
"lastTransitionTime": "2025-03-04T01:57:06Z",
"status": "True",
"type": "BmmInExpectedNodeReadiness"
},
{
"lastTransitionTime": "2025-03-04T15:59:36Z",
"message": "BareMetalMachine expected to be powered on",
"reason": "BmmPoweredOnExpected",
"severity": "Error",
"status": "False",
"type": "BmmInExpectedPowerState"
},
{
"lastTransitionTime": "2025-03-04T02:48:54Z",
"message": "PXE network port (pxe) is up and stable",
"reason": "PxePortsHealthy",
"status": "True",
"type": "BmmPxePortHealthy"
}
],
"detailedStatus": "Provisioned",
"detailedStatusMessage": "The OS is provisioned to the machine. Warning: BMM power state doesn't match expected state"
}
}
Warning: PXE port is unhealthy
BMM 詳細ステータス メッセージ フィールドのこのメッセージは基になるコンピューティング ホストのプレブート実行環境 (PXE) イーサネット ポートのネットワーク接続に問題があることを示します。 PXE ポートは、プロビジョニングとアップグレード中にオペレーティング システム イメージやその他のソフトウェア コンポーネントをダウンロードするために使用されます。 PXE 接続の問題は、コンピューティング ホストで実行されている顧客のワークロードに直接影響を与えるべきではありません。 ただし、次のような BMM ライフサイクル操作でエラーが発生する可能性があります。
- クラスターのプロビジョニング
- クラスターのアップグレード
- BMM の再イメージング
- BMM の交換
次のいずれかの条件によって、この 警告がトリガーされる可能性があります。 これらの状態は、ハードウェア、ケーブル接続、またはネットワーク構成の問題が原因である可能性があります。
- PXE ネットワーク ポートがダウンしている (物理リンクがダウンしている)
- PXE ネットワーク ポートがフラッピングしています (過去 15 分間に物理リンク状態が 2 つ以上変更されました)
この問題のトラブルシューティングを行うには:
- 「
conditions
」セクションで説明されているように、kubernetesbmm
オブジェクトの 状態を確認します - この情報は、特定の根本原因 (ポートダウンまたはポート フラッピング) と問題のおおよその時間を特定する必要があります
- 影響を受ける PXE ポートのイーサネット ケーブル接続と Top Of Rack (TOR) スイッチを確認します
- 異常な PXE 状態やその他のネットワーク関連の問題も報告している他の VM がないか確認します
- 失敗時刻と一致する最近のデプロイまたはインフラストラクチャの変更を確認します。
PXE 警告の出力 conditions
例
"conditions": [
{
"lastTransitionTime": "2025-03-04T16:43:29Z",
"message": "Physical link down on PXE interface: pxe",
"reason": "PxePortUnhealthy",
"status": "False",
"type": "BmmPxePortHealthy"
},
],
Warning: BMM power state doesn't match expected state
BMM 詳細ステータス メッセージ フィールドのこのメッセージ は、次のいずれかを示します。
- 電源がオンになっている必要のある基本となるホストが電源オフの状態になっているか、または
- 電源がオフになっている必要のある基本となるホストが電源オンの状態になっています。
このメッセージは、基になるコンピューティング ホストまたはベースボード管理コントローラー (BMC) に関する問題を示している可能性があります。
この問題のトラブルシューティングを行うには:
- 「
conditions
」セクションで説明されているように、kubernetesbmm
オブジェクトの 状態を確認します - この情報は、問題のおおよその時間とその他の利用可能な詳細を識別します
- 指定された BMM の電源フィード、電源ケーブル、物理ハードウェアを確認します
- 他の VM も予期しない電源状態の警告を報告しているかどうかを確認します。これは、基になるインフラストラクチャに関するより広範な問題を示している可能性があります
- 障害発生時刻と一致する最近のデプロイまたはインフラストラクチャの変更を確認する
- 影響を受けるホストの BMC の電源状態とログを確認します。
BMC へのログインの詳細については、「 ハードウェア検証エラーのトラブルシューティング」を参照してください。
警告
バージョン 2502.1 および 2502.3 では、プロビジョニング解除とプロビジョニング中に BMM power state doesn't match expected state
が誤って報告されるという既知の問題があります。
たとえば、BMM の再イメージ化または置換アクションを実行すると、問題が発生する可能性があります。 この問題は、バージョン 2504.1 で修正されています。
予期しない電源状態の出力 conditions
例
"conditions": [
{
"lastTransitionTime": "2025-03-04T15:59:36Z",
"message": "BareMetalMachine expected to be powered on",
"reason": "BmmPoweredOnExpected",
"severity": "Error",
"status": "False",
"type": "BmmInExpectedPowerState"
},
],
Warning: This machine has failed hardware validation
この BMM 詳細ステータス メッセージ は、BMM のハードウェア検証に失敗したことを示します。 ハードウェアの検証は、通常、初期クラスターのプロビジョニング中または BMM 置換アクション中に発生します。
ハードウェア検証エラーのトラブルシューティングの詳細については、「 ハードウェア検証エラーのトラブルシューティング」を参照してください。