次の方法で共有


Azure Operator Nexus Cluster Bare Metal Machine での 機能低下 状態エラーのトラブルシューティング

このドキュメントでは、BMM の詳細なステータス メッセージで 機能低下 状態を報告しているベア メタル マシン (BMM) リソースの基本的なトラブルシューティング情報を提供します。

症状

機能低下状態のベア メタル マシン (BMM) は、次の症状を示します。

  • 詳細ステータス メッセージには、次の表に示すように、1 つ以上の 低下メッセージが 含まれています。
  • リソースが 15 分を超えて継続的に低下すると、BMM は自動的に切断されます (コンピューティング ノードの場合のみ)。
  • その後、基底条件が解消された後、BMM は2時間隔離状態を維持し、その後自動的に隔離解除されます。
  • 制御ノードと管理ノードは 機能低下として報告できますが、自動的には切断されません。
詳細なステータス メッセージ 詳細と軽減策
Degraded: NIC failed Degraded: NIC failed
Degraded: port down Degraded: port down
Degraded: LACP status is down Degraded: LACP status is down
Degraded: port flapping Degraded: port flapping

低下した ステータス メッセージと関連する自動コードニング動作は、Azure Operator Nexus バージョン 2502.1 以降に存在します。

トラブルシューティング

現在低下しているベア メタル マシン (VM) を確認するには、 az networkcloud baremetalmachine list -g <ResourceGroup_Name> -o table実行します。 このコマンドは、指定されたリソース グループ内のすべての VM の現在の状態を示します。 アクティブな 低下状態 は、詳細なステータス メッセージに表示されます。

現在の Cordoning 状態を表示するには、次の例に示すように、--queryを指定するcordonStatus パラメーターを含めます。 このコマンドは、最近解決された 低下 の状態により、まだ自動的に隔離されているコンピューティングノードを識別するのに役立ちます。

az networkcloud baremetalmachine list \
  -g <ResourceGroup_Name> \
  --output table \
  --query "[].{name:name,powerState:powerState,provisioningState:provisioningState,readyState:readyState,cordonStatus:cordonStatus,detailedStatus:detailedStatus,detailedStatusMessage:detailedStatusMessage}"

Azure CLI の出力例

この例では、現在低下している 2 つの VM (compute01compute04)、および 2 つの切断された VM (compute02compute04) を含むデプロイを示します。 自動コードンおよびコード解除が有効になるまでの固定遅延により、すべての劣化したBMMがまだコードンされているわけではなく、すべての正常なBMMがまだコード解除されているわけではありません。

Name            PowerState    ProvisioningState    ReadyState    CordonStatus    DetailedStatus    DetailedStatusMessage
--------------  ------------  -------------------  ------------  --------------  ----------------  -----------------------------------------------------------------------------------------------------------------
rack1management1  On            Succeeded            True          Uncordoned      Provisioned       The OS is provisioned to the machine.
rack1compute01    On            Succeeded            True          Uncordoned      Provisioned       The OS is provisioned to the machine. Degraded: LACP status is down
rack1compute02    On            Succeeded            True          Cordoned        Provisioned       The OS is provisioned to the machine.
rack1compute03    On            Succeeded            True          Uncordoned      Provisioned       The OS is provisioned to the machine.
rack1compute04    On            Succeeded            True          Cordoned        Provisioned       The OS is provisioned to the machine. Degraded: port flapping Degraded: port down

bmm kubernetes リソースの次のフィールドでは、最近の状態低下と自動制限に関する追加情報を参照できます。

  • degradedStartTimedegradedEndTime は、最新の 低下 状態の開始時刻と終了時刻を示します

  • conditions は、 低下 状態に寄与している個々の条件の状態を示します

  • cordonStatus は、ノードが現在隔離されているか解除されているかを示します。

  • annotations は、自動的にコードンされた場合に現在のコードンを引き起こした条件を示します。

    • platform.afo-nc.microsoft.com/lacp-down-cordon
    • platform.afo-nc.microsoft.com/port-down-cordon
    • platform.afo-nc.microsoft.com/port-flap-cordon
  • ユーザーが BMM を手動で切断した場合は、次の注釈も表示されます。

    • platform.afo-nc.microsoft.com/cutomer-cordon
  • Azure portal の BMM リソースのアクティビティ ログでは、最近ユーザーが開始した cordon 要求に関する詳細情報も提供できます。

  • annotations kubernetes リソースのbmm メタデータは、cordon をトリガーした条件を示しています。

  • conditions kubernetes オブジェクトのbmm状態には、トリガー条件の現在の状態とタイムスタンプが表示されます。

これらの bmm kubernetes リソース フィールドを表示するには、次の例に示すように Azure CLI run-read-command コマンドを使用します。

az networkcloud baremetalmachine run-read-command \
  -g <ResourceGroup_Name> \
  -n rack2management2 \
  --limit-time-seconds 60 \
  --commands "[{command:'kubectl get',arguments:[-n,nc-system,bmm,rack2compute08,-o,json]}]" \
  --output-directory .
  • <ResourceGroup_Name> を、その BMM リソースを含むリソース グループの名前に置き換えます。
  • rack2management2 を、正常な Kubernetes コントロール プレーン ノードの BMM リソースの名前に置き換え、そこから kubectl get コマンドを実行します。
  • rack2compute08を、検査するための機能低下または隔離された BMM の名前に置き換えます。

run-read-command機能の詳細については、「BareMetal Run-Read 実行」を参照してください。

出力 run-read-command 例 (kubectl get bmm):

この例は、2つのアクティブな劣化状態を持つ自動的に切断されたBMMを示しています。

{
  "metadata": {
    "annotations": {
      "platform.afo-nc.microsoft.com/port-down-cordon": "true",
      "platform.afo-nc.microsoft.com/port-flap-cordon": "true"
    }
  },
  "status": {
    "conditions": [
      {
        "lastTransitionTime": "2025-03-04T02:47:59Z",
        "status": "True",
        "type": "BmmInExpectedLACPState"
      },
      {
        "lastTransitionTime": "2025-03-04T03:27:00Z",
        "message": "Physical link(s) down: 4b_p1",
        "reason": "PortDown",
        "status": "False",
        "type": "BmmNetworkLinksUp"
      },
      {
        "lastTransitionTime": "2025-03-04T03:49:00Z",
        "message": "Port flapping in the last 15 mins: 4b_p1 (2 times)",
        "reason": "PortFlappingDetected",
        "status": "False",
        "type": "BmmNetworkLinksStable"
      }
    ],
    "cordonStatus": "Cordoned",
    "degradedStartTime": "2025-03-04T03:27:00Z",
    "detailedStatus": "Provisioned",
    "detailedStatusMessage": "The OS is provisioned to the machine. Degraded: port flapping Degraded: port down"
  }
}

自動封鎖設定

ノードが 15 分を超えて 低下 状態にある未隔離のコンピュート BMM がある場合、そのノードは自動的に隔離されます。

  • 自動的に切断されたノードは、基になる条件が解決されてから 2 時間切断されたままになります。その後、自動的にコード解除されます。
  • BMM を手動で修正するには、 az networkcloud baremetalmachine uncordon コマンドを使用するか、Azure portal から Uncordon アクションを実行します。
  • アクティブな機能低下状態がまだ存在する BMM を手動で隔離解除することは許可されていません。 この場合、 Uncordon 要求は拒否され、次のようなエラー メッセージが表示されます。

action rejected: baremetalmachine 'rack1compute01' currently degraded since 2025-02-26 05:26:09 +0000 UTC

注: 計算に使用される BMM のみが自動的に切断されます。 コントロールノードと管理ノードは自動的に隔離されません。

自動コーディンの根本原因の調査の詳細については、「トラブルシューティング」を参照してください。

Degraded: NIC Failed

このメッセージは、基になるコンピューティング ホストで予期される Mellanox ネットワーク インターフェイス カード (NIC) の 1 つが失敗したか、見つからないことを示します。 このメッセージは、通常、NIC のハードウェア障害、またはカードがホストに正しく配置されていないことを示します。

この問題のトラブルシューティングを行うには:

  • 非動作 NIC を識別するには、基になるコンピューティング ホストのイーサネット リンク状態インジケーターを確認します
  • NIC が正しくインストールされ、座っていることを確認する
  • Baseboard 管理コントローラー (BMC) にサインインして、NIC のハードウェアの状態を確認します
  • Dell サポート技術情報の記事「iDRAC を使用した SupportAssist コレクションのエクスポート」の説明に従って、Dell TSR (テクニカル サポート レポート) を生成して詳細なハードウェア ログを確認する
  • conditions」セクションの説明に従って、ベア メタル マシン によって報告された障害の最新の時刻を確認します
  • ベア メタル マシン リソースで "再起動" アクションを実行してホストの電源を入れ直し、条件がクリアされるかどうかを確認します。

NIC の出力 conditions 例が失敗しました

"conditions": [
  {
    "lastTransitionTime": "2025-05-21T16:49:29Z",
    "message": "Expected 2 devices in oam-bond, found 1: 98_pf0vf0_vf",
    "reason": "OamDevicesUnhealthy",
    "status": "False",
    "type": "BmmNicsHealthy"
  },
],

Degraded: port down

BMM 詳細ステータス メッセージ フィールドのこのメッセージは、基になるコンピューティング ホスト上の 1 つ以上の Mellanox インターフェイスで物理リンクがダウンしていることを示します。 このシナリオでは、ケーブル接続、スイッチ ポート構成、またはハードウェア障害を示すことができます。

この問題のトラブルシューティングを行うには:

  • conditions」セクションで説明されているように、kubernetes bmm オブジェクトの 状態を確認します
  • この情報は、影響を受けるポートと問題のおおよその時間を識別する必要があります
  • 指定されたポートのイーサネット ケーブル接続と Top Of Rack (TOR) スイッチを確認します。
  • 失敗時刻と一致する最近のデプロイまたはインフラストラクチャの変更を確認します。

ポートダウンの出力 conditions

"conditions": [
  {
    "lastTransitionTime": "2025-03-04T03:27:00Z",
    "message": "Physical link(s) down: 4b_p1",
    "reason": "PortDown",
    "status": "False",
    "type": "BmmNetworkLinksUp"
  },
],

Degraded: LACP status is down

BMM 詳細ステータス メッセージ フィールドのこのメッセージは、物理リンクが物理的に稼働している場合に、基になるコンピューティング ホスト上のリンク集約制御プロトコル (LACP) エラーを示します。 このシナリオでは、ケーブル接続または Top Of Rack (TOR) スイッチの構成の問題を示すことができます。

この問題のトラブルシューティングを行うには:

  • conditions」セクションで説明されているように、kubernetes bmm オブジェクトの 状態を確認します
  • この情報は、影響を受けるポートと問題のおおよその時間を識別する必要があります
  • 指定されたポートのイーサネット ケーブル接続と Top Of Rack (TOR) スイッチを確認します。
  • 他の VM がポートまたは LACP の問題も報告しているかどうかを確認します。これは、TOR スイッチまたはネットワーク構成に関する潜在的なケーブル接続ミスや広範な問題を特定するのに役立つ可能性があります
  • 障害発生時刻と一致する最近のデプロイまたはインフラストラクチャの変更を確認する
  • LACP の問題の診断と修正の詳細については、 LACP ボンディングのトラブルシューティングを参照してください。

Warnung

バージョン 2502.1 では、ポートダウンシナリオ中にLACP status is downメッセージに加えて、port is not functioning as expectedが誤って報告される可能性がある既知の問題があります。 この問題は、物理ポートがダウンしている間に BMM が再起動または再イメージ化されるときに発生する可能性があります。 この場合、物理ポートもダウンしている場合、LACP 警告は無視しても問題ありません。 この問題は、バージョン 2503.1 で修正されています。

予期しない LACP 状態の出力 conditions

"conditions": [
  {
    "lastTransitionTime": "2025-01-31T12:24:27Z",
    "message": "Error: LACP status for interface 4b_p0 is down, LACP status for interface 4b_p1 is down",
    "reason": "LACP status is down",
    "severity": "Error",
    "status": "False",
    "type": "BmmInExpectedLACPState"
  },
],

Degraded: port flapping

BMM 詳細ステータス メッセージ フィールドのこのメッセージ は、1 つ以上の Mellanox イーサネット ポートでポート フラッピングが発生していることを示します。 ポート フラッピングは、過去 15 分以内の物理リンク状態の 2 つ以上の変更として定義されます。 この動作は、ケーブル接続、スイッチまたはハードウェアの問題、またはネットワーク構成の問題の可能性を示している可能性があります。

この問題のトラブルシューティングを行うには:

  • 「トラブルシューティング」セクションで説明されているように、BMM conditionsを確認して、影響を受けるポートと問題のおおよその時間 特定します。
  • degradedStartTime オブジェクトのbmmタイムスタンプ (異なる場合) で、全体的なタイムラインに関する詳細なコンテキストを確認します
  • 指定されたポートのイーサネット ケーブル接続と Top Of Rack (TOR) スイッチを確認します。
  • 問題の範囲または一般的な原因に関する情報については、ポート フラッピングまたはリンクエラーも報告している他の VM がないか確認します
  • 失敗時刻と一致する最近のデプロイまたはインフラストラクチャの変更を確認します。

ポート フラッピングの出力 conditions

"conditions": [
  {
    "lastTransitionTime": "2025-03-04T03:49:00Z",
    "message": "Port flapping in the last 15 mins: 4b_p1 (2 times)",
    "reason": "PortFlappingDetected",
    "status": "False",
    "type": "BmmNetworkLinksStable"
  },
],