主機節點升級後 Azure Linux VM 上發生以 3.10 為基礎的核心異常

發行項
07/30/2024

適用於：✔️ Linux VM

原始 KB 編號： 3212236

注意

本文所參考的 CentOS 是一種 Linux 發行版，且將到達生命周期結束（EOL）。請據以考慮您的使用和規劃。如需詳細資訊，請參閱 CentOS 生命週期結束指引。

本文討論在 Azure 中執行 3.10 核心的 Azure Linux VM 在主機節點升級後當機時所發生的問題。

徵兆

試想以下情況：

您有一部Microsoft Azure Linux 虛擬機（VM），其執行的是 RHEL/CentOS 型散發套件，其 Linux 核心版本早於 3.10.0-327.10.1 版，包括隨附於下列版本：
- Red Hat Enterprise Linux 7.1 和 7.0
- CentOS 7.1 和 7.0
- Oracle Linux 7.1 和 7.0 與 Red Hat 相容核心
記憶體保留更新作業發生在 Azure 主機節點上。

在此案例中，VM 會變得沒有回應，而類似下列的 VM 異常狀況會記錄在 Linux 序列記錄中：

[11480839.438577] Call Trace:
[11480839.439615] [<ffffffff816045b6>] dump_stack+0x19/0x1b
[11480839.441556] [<ffffffff8106e29b>] warn_slowpath_common+0x6b/0xb0
[11480839.443818] [<ffffffff8106e33c>] warn_slowpath_fmt+0x5c/0x80
[11480839.445983] [<ffffffff8123e585>] sysfs_add_one+0xa5/0xd0
[11480839.447983] [<ffffffff8123e77c>] create_dir+0x7c/0xe0
[11480839.449876] [<ffffffff8123eb29>] sysfs_create_dir+0xa9/0x130
[11480839.451971] [<ffffffff812d74ab>] kobject_add_internal+0xbb/0x2f0
[11480839.454310] [<ffffffff812d79e5>] kobject_add+0x75/0xd0
[11480839.456236] [<ffffffff813cfa85>] device_add+0x125/0x7a0
[11480839.458167] [<ffffffff813df9fc>] ? __pm_runtime_resume+0x5c/0x80
[11480839.460469] [<ffffffff813fe9cc>] scsi_sysfs_add_sdev+0xac/0x280
[11480839.462628] [<ffffffff813fcfbb>] do_scan_async+0x7b/0x150
[11480839.464632] [<ffffffff8109e849>] async_run_entry_fn+0x39/0x120
[11480839.467170] [<ffffffff8108f0cb>] process_one_work+0x17b/0x470
[11480839.469354] [<ffffffff8108fe9b>] worker_thread+0x11b/0x400
[11480839.472310] [<ffffffff8108fd80>] ? rescuer_thread+0x400/0x400
[11480839.475265] [<ffffffff8109727f>] kthread+0xcf/0xe0
[11480839.477904] [<ffffffff810971b0>] ? kthread_create_on_node+0x140/0x140
[11480839.481074] [<ffffffff81614358>] ret_from_fork+0x58/0x90
[11480839.483873] [<ffffffff810971b0>] ? kthread_create_on_node+0x140/0x140
[11480839.487072] ---[ end trace 1f7736c59e96a8a0 ]---
[11480839.489584] ------------[ cut here ]------------
......
[11480864.118093] Call Trace:
[11480864.118093] [<ffffffff815f2535>] klist_put+0x25/0xa0
[11480864.118093] [<ffffffff815f25be>] klist_del+0xe/0x10
[11480864.118093] [<ffffffff813ce908>] device_del+0x58/0x1f0
[11480864.118093] [<ffffffff813ceabe>] device_unregister+0x1e/0x60
[11480864.118093] [<ffffffff812c36ee>] bsg_unregister_queue+0x5e/0xa0
[11480864.118093] [<ffffffff813fec49>] __scsi_remove_device+0xa9/0xd0
[11480864.118093] [<ffffffff813fcfc7>] do_scan_async+0x87/0x150
[11480864.118093] [<ffffffff8109e849>] async_run_entry_fn+0x39/0x120
[11480864.118093] [<ffffffff8108f0cb>] process_one_work+0x17b/0x470
[11480864.118093] [<ffffffff8108fe9b>] worker_thread+0x11b/0x400
[11480864.118093] [<ffffffff8108fd80>] ? rescuer_thread+0x400/0x400
[11480864.118093] [<ffffffff8109727f>] kthread+0xcf/0xe0
[11480864.118093] [<ffffffff810971b0>] ? kthread_create_on_node+0x140/0x140
[11480864.118093] [<ffffffff81614358>] ret_from_fork+0x58/0x90
[11480864.118093] [<ffffffff810971b0>] ? kthread_create_on_node+0x140/0x140

原因

此問題可能是因為 SCSI 子系統中發生錯誤鎖定邏輯，而當 SCSI 磁碟從Microsoft Hyper-V 主機上執行中的 RHEL/CentOS 型 VM 客體中移除時所公開。

解決方法

若要修正此問題並還原功能，請手動重新啟動 VM。

若要避免未來發生此問題，請更新至核心版本 3.10.0-327.10.1 或更新版本，包括下列版本：

Red Hat Enterprise Linux 7.2
CentOS 7.2
Oracle Linux 7.2 與 Red Hat 相容的核心

與我們連絡，以取得說明

如果您有問題或需要相關協助，請建立支援要求，或詢問 Azure community 支援。您也可以向 Azure 意見反應社群提交產品意見反應。

協力廠商資訊免責聲明

本文提及的協力廠商產品是由與 Microsoft 無關的獨立廠商所製造。 Microsoft 不以默示或其他方式，提供與這些產品的效能或可靠性有關的擔保。

共用方式為

主機節點升級後 Azure Linux VM 上發生以 3.10 為基礎的核心異常

徵兆

原因

解決方法

相關資訊

與我們連絡，以取得說明

意見反應

其他資源