Share via


導讀 - Using Reliability Monitor for Troubleshooting

今天要跟各位介紹的是 Ask the Performance Team 的部落格. 顧名思義, 這個部落格介紹系統效能與可靠性的技術文章.

在 4 月 1 日, 這個 team 寫了一篇 "如何運用可靠性監視器來進行故障排除" (Using Reliability Monitor for Troubleshooting).

可靠性監視器 (Reliability Monitor) 這個功能只有在 Windows Vista 和 Windows Server 2008 才有. 狹義來說, 可靠性監視器提供您系統的穩定度日誌, 您可以粗略的看一下, 也可以觀看每天的細節資訊來了解哪些事件影響到系統的可靠性.

可靠性監視器提供了一個快速了解系統穩定性的狀況, 同時也協助您確認是甚麼原因降低系統的穩定性. 您可以透過可靠性監視器提供的圖表了解基本的錯誤 (包含記憶體, 硬碟, 應用程式和作業系統錯誤), 也提供了系統設定錯誤 (包含新應用程式的安裝與作業系統更新). 如果當您的系統狀態不如預期, 可靠性監視器同時也可以讓您確認如何讓您的系統回復到最理想的狀況.

您可以用 perfmon.msc 啟動可靠性和效能監視器, 或是把它加入 MMC Snap-in, 可靠性監視器就在監視工具 (Monitoring Tools) 目錄下.

當您的系統運作時間越長, 當然系統運作的資料記錄也就越多, 更能幫助我們判斷系統整體健康程度. 有一個重點必須先讓大家知道: 可靠性監視器在計算系統穩定度指標 (System Stability Index) 與產生系統穩定度報告 (System Stability Report) 前須要先蒐集 24 小時的資料. 讓我們來看看一些實際運用可靠性監視器的案例.

您可以看到下面這張圖, 我的系統在 2008 年 1 月 14 日發生了一個問題:

當我按下紅色的叉叉, 系統告訴我當天發生了一個 "干擾性關機" (Disruptive Shutdown):

在 2008 年 1 月 14 日發生了該問題之後, 系統可靠度指標逐步的往上增長 (請看圖表左上角的數值). 這對系統管理人員與系統來說顯然是一件好消息.

在真實的世界中, 每當更新了安全性更新 (Security Updates) 後, 若是系統發生問題, 我們系統管理人員每天都會收到不少的通知. 使用可靠性監視器, 我們可以確認這些更新的過去歷程, 並藉此判斷是再安裝安全性更新前還是安裝後而發生問題.

我們也時常收到因為安裝安全性更新而需要重新開機的通知. 但事實上, 這樣的通知並非都是因為安全性更新而引起, 有的是重新開機 (reboot) 自己本身觸發的. 但這並不表示我們認定問題並非因為安全性更新而產生的, 不過請務必記得, 若是您沒有重新啟動系統, 有些系統變更可能會造成系統問題.

舉一個最經典的例子, 當我們解除安裝某個軟體的其中一部分時, 遺漏了一個在開機時會被啟動的驅動程式. 如果這個被遺漏的驅動程式仍然存在在機碼 (registry) 中, 但是驅動程式本身已經自系統中移除, 當下次系統重新開機時, 您會看到 "STOP 0x7B bugcheck (Inaccessible Boot Device)" 這個錯誤訊息.

如果說您的電腦過去兩個禮拜持續當機, 但您並不確定是甚麼原因造成當機. 我們使用可靠性監視器, 您發現兩個禮拜前並沒有當機的事件發生. 而在當機的事件發生前, 防毒軟體程式曾經更新過. 因此我們可以推斷, 防毒軟體程式的更新是造成電腦當機的嫌疑犯.

補充資源: