補救

已完成

如同您在本課程模組中所見,將事件回應生命週期分成五個階段,有助於了解流程,但階段不一定都和圖表中所示的有所區別。 特別是,回應和補救階段之間的區隔經常會開始顯得模糊。 在意圖降低風險或改善情況的動作導致反效果時,尤其是如此。 在此情況下,回應和補救經常會互相重疊,是在兩者之前不斷來回。

Cycle diagram of circles labeled with incident responses phases. Circles are connected to next circle with arrows from phase to phase. Detections, Response, and Remediation are highlighted.

在本單元中,您將會深入了解補救和構成此階段的步驟,以及一些實用的提示和工具。 要注意的一個重要事項:您不應該採取此處所述的措施作為規範檢查清單。

若手邊已有適用於補救的檢查清單,這通常表示應加入自動化。 若可確切描述補救問題所需要進行操作以及操作順序,此時便是教導機器這些步驟,讓系統為您進行這些操作的時機。

從哪裡開始

您已了解減少回應事件所需時間的重要性。 現在讓我們來查看一些有助於加速補救或修正問題流程的事情。

不同小組成員可能對於事情的運作方式、其他想法,以及第一個步驟應為何,具有不同見解。 其中一名成員可能會先查看記錄,另外一名成員則可能會先執行查詢來查看計量。 成功進行的正確方式並不只有一種。

但是,這有助於提供內容和指導,以協助成員了解應前往的位置或應查看的內容。

如何呈報以及呈報的對象

在決定補救著手之處時,要回答的一個重要問題是:卡住時,可向誰呈報問題? 一般而言,建議嘗試將更多待命責任卸載給小組,而非只是營運或網站可靠性工程部門。 讓系統運作以滿足可靠性目標,應是所有小組成員的責任。

對第一名回應者實用的資源有哪些?

下一個考量事項是決定第一名回應者可用來啟動流程的項目。 這可能包含相關計量、記錄、查詢等。 這些項目會在可利用時於 Azure 活頁簿/疑難排解指南中提供。 我們很快就會討論這些項目。

提供資源的簡易連結 (通常位於疑難排解指南中) 也相當實用。 若目標是盡快回應和補救問題,協助人員尋找問題的解答,使其無須搜尋正確的文件或 URL,可加速流程。

讓利害關係人掌握最新消息

您可能會聚焦於修正問題,可能因此忘記有許多並未直接涉及回應事件,但希望也必須了解情況的人員。

請務必與其他內部小組溝通,並讓這些小組得知事件發生時的情況。 若沒有為其他內部小組提供一致的最新消息,這些小組很可能會主動前來詢問狀態的更新。 這些小組有權了解這項資訊,但需要透過更好的方式來讓其了解問題,以及已對問題進行的操作。

您需要清楚地向內部小組承認。 清楚呈現所知內容以及正在進行的操作,並讓他們預期會在什麼時候收到您的消息。

您與利害關係人溝通的公式相當簡單:

  • 這是目前所知的內容。
  • 這是正在進行的操作。
  • 我們會在 X 之後連絡您。

這有助於避免利害關係人主動前來詢問,並於您正在嘗試修正問題時打斷您。

其中一種散布這項資訊的方式,是透過使用易於編輯的狀態網頁,例如在上一個單元提到的網頁。 在許多情況下,您可能會希望針對內部利害關係人提供另外更詳細的狀態頁面,並針對客戶提供外部頁面。 上述公式適用於這兩種情況。

使用 Azure 監視器活頁簿和疑難排解指南

Azure 有兩個密切相關的功能,在補救階段對小組非常實用:Azure 監視器活頁簿和 Application Insights 疑難排解指南。 針對本課程模組的用途,這兩者可交換,且包含相同的使用者介面。 您可以在 Azure 入口網站的 Azure 監視器下找到 Azure 監視器活頁簿。 選取 Application Insight 執行個體時,您會在 Azure 入口網站中找到 Azure Insights 疑難排解指南。

您可以將活頁簿和疑難排解指南視為使用頁面建立介面建立的「即時文件」。 當建立新的頁面時,即可將以下項目新增至頁面:

  • 任意文字,例如待辦項目符號清單,或是其他對造訪頁面的人實用的資訊
  • 其他系統的連結,例如其他儀表板或文件的連結
  • Kusto 查詢語言 (KQL) 查詢

正是最後一個項目使文件進入「即時」狀態。在此學習路徑的上一個課程模組中,我們探索了內建在 Log Analytics 和 Azure 監視器其他部分中的 KQL 查詢語言。 使用這種語言,我們可自行撰寫查詢,從應用程式和 Azure 基礎結構傳回和顯示診斷資訊。 將 KQL 查詢插入活頁簿或疑難排解指南時,便會即時向文件的讀者顯示該查詢的目前結果。 這表示疑難排解指南不僅可顯示「請務必查看網頁伺服器上的錯誤率」,也可以在指示的旁邊顯示該錯誤率目前圖表。 其可包含「這裡是網頁伺服器重新啟動文件」等連結,將第一名回應者帶往其需要的文件。

Azure 也提供一些現有範本,可協助開始撰寫您自己的文件。 以下是您可能可使用一些預先製作範本的螢幕擷取畫面:

Screenshot of default example troubleshooting guides as found in the Azure portal.

針對活頁簿和疑難排解指南還具備進階編輯器功能,其可供存取和插入 JSON 或該文件的 Azure Resource Manager 範本表示法。 這表示可使用所選原始檔控制系統來追蹤和散發這些文件。 這也可供自動化佈建活頁簿或疑難排解指南,在佈建其他基礎結構時相當實用。 透過這種最佳做法,在佈建新服務時為其建立一組自訂疑難排解文件,就會變得相當容易。

其他實用提示和工具

在本課程模組中,您已了解可用來增加效率及減少事件回應時間的各種工具和捷徑。 在總結這最後一個單元時,我們會對在您系統內診斷問題時相當實用的一些工具和技術,進行簡短介紹。

  • 您可使用 Application Insights 中的應用程式儀表板連結,可用來自動產生儀表板,其中包含大部分會需要當作起點的重要項目。 請注意,其中不包含 Azure 服務健康狀態。 建議將此項目釘選到儀表板,如此即可查看問題來自系統,還是雲端服務本身的問題。
  • 您可使用 Application Insights 中應用程式對應,以鑽研造成問題的確切原因。 您可遵循階層連結來尋找錯誤的原因 (例如格式錯誤的 URL)。
  • 您可以使用 Log Analytics 來查詢系統的任何部分。

上述所有工具在補救問題方面都無價。

檢定您的知識

1.

當您與項目關係人通訊時,我們建議的公式中不需要哪一個項目?

2.

為何在描述中我們將活頁簿和疑難排解指南視為即時文件?