事件回應的重要性

已完成

以此學習路徑中其他課程模組中的監視準則和做法為基礎,您現在將會了解在監視發現問題時應採取何種措施。 若收到可採取動作的警示,通知您系統並未如預期般運作,便是進行回應以處理問題的時機。

什麼是事件?

事件回應與您在發生事件時採取的動作有關,但事件到底是如何構成的? 答案可能是主觀的,甚至所有工程師對事件的定義都不一致。 如果您在不同的產業和組織中詢問這個問題,會得到許多不同的回答。

有些回答會將所有中斷標記為事件,不論客戶是否受到影響。 在本課程模組的內容中,我們可同意將事件定義為服務中斷:影響使用者使用其所依賴服務的能力的事件或情況。 範例包括系統關閉,或以會影響客戶的方式發生問題時。

什麼是事件回應?

防止所有問題發生雖是個好目標,實際上卻不可能實現。 錯誤「一定」會發生,所以需要制訂計劃來限制其對終端使用者的影響,並儘快讓作業回復正常。

關鍵在於「急迫回應」,而非做出反應。 反應傾向於較衝動,且基於當下的時間點,而不考慮長期影響。 回應則經過深思熟慮、安排,並以資訊為基礎。

事件回應方法,會決定您對下列項目的成效:

  • 了解發生的狀況 (診斷問題)。
  • 分級 (判斷急迫性) 並列出問題的優先順序。
  • 利用適當的資源來減輕問題。
  • 與利害關係人溝通問題。

補救問題後,您接著即可透過事件後檢閱流程,從該事件中學習。 這是一個重要的主題,值得用一個完整的課程模組來討論。

測量事件回應績效

您可能已熟悉 TTR 這個縮寫,其有不同的定義,例如「復原時間」、「補救時間」或「還原時間」等。這些變體都意指相同的東西:讓服務回到某個位置所需的總時間量,以滿足客戶的期望。

此計量是測量小組回應事件績效的一種方式。 復原/補救/還原服務愈快速,服務中斷或降級的影響就愈低。

了解貴組織是否能妥善處理事件回應十分重要。 DevOps Research and Assessment organization (DORA) 每年都會發行「DevOps 狀態」的報告。 2019 年報告中的某些關鍵結果著重於事件回應表現。

  • 該報告已將可以在一個小時以內偵測、回應及補救服務中斷的工程小組分類為「菁英或績效優異者」。
  • 能夠在 24 小時內從事件中復原的人會分類為「績效適中者」。
  • 「績效低下者」則指需花費一週到一個月時間才能從服務中斷中復原的人員。

這些層級之間的差異非常大。 這項研究發現,菁英/績效優異小組從事件復原的速度比「績效低下」同儕高 2,604 倍。 菁英/績效優異者部署到生產的頻率也高了 208 倍。

為何菁英人員的回應和復原速度比其他人快得多? 至少一部分原因,是因為其了解在無可避免會發生錯誤的情況下,預先備妥良好基本回應計劃的重要性。

當完成本課程模組時,您將了解事件的特性和生命週期,以及如何使用該知識來建立自己的基本計劃。

檢定您的知識

1.

以下哪一項是有效事件回應的目標?

2.

分類為「菁英或高階執行者」的工程小組一般而言可多快速地偵測、回應及補救服務中斷?