事件回應的重要性

以此學習路徑中其他課程模組中的監視準則和做法為基礎，您現在將會了解在監視發現問題時應採取何種措施。若收到可採取動作的警示，通知您系統並未如預期般運作，便是進行回應以處理問題的時機。

什麼是事件？

事件回應與您在發生事件時採取的動作有關，但事件到底是如何構成的？答案可能是主觀的，甚至所有工程師對事件的定義都不一致。如果您在不同的產業和組織中詢問這個問題，會得到許多不同的回答。

有些回答會將所有中斷標記為事件，不論客戶是否受到影響。在本課程模組的內容中，我們可同意將事件定義為服務中斷：影響使用者使用其所依賴服務的能力的事件或情況。範例包括系統關閉，或以會影響客戶的方式發生問題時。

防止所有問題發生雖是個好目標，實際上卻不可能實現。錯誤「一定」會發生，所以需要制訂計劃來限制其對終端使用者的影響，並儘快讓作業回復正常。

關鍵在於「急迫回應」，而非做出反應。反應傾向於較衝動，且基於當下的時間點，而不考慮長期影響。回應則經過深思熟慮、安排，並以資訊為基礎。

事件回應方法，會決定您對下列項目的成效：

補救問題後，您接著即可透過事件後檢閱流程，從該事件中學習。這是一個重要的主題，值得用一個完整的課程模組來討論。

您可能已熟悉 TTR 這個縮寫，其有不同的定義，例如「復原時間」、「補救時間」或「還原時間」等。這些變體都意指相同的東西：讓服務回到某個位置所需的總時間量，以滿足客戶的期望。

此計量是測量小組回應事件績效的一種方式。復原/補救/還原服務愈快速，服務中斷或降級的影響就愈低。

了解貴組織是否能妥善處理事件回應十分重要。 DevOps Research and Assessment organization (DORA) 每年都會發行「DevOps 狀態」的報告。 2019 年報告中的某些關鍵結果著重於事件回應表現。

這些層級之間的差異非常大。這項研究發現，菁英/績效優異小組從事件復原的速度比「績效低下」同儕高 2,604 倍。菁英/績效優異者部署到生產的頻率也高了 208 倍。

為何菁英人員的回應和復原速度比其他人快得多？至少一部分原因，是因為其了解在無可避免會發生錯誤的情況下，預先備妥良好基本回應計劃的重要性。

當完成本課程模組時，您將了解事件的特性和生命週期，以及如何使用該知識來建立自己的基本計劃。

以下哪一項是有效事件回應的目標？

可謹慎地進行回應

可進行緊急回應

可慎重地進行回應

分類為「菁英或高階執行者」的工程小組一般而言可多快速地偵測、回應及補救服務中斷？

1 小時內

4 小時內

24 小時內

1 週或一個月內

您必須先回答所有問題，才能檢查進度。