開始使用 SRE

已完成

這是此課程模組的最後一個課程模組,如果您對探索 SRE 感興趣,就讓我們談談要接下來要怎麼做吧。

閱讀及觀看

如需 SRE 的詳細資訊,最好的來源是關於這個主題的這三本出版書籍

  1. Site Reliability Engineering: How Google Runs Production Systems (網站可靠性工程:Google 如何執行生產系統) (又稱為 "The SRE Book")
  2. The Site Reliability Workbook: Practical Ways to Implement SRE (網站可靠性工程練習步:實作 SRE 的實務方式) (又稱為 "The SRE Workbook")
  3. Seeking SRE: Conversations About Running Production Systems at Scale (尋求 SRE:有關大規模執行生產系統的對話)

(透露一下,這個課程模組的主要作者是第三本書的編者)

這幾本書各自提供一些重要資訊:

  • The SRE Book:提供 Google 過去幾年來如何實作 SRE 的詳細說明。

  • The SRE Workbook:The SRE Book 的使用手冊,不只有 SRE 在 Google 在其他幾個地方的「性質」,而提供了「方式」和「原因」的詳細說明。

  • Seeking SRE:從 SRE 的源頭出發,提供更廣泛的 SRE 視野,包括先前如何在其他環境中實作的資訊。

請務必帶著雪亮的雙眼閱讀這三本書。 這些書中撰寫的內容,並非全部適用於您與您的組織。 請花些時間找出您確定可以提供正向價值的資訊。 思考一下您的組織文化和價值有哪些部份可以像描述的一樣推動 SRE 工作,又有哪些可能會增加其難度。

如果您認為自己是偏好視覺體驗的人,可以試著觀看 Ben Treynor 在 SREcon14 大會上的 [SRE 的關鍵] 演講。 Treynor 對於他所認識的 SRE (至少在 Google 環境中) 提供了相當有說服力的說明。 這個會議系列中關於 SRE 的其他演講影片也十分實用。

與其他同好交流

與您的同儕彼此討論就和研讀 SRE 一樣重要,而且往往更為重要。 談論您關於 SRE 的挑戰、成功與挫折,對於理解這個主題有著關鍵影響。

以下有一些討論 SRE 內容的聚會與會議。 最直接相關的,應該是分佈於世界各地的 SREcon 大會,由 USENIX 舉辦 (澄清:這個課程模組的主要作者是 SREcon 的共同創辦人之一)。

還有其他會議會討論更多 SRE 內容,像是 VelocityLISA和各地的 DevOps 大會,例如 DevOps Days。 在您可以找到的地方,尋找這份內容和其他對這個主題有興趣的人。

初始步驟

請務必記住,SRE 不是「 非全有即全無的」主張。 如果您想要開始探索如何將 SRE 帶入您的環境,您可以開始以小步驟採用 SRE 原則和做法。

Mikey Dickerson 就是為美國政府打造數位服務的工作經歷而聞名。 他們負責拯救 healthcare.gov。 他提出了可靠性層次,以向 Maslow 的需求層次致敬。 第一本 SRE 書籍的 [Practices 章節] 就有引用它。

這個層次主張,人必須先讓環境中的監視運作良好且值得信賴。 監視也必須是讓環境達成 SRE 的第一步。 如果某樣東西無法測量,就不能說是可靠的 (或變得更好或更糟)。

只要有了可以信賴的監視平台,下一個可行的步驟就是在工作中選擇一項服務。 然後,開始進行 SLI 和 SLO 交談。 從簡單的開始。 透過 SRE 角度,在您開始留意可靠性時為服務建立 SLI 和 SLO、在您的監視系統中加以實作,並看看成果。 這些步驟都是很好的起點。