Erste Schritte mit SRE

Abgeschlossen

In der letzten Lerneinheit dieses Moduls beschäftigen wir uns damit, welche weiteren Schritte erforderlich sind, wenn Sie Interesse an der Erkundung von SRE haben.

Lesen und Überwachen

Ausführlichere Informationen zu SRE finden Sie in einer aus drei Büchern bestehenden Buchreihe, die zu diesem Thema veröffentlicht wurde

  1. Site Reliability Engineering: How Google Runs Production Systems (Site Reliability Engineering: So betreibt Google Produktionssysteme), auch bekannt unter „das SRE-Buch“
  2. The Site Reliability Workbook: Practical Ways to Implement SRE (Das Site Reliability-Arbeitsbuch: Praktische Methoden zum Implementieren von SRE), auch bekannt unter „das SRE-Arbeitsbuch“
  3. Seeking SRE: Conversations About Running Production Systems at Scale (SRE im Detail: Über die Ausführung umfangreicher Produktionssysteme)

(Hinweis: Der Hauptautor dieses Moduls ist der Kurator bzw. Herausgeber des dritten Buchs)

Alle diese Bücher enthalten wichtige Informationen:

  • Das SRE-Buch enthält eine ausführliche Erläuterung der Vorgehensweise von Google bei der Implementierung von SRE im Verlauf der Jahre.

  • Das SRE-Arbeitsbuch ist der Nachfolger des SRE-Buchs, in dem noch mehr ins Details gegangen wird. Darin geht es nicht nur um die Frage, auf „was“ von SRE Google und andere zurückgreifen, sondern auch um das Wie und das Warum.

  • „SRE im Detail“ bietet einen umfassenderen Überblick über die SRE-Welt, der über den Ursprung dieser Disziplin hinausgeht. Dazu zählen Informationen zur Vorgehensweise bei der Implementierung von SRE in anderen Umgebungen.

Sie sollten alle drei Bücher beim Lesen kritisch hinterfragen. Nicht alles, was in diesen Büchern steht, trifft auf Sie und Ihre Organisation zu. Nehmen Sie sich Zeit, die Informationen zu ermitteln, von denen Sie sicher sind, dass sie einen Nutzen bringen können. Überlegen Sie, welche Bereiche Ihrer Unternehmenskultur und -werte die Funktionsweise von SRE unterstützen und welche Bereiche möglicherweise eine Herausforderung darstellen.

Wenn Sie eher ein visueller Mensch sind, sehen Sie sich den Vortrag Keys to SRE (Schlüssel zu SRE) von Ben Treynor auf der Konferenz SREcon14 an. Treynor erläutert auf überzeugende Weise, was SRE ist (zumindest im Kontext von Google). Weitere aufgezeichnete Vorträge zu SRE aus dieser Konferenzreihe sowie andere Vorträge können ebenfalls nützlich sein.

Tauschen Sie sich mit anderen interessierten Personen aus

Es ist wichtig, dass Sie sich anhand von Lesematerial ausführlich über SRE informieren. Häufig ist es jedoch noch wichtiger, sich mit Kollegen darüber auszutauschen. Das Diskutieren über Herausforderungen, Erfolge und Fehler rund um SRE kann eine entscheidende Rolle beim Erlangen eines umfassenden Verständnisses des Themas spielen.

Es gibt zahlreiche Meetups und Konferenzen, die SRE zum Inhalt haben. Die global verteilten SREcon-Konferenzen von USENIX sind vermutlich am relevantesten (Hinweis: Der Hauptautor dieses Moduls ist einer der Mitbegründer von SREcon).

Immer mehr SRE-Inhalte finden ihren Weg in Konferenzen wie Velocity, LISA sowie lokale DevOps-Konferenzen wie DevOps Days. Suchen Sie überall, wo es möglich ist, nach diesen Inhalten und weiteren Personen, die an diesem Thema interessiert sind.

Erste Schritte bei der Arbeit

Es ist wichtig, sich daran zu erinnern, dass SRE kein „Alles oder Nichts“-Konzept ist. Wenn Sie erkunden möchten, wie Sie SRE in Ihrer Umgebung einführen können, können Sie die SRE-Prinzipien und -Verfahren in kleinen Schritten einführen.

Mikey Dickerson ist ein bekannter SRE (Site Reliability Engineer), der den staatlichen Beratungsdienst United States Digital Service gegründet hat. Er und sein Team waren verantwortlich für die Rettung von healthcare.gov. Er hat als Hommage an die Maslowsche Bedürfnishierarchie eine einer Zuverlässigkeitshierarchie vorgeschlagen. Sie ist im ersten SRE-Buch im Abschnitt Practices (Methoden) zu finden.

Diese Hierarchie sieht vor, dass Sie zunächst eine funktionierende und vertrauenswürdige Überwachung in Ihrer Umgebung einrichten müssen. Überwachung sollte auch einer der ersten Schritte auf dem Weg zur Integration von SRE in Ihre Umgebung sein. Zuverlässigkeit (bzw. eine Verbesserung oder Verschlechterung) kann nicht festgestellt werden, wenn diese nicht messbar ist.

Sobald Sie über eine vertrauenswürdige Überwachungsplattform verfügen, wählen Sie im nächstmöglichen Schritt einen funktionierenden Dienst aus. Beginnen Sie dann mit Unterhaltungen über SLI und SLO darüber. Fangen Sie einfach an. Erstellen Sie SLIs und SLOs für den Dienst, implementieren Sie diese in Ihrem Überwachungssystem und beobachten Sie, was geschieht, wenn Sie anhand des SRE-Fokus auf die Zuverlässigkeit achten. Diese Schritte sind ein guter Ausgangspunkt.