Dokumentation zum Websitezuverlässigkeits-Engineering (Site Reliability Engineering, SRE)
Beim Site Reliability Engineering (SRE) handelt es sich um einen Aufgabenbereich des Engineering, der Organisationen dabei unterstützen soll, auf nachhaltige Weise einen angemessenen Grad an Zuverlässigkeit für ihre Systeme, Dienste und Produkte zu erreichen.
Verbessern der Zuverlässigkeit durch moderne Vorgehensweisen beim Betrieb
SRE in Azure
Dokumentation zu SRE
Aufbau
Bereitstellung und Lieferung
SRE-Vorträge von Microsoft
Kultur
- Entwicklung des Websitezuverlässigkeits-Engineerings (Site Reliability Engineering, SRE)
- Gebäude SRE: Kultur von außen in
- Kulturelle Feinheiten und effektive Zusammenarbeit für multikulturelle Teams
- Entwicklung von SRE und steigender Bedarf an SRE-Katalysatoren
- Feedbackschleifen: Wie SREs profitieren und was erforderlich ist, um ihr Potenzial zu realisieren
- Besseres SRE durch Kenntnis der Geschäftsmetriken
- Die unendliche Geschichte der Websitezuverlässigkeit
- Beim Betrieb ist jeder Tag ein Montag
Reaktion auf Vorfälle und anschließende Überprüfung
Überwachung und Einblick
- Über 600 Millionen Mitglieder und Hunderte von Mikrodiensten: Wie wir unser Überwachungssystem skaliert haben, um auf dem Laufenden zu bleiben
- Weg vom geschlagenen Pfad: Verschieben des Fokus der Observability von Ihrem Dienst auf Ihren Kunden
- „You Get What You Measure“: Wichtigkeit von Metriken
- Wetter des Sturms: Wie Frühwarnungen die Farm speichern
- Erfassen und Analysieren von Millionen von Abfragen ohne Mehraufwand
- Ereigniskorrelation: Ein neuer Ansatz zur Reduzierung von MTTR
- Hochverfügbarkeit für LinkedIn-Feed durch stabile Überwachung
- Reduzieren von MTTR und falscher Eskalationen: Ereigniskorrelation bei Linkedin
Vorgehensweisen und Grundlagen
- Verfügbarkeit: Mehr als nur eine bestimmte Anzahl von Neunen
- Denkmodelle für SRE
- Vorrang für Vertrauenswürdigkeit beim Erstellen von Anwendungen
- Java hasst Linux. Finden Sie Lösungen.
- Charakterisieren und Verstehen der Phasen von SRE-Methoden
- Sicherheit und SRE: Natürliche Kraft multiplizieren
- Überprüfung zur Verbesserung der Produktion: Ein bisschen aus Reparaturschulden herausnehmen
- Sicherstellen der Zuverlässigkeit von Hochleistungsanwendungen
- Score Card für Dienste: Gamifizierung des optimalen Betriebs
- Verbessern eines Diensts per „Roasting“
Teams und Verwaltung
- Codegelb: Die intelligente Art und Weise, die den Betrieb von toplastigen Teams unterstützt
- Führen ohne Management: SRE Technical Leader
- Unterschiede bei SRE-Implementierungen in Unternehmen
- 100 Teams, 100 Möglichkeiten für Fehler
- Starten eines SRE-Projekts: Warum/Was/Wie?
- Aufbauen und Leiten von SRE-Teams
- College Student to SRE: Onboarding Your Entry Level Talent
- LinkedIn SRE: Vom Anfang bis zur globalen Skalierung
- Zusammenführen von SRE-DNA-Sequenzen im weltweit größten Softwareunternehmen
- Ebene 1: Von der Raupe zum Schmetterling
Tools und Technologien
- Azure SREBot: Mehr als ein Chatbot – ein intelligenter Bot zum Zerbrechen der Entschärfungszeit
- TrafficShift: Vermeiden von Katastrophen im großen Maßstab
- Entwickeln eines verteilten Dateisystems
- TCP: Architektur, Erweiterungen und Optimierung
- BGP: Rückgrat des Internets
- Vorgänge beim serverlosen Ansatz
- Beschreibung der Verwendung von Kafka zum Skalieren der Datenbankinfrastruktur
- Netzwerke für SREs: Was muss ich für die Problembehandlung von Anwendungen wissen?
- Ambry: LinkedIn-Speicher für verteilte unveränderliche Objekte
- BPerf: Bing.com-Cloudprofilerstellung in der Produktion
- DNS: Alte Lösung für moderne Probleme
- Steuern des Datenverkehrs per „Rum DNS @ LinkedIn“
Skalierung
- Infrastruktur für Datenverkehrsprognosen und Belastungstests
- Lernen im großen Stil ist schwierig! Analyse von Ausfallmustern und „Dirty Data“
- Skalieren eines verteilten Zustandssystems: Eine LinkedIn-Fallstudie
- Debuggen im großen Stil: Umstellung von der Einzelbox auf die Produktion
- Bedarfsgerechtes Entwickeln einer zentralen Infrastruktur für die Zwischenspeicherung
- Skalierbare Codierung: Ermitteln des Fehlers
- Verwalten der Kapazität bei LinkedIn
- InStream: Große Verteilung mit BitTorrent, Python, Salt und Kafka
- Vermeiden und Ausbrechen aus dem Kapazitätsgefängnis
- Entwicklung des Routings von globalem Datenverkehr und von Failovern