Documentazione di Site Reliability Engineering
Site Reliability Engineering (SRE) è una disciplina di ingegneria informatica dedicata ad assistere le organizzazioni che vogliono ottenere con modalità sostenibili livelli di affidabilità appropriati per i sistemi, i servizi e i prodotti.
Migliorare l'affidabilità tramite procedure operative moderne
SRE in Azure
Documentazione per SRE
Architettura
Provisioning e distribuzione
Conversazioni su SRE di Microsoft
Cultura
- The Evolution of Site Reliability Engineering
- Building SRE: Culture from the Outside In
- Cultural Nuance and Effective Collaboration for Multicultural Teams
- Evolution of SRE and Rising Need of SRE Catalyzers
- Cicli di feedback: vantaggi sres e ciò che è necessario per realizzare il loro potenziale
- Understanding Business Metrics Can Make You a Better SRE
- The Never-Ending Story of Site Reliability
- Every Day Is Monday in Operations
Monitoring and Observability
- Oltre 600 milioni di membri e centinaia di microservizi: come abbiamo ridimensionato il nostro sistema di monitoraggio per mantenere il passo
- Off the Beaten Path: Moving Observability Focus from Your Service to Your Customer
- You Get What You Measure—Why Metrics Are Important
- Weathering the Storm: How Early Warnings Save the Farm
- Capturing and Analyzing Millions of Queries without Any Overhead
- Correlazione degli eventi: un approccio aggiornato alla riduzione del valore MTTR
- How Robust Monitoring Powers High Availability for LinkedIn Feed
- Riduzione delle escalation MTTR e false: correlazione degli eventi in Linkedin
Practices and Principles
- Availability—Thinking beyond 9s
- Mental Models for SREs
- Prioritizing Trust While Creating Applications
- Java Hates Linux. Deal with It.
- Characterizing and Understanding Phases of SRE Practices
- Sicurezza e SRE: moltiplicatori di forza naturale
- Revisione del miglioramento della produzione: prendere un morso dal debito di riparazione
- Ensuring Reliability of High-Performance Applications
- The Service Score Card—Gamifying Operational Excellence
- How to Improve a Service by Roasting It
Teams and Management
- Code-yellow: aiutare le operazioni a eseguire team più pesanti per il modo intelligente
- Leader senza gestione: diventare leader tecnico SRE
- Differences in SRE Implementations across Companies
- 100 Teams, 100 Ways to Fail
- The Why, What, and How of Starting an SRE Engagement
- Building and Running SRE Teams
- College Student to SRE: Onboarding Your Entry Level Talent
- LinkedIn SRE: From Inception to Global Scale
- Splicing SRE DNA Sequences in the Biggest Software Company on the Planet
- Transforming Tier 1 Caterpillars to Butterflies
Tools and Technologies
- Azure SREBot: più di un chatbot, un bot intelligente per ridurre il tempo di mitigazione
- TrafficShift: evitare emergenze su larga scala
- Let's Build a Distributed File System
- TCP—Architecture, Enhancements, and Tuning
- BGP—The Backbone of the Internet
- The Ops in Serverless
- How We Used Kafka to Scale Database Infrastructure
- Reti per le entità del servizio di risoluzione dei problemi: cosa è necessario conoscere per la risoluzione dei problemi delle applicazioni
- Ambry—LinkedIn’s Distributed Immutable Object Store
- BPerf—Bing.com Cloud Profiling on Production
- DNS: vecchia soluzione per i problemi moderni
- Traffic Steering using Rum DNS @ LinkedIn
Scalabilità
- Traffic Forecasting and Stress Testing Infrastructure
- Learning at Scale Is Hard! Outage Pattern Analysis and Dirty Data
- Ridimensionamento di un sistema con stato distribuito: case study di LinkedIn
- Debugging at Scale—Going from Single Box to Production
- Building Centralized Caching Infrastructure at Scale
- Scalable Coding—Find the Error
- Managing Capacity @ LinkedIn
- InStream: distribuzione su larga scala con BitGroup, Python, Salt e Kafka
- Avoiding and Breaking Out of Capacity Prison
- The Evolution of Global Traffic Routing and Failover