Documentazione di Site Reliability Engineering
Site Reliability Engineering (SRE) è una disciplina di ingegneria informatica dedicata ad assistere le organizzazioni che vogliono ottenere con modalità sostenibili livelli di affidabilità appropriati per i sistemi, i servizi e i prodotti.
Migliorare l'affidabilità tramite procedure operative moderne
SRE in Azure
Documentazione per SRE
Architettura
Provisioning e distribuzione
Conversazioni su SRE di Microsoft
Cultura
- L'evoluzione della progettazione dell'affidabilità del sito
- Building SRE: Culture from the Outside In
- Sfumatura culturale ed efficace collaborazione per team multiculturali
- Evoluzione di SRE e crescente necessità di catalyzer SRE
- Cicli di feedback: vantaggi sres e ciò che è necessario per realizzare il loro potenziale
- Comprendere le metriche aziendali può migliorare l'uso di SRE
- La storia Never-Ending dell'affidabilità del sito
- Ogni giorno è lunedì nelle operazioni
Risposta agli eventi imprevisti e revisioni post-evento imprevisto
Monitoraggio e osservabilità
- Oltre 600 milioni di membri e centinaia di microservizi: come abbiamo ridimensionato il nostro sistema di monitoraggio per mantenere il passo
- Off the Beaten Path: Moving Observability Focus from Your Service to Your Customer
- Si ottiene ciò che si misura: perché le metriche sono importanti
- Weathering the Storm: How Early Warnings Save the Farm
- Acquisizione e analisi di milioni di query senza alcun sovraccarico
- Correlazione degli eventi: un approccio aggiornato alla riduzione del valore MTTR
- Come il monitoraggio affidabile alimenta la disponibilità elevata per il feed LinkedIn
- Riduzione delle escalation MTTR e false: correlazione degli eventi in LinkedIn
Procedure e principi
- Disponibilità: pensare oltre i 9 anni
- Modelli mentali per le SRE
- Definizione delle priorità dell'attendibilità durante la creazione di applicazioni
- Java odia Linux. Affrontalo.
- Fasi di caratterizzazione e comprensione delle procedure SRE
- Sicurezza e SRE: moltiplicatori di forza naturale
- Revisione del miglioramento della produzione: prendere un morso dal debito di riparazione
- Garantire l'affidabilità delle applicazioni High-Performance
- Scheda del punteggio del servizio- Gamification Operational Excellence
- Come migliorare un servizio eseguendo la tostatura
Teams e gestione
- Code-yellow: aiutare le operazioni a eseguire team più pesanti per il modo intelligente
- Leader senza gestione: diventare leader tecnico SRE
- Differenze nelle implementazioni SRE in tutte le aziende
- 100 Teams, 100 modi per fallire
- The Why, What, and How of Starting an SRE Engagement
- Compilazione ed esecuzione di Team SRE
- College Student to SRE: Onboarding Your Entry Level Talent
- LinkedIn SRE: From Inception to Global Scale
- Splicing SRE DNA Sequences in the Biggest Software Company on the Planet
- Trasformazione dei bruchi di livello 1 in farfalle
Strumenti e tecnologie
- Azure SREBot: più di un chatbot, un bot intelligente per ridurre il tempo di mitigazione
- TrafficShift: evitare emergenze su larga scala
- Creare un file system distribuito
- TCP: architettura, miglioramenti e ottimizzazione
- BGP: backbone di Internet
- Operazioni in serverless
- Come è stato usato Kafka per ridimensionare l'infrastruttura di database
- Reti per le entità del servizio di risoluzione dei problemi: cosa è necessario conoscere per la risoluzione dei problemi delle applicazioni
- Ambry- Archivio oggetti non modificabili distribuiti di LinkedIn
- BPerf: profilatura cloud Bing.com nell'ambiente di produzione
- DNS: vecchia soluzione per i problemi moderni
- Sterzante del traffico con DNS Rum @ LinkedIn
Scalabilità
- Infrastruttura di previsione del traffico e test di stress
- L'apprendimento su larga scala è difficile! Analisi dei criteri di interruzione e dati dirty
- Ridimensionamento di un sistema con stato distribuito: case study di LinkedIn
- Debug su larga scala: passaggio da box singolo a produzione
- Creazione di un'infrastruttura di memorizzazione nella cache centralizzata su larga scala
- Codifica scalabile: trovare l'errore
- Gestione della capacità @ LinkedIn
- InStream: distribuzione su larga scala con BitGroup, Python, Salt e Kafka
- Evitare e uscire dalla prigione di capacità
- Evoluzione del routing e del failover globali del traffico