Dokumentace ke SRE (Site Reliability Engineering)
Technika pro spolehlivost webů (SRE) je technická disciplína, která pomáhá organizaci udržitelně dosahovat odpovídající úrovně spolehlivosti jejích systémů, služeb a produktů.
Zlepšení spolehlivosti prostřednictvím moderních provozních postupů
Zdroje informací pro SRE
SRE v Azure
Dokumentace pro SRE
Architektura
Zřizování a doručování
Microsoft hovoří o SRE
Kultura
- Evoluce SRE (Site Reliability Engineering)
- Building SRE: Culture from the Outside In
- Kulturní nuance a účinná spolupráce pro týmy s kulturou
- Vývoj SRE a rostoucí potřeby SRE Catalyzers
- Smyčky zpětné vazby: Jak sres benefit a co je potřeba k realizaci jejich potenciálu
- Pochopení obchodních metrik vám může usnadnit SRE
- The Never-Ending Story of Site Reliability
- Každý den je pondělí v provozu
Reakce na incidenty a závěrečné vyhodnocení incidentu
Monitorování a pozorovatelnost
- Více než 600 milionů členů a stovek mikroslužeb: Jak jsme škálovali náš monitorovací systém tak, aby zůstal vzhůru
- Off the Beaten Path: Moving Observability Focus from Your Service to Your Customer
- Získáte to, co měříte – proč jsou metriky důležité.
- Weathering the Storm: How Early Warnings Save the Farm
- Zachytávání a analýza milionů dotazů bez jakýchkoli režijních nákladů
- Korelace událostí: Nový přístup ke snížení MTTR
- Jak robustní monitorování využívá vysokou dostupnost pro LinkedIn Feed
- Omezení MTTR a nepravdivé eskalace: Korelace událostí na LinkedInu
Postupy a principy
- Dostupnost – myšlení nad rámec 9s
- Duševní modely pro sres
- Stanovení priority vztahu důvěryhodnosti při vytváření aplikací
- Java Hates Linux. Vyřešte to.
- Charakterizace a porozumění fázím postupů SRE
- Zabezpečení a SRE: Přírodní násobitele sil
- Revize zlepšení výroby: vysunutí z opravy dluhu
- Zajištění spolehlivosti aplikací High-Performance
- Karta skóre služby – gamifikace efektivity provozu
- Jak vylepšit službu pražením
Týmy a správa
- Žlutá kód: Inteligentní způsob, jak pomáhat provozním týmům s nejvyšším zatížením
- Vedení bez správy: Stát se technickým vedoucím oddělením SRE
- Rozdíly v implementacích SRE napříč společnostmi
- 100 Teams, 100 způsobů selhání
- Proč, co a jak zahájit zapojení SRE
- Vytvoření a spuštění projektu
- Student vysoké školy s SRE: Onboarding vašeho vstupního talentu
- LinkedIn SRE: Od inceptionu do globálního škálování
- Splicing SRE DNA Sequences in the Biggest Software Company on the Planet
- Transformace housenek vrstvy 1 na motýly
Nástroje a technologie
- Azure SREBot: Více než chatbot – inteligentní robot, který rozdrtí čas zmírnění rizik
- TrafficShift: Zabránění katastrofám ve velkém měřítku
- Pojďme vytvořit distribuovaný systém souborů.
- TCP – architektura, vylepšení a ladění
- BGP – páteřní síť internetu
- Operace v bezserverové verzi
- Jak jsme použili Kafka ke škálování databázové infrastruktury
- Sítě pro srEs: Co potřebuji vědět pro řešení potíží s aplikacemi
- Ambry – Distribuované neměnné úložiště objektů LinkedIn
- BPerf – profilace cloudu Bing.com v produkčním prostředí
- DNS: Staré řešení moderních problémů
- Řízení provozu s využitím DNS rumu @ LinkedIn
Škálování
- Infrastruktura pro prognózování provozu a zátěžové testování
- Učení ve velkém měřítku je těžké! Analýza vzorů výpadků a špinavá data
- Škálování distribuovaného stavového systému: Případová studie LinkedIn
- Ladění ve velkém měřítku – přechod z jednoho boxu do produkčního prostředí
- Sestavování centralizované infrastruktury ukládání do mezipaměti ve velkém měřítku
- Škálovatelné kódování – Vyhledání chyby
- Správa kapacity @ LinkedIn
- InStream: Distribuce ve velkém měřítku pomocí BitTorrentu, Pythonu, Saltu a Kafka
- Vyhněte se a vyhýbejte se vězení kapacity
- Vývoj globálního směrování provozu a převzetí služeb při selhání