Documentatie voor Sitebetrouwbaarheidsengineering
Sitebetrouwbaarheidsengineering is een techniek die erop is gericht een organisatie te helpen om duurzaam het juiste betrouwbaarheidsniveau te behalen in systemen, services en producten.
Betrouwbaarheid verbeteren door moderne operationele praktijken
SRE in Azure
Documentatie voor SRE's
Architectuur
Inrichting en levering
SRE-lezingen van Microsoft
Cultuur
- De evolutie van de sitebetrouwbaarheidsengineering
- SRE bouwen: Cultuur van buitenaf
- Culturele nuance en efficiënte samenwerking voor multiculturele teams
- Evolutie van SRE en toenemende behoefte aan SRE-katalisatoren
- Feedbacklussen: Hoe SRE's profiteren en wat nodig is om het potentieel te bereiken
- Met inzicht in zakelijke metrische gegevens maakt u een betere SRE
- Het eindeloze verhaal van sitebetrouwbaarheid
- Elke dag is maandag in operationele werkzaamheden
Reacties op incidenten en beoordelingen na incidenten
Bewaking en waarneembaarheid
- Meer dan 600 miljoen leden en honderden microservices: Hoe we onze bewakingssystemen schalen om bij te blijven
- Van de gebaande paden: Waarneembaarheidfocus verleggen van uw service naar uw klant
- U krijgt wat u meet. Waarom metrische gegevens belangrijk zijn
- De storm overleven: Hoe vroege waarschuwingen de boerderij redden
- Miljoenen query's vastleggen en analyseren zonder overhead
- Gebeurteniscorrelatie: Een nieuwe benadering voor het reduceren van MTTR
- Hoe robuuste bewaking hoge beschikbaarheid mogelijk maakt voor de LinkedIn-feed
- MTTR en onware escalaties verminderen: Gebeurteniscorrelatie op LinkedIn
Procedures en principes
- Beschikbaarheid: verder denken dan 9's
- Mentale modellen voor SRE's
- Prioriteit geven aan vertrouwen tijden het maken van toepassingen
- Java haat Linux. Wen er maar aan.
- Fases van SRE-praktijken uitleggen en begrijpen
- Beveiliging en SRE: Vermenigvuldigers van natuurlijke kracht
- Beoordeling van productieverbetering: Reparatieschuld verminderen
- Zorgen voor betrouwbaarheid voor toepassingen met hoge prestaties
- De servicescorekaart: operationele uitmuntendheid gamificeren
- Een service verbeteren door het af te branden
Teams en beheer
- Code geel: Teams voor operationele werkzaamheden slim helpen
- Leiding geven zonder te managen: Een technische SRE-leider worden
- Verschillen in SRE-implementaties tussen bedrijven
- 100 teams, 100 manieren om te mislukken
- Het waarom, wat en hoe van SRE-betrokkenheid beginnen
- SRE-teams bouwen en begeleiden
- Van student tot SRE: Uw werknemer op instapniveau inwerken
- LinkedIn-SRE: Van begin tot wereldwijde schaal
- DNA-reeksen van SRE splitsen in het grootste softwarebedrijf ter wereld
- De beste rupsen veranderen in vlinders
Hulpprogramma's en technologieën
- Azure SREBot: Meer dan een chatbot. Een intelligente bot om mitigatietijd te verpletteren
- TrafficShift: Noodherstel op schaal voorkomen
- Laten we een gedistribueerd bestandssysteem bouwen
- TCP: architectuur, verbeteringen en afstemming
- BGP: de ruggengraat van het internet
- De operationele werkzaamheden in serverloos
- Hoe we Kafka hebben gebruikt om database-infrastructuur te schalen
- Netwerken voor SRE's: Wat moet ik weten om problemen in toepassingen op te lossen
- Ambry: het gedistribueerde onveranderbare objectarchief van LinkedIn
- BPerf: Bing.com-profilering voor productie in de Cloud
- DNS: Oude oplossing voor moderne problemen
- Verkeer sturen met Rum DNS @ LinkedIn
Schalen
- Prognoses maken voor verkeer en stresstests maken voor infrastructuur
- Leren op schaal is moeilijk! Analyse van uitvalpatronen en vuile gegevens
- Een gedistribueerd stateful systeem schalen: Een LinkedIn-casestudy
- Foutopsporing op schaal: van één vak tot productie
- Gecentraliseerde chaching-infrastructuur op schaal bouwen
- Schaalbare codering: de fout zoeken
- Capaciteit beheren @ LinkedIn
- InStream: Distributie op grote schaal met BitTorrent, Python, Salt en Kafka
- Capaciteitsbeperkingen vermijden en doorbreken
- De evolutie van wereldwijde verkeersrouteplanning en failovers