Documentatie voor Sitebetrouwbaarheidsengineering

Site Reliability Engineering is een technisch vakgebied dat zich richt op het ondersteunen van organisaties om op duurzame wijze een adequaat betrouwbaarheidsniveau te realiseren in hun systemen, services en producten.

video

Inleiding tot SRE: Wat is SRE? (1/3)

video

Inleiding tot SRE: Core Principles and Practices (2/3)

video

Inleiding tot SRE: Aan de slag (3/3)

SRE in Azure

Documentatie voor SRE's

Architectuur

Microsoft Azure Well-Architected Framework
Gids voor Azure-toepassingsarchitectuur
Referentiearchitecturen en voorbeeldworkloads
Microsoft Cloud Adoption Framework voor Azure
Microservices bouwen in Azure
Handleiding voor de Azure-gegevensarchitectuur
Best practices voor de cloud
Betrouwbare Azure-toepassingen ontwerpen
Cloudontwerppatronen
Azure voor AWS-experts
Azure voor GCP-experts
Prestaties afstemmen
Meer informatie in Azure Architecture Center

Bewaking

Overzicht van Azure Monitor
Metrische gegevens met Azure Monitor
Logboeken met Azure Monitor
Toepassingsprestatiebeheer met Application Insights
Gedistribueerde tracering met Azure Monitor
Meer informatie over Azure Monitor

Inrichting en levering

Azure Resource Manager
Terraform op Azure
GitHub Actions
Azure-pipelines

Schalen

Overzicht van automatisch schalen
Richtlijnen voor automatisch schalen
Ontwikkelen voor automatisch schalen
Overzicht van de pijler voor prestatie-efficiëntie
Ontwerp zo dat u kunt uitschalen
Betrouwbaarheidspatronen

SRE-lezingen van Microsoft

Cultuur

De evolutie van de sitebetrouwbaarheidsengineering
Building SRE: Cultuur van buiten In
Culturele nuance en efficiënte samenwerking voor multiculturele teams
Evolutie van SRE en toenemende behoefte aan SRE-katalisatoren
Feedbacklussen: hoe SRE's profiteren en wat er nodig is om hun potentieel te realiseren
Met inzicht in zakelijke metrische gegevens maakt u een betere SRE
Het eindeloze verhaal van sitebetrouwbaarheid
Elke dag is maandag in operationele werkzaamheden

Reacties op incidenten en beoordelingen na incidenten

Tolerantie bouwen: meer informatie over incidenten
A Tale of Two Postmortems: A Human Factors View
Ironies van Automatisering: Een komedie in drie delen
Tegen on-call: een polemische
SRE voor beginners

Bewaking en waarneembaarheid

Meer dan 600 miljoen leden en honderden microservices: hoe we ons bewakingssysteem hebben geschaald om bij te blijven
Buiten het gebaande pad: focus verplaatsen van waarneembaarheid van uw service naar uw klant
U krijgt wat u meet. Waarom metrische gegevens belangrijk zijn
Het weer van de storm: Hoe vroege waarschuwingen de farm opslaan
Miljoenen query's vastleggen en analyseren zonder overhead
Gebeurteniscorrelatie: Een nieuwe benadering voor het verminderen van MTTR
Hoe robuuste bewaking hoge beschikbaarheid mogelijk maakt voor de LinkedIn-feed
MTTR- en onwaar-escalaties verminderen: Correlatie van gebeurtenissen op Linkedin

Procedures en principes

Beschikbaarheid: verder denken dan 9's
Mentale modellen voor SRE's
Prioriteit geven aan vertrouwen tijden het maken van toepassingen
Java haat Linux. Wen er maar aan.
Fases van SRE-praktijken uitleggen en begrijpen
Beveiliging en SRE: Vermenigvuldigers van natuurlijke kracht
Beoordeling van productieverbetering: een hapje nemen uit reparatieschuld
Zorgen voor betrouwbaarheid voor toepassingen met hoge prestaties
De servicescorekaart: operationele uitmuntendheid gamificeren
Een service verbeteren door het af te branden

Teams en beheer

Codegeel: Helpen van top-zware teams voor bewerkingen op de slimme manier
Leiden zonder beheren: een technisch leider van SRE worden
Verschillen in SRE-implementaties tussen bedrijven
100 teams, 100 manieren om te mislukken
Het waarom, wat en hoe van SRE-betrokkenheid beginnen
SRE-teams bouwen en begeleiden
College Student naar SRE: Onboarding Your Entry Level Talent
LinkedIn SRE: Van begin tot wereldwijde schaal
DNA-reeksen van SRE splitsen in het grootste softwarebedrijf ter wereld
De beste rupsen veranderen in vlinders

Hulpprogramma's en technologieën

Azure SREBot: Meer dan een chatbot: een intelligente bot om de beperkingstijd te verpletteren
TrafficShift: Rampen op schaal voorkomen
Laten we een gedistribueerd bestandssysteem bouwen
TCP: architectuur, verbeteringen en afstemming
BGP: de ruggengraat van het internet
De operationele werkzaamheden in serverloos
Hoe we Kafka hebben gebruikt om database-infrastructuur te schalen
Netwerken voor SRE's: Wat moet ik weten voor het oplossen van problemen met toepassingen
Ambry: het gedistribueerde onveranderbare objectarchief van LinkedIn
BPerf: Bing.com-profilering voor productie in de Cloud
DNS: Oude oplossing voor moderne problemen
Verkeer sturen met Rum DNS @ LinkedIn

Schalen

Prognoses maken voor verkeer en stresstests maken voor infrastructuur
Leren op schaal is moeilijk! Analyse van uitvalpatronen en vuile gegevens
Een gedistribueerd stateful systeem schalen: een LinkedIn-casestudy
Foutopsporing op schaal: van één vak tot productie
Gecentraliseerde chaching-infrastructuur op schaal bouwen
Schaalbare codering: de fout zoeken
Capaciteit beheren @ LinkedIn
InStream: Grootschalige distributie met BitVolume, Python, Salt en Kafka
Capaciteitsbeperkingen vermijden en doorbreken
De evolutie van wereldwijde verkeersrouteplanning en failovers

Documentatie voor Sitebetrouwbaarheidsengineering

Betrouwbaarheid verbeteren door moderne operationele praktijken

Online SRE-cursussen

SRE-resources

SRE in Azure

SRE-lezingen van Microsoft