Documentation sur l’ingénierie SRE
L’ingénierie de fiabilité des sites est une discipline d’ingénierie ayant pour vocation d’aider une organisation à atteindre durablement le niveau de fiabilité approprié dans ses systèmes, ses produits et ses services.
Amélioration de la fiabilité avec des pratiques pour les opérations modernes
Cours en ligne sur l’ingénierie SRE
Ressources sur l’ingénierie SRE
Ingénierie SRE sur Azure
Documentation pour les ingénieurs SRE
Architecture
Provisionnement et remise
Mise à l'échelle
Microsoft parle de l’ingénierie SRE
culture
- Évolution de l’ingénierie SRE
- Building SRE : Culture from the Outside In
- Nuance culturelle et collaboration efficace pour les équipes multiculturelles
- Évolution de l’ingénierie SRE et besoin grandissant de catalyseurs SRE
- Boucles de commentaires : Comment les SSR bénéficient et ce qui est nécessaire pour réaliser leur potentiel
- La compréhension des métriques métier peut faire de vous un meilleur ingénieur SRE
- L’histoire sans fin de la fiabilité des sites
- C’est tous les jours lundi pour les opérations
Réponse aux incidents et révisions post-incident
Supervision et observabilité
- Plus de 600 millions de membres et de centaines de micro services : comment nous avons mis à l’échelle notre système de surveillance pour maintenir le niveau
- Hors du chemin battu : déplacement du focus d’observabilité de votre service vers votre client
- Vous avez ce que vous mesurez — pourquoi les métriques sont importantes
- Météo de la tempête : comment les avertissements précoces enregistrent la batterie de serveurs
- Capture et analyse de millions de requêtes sans surcharge
- Corrélation d’événements : nouvelle approche de la réduction du MTTR
- Comment une surveillance robuste participe à la haute disponibilité pour le flux LinkedIn
- Réduction des mtTR et des fausses escalades : corrélation d’événements sur Linkedin
Pratiques et principes
- Disponibilité — Penser au-delà de 9
- Modèles mentaux pour les ingénieurs SRE
- Privilégier la confiance lors de la création d’applications
- Java déteste Linux. Faites avec.
- Description et compréhension des phases des pratiques de l’ingénierie SRE
- Sécurité et SRE : Multiplicateurs de force naturelle
- Examen de l’amélioration de la production : prise d’une mordant de la dette de réparation
- Garantir la fiabilité des applications hautes performances
- Note d’évaluation des services — Quand l’excellence des opérations devient un jeu
- Comment améliorer un service en le passant au peigne fin
Équipes et management
- Code jaune : Aider les équipes les plus lourdes d’opérations à la façon intelligente
- Leader sans gestion : devenir un leader technique SRE
- Différences dans les implémentations de l’ingénierie SRE dans les entreprises
- 100 équipes, 100 façons d’échouer
- Pourquoi, quand et comment démarrer un engagement avec un ingénieur SRE
- Création et gestion d’équipes d’ingénieurs SRE
- Étudiant du Collège à SRE : Intégration de votre talent de niveau d’entrée
- LinkedIn SRE : De l’origine à l’échelle mondiale
- Montage des séquences de l’ADN de SRE dans la plus grande entreprise de logiciels au monde
- Transformation des chenilles de niveau 1 en papillons
Outils et technologies
- Azure SREBot : Plus qu’un bot intelligent pour écraser le temps d’atténuation
- TrafficShift : éviter les sinistres à grande échelle
- Créons un système de fichiers distribué
- TCP — Architecture, améliorations et réglages
- BGP — La colonne vertébrale d’Internet
- Les opérations en serverless
- Comment nous avons utilisé Kafka pour mettre à l’échelle une infrastructure de base de données
- Réseaux pour les RS : Que dois-je savoir pour résoudre les problèmes d’applications
- Ambry — Le magasin d’objets immuable distribué de LinkedIn
- BPerf — Profilage cloud Bing.com en production
- DNS : Ancienne solution pour les problèmes modernes
- Pilotage du trafic avec le DNS RUM @ LinkedIn
Mise à l'échelle
- Infrastructure des prévisions du trafic et des tests de contrainte
- L’apprentissage à grande échelle est dur ! Analyse des schémas de panne et données sales
- Mise à l’échelle d’un système avec état distribué : étude de cas LinkedIn
- Débogage à grande échelle — Passer d’une seule zone de dev à la production
- Création d’une infrastructure de mise en cache centralisée à grande échelle
- Programmation scalable — Chercher l’erreur
- Gestion de la capacité @ LinkedIn
- InStream : Distribution à grande échelle à l’aide de BitStream, Python, Salt et Kafka
- Éviter et sortir de l’enfermement des capacités
- Évolution du routage du trafic global et du basculement